简介
- 计算机视觉(Computer Vision, CV)。
- CV算法工程师负责设计,开发和优化各种算法,以处理和分析图像和视频数据。
图像获取
- 提取二维图像,三维图组,图像序列或相关的物理数据,例如声波,电磁波或核磁共振的深度,吸收度或反射度。
预处理
- 对图像作一种或一些预处理,使图像满足后继处理的要求,例如: 二次取样保证图像坐标的正确,平滑去噪等。
特征提取
- 从图像中提取各种复杂度的特征,例如,线,边缘提取和脊检测,边角检测,斑点检测等局部化的特征点检测
检测/分割
- 对图像进行分割,提取有价值的内容,用于后继处理,例如:筛选特征点,分割含有特定目标的部分。
高级处理
- 验证得到的数据是否匹配前提要求,估测特定系数,对目标进行分类。
数学基础知识
- 线性代数: 矩阵运算,特征值与特征向量,向量空间等
- 微积分: 导数,梯度,偏导数,泰勒级数等
- 概率论与数理统计: 随即变量,概率分布,期望,方差,协方差,贝叶斯定理等
- 优化理论: 梯度下降,牛顿法,拟牛顿法,拉格朗日乘数法等
编程基础知识
- Python: 掌握Python基础语法,熟悉Numpy,Pandas,Matplotlib等库
- C/C++: 理解指针,内存管理,面向对象编程等概念,用于算法的高效实现
- OpenCV: 学习OpenCV库的使用,熟悉图像处理和计算机视觉的基础操作。
计算机视觉技术
图像处理
- 图像增强: 灰度变换,直方图均衡化,滤波等
- 图像分割:阈值分割,边缘检测,区域生长等
- 图像特征提取:角点检测,SIFT,SURF,ORB等
计算机视觉算法
- 目标检测: R-CNN系列(R-CNN, Fast R-CNN, Faster R-CNN), YOLO系列,SSD等
- 图像识别: CNN(卷积神经网络),ResNet,VGG,MobileNet等
- 图像生成: GAN(生成对抗网络),VAE(变分自编码器)等
- 三维视觉: 立体视觉,结构光,深度估计等
深度学习框架
- TensorFlow: 学习TensorFlow的基础使用,熟悉其高级API(例如Keras)和底层实现
- PyTorch: 掌握Pytorch的动态图特性,熟悉其网络设计和优化工具