简介

  • 计算机视觉(Computer Vision, CV)。
  • CV算法工程师负责设计,开发和优化各种算法,以处理和分析图像和视频数据。

图像获取

  • 提取二维图像,三维图组,图像序列或相关的物理数据,例如声波,电磁波或核磁共振的深度,吸收度或反射度。

预处理

  • 对图像作一种或一些预处理,使图像满足后继处理的要求,例如: 二次取样保证图像坐标的正确,平滑去噪等。

特征提取

  • 从图像中提取各种复杂度的特征,例如,线,边缘提取和脊检测,边角检测,斑点检测等局部化的特征点检测

检测/分割

  • 对图像进行分割,提取有价值的内容,用于后继处理,例如:筛选特征点,分割含有特定目标的部分。

高级处理

  • 验证得到的数据是否匹配前提要求,估测特定系数,对目标进行分类。

数学基础知识

  • 线性代数: 矩阵运算,特征值与特征向量,向量空间等
  • 微积分: 导数,梯度,偏导数,泰勒级数等
  • 概率论与数理统计: 随即变量,概率分布,期望,方差,协方差,贝叶斯定理等
  • 优化理论: 梯度下降,牛顿法,拟牛顿法,拉格朗日乘数法等

编程基础知识

  • Python: 掌握Python基础语法,熟悉Numpy,Pandas,Matplotlib等库
  • C/C++: 理解指针,内存管理,面向对象编程等概念,用于算法的高效实现
  • OpenCV: 学习OpenCV库的使用,熟悉图像处理和计算机视觉的基础操作。

计算机视觉技术

  • 图像处理
    • 图像增强: 灰度变换,直方图均衡化,滤波等
    • 图像分割:阈值分割,边缘检测,区域生长等
    • 图像特征提取:角点检测,SIFT,SURF,ORB等
  • 计算机视觉算法
    • 目标检测: R-CNN系列(R-CNN, Fast R-CNN, Faster R-CNN), YOLO系列,SSD等
    • 图像识别: CNN(卷积神经网络),ResNet,VGG,MobileNet等
    • 图像生成: GAN(生成对抗网络),VAE(变分自编码器)等
    • 三维视觉: 立体视觉,结构光,深度估计等
  • 深度学习框架
    • TensorFlow: 学习TensorFlow的基础使用,熟悉其高级API(例如Keras)和底层实现
    • PyTorch: 掌握Pytorch的动态图特性,熟悉其网络设计和优化工具