极为简略的介绍下当前计算机视觉的基本概念和基本的研究方向。
是什么:使机器“看”的科学
- 是什么(分类)
- 在哪儿(检测、定位、分割)
- 直接从图片数据产生知识
为什么:视觉是人最主要的信息输入
- 70~80%信息来自人眼
- 移动多媒体时代产生更多的是图片和视频数据
- 图片和视频价值没有完全挖掘,属于“暗数据”
- 图片视频包含更多的信息
基本任务
分为图片和视频两部分,主要罗列比较成熟热门的几个方向。
分类(Classification)
- 预测图片的类别(What)
- 子任务
- 单标签(Single-Label)
- 多标签(Multi-Label)
- 粗粒度(Coarse-Grained)
- 细粒度(Fine-Grained)
- 典型应用:搜索、分类
检测(Detection)
- 定位物体位置(Where)
- 子任务
- D检测
- 3D检测
- 显著性检测
- 遥感检测
- 典型应用:人脸检测、汽车检测
分割(Segmentation)
- 像素级的内容理解和定位
- 子任务:
- 语义分割/实例分割
- Alpha Matting
- 3D分割
- 典型应用:换天、人像抠图
图像生成(Generation)
- 通过算法生成图片
- 子任务
- 随机生成
- 风格迁移
- 图片合成
- 图片翻译
- 典型应用:卡通化、换脸、换装
关键点定位(KeyPoint)
- 定位图像中的关键像素点
- 子任务
- 人脸关键点
- 人体关键点
- 手势关键点
- 物体姿态估计
- 典型应用:人脸配准、手势识别
图像恢复(Restoration)
- 蜕化图像生成高质量图像
- 子任务
- 超分辨率
- 图像去噪
- 图像修补
- 去模糊
- 上色、去雾、去雨等
- 典型应用:拍照画质增强、老照片修复
视频
视频跟踪(Tracking)
- 跟踪视频指定物体
- 子任务
- 单目标跟踪
- 多目标跟踪
- 典型应用:自动驾驶、安防监控
视频识别(Video Recognition)
- 识别视频中的特定行为
- 子任务
- 人体行为识别
- 事件识别
- 典型应用:监控、安防
视频摘要(Video Summarization)
- 提取有意义(精彩)的片段
- 子任务
- 精彩镜头
- 缩略图
- 典型应用:视频动态封面
视频插帧(Video Interpolation)
- 合成任意时刻的视频帧,从而优化解决视频中卡顿、抖动等画
- 典型应用:慢动作视频制作
视频其他任务
视频HDR |
轨迹分析 |
视频压缩 |
视频防抖 |
一些典型的垂直应用
- 人脸
- 人脸检测/跟踪
- 关键点定位
- 姿态估计
- 人脸识别
- 人脸聚类
- 性别识别
- 年龄估计
- 表情识别
- 活体检测
- 闭眼检测
- 口罩检测
- 人脸质量评估
- 文档
- 印刷体检测/识别(OCR)
- 手写体检测/识别(HCR)
- 自然场景识别(NCR)
- 文档布局识别
- 文档重建
- 票证类识别
- 表格识别
- 人体
- 人体检测
- 姿态估计
- 行人重识别
- 行人追踪
- 手势识别
- 人流量统计/人群密度分析
- 动作行为识别
- 人像分割
- 属性分析
未来趋势
- 视频
- 3D(VR/AR)
- 多模态:融合文本、音频、视觉信息
- 细粒度理解(分割、系列度分类)
- 大规模数据预训练(例如:GPT-3)
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/92392.html