目标检测 - 概述
概述
目标检测(Object Detection) 是计算机视觉领域的核心任务之一,旨在从图像或视频中识别并定位特定目标的位置和类别。
核心目标
- 定位(Localization):用**矩形框(Bounding Box)**标出目标的位置,通常用坐标表示(如中心点坐标、宽高)。
- 分类(Classification):判断边界框内的物体属于哪个类别(如人、车、狗等)。
类比:
人脸识别:
- 人脸检测(目标检测的子任务):定位人脸位置(类似目标检测的定位)。
- 人脸识别:进一步判断检测到的人脸属于哪个具体个体(身份识别,类似“细粒度分类”)。
文字识别(OCR):
- 文本检测:定位图像中的文字区域(类似目标检测的定位)。
- 文本识别:将检测到的文字区域转换为可编辑的字符(如识别“Hello”)。
核心差异表
| 任务 | 输出内容 | 核心目标 | 典型模型 |
|---|---|---|---|
| 目标检测 | 边界框 + 类别标签 | 多物体定位与分类 | YOLO、Faster R-CNN |
| 人脸识别 | 人脸位置 + 身份ID | 个体身份确认 | FaceNet、ArcFace |
| 文字识别 | 文字区域 + 字符内容 | 从图像中提取可编辑文本 | CRNN、EAST(检测)+ Tesseract(识别) |
PS: **语义分割(Semantic Segmentation)**是计算机视觉中一项细粒度的图像理解任务,其目标是为图像中的每个像素分配一个类别标签,从而将图像划分为多个具有语义意义的区域。与目标检测(标框定位)不同,语义分割关注像素级的精确分类,常用于需要理解场景细节的应用。
常用数据集与评估指标
- 数据集:COCO、PASCAL VOC、ImageNet、KITTI(自动驾驶)。
- 评估指标:
- mAP(平均精度):综合衡量分类和定位的精度。
- FPS(帧率):检测速度指标。
