AI知识分享AI知识分享
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
  • 蒸馏

    • 蒸馏 - 概述
    • 蒸馏 - 模型蒸馏
    • 蒸馏 - 模型压缩的常用方法
    • 蒸馏 - 总结
  • RAG

    • RAG - 基础
    • RAG - 进阶
    • RAG - 应用
  • 目标检测

    • 目标检测 - 概述
    • 目标检测 - VOC数据集
    • 目标检测 - COCO数据集
    • 目标检测 - 标注自己的数据集
    • 目标检测 - yolov5
  • MCP

    • MCP - 基础
    • MCP - 架构

目标检测 - 概述

  • 核心目标
  • 常用数据集与评估指标

概述

目标检测(Object Detection) 是计算机视觉领域的核心任务之一,旨在从图像或视频中识别并定位特定目标的位置和类别。

核心目标

  • 定位(Localization):用**矩形框(Bounding Box)**标出目标的位置,通常用坐标表示(如中心点坐标、宽高)。
  • 分类(Classification):判断边界框内的物体属于哪个类别(如人、车、狗等)。

类比:

  • 人脸识别:

    • 人脸检测(目标检测的子任务):定位人脸位置(类似目标检测的定位)。
    • 人脸识别:进一步判断检测到的人脸属于哪个具体个体(身份识别,类似“细粒度分类”)。
  • 文字识别(OCR):

    • 文本检测:定位图像中的文字区域(类似目标检测的定位)。
    • 文本识别:将检测到的文字区域转换为可编辑的字符(如识别“Hello”)。

核心差异表

任务输出内容核心目标典型模型
目标检测边界框 + 类别标签多物体定位与分类YOLO、Faster R-CNN
人脸识别人脸位置 + 身份ID个体身份确认FaceNet、ArcFace
文字识别文字区域 + 字符内容从图像中提取可编辑文本CRNN、EAST(检测)+ Tesseract(识别)

PS: **语义分割(Semantic Segmentation)**是计算机视觉中一项细粒度的图像理解任务,其目标是为图像中的每个像素分配一个类别标签,从而将图像划分为多个具有语义意义的区域。与目标检测(标框定位)不同,语义分割关注像素级的精确分类,常用于需要理解场景细节的应用。

常用数据集与评估指标

  • 数据集:COCO、PASCAL VOC、ImageNet、KITTI(自动驾驶)。
  • 评估指标:
    • mAP(平均精度):综合衡量分类和定位的精度。
    • FPS(帧率):检测速度指标。
最近更新: 2025/4/20 16:10
Contributors: klc407073648
Next
目标检测 - VOC数据集