什么是计算机视觉？

计算机视觉（Computer Vision）是人工智能的一个领域，使计算机能够解释和理解来自世界的视觉信息，如图像和视频。它涉及开发能够自动从视觉数据中提取有意义信息的算法和模型，模拟人类的视觉感知能力。

快速了解

创建时间	1960 年代（早期研究），现代时代始于 2012 年（AlexNet）
规范文档	官方规范

工作原理

计算机视觉结合了图像处理、机器学习和深度学习技术来分析视觉内容。随着卷积神经网络（CNN）的出现，该领域取得了重大进展，彻底改变了图像分类、目标检测和语义分割等任务。现代计算机视觉系统可以识别人脸、实时检测物体、理解场景、跟踪运动，甚至生成新图像。该技术严重依赖大型数据集进行训练，并使用强大的 GPU 进行处理。关键架构包括 ResNet、YOLO、Faster R-CNN 和 Vision Transformers（ViT）。

主要特点

处理和分析数字图像及视频流
利用 CNN 和 Vision Transformers 等深度学习模型
执行分类、检测和分割等任务
需要大量标注数据集进行训练
通过 GPU 加速实现实时处理
处理 2D 图像和 3D 点云数据

常见用途

自动驾驶车辆的道路场景理解和障碍物检测
医学影像分析用于疾病诊断和肿瘤检测
具有人脸识别功能的安防监控系统
工业质量检测和缺陷检测
增强现实和虚拟现实应用

示例

Loading code...

常见问题

图像分类、目标检测和图像分割有什么区别？

图像分类为整张图像分配一个标签（如「猫」）。目标检测则定位并分类图像中的多个对象，使用边界框标注。图像分割更进一步，对每个像素进行分类，可以是按类别（语义分割）或按单个对象实例（实例分割）进行划分。

什么是 Vision Transformers（ViT），它与 CNN 有什么不同？

Vision Transformers 将最初为 NLP 设计的 Transformer 架构应用于图像，通过将图像分割成小块并作为序列处理。与使用局部卷积的 CNN 不同，ViT 从一开始就能捕获全局关系。ViT 在大型数据集上通常优于 CNN，但需要更多数据才能有效训练。

什么是 YOLO，为什么它在目标检测中如此流行？

YOLO（You Only Look Once，只看一次）是一种实时目标检测算法，通过单次前向传递处理整张图像，因此速度极快。与分别检查多个区域的基于区域的方法不同，YOLO 同时预测边界框和类别概率，使其适用于自动驾驶和视频监控等实时应用。

什么是视觉语言模型（VLM），它们能做什么？

CLIP、LLaVA 和 GPT-4V 等视觉语言模型将视觉理解与语言能力相结合。它们可以用自然语言描述图像、回答关于视觉内容的问题、使用文本描述进行零样本图像分类，甚至根据文本提示生成图像，架起了视觉和文本理解之间的桥梁。

计算机视觉应用需要什么硬件？

训练深度学习模型需要强大的 GPU（NVIDIA RTX、A100 或 H100）和大容量显存。推理的需求则有所不同：边缘设备可以在移动 GPU 或 NPU 上使用优化模型，而云部署使用 GPU 集群。实时应用受益于 CUDA、TensorRT 或专用 AI 加速器等硬件加速。

什么是计算机视觉？

快速了解

工作原理

主要特点

常见用途

示例

常见问题

图像分类、目标检测和图像分割有什么区别？

什么是 Vision Transformers（ViT），它与 CNN 有什么不同？

什么是 YOLO，为什么它在目标检测中如此流行？

什么是视觉语言模型（VLM），它们能做什么？

计算机视觉应用需要什么硬件？

相关工具

图片大小调整

图片压缩

图片转Base64

相关术语

人工智能

深度学习

卷积神经网络

神经网络

相关文章

具身智能 2026：从机器人基础模型到工业落地深度解析

具身智能入门：AI 迈向物理世界的进化之路【2026】

深度学习基础：神经网络、训练算法与现代架构详解