什么是 计算机视觉?

计算机视觉(Computer Vision)是人工智能的一个领域,使计算机能够解释和理解来自世界的视觉信息,如图像和视频。它涉及开发能够自动从视觉数据中提取有意义信息的算法和模型,模拟人类的视觉感知能力。

快速了解

创建时间1960 年代(早期研究),现代时代始于 2012 年(AlexNet)
规范文档官方规范

工作原理

计算机视觉结合了图像处理、机器学习和深度学习技术来分析视觉内容。随着卷积神经网络(CNN)的出现,该领域取得了重大进展,彻底改变了图像分类、目标检测和语义分割等任务。现代计算机视觉系统可以识别人脸、实时检测物体、理解场景、跟踪运动,甚至生成新图像。该技术严重依赖大型数据集进行训练,并使用强大的 GPU 进行处理。关键架构包括 ResNet、YOLO、Faster R-CNN 和 Vision Transformers(ViT)。

主要特点

  • 处理和分析数字图像及视频流
  • 利用 CNN 和 Vision Transformers 等深度学习模型
  • 执行分类、检测和分割等任务
  • 需要大量标注数据集进行训练
  • 通过 GPU 加速实现实时处理
  • 处理 2D 图像和 3D 点云数据

常见用途

  1. 自动驾驶车辆的道路场景理解和障碍物检测
  2. 医学影像分析用于疾病诊断和肿瘤检测
  3. 具有人脸识别功能的安防监控系统
  4. 工业质量检测和缺陷检测
  5. 增强现实和虚拟现实应用

示例

loading...
Loading code...

常见问题

图像分类、目标检测和图像分割有什么区别?

图像分类为整张图像分配一个标签(如「猫」)。目标检测则定位并分类图像中的多个对象,使用边界框标注。图像分割更进一步,对每个像素进行分类,可以是按类别(语义分割)或按单个对象实例(实例分割)进行划分。

什么是 Vision Transformers(ViT),它与 CNN 有什么不同?

Vision Transformers 将最初为 NLP 设计的 Transformer 架构应用于图像,通过将图像分割成小块并作为序列处理。与使用局部卷积的 CNN 不同,ViT 从一开始就能捕获全局关系。ViT 在大型数据集上通常优于 CNN,但需要更多数据才能有效训练。

什么是 YOLO,为什么它在目标检测中如此流行?

YOLO(You Only Look Once,只看一次)是一种实时目标检测算法,通过单次前向传递处理整张图像,因此速度极快。与分别检查多个区域的基于区域的方法不同,YOLO 同时预测边界框和类别概率,使其适用于自动驾驶和视频监控等实时应用。

什么是视觉语言模型(VLM),它们能做什么?

CLIP、LLaVA 和 GPT-4V 等视觉语言模型将视觉理解与语言能力相结合。它们可以用自然语言描述图像、回答关于视觉内容的问题、使用文本描述进行零样本图像分类,甚至根据文本提示生成图像,架起了视觉和文本理解之间的桥梁。

计算机视觉应用需要什么硬件?

训练深度学习模型需要强大的 GPU(NVIDIA RTX、A100 或 H100)和大容量显存。推理的需求则有所不同:边缘设备可以在移动 GPU 或 NPU 上使用优化模型,而云部署使用 GPU 集群。实时应用受益于 CUDA、TensorRT 或专用 AI 加速器等硬件加速。

相关工具

相关术语

相关文章

深度学习基础:神经网络、训练算法与现代架构详解

全面系统深度硬核解析人工智能深度学习(Deep Learning)的底层数学核心原理,深入探讨反向传播算法(Backpropagation)计算图推导、基于微积分的梯度下降(Gradient Descent)优化下降策略、各种前沿常用激活函数(ReLU, GELU, Sigmoid 等)及交叉熵损失函数(Loss Function)的数学推导机制。本教程是入门高级 AI 架构与现代神经网络 Transformer 不可或缺的基础必修课指南。

2026-02-08

神经网络完全指南:从生物神经元到深度学习架构详解

深入浅出地理解现代 AI 的核心:人工神经网络(Neural Networks)底层数学基础与前向/反向传播(Backpropagation)运行原理。详细剖析感知机模型、激活函数(如 ReLU, Sigmoid)、损失函数以及梯度下降算法。通过纯 Python 从零开始手写实现一个简单神经网络,带你彻底打破深度学习算法黑盒,为后续学习 Transformer 等大模型打下坚实基础。

2026-02-21

注意力机制完全指南:从直觉理解到Transformer核心原理与代码实现

全面深入解析现代深度学习与自然语言处理(NLP)中最具革命性的突破:注意力机制(Attention Mechanism)的核心数学原理。详细剖析自注意力(Self-Attention)、Query-Key-Value(QKV)向量点积计算逻辑、以及强大的多头注意力(Multi-Head Attention)并行特征提取。带您彻底掌握构建现代 Transformer 架构、GPT 和各类 LLM 大语言模型的底层技术基石,文章附带结构清晰的完整纯 Python 工程化代码推导与实现示例。

2026-02-21