计算机视觉导论
什么是计算机视觉
视觉是人类和动物最重要的感知方式——人脑有约一半的区域参与视觉信息处理,超过 80% 的外界信息通过视觉获取。光作用于视觉器官,使感受细胞兴奋,经视觉神经系统加工后产生视觉。
计算机视觉(Computer Vision, CV)是使用计算机及相关设备对生物视觉的一种模拟。其核心目标是从像素中提取「意义」。对人类而言,一张图片蕴含丰富的语义:物体、场景、情感;但对计算机而言,它看到的只是一个个数值组成的矩阵。计算机视觉的任务,就是弥合这道鸿沟。
视觉信息的层次
从一张图像中,我们可以提取出不同层次的信息:
- 几何信息(Geometric Information)描述场景的三维结构和空间布局——物体的形状、大小、距离、朝向,以及表面的法向量、深度等。例如从一张街景照片中推断出建筑物的三维轮廓。
- 语义信息(Semantic Information)指对图像内容的高层理解——识别图像中的物体类别(树、汽车、行人)、场景类型(户外、城市、欧洲风格)、以及它们之间的空间关系。
- 功能可供性(Affordance)进一步回答「这些物体能做什么」:地面是可行走的、门是可以打开的、垃圾桶可以用来投放垃圾、汽车可以移动。这一概念源自心理学家 Gibson 的生态心理学理论,强调感知与行为的紧密联系。
- 视觉驱动行为(Vision for Action)是视觉信息的最终归宿——生物体利用视觉来指导行动,机器人和自动驾驶系统同样需要从视觉中获取行动决策。
flowchart LR
A["像素矩阵"] --> B["几何信息"]
A --> C["语义信息"]
A --> D["功能可供性"]
A --> E["行为决策"]
B -.-> C -.-> D -.-> E
classDef input fill:#e3f2fd,stroke:#1565c0,stroke-width:2px
classDef geo fill:#e8f5e8,stroke:#2e7d32,stroke-width:2px
classDef sem fill:#fff3e0,stroke:#ef6c00,stroke-width:2px
classDef aff fill:#f3e5f5,stroke:#4a148c,stroke-width:2px
classDef act fill:#ffebee,stroke:#c62828,stroke-width:2px
class A input
class B geo
class C sem
class D aff
class E act
相关学科
计算机视觉与多个学科密切交叉:
| 学科 | 与 CV 的关系 |
|---|---|
| 图像处理(Image Processing) | 对图像进行滤波、增强、变换等底层操作,是 CV 的基础工具 |
| 计算机图形学(Computer Graphics) | 图形学从模型生成图像(rendering),CV 从图像恢复模型——两者互为逆过程 |
| 机器学习(Machine Learning) | 为 CV 提供分类、回归、聚类等核心算法 |
| 模式识别(Pattern Recognition) | 关注从数据中发现规律和模式,与 CV 在方法论上高度重合 |
| 认知科学与神经科学 | 启发 CV 算法设计,如视觉皮层的层次化处理启发了深度学习 |
视觉与图形学
计算机视觉和计算机图形学可以看作「镜像」关系:
- 图形学是综合(Synthesis):给定三维模型、材质和光照,渲染出二维图像。
- 计算机视觉是分析(Analysis):从二维图像推断出三维场景的结构、材质和光照。
应用与挑战
视觉无处不在
计算机视觉的应用已经深入日常生活的方方面面:
- 人脸识别是最广泛的 CV 应用之一。从手机解锁到大规模安防监控(十万路人脸布控)、再到地铁刷脸过闸(甚至支持戴口罩识别),人脸识别技术已经高度成熟。香港中文大学多媒体实验室(MMLAB)在人脸识别领域做出了开创性贡献。有趣的是,人脸识别不止适用于人类——「猪脸识别」技术已被应用于畜牧业,用于个体追踪和健康管理。
- 视频交互(Video-based Interfaces)利用摄像头捕获用户的手势、体态和表情,实现自然的人机交互。
- 安全监控领域大量使用视频分析技术,从异常行为检测到目标追踪,CV 显著提升了公共安全的效率。
- 医学影像中,CV 帮助医生从 CT、MRI、X 光等影像中检测病变、分割组织、辅助诊断,已在皮肤癌筛查、视网膜病变检测等领域展现出接近甚至超越人类专家的准确率。
计算机视觉为何困难
尽管人类的视觉系统运转得毫不费力,但对计算机而言,「看懂」一张图片却极为困难。根本原因在于底层信号与高层语义之间存在巨大的语义鸿沟(Semantic Gap):
- 大幅度的外观变化(Large Variations)。同一物体在不同拍摄条件下可能呈现截然不同的外观——视角(viewpoint)、光照(illumination)、遮挡(occlusion)、尺度(scale)等因素的变化,使得同一物体看起来千差万别。
- 类内差异(Intra-class Variation)。属于同一类别的不同个体在外观上可能差异巨大。例如「椅子」这个类别包含了从高背扶手椅到折叠椅、从沙发到吊椅的各种形态——它们在形状、颜色、材质上几乎没有共同的视觉特征,但人类毫不费力地将它们归为同一类别。
- 上下文依赖(Context Dependence)。相同的像素区域在不同上下文中可能被解读为完全不同的物体。例如,一个小的灰色区域可能是建筑外墙的一部分,也可能是一只鸽子——只有结合周围环境才能做出正确判断。
即使是人类视觉也会出错。2015 年风靡网络的「蓝黑/白金裙子」之争(The Dress)正说明了这一点——面对同一张照片,不同的人看到了截然不同的颜色。这是因为人脑对光照条件做出了不同的假设,进行了不同的颜色恒常性补偿。

病态问题
从根本上说,计算机视觉是一个病态问题(Ill-posed Problem):真实世界远比图像中能测量到的信息复杂得多。三维场景到二维图像的投影是一个不可逆的多对一映射——无穷多种不同的三维场景可以产生同一张二维图像。因此,从图像中恢复三维世界本质上是不可能精确求解的,我们只能利用先验知识和统计规律来寻找最可能的解释。
发展历程
早期探索(1960s-1970s)
计算机视觉的历史可以追溯到 1960 年代。1966 年的一个著名轶事是,MIT 的 Marvin Minsky 布置了一个暑期项目:让几个本科生用一个夏天编程,让计算机通过摄像头识别场景中的物体。他认为这个问题一个暑假就能解决。半个多世纪后的今天,我们仍在为之奋斗。
这一时期的里程碑包括:Hough 变换(1959)用于检测图像中的直线和简单形状,Roberts 的积木世界研究(1963),Rosenfeld 的《Picture Processing by Computer》(1969),以及 Duda 和 Hart 的《Pattern Classification and Scene Analysis》(1972)等。早期研究聚焦于「积木世界」(Blocks World)——由简单几何体组成的受控场景。研究者们定义了若干核心问题(如边缘检测、区域分割、三维恢复),提出了初步方法。一些雄心勃勃的场景理解方案昙花一现。
成熟阶段(1980s-1990s)
1980 年代迎来了计算机视觉作为独立学科的确立:
- 1982 年,David Marr 出版了划时代的著作 Vision,系统阐述了视觉计算理论
- 同年,Ballard 和 Brown 出版了 Computer Vision,Horn 于 1986 年出版了 Robot Vision
- 1983 年,首届 CVPR 会议召开
- 1987 年,ICCV 和 IJCV 期刊创刊
这一时期的研究经历了「几何识别阶段」,多视图几何(Multi-view Geometry)逐渐成熟,最终由 Hartley 和 Zisserman 的经典著作总结。到 1990 年代末,研究者们开始不再「害怕像素」——即不再局限于手工设计的几何模型,而是转向直接从大量图像数据中学习特征和模式,拥抱数据驱动的分类器方法。
Marr 视觉计算框架
David Marr 在 1982 年提出了影响深远的视觉计算框架,将视觉系统的分析划分为三个层次:
- 计算层(Computational Level):系统要解决什么问题?为什么要解决?即视觉任务的目标和约束。
- 算法与表示层(Algorithmic/Representational Level):系统如何解决问题?使用什么表示方式和处理流程来构建和操纵这些表示?
- 实现层(Implementational/Physical Level):系统如何在物理上实现?对于生物视觉,对应哪些神经结构和神经活动。
这三个层次彼此独立又相互关联。理解一个视觉能力,需要在所有三个层次上给出解释。这一框架至今仍是思考视觉问题的基本出发点。
数据驱动时代(2000s-2010s)
进入 21 世纪,计算机视觉的范式发生了根本性转变——从手工设计特征转向数据驱动的学习方法,数据集和基准测试成为推动进步的核心引擎。
局部特征(Local Features)如 SIFT、SURF 等——它们能检测并描述图像中具有辨别力的关键点——「解决」了运动恢复结构(Structure from Motion, SfM,即从多张不同视角的二维图像重建三维场景结构)和实例识别问题。通用类别识别和检测成为核心问题。
图像数据集的演进
图像数据集的规模和质量直接反映了领域的发展。从早期的小型数据集到 ImageNet(2009,1400 万张图像,2 万多类别)的出现,彻底改变了 CV 研究的格局。ImageNet 大规模视觉识别挑战赛(ILSVRC)成为衡量进步的标尺——2012 年 AlexNet 在该竞赛中的突破性表现开启了深度学习在 CV 领域的统治时代。
更近期的 LAION-5B 数据集包含 50 亿对图像-文本对,代表了开放大规模多模态数据集的新纪元,为基础模型的训练提供了海量数据支撑。
视频数据集的演进
视频数据集同样经历了显著的规模增长:
- 2010 年以前:小规模受控数据集
- 2011-2015 年:UCF-101、Sports-1M 等中等规模数据集
- 2015-2020 年:Kinetics 系列、Something-Something 等大规模数据集
- 2023 年:InternVid 等超大规模视频-文本数据集(发表于 ICLR 2024 Spotlight),规模进一步跨越
前沿进展
在数据驱动范式的推动下,计算机视觉进入了爆发式增长期——CVPR 会议的投稿量和录用论文数逐年攀升,计算机视觉已成为人工智能最活跃的研究领域之一。以下按几个核心方向梳理近年来的重要进展。
目标检测与识别
深度卷积神经网络在 ImageNet 挑战赛上的持续突破,推动通用类别识别(Generic Category Recognition)取得了显著进展。到 2014 年,深度学习方法的准确率已大幅超越传统手工特征方法。
目标检测经历了从两阶段方法到端到端范式的演进。Mask R-CNN(ICCV 2017 最佳论文)在统一框架中同时完成目标检测和实例分割(Instance Segmentation),开创了端到端实例分割的范式。此后,基于查询(query-based)的检测方法(如 AdaMixer, CVPR 2022)实现了更快的收敛,而面向自动驾驶的 3D 检测方法(如 SparseBEV, ICCV 2023)则将检测从 2D 图像扩展到多相机视频的三维空间。
视频动作识别同样从传统方法跨越到深度学习时代,从将动作建模为移动点(Actions as Moving Points, ECCV 2020)到单阶段稀疏检测器(STMixer, CVPR 2023),检测效率持续提升。
CV 识别技术已融入日常设备——手机上的鸟类识别应用(如 Merlin)和植物识别应用就是典型例子。
图像与视频描述
图像描述(Image Captioning)让计算机用自然语言描述图像内容,需要同时理解视觉内容和生成流畅的自然语言。
视频描述(Video Captioning)则更具挑战性——需要理解时间维度上的事件演变。高清视频描述模型能够生成详细准确的视频描述,例如描绘一只鹰在沙漠中捕捉兔子的完整过程。但值得注意的是,当前模型仍存在幻觉(Hallucination)问题——在描述中加入图像中实际不存在的内容。
图像生成
除了「理解」图像,计算机视觉的另一面是「生成」图像——这与计算机图形学有交叉,但深度学习赋予了它全新的范式。图像生成是近年来进展最为惊人的方向,经历了从 GAN 到扩散模型的转变。
生成对抗网络时代
Progressive GAN(ICLR 2018)首次生成了逼真的 1024×1024 高分辨率人脸图像,在 CelebA-HQ 数据集上训练。其核心思想是渐进式增长——从低分辨率开始逐步增加细节。
BigGAN(ICLR 2019)将 GAN 扩展到了 ImageNet 的 512×512 分辨率多类别图像生成,展示了大规模 GAN 训练的巨大潜力。不过,不同类别的生成难度差异明显——简单类别(如风景)的生成质量远优于复杂类别(如精细纹理的物体)。
文本到图像生成
DALL-E(ICML 2021)由 OpenAI 推出,实现了零样本文本到图像生成。其底层技术是自回归生成(Autoregressive Generation)——模型将输入拆分为一系列离散单元(称为 token),然后逐个生成,每次以之前已生成的内容为条件预测下一个 token。具体地,DALL-E 将文本提示编码为 256 个 token,图像编码为 1024 个 token(32×32),使用 Transformer 解码器自回归地生成图像 token,最后解码为 256×256 分辨率的图像。
DALL-E 2(2022)引入了全新架构:首先用 CLIP(Contrastive Language-Image Pre-Training,一种将文本和图像映射到共享嵌入空间的模型)分别编码文本和图像,训练一个生成模型从 CLIP 文本编码生成 CLIP 图像编码,再用扩散模型(GLIDE)以图像编码和文本为条件生成图像,从 64×64 逐步上采样到 1024×1024。
扩散模型
去噪扩散概率模型
去噪扩散概率模型(Denoising Diffusion Probabilistic Models, DDPMs)是当前图像生成的主流范式,其核心思想是将噪声逐步转化为图像。
- 前向过程 :逐步向图像中添加高斯噪声,将干净图像转化为纯噪声
- 反向过程 :逐步从噪声中去除噪声,恢复出干净图像
- 当时间步的增量足够小时,反向过程的每一步 近似为高斯分布,可以训练一个神经网络来估计给定 时 的均值
直觉上,扩散模型就像「雕塑」——从一块混沌的大理石(噪声)开始,一刀一刀地雕琢(去噪),最终得到一件精美的作品(图像)。
Stable Diffusion 的关键创新是在潜在空间(Latent Space,即由编码器压缩后的低维特征空间)而非原始像素空间中进行扩散过程,大幅降低了计算成本,使高质量图像生成变得平民化。2022 年,AI 图像生成被 Science 杂志评为年度突破(Breakthrough of the Year)。
DALL-E 3(2023)在文本理解和图像质量上实现了飞跃,能够精确地将文字描述转化为对应的图像,代表了文本到图像生成能力的重大突破。
AIGC 的挑战
AI 生成内容(AIGC)在带来革命性能力的同时,也引发了严重关切:
- 深度伪造(Deepfakes):可以伪造任何人的视频或音频,已被用于政治欺诈和虚假信息传播(如伪造的泽连斯基投降视频)
- 偏见与有害内容(Bias & Toxic Content):模型继承了训练数据中的偏见。例如 DALL-E 2 生成的「律师」图像以白人男性为主,「空乘人员」图像以女性为主,反映了数据中的刻板印象
- AI 是否会取代艺术家? 2022 年,AI 生成的作品在科罗拉多州艺术博览会上获得一等奖,引发了关于 AI 创作的伦理争论
三维场景理解
神经辐射场(Neural Radiance Fields, NeRF)由 Mildenhall 等人在 ECCV 2020 提出,开创了从多视角图像合成新视角的全新范式。NeRF 用一个神经网络隐式表示三维场景——输入空间坐标和观察方向,输出该点的颜色和密度,通过体渲染生成任意视角的图像。这一工作开辟了 3D 场景理解和生成的新方向。
视觉驱动行为
从视频中学习技能(Learning Skills from Video)是将视觉与行为决策连接的重要方向。例如 SFV(SIGGRAPH Asia 2018)展示了通过强化学习从视频中学习物理技能——让虚拟角色模仿视频中人物的动作,实现自然的运动控制。
基础模型时代
2020 年代,AI 进入了基础模型(Foundation Models)时代——在海量数据上预训练的大规模模型,展现出强大的通用能力和涌现特性。这些模型通常先在大规模无标注数据上进行预训练(Pre-training),学习通用的特征表示,然后通过少量标注数据微调(Fine-tuning)适配具体任务。
缩放定律
缩放定律(Scaling Laws)揭示了一个深刻的规律:语言模型的性能与模型参数量、训练数据量和计算量呈幂律关系。这意味着,只要持续扩大规模,模型性能就会持续提升——这一发现成为大模型研发竞赛的理论基础。
大语言模型
Transformer 是一种基于自注意力机制(Self-Attention)的神经网络架构,能够捕捉序列中任意位置之间的依赖关系,已成为现代深度学习的核心架构。
BERT (EMNLP 2018) 由 Google 提出,采用双向 Transformer 编码器架构。其自监督预训练任务是遮蔽 token 预测(Masked Token Prediction)——随机遮蔽输入序列中的部分 token,让模型预测被遮蔽的内容。
GPT 系列由 OpenAI 推出,采用 Transformer 解码器架构,预训练任务为下一 token 预测(Next Token Prediction)。从 GPT(2018)到 GPT-2(2019,15 亿参数)再到 GPT-3(NeurIPS 2020 最佳论文,1750 亿参数),模型规模的持续增长带来了质的飞跃——GPT-3 展现出惊人的少样本学习能力,仅凭几个示例就能完成此前需要大量标注数据才能解决的任务。这一现象正是缩放定律的直接体现。
从 GPT 到 ChatGPT
InstructGPT 和 ChatGPT 的突破在于引入了基于人类反馈的强化学习(Reinforcement Learning with Human Feedback, RLHF)。流程分为三步:
- 在人工撰写的高质量对话数据上有监督微调
- 训练一个奖励模型(Reward Model),学习人类对不同回答的偏好排序
- 使用 PPO(Proximal Policy Optimization,一种策略梯度强化学习算法)进行强化学习,让模型输出更符合人类期望的回答
这种对齐(Alignment)技术使得 GPT 从一个语言模型转变为一个有用、真实、无害的对话助手,是 AI 历史上的里程碑事件。
多模态模型
GPT-4 引入了视觉输入能力,可以理解图像内容并进行推理——这标志着大语言模型向多模态智能迈出了关键一步。
Sora(2024)由 OpenAI 推出,能够根据文本描述生成高质量的长视频,展示了视频生成领域的巨大突破。
Google Gemini 是 Google 推出的原生多模态大模型,能够同时理解和生成文本、图像、音频和视频。例如,它可以分析足球视频并给出具体的技术改进建议。
InternVideo 系列
InternVideo 是南京大学媒体计算课题组(MCG)的代表性工作,展示了视频基础模型的快速发展:
| 版本 | 年份 | 核心技术 | 关键指标 |
|---|---|---|---|
| InternVideo | 2022 | 视频掩码自监督 + 对比学习 | 39 种任务领先,Kinetics-400 首超 90% |
| InternVideo2 | 2024 | 渐进式预训练,多粒度语义对齐 | 60+ 种任务领先,60 亿参数视觉模型 |
| InternVideo2.5 | 2025 | 长时丰富上下文建模(LRC) | 万帧精确定位,细粒度时空理解 |
其中 InternVideo 融合了视频掩码自监督学习与对比学习(Contrastive Learning,通过拉近相似样本、推远不同样本来学习表征)两种范式。InternVideo2.5 则专注精细时空理解与长视频高效感知,视频处理长度较前版本提升 6 倍,不仅能进行通用视频问答,还能完成视频跟踪、分割、精准时空定位等细粒度任务。
计算机视觉能做什么?
回到开篇提出的核心问题——从像素中提取「意义」,当今计算机视觉的主要能力可以从五个维度来理解:
- 重建(Reconstruction):从图像中恢复三维结构,缩小二维投影与三维世界之间的信息损失
- 识别(Recognition):识别图像和视频中的物体、场景、动作,将像素映射到语义空间
- 三维场景理解:重建与识别的融合——不仅恢复几何,还理解场景中每个部分是什么
- 图像与视频生成(Generation):从文本描述或其他条件生成逼真的图像和视频,反向走完从语义到像素的路径
- 视觉驱动行为(Vision for Action):从视觉输入做出行为决策,实现感知与行动的闭环
这五个方向从不同角度缩小着开篇所说的「语义鸿沟」——但这道鸿沟远未被填平。
In general, computer vision does not work (except in certain situations/conditions).
尽管在受控条件和特定任务上取得了很大进展,通用的、鲁棒的计算机视觉仍然是一个远未解决的开放问题。这也正是这个领域的魅力所在。