- Published on
从 Attention 到 ChatGPT:Transformer 如何改写人工智能
- Authors
- Name
- Black Halo Labs

头图来源:Wikimedia Commons(请在文件页查看原作者与许可条款)
引言
2017 年 6 月,Google 研究团队发表了题为《Attention Is All You Need》的论文(arXiv:1706.03762),提出完全基于注意力机制的 Transformer 架构。这篇论文如今被引用超过十万次,被认为是深度学习历史上最具影响力的工作之一。没有 Transformer,就没有 GPT、BERT、ChatGPT,也没有今天席卷全球的生成式 AI 浪潮。
自注意力:抛弃循环与卷积
在 Transformer 出现之前,序列建模的主流是 RNN、LSTM 以及后来的 Seq2Seq 加注意力。这些模型按时间步顺序处理 token,难以并行,且长距离依赖容易梯度消失。Transformer 的核心创新是自注意力(Self-Attention):序列中任意两个位置可以直接交互,计算复杂度虽为 O(n²),但高度可并行,非常适合 GPU 训练。
论文中的多头注意力(Multi-Head Attention)让模型在不同子空间学习不同的关系模式——有的头关注语法,有的头关注指代,有的头捕捉长程语义。编码器-解码器堆叠结构配合位置编码(Positional Encoding),使模型既知道"什么",也知道"在哪里"。
从 BERT 到 GPT:两条技术路线
Transformer 催生了两条影响深远的技术路线。BERT(2018)采用编码器、双向上下文,在掩码语言建模上预训练,擅长理解与分类任务。GPT 系列(2018 起)采用解码器、自回归语言建模,擅长生成。OpenAI 在 2020 年发布 GPT-3(1750 亿参数),展示了规模定律(Scaling Laws):模型越大、数据越多,少样本学习能力越强。
2022 年 11 月,OpenAI 发布 ChatGPT,在 GPT-3.5 基础上通过监督微调(SFT)与基于人类反馈的强化学习(RLHF)对齐人类偏好,两个月用户破亿。这标志着大语言模型从实验室走向大众,也引发了全球对 AI 安全、就业与教育的广泛讨论。
工程与生态
Transformer 的成功不仅是算法胜利,也是工程胜利。FlashAttention、混合精度训练、张量并行与流水线并行使万亿参数训练成为可能。Hugging Face Transformers 库降低了研究与部署门槛;PyTorch 与 JAX 生态围绕 Transformer 构建了完整工具链。
小结
Transformer 用"注意力即一切"的简洁哲学,统一了 NLP 乃至多模态建模的主航道。理解这篇 2017 年的论文,是理解当代 AI 的起点。后续的大模型、Agent、多模态,本质上都站在同一架构的肩膀之上。
参考资料
- Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762. https://arxiv.org/abs/1706.03762
- OpenAI (2022). Introducing ChatGPT. https://openai.com/blog/chatgpt
- Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers. arXiv:1810.04805.