从 Attention 到 ChatGPT：Transformer 如何改写人工智能

Transformer 模型中的注意力模块示意

头图来源：Wikimedia Commons（请在文件页查看原作者与许可条款）

引言

2017 年 6 月，Google 研究团队发表了题为《Attention Is All You Need》的论文（arXiv:1706.03762），提出完全基于注意力机制的 Transformer 架构。这篇论文如今被引用超过十万次，被认为是深度学习历史上最具影响力的工作之一。没有 Transformer，就没有 GPT、BERT、ChatGPT，也没有今天席卷全球的生成式 AI 浪潮。

自注意力：抛弃循环与卷积

在 Transformer 出现之前，序列建模的主流是 RNN、LSTM 以及后来的 Seq2Seq 加注意力。这些模型按时间步顺序处理 token，难以并行，且长距离依赖容易梯度消失。Transformer 的核心创新是自注意力（Self-Attention）：序列中任意两个位置可以直接交互，计算复杂度虽为 O(n²)，但高度可并行，非常适合 GPU 训练。

论文中的多头注意力（Multi-Head Attention）让模型在不同子空间学习不同的关系模式——有的头关注语法，有的头关注指代，有的头捕捉长程语义。编码器-解码器堆叠结构配合位置编码（Positional Encoding），使模型既知道"什么"，也知道"在哪里"。

从 BERT 到 GPT：两条技术路线

Transformer 催生了两条影响深远的技术路线。BERT（2018）采用编码器、双向上下文，在掩码语言建模上预训练，擅长理解与分类任务。GPT 系列（2018 起）采用解码器、自回归语言建模，擅长生成。OpenAI 在 2020 年发布 GPT-3（1750 亿参数），展示了规模定律（Scaling Laws）：模型越大、数据越多，少样本学习能力越强。

2022 年 11 月，OpenAI 发布 ChatGPT，在 GPT-3.5 基础上通过监督微调（SFT）与基于人类反馈的强化学习（RLHF）对齐人类偏好，两个月用户破亿。这标志着大语言模型从实验室走向大众，也引发了全球对 AI 安全、就业与教育的广泛讨论。

工程与生态

Transformer 的成功不仅是算法胜利，也是工程胜利。FlashAttention、混合精度训练、张量并行与流水线并行使万亿参数训练成为可能。Hugging Face Transformers 库降低了研究与部署门槛；PyTorch 与 JAX 生态围绕 Transformer 构建了完整工具链。

小结

Transformer 用"注意力即一切"的简洁哲学，统一了 NLP 乃至多模态建模的主航道。理解这篇 2017 年的论文，是理解当代 AI 的起点。后续的大模型、Agent、多模态，本质上都站在同一架构的肩膀之上。

参考资料

Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762. https://arxiv.org/abs/1706.03762
OpenAI (2022). Introducing ChatGPT. https://openai.com/blog/chatgpt
Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers. arXiv:1810.04805.