什么是 ChatGPT?
ChatGPT 是 OpenAI 于 2022 年推出的对话式人工智能助手,基于 GPT(Generative Pre-trained Transformer) 架构构建。它能够理解并生成自然语言,回答问题、撰写文章、编写代码,乃至进行复杂的逻辑推理。
Transformer 架构简介
GPT 的核心是 Transformer 模型。Transformer 由 Google 在 2017 年提出,其关键机制是自注意力(Self-Attention):模型在处理每个词时,能同时"关注"句子中所有其他词,从而捕捉长距离依赖关系。
- 编码器:理解输入文本的语义
- 解码器:基于上下文生成下一个词
- 多头注意力:从多个角度同时关注不同信息
预训练阶段
GPT 在数千亿词级别的文本语料上进行无监督预训练,任务是预测下一个词(Next Token Prediction)。这使模型学到了语言规律、世界知识和推理能力。训练数据来源包括书籍、网页、代码、学术论文等。
RLHF:让模型更符合人类期望
人类反馈强化学习(RLHF, Reinforcement Learning from Human Feedback) 是 ChatGPT 区别于普通语言模型的关键。分为三步:
- 监督微调(SFT):人工标注高质量问答对,对预训练模型进行微调
- 奖励模型训练:让人类对模型多个回答排序,训练一个评分模型
- PPO 强化学习:用奖励模型指导语言模型生成更符合人类偏好的回答
为什么 ChatGPT 有时会"幻觉"?
由于模型本质是在预测"最可能出现的词",而非真正"理解"事实,它有时会生成听起来合理但实际错误的内容——这被称为幻觉(Hallucination)。解决方案包括 RAG(检索增强生成)和 Tool Use(工具调用)。
总结
ChatGPT = 大规模预训练 + 指令微调 + RLHF 对齐。理解其工作原理有助于更好地使用它,并对其局限性保持清醒认知。