AI 基础知识快速了解
目次
人工智能(英语:artificial intelligence,缩写为AI(英语文本)),指由人造机器所展现的智能。通常人工智能是指用普通计算机程序来呈现人类智能的技术。该词也指出研究这样的智能系统是否能够实现,以及如何实现。
这是维基百科对AI的解释,简单来说AI就是具备类似人类解决问题能力的技术。像是翻译、写代码等等等等。
在 AI 的发展过程中,Transformer 是一个极为重要的里程碑。目前的大模型,如 GPT、Claude,都是基于 Transformer 架构构建的。
Transformer 最初是 Google 为机器翻译任务提出的模型结构。翻译并不是逐字对应的,比如要翻译“知识就是力量”,单独看“知”并不能确定含义,必须结合前后词语才能得到准确的翻译。这种机制就是自注意力机制,它让模型在处理某个词时,能够“关注”到上下文中的其他词。下面是一张形象的动图:

AI 生成内容的过程,本质上就是一种“文字接龙”。在训练时,文本会被编码成向量,输入的句子会被分词成一个个词元(token),也就是常说的 token。需要注意的是,token 并不等同于词语,不同的分词方式可能会得到不同的 token。
由于生成过程是基于概率拼接的“文字接龙”,产出的内容有时可能并不存在或不真实,这种现象被称为 AI 的幻觉(hallucination) 。另外,AI 的训练数据通常截止到某一时间点,因此知识存在时效性。如果希望模型能够使用最新信息,可以通过检索增强生成(Retrieval-Augmented Generation,RAG) ,让模型在回答问题时参考外部资料,从而提高正确性和时效性。
AI 生成中的幻觉 vs RAG 解决方案 #
情况 | 现象(幻觉) | RAG 的作用 |
---|---|---|
过时的知识 | 模型的训练数据截止到某个时间,回答可能已经过时。 例如:问“2025年奥运会在哪举办?”,模型可能回答错误。 | 通过检索外部资料(数据库、搜索引擎、文档),获取最新信息,再结合模型生成,确保答案更及时。 |
编造事实 | 模型会“接龙”拼出听起来合理但实际上不存在的信息。 例如:捏造一篇不存在的论文或一本虚构的书。 | 模型先检索相关文档,再基于真实资料生成回答,避免无中生有。 |
缺乏细节 | 模型知道大概方向,但具体数据或内容错误。 例如:回答某个法律条款时给出错误的条文号。 | 从权威数据源中检索原始文本,再由模型组织语言,确保细节准确。 |
模糊回答 | 当训练数据不足时,模型可能给出模糊甚至前后矛盾的回答。 | RAG 可以补充来自专业文档或知识库的上下文,使回答更具体、更可靠。 |
训练 AI 一般分为两个主要阶段:预训练(pre-training)和微调(fine-tuning) 。
预训练(pre-training) :向模型输入海量未标注的文本(通常会经过人工或自动方式过滤掉有害和重复内容),可以理解为给 AI 灌输知识。这种基于原始文本(raw text) 、不依赖人工标注的训练方式叫做自监督学习(self-supervised learning) 。经过这一阶段得到的模型称为基础模型(base model) 。它已经掌握了大量知识,但在回答问题时往往不符合人类预期,因为它并不知道你是在“提问”。这时,**提示词(prompt)**就能发挥关键作用。
监督微调(supervised fine-tuning, SFT) :在基础模型的基础上,使用少量带人工标注的数据进行训练,让模型学会按照人类的指令来回答问题。这个过程叫做监督学习(supervised learning) ,结果是一个能更好理解人类意图的模型。
基于人类反馈的强化学习(RLHF) :单纯的监督微调仍然有限,因为人工标注的数据不可能覆盖所有情况。于是引入 RLHF:
- 让多个回答由模型生成;
- 人类对这些回答进行打分,训练一个奖励模型(reward model) ;
- 模型在生成答案时会根据奖励模型的反馈进行优化。 这样,模型不仅能理解人类指令,还能更好地对齐人类的价值观和偏好。
参考 #
- A Neural Network for Machine Translation, at Production Scale
- Transformer — Attention Is All You Need
- Transformer模型详解(图解最完整版)