大白话聊透人工智能精校章节_Transformer：从“是什么”到“为什么重要”，零基础也能懂

- 处理图片：把图片的每个像素按“从左到右、从上到下”的顺序当成序列；

- 处理语音：把声音的波形按时间顺序当成序列。

这种“通用性”让AI开发者省了大麻烦：以前开发一个新AI，得重新设计一套“脑回路”；现在只要基于Transformer，稍微改改细节，就能做出处理不同信息的AI。比如OpenAI开发ChatGPT（处理文字）和DALL·E（处理图文），用的都是Transformer的核心技术——这也是近几年AI产品“井喷”的重要原因。

（四）优势4：“容易训练”，普通团队也能用上

以前的AI技术，不仅难设计，还难“训练”。要让AI学会一项技能，比如翻译，得给它喂大量数据，还得用特别复杂的参数调整方法，只有谷歌、微软这样的大公司才有资源做。

而Transformer的结构设计得特别“简洁”，虽然核心是自注意力机制和编码器-解码器，但里面的参数调整逻辑很清晰，普通的研发团队只要有足够的数据，就能用Transformer训练出自己的AI。比如现在很多高校的学生，用Transformer做一个简单的“聊天机器人”或“文案生成器”，几个月就能搞定；而在以前，这可能需要一个专业团队花好几年时间。

而且现在市面上有很多“现成的Transformer工具包”，比如PyTorch里的Transformer模块、Hugging Face的Transformers库，开发者不用自己写复杂的代码，直接调用工具包就能搭建AI模型——这让Transformer的“普及速度”大大加快，从大公司的“专属技术”变成了“全民可用的工具”。

这章没有结束，请点击下一页继续阅读！

四、Transformer的“家族成员”：不止一种，不同成员有不同用处

虽然咱们都叫它“Transformer”，但实际上它不是“一个东西”，而是一个“家族”。这些年开发者在原始Transformer的基础上，根据不同的任务需求，改造出了很多“家族成员”，比如BERT、GPT、T5等等。这些成员的核心还是Transformer，但侧重点不同，就像同一个家族里，有人擅长文科，有人擅长理科。咱们挑几个最常见的成员，用大白话讲讲它们的区别。

（一）BERT：擅长“理解信息”，像个“阅读理解高手”

BERT的全称是“Bidirectional Encoder Representations from Transformers”，翻译过来就是“来自Transformer的双向编码器表示”——听着绕，其实它的核心特点就一个：只用力做“编码器”，不做“解码器”，专门负责“理解信息”。

简单说，BERT就像一个“阅读理解高手”，你给它一段文字，它能准确理解文字的意思、上下文关系，甚至能回答关于这段文字的问题，但它不会主动“写文字”或“翻译文字”。

比如你给BERT一段文字：“小明昨天去超市买了牛奶、面包和鸡蛋，今天早上用牛奶和面包做了早餐”，然后问它“小明昨天买了哪几样东西？”，BERT能准确回答“牛奶、面包、鸡蛋”；如果你问它“小明今天早上吃了什么早餐？”，它也能回答“牛奶和面包做的早餐”——这就是它“理解信息”的能力。

BERT的“双向”是什么意思？就是它在理解文字时，会同时从“左往右”和“右往左”看。比如理解“小明买牛奶”，它会同时看“小明”后面的“买牛奶”和“牛奶”前面的“小明买”，这样能更全面地理解句子的意思。以前的AI理解文字只能“从左往右”，容易漏掉“右往左”的关联，而BERT的“双向理解”让它的准确率更高。

现在BERT主要用在哪些地方？

- 搜索引擎：比如你在百度搜“北京最好吃的火锅”，BERT能理解“最好吃”是“求推荐”的意思，而不是“问火锅的味道”，从而给你推荐火锅店，而不是解释“火锅为什么好吃”；

- 文本分类：比如把“我今天心情真好”归为“积极情绪”，把“今天倒霉透了”归为“消极情绪”，BERT能准确判断；

- 问答系统：比如智能客服，你问“我的快递什么时候到”，BERT能理解你问的是“快递时效”，然后调用快递数据给你回答。

（二）GPT：擅长“生成信息”，像个“写作高手”

GPT的全称是“Generative Pre-trained Transformer”，翻译过来是“生成式预训练Transformer”——它的核心特点和BERT正好相反：只用力做“解码器”，不做“编码器”，专门负责“生成新信息”。

简单说，GPT就像一个“写作高手”，你给它一个“开头”或“主题”，它能顺着这个开头往下写，生成连贯、有逻辑的文字。比如你给GPT一个开头“今天早上我在公园跑步时，突然看到一只小狗”，它能接着写“那只小狗浑身是白色的，尾巴摇得特别欢，好像在跟我打招呼。我蹲下来想摸它，它却调皮地往后退了一步，然后又凑过来闻我的手……”

GPT的“预训练”是什么意思？就是它在正式“干活”之前，已经被开发者喂了海量的文字数据（比如几百万本书、几十亿篇文章），提前学会了“文字的用法、语法、逻辑”。就像一个作家在写小说之前，已经读了很多书，积累了足够的知识和写作技巧——这样等到正式写作时，才能下笔如有神。

现在GPT主要用在哪些地方？

- 聊天机器人：比如ChatGPT，你说“给我讲个笑话”，它能生成一个新笑话；你说“帮我写一封请假条”，它能生成一封完整的请假条；

- 文案生成：比如商家用GPT生成产品宣传语、朋友圈文案；

- 代码生成：比如GitHub Copilot（基于GPT技术），你输入“写一个Python的计算器程序”，它能生成完整的代码。

（三）T5：“理解+生成”都擅长，像个“全能选手”

T5的全称是“Text-to-Text Transfer Transformer”，翻译过来是“文本到文本转换Transformer”——它的核心特点是同时用好“编码器”和“解码器”，既擅长“理解信息”，又擅长“生成信息”，是个“全能选手”。

简单说，T5能把所有AI任务都变成“文本到文本”的转换任务。比如：

本小章还未完，请点击下一页继续阅读后面精彩内容！

- 翻译：输入“translate English to Chinese: I love you”，T5输出“我爱你”（理解“翻译需求”，生成“中文翻译”）；

- 摘要：输入“summarize: 小明昨天去超市买了牛奶、面包和鸡蛋，今天早上用牛奶和面包做了早餐，下午还去图书馆借了两本书”，T5输出“小明昨天买了食材，今天早上做了早餐，下午去图书馆借书”（理解“摘要需求”，生成“精简摘要”）；

- 问答：输入“question: 小明昨天买了什么？ context: 小明昨天去超市买了牛奶、面包和鸡蛋”，T5输出“牛奶、面包和鸡蛋”（理解“问题和上下文”，生成“答案”）。

T5就像一个“万能工具”，不管是需要理解的任务，还是需要生成的任务，它都能搞定。不过它的“全能”也有个小缺点：在某些“专精任务”上，比如纯写作，可能不如GPT；纯阅读理解，可能不如BERT——但胜在“啥都会”，适合需要同时处理多种任务的场景，比如智能助手（既需要理解用户的问题，又需要生成回答，还可能需要翻译、摘要）。

五、Transformer的“实际用处”：不止能聊天写文案，这些领域都靠它改变

可能有人会说：“Transformer听起来很厉害，但跟我有啥关系？”其实不然，现在咱们生活中很多常见的功能、常用的APP，背后都有Transformer在“干活”。从日常聊天到工作办公，从娱乐消遣到行业生产，Transformer已经悄悄改变了很多领域。

（一）日常沟通：让AI聊天更“像人”，智能客服不再“答非所问”

以前的智能客服，比如你问“我的快递到哪儿了”，它可能只会机械地回复“请提供订单号”，如果你接着问“没有订单号怎么办”，它就会卡住，或者重复之前的话——这是因为以前的AI“理解不了上下文”。

而用了Transformer的智能客服，能像人一样“连续聊天”。比如：

- 你：“我的快递到哪儿了？”

- 客服：“麻烦提供一下订单号，我帮你查询。”

- 你：“我忘了订单号，只记得昨天买的衣服。”

- 客服：“好的，麻烦提供一下你的手机号，我帮你查找昨天的衣服订单。”

- 你：“手机号是138XXXX1234。”

- 客服：“查到了，你的快递现在在XX快递点，预计今天下午3点前送达。”

这种“能理解上下文、能顺着用户的话回应”的能力，就是Transformer的自注意力机制在起作用——它能记住你前面说的“买衣服”“忘订单号”这些信息，不会像以前那样“断片”。

除了智能客服，咱们用的聊天AI（比如ChatGPT、豆包）能“陪你聊兴趣、帮你解疑惑”，也是因为Transformer能理解你的话题，生成符合语境的回复，不会说“驴唇不对马嘴”的话。

（二）内容创作：从“辅助写”到“自动写”，效率提升好几倍

以前咱们写文案、写报告、写代码，都得自己一个字一个字敲，遇到没思路的时候，可能半天写不出一句话。而有了Transformer之后，AI能成为“内容创作的助手”，甚至在某些场景下“自动创作”。

比如：