- 处理图片:把图片的每个像素按“从左到右、从上到下”的顺序当成序列;
- 处理语音:把声音的波形按时间顺序当成序列。
这种“通用性”让AI开发者省了大麻烦:以前开发一个新AI,得重新设计一套“脑回路”;现在只要基于Transformer,稍微改改细节,就能做出处理不同信息的AI。比如OpenAI开发ChatGPT(处理文字)和DALL·E(处理图文),用的都是Transformer的核心技术——这也是近几年AI产品“井喷”的重要原因。
(四)优势4:“容易训练”,普通团队也能用上
以前的AI技术,不仅难设计,还难“训练”。要让AI学会一项技能,比如翻译,得给它喂大量数据,还得用特别复杂的参数调整方法,只有谷歌、微软这样的大公司才有资源做。
而Transformer的结构设计得特别“简洁”,虽然核心是自注意力机制和编码器-解码器,但里面的参数调整逻辑很清晰,普通的研发团队只要有足够的数据,就能用Transformer训练出自己的AI。比如现在很多高校的学生,用Transformer做一个简单的“聊天机器人”或“文案生成器”,几个月就能搞定;而在以前,这可能需要一个专业团队花好几年时间。
而且现在市面上有很多“现成的Transformer工具包”,比如PyTorch里的Transformer模块、Hugging Face的Transformers库,开发者不用自己写复杂的代码,直接调用工具包就能搭建AI模型——这让Transformer的“普及速度”大大加快,从大公司的“专属技术”变成了“全民可用的工具”。
这章没有结束,请点击下一页继续阅读!
四、Transformer的“家族成员”:不止一种,不同成员有不同用处
虽然咱们都叫它“Transformer”,但实际上它不是“一个东西”,而是一个“家族”。这些年开发者在原始Transformer的基础上,根据不同的任务需求,改造出了很多“家族成员”,比如BERT、GPT、T5等等。这些成员的核心还是Transformer,但侧重点不同,就像同一个家族里,有人擅长文科,有人擅长理科。咱们挑几个最常见的成员,用大白话讲讲它们的区别。
(一)BERT:擅长“理解信息”,像个“阅读理解高手”
BERT的全称是“Bidirectional Encoder Representations from Transformers”,翻译过来就是“来自Transformer的双向编码器表示”——听着绕,其实它的核心特点就一个:只用力做“编码器”,不做“解码器”,专门负责“理解信息”。
简单说,BERT就像一个“阅读理解高手”,你给它一段文字,它能准确理解文字的意思、上下文关系,甚至能回答关于这段文字的问题,但它不会主动“写文字”或“翻译文字”。
比如你给BERT一段文字:“小明昨天去超市买了牛奶、面包和鸡蛋,今天早上用牛奶和面包做了早餐”,然后问它“小明昨天买了哪几样东西?”,BERT能准确回答“牛奶、面包、鸡蛋”;如果你问它“小明今天早上吃了什么早餐?”,它也能回答“牛奶和面包做的早餐”——这就是它“理解信息”的能力。
BERT的“双向”是什么意思?就是它在理解文字时,会同时从“左往右”和“右往左”看。比如理解“小明买牛奶”,它会同时看“小明”后面的“买牛奶”和“牛奶”前面的“小明买”,这样能更全面地理解句子的意思。以前的AI理解文字只能“从左往右”,容易漏掉“右往左”的关联,而BERT的“双向理解”让它的准确率更高。
现在BERT主要用在哪些地方?
- 搜索引擎:比如你在百度搜“北京最好吃的火锅”,BERT能理解“最好吃”是“求推荐”的意思,而不是“问火锅的味道”,从而给你推荐火锅店,而不是解释“火锅为什么好吃”;
- 文本分类:比如把“我今天心情真好”归为“积极情绪”,把“今天倒霉透了”归为“消极情绪”,BERT能准确判断;
- 问答系统:比如智能客服,你问“我的快递什么时候到”,BERT能理解你问的是“快递时效”,然后调用快递数据给你回答。
(二)GPT:擅长“生成信息”,像个“写作高手”
GPT的全称是“Generative Pre-trained Transformer”,翻译过来是“生成式预训练Transformer”——它的核心特点和BERT正好相反:只用力做“解码器”,不做“编码器”,专门负责“生成新信息”。
简单说,GPT就像一个“写作高手”,你给它一个“开头”或“主题”,它能顺着这个开头往下写,生成连贯、有逻辑的文字。比如你给GPT一个开头“今天早上我在公园跑步时,突然看到一只小狗”,它能接着写“那只小狗浑身是白色的,尾巴摇得特别欢,好像在跟我打招呼。我蹲下来想摸它,它却调皮地往后退了一步,然后又凑过来闻我的手……”
GPT的“预训练”是什么意思?就是它在正式“干活”之前,已经被开发者喂了海量的文字数据(比如几百万本书、几十亿篇文章),提前学会了“文字的用法、语法、逻辑”。就像一个作家在写小说之前,已经读了很多书,积累了足够的知识和写作技巧——这样等到正式写作时,才能下笔如有神。
现在GPT主要用在哪些地方?
- 聊天机器人:比如ChatGPT,你说“给我讲个笑话”,它能生成一个新笑话;你说“帮我写一封请假条”,它能生成一封完整的请假条;
- 文案生成:比如商家用GPT生成产品宣传语、朋友圈文案;
- 代码生成:比如GitHub Copilot(基于GPT技术),你输入“写一个Python的计算器程序”,它能生成完整的代码。
(三)T5:“理解+生成”都擅长,像个“全能选手”
T5的全称是“Text-to-Text Transfer Transformer”,翻译过来是“文本到文本转换Transformer”——它的核心特点是同时用好“编码器”和“解码器”,既擅长“理解信息”,又擅长“生成信息”,是个“全能选手”。
简单说,T5能把所有AI任务都变成“文本到文本”的转换任务。比如:
本小章还未完,请点击下一页继续阅读后面精彩内容!
- 翻译:输入“translate English to Chinese: I love you”,T5输出“我爱你”(理解“翻译需求”,生成“中文翻译”);
- 摘要:输入“summarize: 小明昨天去超市买了牛奶、面包和鸡蛋,今天早上用牛奶和面包做了早餐,下午还去图书馆借了两本书”,T5输出“小明昨天买了食材,今天早上做了早餐,下午去图书馆借书”(理解“摘要需求”,生成“精简摘要”);
- 问答:输入“question: 小明昨天买了什么? context: 小明昨天去超市买了牛奶、面包和鸡蛋”,T5输出“牛奶、面包和鸡蛋”(理解“问题和上下文”,生成“答案”)。
T5就像一个“万能工具”,不管是需要理解的任务,还是需要生成的任务,它都能搞定。不过它的“全能”也有个小缺点:在某些“专精任务”上,比如纯写作,可能不如GPT;纯阅读理解,可能不如BERT——但胜在“啥都会”,适合需要同时处理多种任务的场景,比如智能助手(既需要理解用户的问题,又需要生成回答,还可能需要翻译、摘要)。
五、Transformer的“实际用处”:不止能聊天写文案,这些领域都靠它改变
可能有人会说:“Transformer听起来很厉害,但跟我有啥关系?”其实不然,现在咱们生活中很多常见的功能、常用的APP,背后都有Transformer在“干活”。从日常聊天到工作办公,从娱乐消遣到行业生产,Transformer已经悄悄改变了很多领域。
(一)日常沟通:让AI聊天更“像人”,智能客服不再“答非所问”
以前的智能客服,比如你问“我的快递到哪儿了”,它可能只会机械地回复“请提供订单号”,如果你接着问“没有订单号怎么办”,它就会卡住,或者重复之前的话——这是因为以前的AI“理解不了上下文”。
而用了Transformer的智能客服,能像人一样“连续聊天”。比如:
- 你:“我的快递到哪儿了?”
- 客服:“麻烦提供一下订单号,我帮你查询。”
- 你:“我忘了订单号,只记得昨天买的衣服。”
- 客服:“好的,麻烦提供一下你的手机号,我帮你查找昨天的衣服订单。”
- 你:“手机号是138XXXX1234。”
- 客服:“查到了,你的快递现在在XX快递点,预计今天下午3点前送达。”
这种“能理解上下文、能顺着用户的话回应”的能力,就是Transformer的自注意力机制在起作用——它能记住你前面说的“买衣服”“忘订单号”这些信息,不会像以前那样“断片”。
除了智能客服,咱们用的聊天AI(比如ChatGPT、豆包)能“陪你聊兴趣、帮你解疑惑”,也是因为Transformer能理解你的话题,生成符合语境的回复,不会说“驴唇不对马嘴”的话。
(二)内容创作:从“辅助写”到“自动写”,效率提升好几倍
以前咱们写文案、写报告、写代码,都得自己一个字一个字敲,遇到没思路的时候,可能半天写不出一句话。而有了Transformer之后,AI能成为“内容创作的助手”,甚至在某些场景下“自动创作”。
比如: