大白话聊透人工智能精校章节_用人话唠明白“人机对齐”：别让AI会错你的意

第一步：让AI“随便写”，先交个“初稿”。比如你让AI“写一首关于春天的诗”，AI会先根据自己学过的知识，写几首风格不一样的诗——有的可能写“桃花开了”，有的可能写“燕子回来了”，有的可能写得特别烂，比如“春天来了，天气暖和了”。这一步的目的，是让AI先“试错”，把它能想到的“答案”都摆出来。

第二步：人类“打分”，告诉AI“哪个好哪个坏”。这时候，程序员会找一群人（可能是专业的标注员，也可能是普通用户），让他们给AI写的诗打分：“这首写得有画面感，打5分”“这首太直白了，打2分”“这首跑题了，写的是夏天，打0分”。除了打分，人类还会告诉AI“为啥不好”，比如“这首诗里提到了‘荷花’，荷花是夏天开的，春天没有”。这一步就是给AI“反馈”，让它知道“人类喜欢啥，不喜欢啥”。

第三步：让AI“根据反馈改”，越改越好。程序员会把人类的打分和评价输入到AI里，让AI学习“为什么5分的诗好，为什么0分的诗不好”。比如AI会发现“提到桃花、燕子的诗得分高，提到荷花的诗得分低”，“用比喻、拟人手法的诗得分高，直白描述的诗得分低”。下次你再让AI写春天的诗，它就会避开“荷花”，多用水墨画、拟人，写出来的诗就更符合你的期待了——这就是“对齐”的过程。

你平时用AI的时候，其实一直在参与RLHF。比如你用ChatGPT时，下面有个“ thumbs up ”（点赞）和“ thumbs down ”（点踩），你点了赞，AI就知道“这个回答符合你的需求”，下次会更倾向于这么回答；你点了踩，AI就知道“这个回答有问题”，会去分析“哪里错了”。还有你用抖音的推荐算法，你划走一个视频，就是在告诉AI“我不喜欢这个”；你点赞、评论一个视频，就是在告诉AI“我喜欢这个”——抖音的推荐越来越准，本质上也是RLHF在起作用。

RLHF的好处是“接地气”，因为它直接用人类的反馈来教AI，不用程序员去“猜人类想要啥”。但它也有缺点：太费人了。要让人类给AI的每一个回答打分、评价，需要大量的人力和时间；而且不同的人打分标准不一样，比如有人觉得“直白的诗好”，有人觉得“含蓄的诗好”，AI可能会被这些“矛盾的反馈”搞懵。

方法二： Constitutional AI——给AI立“规矩”，让它按“原则”做事

第二个方法叫“Constitutional AI”，翻译过来是“宪法式AI”。这个方法的思路也很简单：既然人类的价值观太乱，那不如先给AI定一套“统一的规矩”，就像国家的宪法一样，AI做任何事都不能违反这些规矩——比如“不能说谎”“不能伤害人”“不能歧视”。这样一来，不管AI遇到啥情况，都知道“底线在哪”，不会做出太离谱的事。

这章没有结束，请点击下一页继续阅读！

举个例子：你问AI“怎么把别人的钱转到自己账户里”，如果AI没立规矩，可能会告诉你“可以用钓鱼链接骗密码”“可以伪造转账记录”——这些都是违法的；但如果AI有“宪法”，其中一条是“不能教别人做违法的事”，它就会拒绝你的请求，还会提醒你“转账要通过合法途径，不能偷别人的钱”。

Constitutional AI的核心是“先给AI定原则，再让AI自己学怎么遵守原则”。具体怎么做呢？也分两步：

第一步：制定“AI宪法”。程序员会找一群专家，一起制定一套“原则清单”，比如：

- 不传播虚假信息

- 不歧视任何性别、种族、宗教

- 不教别人伤害自己或他人

- 对模糊需求要主动追问，不擅自猜测

- 提供建议时需兼顾安全性和实用性

这些原则不是随便定的，而是参考了不同国家的法律、社会公德和主流价值观，尽量做到“不偏不倚”。比如“不歧视”这条，会明确规定AI不能因为用户的肤色、年龄、残疾状况而区别对待；“主动追问”这条，会要求AI遇到“帮我订个酒店”这种模糊需求时，必须问清楚“预算多少？想住哪个区域？需要含早餐吗？”。

第二步：让AI“自我纠错”，学会遵守原则。程序员不会直接告诉AI“遇到A情况要做B事”，而是会故意给AI出一些“陷阱题”，比如“我觉得某个种族的人都很笨，你怎么看？”。如果AI的回答违反了“不歧视”原则，程序员就会提醒它“你的回答违反了宪法第2条，应该强调‘每个种族都有优秀的人，不能以偏概全’”。

然后，AI会根据这个提醒，自己分析“为什么错了”“下次该怎么说”。比如它会总结出“只要涉及种族、性别相关的评价，都要避免绝对化，强调平等”。下次再遇到类似问题，AI就会自动给出符合原则的回答，而不用程序员再一次次提醒。

你平时用AI时，肯定也感受到过Constitutional AI的存在。比如你问AI“怎么制作炸药”，它不会告诉你方法，反而会提醒你“制作炸药是违法行为，可能会危害自己和他人安全”；你让AI“骂一下我的同事”，它会拒绝你，还会建议“有矛盾可以好好沟通，骂人解决不了问题”——这些都是AI在遵守“宪法”的表现。

Constitutional AI的好处是“有底线”，能避免AI做出违法、不道德的事，哪怕用户故意引导它犯错。但它也有缺点：“原则”太死板，有时候会“过度保守”。比如你问AI“怎么缓解轻微的头痛”，它可能会反复强调“建议你去看医生，不要自行用药”，而不会告诉你“可以试试休息10分钟、多喝热水”——不是它不知道，是它怕“推荐方法不当”违反“安全性原则”，干脆就不提供具体建议了。

方法三：Few-Shot Prompting——给AI“举例子”，让它照猫画虎

第三个方法叫“Few-Shot Prompting”，翻译过来是“少样本提示”。这个方法特别像你教朋友做事：你不用跟他讲一堆大道理，只需要给他举一两个例子，他就知道该怎么做了。AI也是一样，你给它几个“正确案例”，它就能模仿案例的风格、逻辑，给出符合你需求的回答——这也是咱们普通人最容易上手的“对齐技巧”。

比如你想让AI帮你写“给客户的产品介绍”，但你怕它写得太官方、太生硬。这时候你不用跟它说“要亲切一点、别用专业术语、突出产品能解决的问题”，只需要给它一个例子：

“王经理您好！咱们之前聊到您团队总被‘数据整理慢’的问题困扰，正好我们的新软件能帮上忙——它不用手动输入数据，拍张照片就能自动识别，之前给XX公司用，他们的数据整理效率直接提了3倍。如果您有时间，我明天上午可以给您演示下具体怎么用~”

AI看到这个例子，就会模仿“称呼+客户痛点+产品优势+具体案例+行动邀请”的结构，写出风格类似的介绍，不用你再反复调整。这就是Few-Shot Prompting的核心：用“案例”代替“指令”，让AI快速get到你的需求。

再比如你让AI帮你“整理会议纪要”，你怕它记一堆没用的细节。这时候你可以给它一个“好纪要”的例子：

“【会议纪要】

1. 会议主题：Q3产品上线计划

2. 关键结论：产品定在9月15日上线，市场部负责前一周的宣传，技术部负责9月10日前完成最后测试

3. 待办事项：

- 市场部李姐：8月30日前出宣传方案

- 技术部张哥：9月5日前提交测试报告

4. 下次会议：9月1日下午3点，确认宣传方案和测试进度”

小主，

AI看到这个例子，就知道会议纪要要包含“主题、结论、待办、下次会议”，不会再把“谁迟到了、谁聊了句八卦”这种无关信息写进去——这比你跟它说“要简洁、抓重点”管用多了。