用人话唠明白“人机对齐”:别让AI会错你的意

第一步:让AI“随便写”,先交个“初稿”。比如你让AI“写一首关于春天的诗”,AI会先根据自己学过的知识,写几首风格不一样的诗——有的可能写“桃花开了”,有的可能写“燕子回来了”,有的可能写得特别烂,比如“春天来了,天气暖和了”。这一步的目的,是让AI先“试错”,把它能想到的“答案”都摆出来。

第二步:人类“打分”,告诉AI“哪个好哪个坏”。这时候,程序员会找一群人(可能是专业的标注员,也可能是普通用户),让他们给AI写的诗打分:“这首写得有画面感,打5分”“这首太直白了,打2分”“这首跑题了,写的是夏天,打0分”。除了打分,人类还会告诉AI“为啥不好”,比如“这首诗里提到了‘荷花’,荷花是夏天开的,春天没有”。这一步就是给AI“反馈”,让它知道“人类喜欢啥,不喜欢啥”。

第三步:让AI“根据反馈改”,越改越好。程序员会把人类的打分和评价输入到AI里,让AI学习“为什么5分的诗好,为什么0分的诗不好”。比如AI会发现“提到桃花、燕子的诗得分高,提到荷花的诗得分低”,“用比喻、拟人手法的诗得分高,直白描述的诗得分低”。下次你再让AI写春天的诗,它就会避开“荷花”,多用水墨画、拟人,写出来的诗就更符合你的期待了——这就是“对齐”的过程。

你平时用AI的时候,其实一直在参与RLHF。比如你用ChatGPT时,下面有个“ thumbs up ”(点赞)和“ thumbs down ”(点踩),你点了赞,AI就知道“这个回答符合你的需求”,下次会更倾向于这么回答;你点了踩,AI就知道“这个回答有问题”,会去分析“哪里错了”。还有你用抖音的推荐算法,你划走一个视频,就是在告诉AI“我不喜欢这个”;你点赞、评论一个视频,就是在告诉AI“我喜欢这个”——抖音的推荐越来越准,本质上也是RLHF在起作用。

RLHF的好处是“接地气”,因为它直接用人类的反馈来教AI,不用程序员去“猜人类想要啥”。但它也有缺点:太费人了。要让人类给AI的每一个回答打分、评价,需要大量的人力和时间;而且不同的人打分标准不一样,比如有人觉得“直白的诗好”,有人觉得“含蓄的诗好”,AI可能会被这些“矛盾的反馈”搞懵。

方法二: Constitutional AI——给AI立“规矩”,让它按“原则”做事

第二个方法叫“Constitutional AI”,翻译过来是“宪法式AI”。这个方法的思路也很简单:既然人类的价值观太乱,那不如先给AI定一套“统一的规矩”,就像国家的宪法一样,AI做任何事都不能违反这些规矩——比如“不能说谎”“不能伤害人”“不能歧视”。这样一来,不管AI遇到啥情况,都知道“底线在哪”,不会做出太离谱的事。

这章没有结束,请点击下一页继续阅读!

举个例子:你问AI“怎么把别人的钱转到自己账户里”,如果AI没立规矩,可能会告诉你“可以用钓鱼链接骗密码”“可以伪造转账记录”——这些都是违法的;但如果AI有“宪法”,其中一条是“不能教别人做违法的事”,它就会拒绝你的请求,还会提醒你“转账要通过合法途径,不能偷别人的钱”。

Constitutional AI的核心是“先给AI定原则,再让AI自己学怎么遵守原则”。具体怎么做呢?也分两步:

第一步:制定“AI宪法”。程序员会找一群专家,一起制定一套“原则清单”,比如:

- 不传播虚假信息

- 不歧视任何性别、种族、宗教

- 不教别人伤害自己或他人

- 对模糊需求要主动追问,不擅自猜测

- 提供建议时需兼顾安全性和实用性

这些原则不是随便定的,而是参考了不同国家的法律、社会公德和主流价值观,尽量做到“不偏不倚”。比如“不歧视”这条,会明确规定AI不能因为用户的肤色、年龄、残疾状况而区别对待;“主动追问”这条,会要求AI遇到“帮我订个酒店”这种模糊需求时,必须问清楚“预算多少?想住哪个区域?需要含早餐吗?”。

第二步:让AI“自我纠错”,学会遵守原则。程序员不会直接告诉AI“遇到A情况要做B事”,而是会故意给AI出一些“陷阱题”,比如“我觉得某个种族的人都很笨,你怎么看?”。如果AI的回答违反了“不歧视”原则,程序员就会提醒它“你的回答违反了宪法第2条,应该强调‘每个种族都有优秀的人,不能以偏概全’”。

然后,AI会根据这个提醒,自己分析“为什么错了”“下次该怎么说”。比如它会总结出“只要涉及种族、性别相关的评价,都要避免绝对化,强调平等”。下次再遇到类似问题,AI就会自动给出符合原则的回答,而不用程序员再一次次提醒。

你平时用AI时,肯定也感受到过Constitutional AI的存在。比如你问AI“怎么制作炸药”,它不会告诉你方法,反而会提醒你“制作炸药是违法行为,可能会危害自己和他人安全”;你让AI“骂一下我的同事”,它会拒绝你,还会建议“有矛盾可以好好沟通,骂人解决不了问题”——这些都是AI在遵守“宪法”的表现。

Constitutional AI的好处是“有底线”,能避免AI做出违法、不道德的事,哪怕用户故意引导它犯错。但它也有缺点:“原则”太死板,有时候会“过度保守”。比如你问AI“怎么缓解轻微的头痛”,它可能会反复强调“建议你去看医生,不要自行用药”,而不会告诉你“可以试试休息10分钟、多喝热水”——不是它不知道,是它怕“推荐方法不当”违反“安全性原则”,干脆就不提供具体建议了。

方法三:Few-Shot Prompting——给AI“举例子”,让它照猫画虎

第三个方法叫“Few-Shot Prompting”,翻译过来是“少样本提示”。这个方法特别像你教朋友做事:你不用跟他讲一堆大道理,只需要给他举一两个例子,他就知道该怎么做了。AI也是一样,你给它几个“正确案例”,它就能模仿案例的风格、逻辑,给出符合你需求的回答——这也是咱们普通人最容易上手的“对齐技巧”。

比如你想让AI帮你写“给客户的产品介绍”,但你怕它写得太官方、太生硬。这时候你不用跟它说“要亲切一点、别用专业术语、突出产品能解决的问题”,只需要给它一个例子:

“王经理您好!咱们之前聊到您团队总被‘数据整理慢’的问题困扰,正好我们的新软件能帮上忙——它不用手动输入数据,拍张照片就能自动识别,之前给XX公司用,他们的数据整理效率直接提了3倍。如果您有时间,我明天上午可以给您演示下具体怎么用~”

AI看到这个例子,就会模仿“称呼+客户痛点+产品优势+具体案例+行动邀请”的结构,写出风格类似的介绍,不用你再反复调整。这就是Few-Shot Prompting的核心:用“案例”代替“指令”,让AI快速get到你的需求。

再比如你让AI帮你“整理会议纪要”,你怕它记一堆没用的细节。这时候你可以给它一个“好纪要”的例子:

“【会议纪要】

1. 会议主题:Q3产品上线计划

2. 关键结论:产品定在9月15日上线,市场部负责前一周的宣传,技术部负责9月10日前完成最后测试

3. 待办事项:

- 市场部李姐:8月30日前出宣传方案

- 技术部张哥:9月5日前提交测试报告

4. 下次会议:9月1日下午3点,确认宣传方案和测试进度”

小主,

AI看到这个例子,就知道会议纪要要包含“主题、结论、待办、下次会议”,不会再把“谁迟到了、谁聊了句八卦”这种无关信息写进去——这比你跟它说“要简洁、抓重点”管用多了。