- 再迭代:你把一条“黑色长裙”加入购物车(新信息),似然度调整后,“你喜欢长裙”的后验概率升高,AI又会多推长裙。
为什么有时候AI会“推错”?比如你误点了一条“男士运动鞋”,AI就会短暂把“你可能买男士鞋”的概率升高,推几次后发现你没再点击,又会把这个概率降下来——这其实就是贝叶斯在“试错修正”。
应用2:垃圾邮件过滤——“AI怎么知道这封是诈骗邮件?”
你邮箱里的“垃圾邮件过滤”功能,背后也是贝叶斯推理。AI要判断“这封邮件是不是垃圾邮件”,步骤如下:
- 先验概率:根据“全平台邮件里,垃圾邮件占20%”,定“这封是垃圾邮件”的先验概率20%;
- 似然度:提取邮件里的关键词,比如“免费领取”“银行卡号”“点击链接”——算似然度:
1. 如果是垃圾邮件,出现“免费领取”的概率是90%(垃圾邮件爱用这词);
本小章还未完,请点击下一页继续阅读后面精彩内容!
2. 如果是正常邮件,出现“免费领取”的概率是5%(正常邮件很少用);
3. 同理,“银行卡号”在垃圾邮件里出现概率85%,正常邮件里1%;
- 后验概率:把这些关键词的似然度结合起来,算出来“这封是垃圾邮件”的概率升到99.5%——AI就把它归为垃圾邮件。
这种过滤方式比“固定关键词黑名单”好用多了:比如正常邮件里也可能有“免费领取”(比如公司发的福利通知),贝叶斯会根据“其他关键词”(比如有没有“尊敬的员工”“公司名称”)调整概率,不会误判;而如果垃圾邮件换了新关键词(比如“限时放送”),AI也能通过“新关键词的似然度”慢慢学习,更新判断。
应用3:语音助手——“你说的‘开空调’,AI怎么听懂的?”
你跟Siri、小爱同学说“开空调”,它们能听懂,不是因为“认识这三个字”,而是贝叶斯在帮它们“猜你说的是什么”。
因为语音信号是“模糊的”:你说“开空调”,可能因为口音、环境噪音,AI接收到的信号是“开空tiao”“开kong调”“开空diao”——它要从这些模糊信号里,找出“最可能的正确指令”。
步骤如下:
- 先验概率:根据“你之前经常说‘开空调’,很少说‘开空掉’‘开空调’”,定“你说的是开空调”的先验概率80%;
- 似然度:分析语音信号的特征(比如“tiao”的发音频率、时长)——算似然度:
1. 如果正确指令是“开空调”,发出“开空tiao”信号的概率是90%;
2. 如果正确指令是“开空掉”,发出“开空tiao”信号的概率是10%;
- 后验概率:算出来“正确指令是开空调”的概率升到97%——AI就执行“开空调”的指令。
如果AI猜错了,比如你说“开台灯”,它听成“开台灯”(其实是“开台灯”),你纠正它“是台灯不是台灯”——这时候“开台灯”的先验概率就会升高,下次再听到类似信号,AI就会优先猜“开台灯”。
应用4:医疗AI诊断——“AI怎么帮医生判断肿瘤是良性还是恶性?”
在医疗领域,贝叶斯推理是AI辅助诊断的“核心工具”,比如判断“肺部结节是不是恶性肿瘤”:
- 先验概率:根据“40岁以上人群中,肺部结节是恶性的概率约5%”,定“这个病人的结节是恶性”的先验概率5%;
- 似然度:结合病人的其他信息——
1. 吸烟史:恶性结节患者里,有吸烟史的占80%;良性结节患者里,有吸烟史的占20%;
2. 结节大小:恶性结节中,直径大于1cm的占90%;良性结节中,直径大于1cm的占10%;
3. CT特征:恶性结节有“毛刺征”(边缘不光滑)的占75%;良性结节有“毛刺征”的占5%;
- 后验概率:把这些信息的似然度结合起来,比如病人“有吸烟史+结节直径1.2cm+有毛刺征”,算出来“结节是恶性”的后验概率升到85%——AI就会提醒医生“这个结节恶性风险高,建议进一步检查”。
这里要强调:医疗AI不是“代替医生”,而是用贝叶斯推理把“零散的医学指标”变成“量化的概率”,帮医生减少漏诊、误诊的风险——毕竟医生要记那么多病例,AI用贝叶斯能更高效地整合信息。
五、贝叶斯推理不是“万能的”,这些坑它也躲不过
虽然贝叶斯推理很厉害,但它不是“AI的万能药”,也有自己的短板。了解这些短板,能帮你更理性地看待AI的判断。
坑1:“先验概率”错了,后面全错
贝叶斯推理的起点是“先验概率”,如果先验概率本身错得离谱,那后面的更新也会跟着错。
比如:AI要判断“一个人是不是喜欢篮球”,但它的先验概率是“所有女性都不喜欢篮球”(这是个错误的偏见)——哪怕这个女性点赞了10条篮球视频,AI算出来的后验概率也可能很低,还是不推篮球内容。
这就是为什么AI会出现“性别偏见”“地域偏见”——本质上是“先验概率”里带了偏见数据(比如训练数据里,女性篮球内容太少)。要解决这个问题,就得让AI的“先验概率”更客观,比如用更均衡的训练数据。
坑2:“信息太多”时,算不过来
贝叶斯推理要算“所有可能的猜测”和“所有新信息的似然度”,如果信息太多,AI的计算量会变得特别大。
比如:AI要推荐“一首你喜欢的歌”,需要考虑的信息有“你喜欢的曲风(流行、摇滚、古典)”“你喜欢的歌手”“你听歌的时间(早上、晚上)”“你所在的场景(通勤、工作)”——要算的“似然度”会成指数级增长,AI可能会“算不过来”,导致推荐变慢或不准。
这章没有结束,请点击下一页继续阅读!
为了解决这个问题,AI工程师会给贝叶斯“减负”,比如忽略一些“相关性低的信息”(比如“你昨天吃的饭”跟“