大白话聊透人工智能精校章节_百度ERNIE 4．5 VL：280亿参数的“全能选手”到底强在哪？

五、实际应用：医疗影像领域的“神助攻”，肺癌检出率提升40%

（三）诊断耗时从45分钟压缩至8分钟：医生更轻松，患者不用等

最后是“诊断耗时从四十五分钟压缩至八分钟”。以前医生分析一张肺部CT图片，需要逐帧查看、仔细辨认，还要翻阅患者的病史资料，整个过程大概需要45分钟，要是遇到患者多的时候，医生会非常劳累，患者也需要排队等很久才能拿到诊断结果，可能会耽误后续治疗。

而ERNIE 4.5 VL把诊断耗时从45分钟压缩到8分钟，相当于效率提升了近5倍，这对医生和患者来说都是天大的好消息。咱们先算一笔时间账：如果一家医院每天有100个患者需要做肺部CT诊断，以前每个患者要45分钟，100个患者就需要4500分钟，也就是75个小时，就算安排10个医生同时工作，每天也得加班才能完成；现在每个患者只需要8分钟，100个患者总共800分钟，不到14个小时，5个医生就能轻松完成，不仅减轻了医生的工作负担，还能减少患者的等待时间。

对患者来说，等待时间的缩短意味着能更快拿到诊断结果，不用在医院耗一整天，也不用因为等待而焦虑。比如以前做肺部CT，早上检查完，可能要等到下午甚至第二天才能拿到报告，心里一直悬着；现在上午检查，中午就能拿到结果，要是没问题，能早点放心回家；要是需要进一步治疗，也能及时安排，不会耽误最佳治疗时机。

对医生来说，不用再把大量时间花在重复的影像分析上，能把更多精力放在和患者沟通、制定治疗方案上。比如以前医生一天大部分时间都在看CT图片，根本没精力和患者详细解释病情；现在有了模型的帮助，8分钟就能完成初步分析，医生只需要在模型结果的基础上做最终确认，剩下的时间就能耐心解答患者的疑问，让患者更安心。

而且，这种高效的诊断方式还能缓解医疗资源紧张的问题。现在很多大医院的放射科医生都严重短缺，患者做影像检查需要排队好几天甚至几周才能预约上；如果用ERNIE 4.5 VL辅助诊断，能大幅提高医院的接诊能力，让更多患者能及时做检查、得到诊断，不用再长时间排队等待。

六、为啥说ERNIE 4.5 VL是“性价比之王”？280亿参数的优势到底在哪？

前面咱们提到，ERNIE 4.5 VL的总参数是280亿，激活参数是3B（30亿），却能实现接近顶级大模型的性能。可能有人会疑惑：“顶级大模型的参数都是上千亿，甚至几千亿，280亿参数为啥能做到差不多的效果？”这正是它的核心优势——“少而精”，堪称大模型里的“性价比之王”。

（一）总参数≠激活参数：不做“无用功”，只调动必要资源

首先要区分两个关键概念：“总参数”和“激活参数”。总参数就像模型的“知识储备库”，里面存储了各种数据、知识和技能，相当于一个超大的图书馆，有280亿本“书”；而激活参数是模型在处理具体任务时，实际用到的“书”，也就是30亿本。

以前的很多大模型，不管处理什么任务，都会把所有的总参数都调动起来，相当于不管你想借一本小说还是一本专业书，都要把整个图书馆的书都翻一遍，既浪费时间，又浪费精力。而ERNIE 4.5 VL采用的是“按需激活”的方式，处理简单任务时，只调动少量激活参数；处理复杂任务时，再适当增加激活参数，不用每次都把280亿总参数都用上。

举个生活中的例子：比如你只是想知道“今天天气怎么样”，这是一个简单任务，ERNIE 4.5 VL只需要调动负责“获取基础信息”的30亿激活参数，就能快速给出答案；如果你想让它“分析一张肺部CT图片并结合病史写诊断建议”，这是一个复杂任务，模型会从280亿总参数的“知识储备库”里调动更多相关的专业知识，比如医疗影像分析、肺癌诊断标准等，但依然不用调动全部参数，只调动必要的部分。

这种“按需激活”的方式，既保证了模型的性能，又避免了资源浪费。就像一辆高性能汽车，平时市区通勤时用经济模式，只启动部分发动机气缸，省油又环保；需要高速行驶或爬坡时，再启动全部气缸，爆发强劲动力。ERNIE 4.5 VL就是这样，简单任务“省着用”，复杂任务“全力上”，做到了性能和效率的平衡。

小主，

（二）280亿参数：足够用的“知识储备”，不用盲目堆参数

可能有人会觉得“参数越多，模型越厉害”，但其实不是这样的。参数数量只是模型性能的一个方面，更重要的是参数的“质量”，也就是模型如何利用这些参数。就像一个人，不是读的书越多就越厉害，关键是能不能把读到的知识融会贯通、灵活运用。

ERNIE 4.5 VL的280亿总参数，已经是一个非常庞大的“知识储备库”了，里面涵盖了文字处理、图片识别、跨模态融合、专业领域知识（比如医疗、法律、教育等）等各种能力。而且，百度在训练这个模型时，用的是高质量的数据，确保每一个参数都能发挥作用，不会出现“无效参数”。

对比那些上千亿参数的顶级大模型，它们虽然参数更多，但很多参数其实是冗余的，也就是“没用的”，只是为了追求参数数量而堆砌，并没有实际作用。而且，参数越多，模型的训练成本、运行成本也越高：训练一次可能需要花费几千万甚至上亿元，运行时需要大量的算力支持，普通企业和开发者根本用不起。

而ERNIE 4.5 VL只用280亿参数，就实现了接近顶级大模型的性能，不仅训练成本和运行成本低了很多，而且普通的服务器甚至高端电脑都能运行，大大降低了使用门槛。对中小企业来说，以前可能因为成本太高，用不起大模型，现在有了ERNIE 4.5 VL，花很少的钱就能享受到接近顶级的AI能力，能快速提升自身的业务效率。

（三）开源属性：人人都能用，加速AI普及

还有一个重要优势是“百度开源”。开源就是百度把这个模型的核心技术、代码公开，任何人都能免费下载、使用、二次开发，不用支付高额的授权费用。

以前的很多顶级大模型都是闭源的，只有少数大企业能拿到授权，中小企业和个人开发者根本用不起。而ERNIE 4.5 VL开源后，不管是创业公司、科研机构，还是普通的开发者，都能拿来用：比如创业公司可以用它开发图片识别APP、智能客服系统；科研机构可以用它做AI技术的研究和实验；个人开发者可以用它做各种有趣的小应用，比如图片转文字、智能翻译工具等。

开源不仅能让更多人受益于AI技术，还能促进整个AI行业的发展。因为开发者们可以在ERNIE 4.5 VL的基础上，根据自己的需求进行优化和升级，比如针对教育领域，开发专门的“学生作业批改模型”；针对农业领域，开发“农作物病虫害识别模型”；针对工业领域，开发“设备故障检测模型”等。这些二次开发的应用，能让AI技术渗透到更多行业，解决更多实际问题。

而且，开源还能让模型变得更强大。因为全世界的开发者都能给百度反馈使用过程中遇到的问题，百度可以根据这些反馈不断优化模型，迭代升级，让它的性能越来越强。就像一个开源的软件，比如Linux系统，因为有全世界开发者的参与和贡献，才变得越来越完善、越来越好用。

七、异构混合专架架构的“隐藏优势”：灵活适配多场景，不用反复换模型

前面咱们讲过异构混合专架架构的基本原理，其实它还有一个“隐藏优势”——灵活适配多场景，不管是处理文字、图片，还是复杂的跨模态任务，甚至是专业领域的任务，都能轻松应对，不用用户反复更换模型。

（一）多场景无缝切换：一个模型搞定所有需求

以前的AI模型大多是“单一功能”的：处理文字的只能处理文字，比如只能做翻译、写文案；处理图片的只能处理图片，比如只能做图片识别、美颜；处理医疗影像的只能处理医疗影像，不能做其他事情。如果用户有多个需求，比如既想让模型分析一张图片，又想让它根据图片写一段文案，还想让它把文案翻译成英文，就需要同时使用多个模型，操作很麻烦，而且不同模型之间的信息不能互通，体验很差。

而ERNIE 4.5 VL的异构混合专架架构，整合了文字、视觉、跨模态等不同类型的“专家”，能实现多场景无缝切换。比如你可以先给它发一张风景图片，让它“描述图片里的内容”（视觉+文字任务）；然后让它“根据图片描述写一首诗”（文字创作任务）；再让它“把这首诗翻译成英文”（翻译任务）；最后让它“分析这首诗的意境和修辞手法”（文学分析任务）。这一系列任务，都能在同一个模型里完成，不用切换其他工具，而且模型能记住前面的操作，比如写的诗和翻译结果，分析意境时会结合这些内容，结果更准确。

这种多场景适配能力，对普通用户来说，意味着不用下载很多APP，一个工具就能满足各种AI需求；对企业来说，不用购买多个不同功能的AI系统，只需要部署一个ERNIE 4.5 VL，就能处理客服、文案、设计、数据分析等多个岗位的工作，大大降低了企业的运营成本。

本小章还未完，请点击下一页继续阅读后面精彩内容！

（二）专业领域快速适配：不用从零开发专业模型

除了通用场景，ERNIE 4.5 VL还能快速适配各种专业领域，比如医疗、法律、教育、工业等，不用像以前那样，针对每个专业领域都从零开发一个模型。

这是因为它的异构混合专架架构支持“模块化升级”，也就是可以在现有架构的基础上，增加专业领域的“专家模块”，就能快速具备该领域的专业能力。比如想让它具备法律领域的能力，只需要增加一个“法律专家模块”，输入大量的法律法规、案例数据进行训练，它就能学会分析合同、解答法律问题；想让它具备教育领域的能力，增加一个“教育专家模块”，输入大量的教材、题库数据，它就能学会批改作业、解答学生的疑问。

以前开发一个专业领域的AI模型，需要投入大量的人力、物力和时间，可能需要几个月甚至几年才能完成，而且成本很高；现在有了ERNIE 4.5 VL，只需要在它的基础上进行少量的二次开发，就能快速得到一个专业模型，成本降低了90%以上，效率提升了几十倍。

比如一家医疗设备公司，想开发一个辅助医生诊断皮肤病的AI系统，以前可能需要组建一个庞大的研发团队，收集大量的皮肤病影像数据和病例，训练几个月才能出原型；现在只需要下载ERNIE 4.5 VL，增加一个“皮肤病诊断专家模块”，输入相关的影像和病例数据，几周就能完成开发，快速投入使用。

这种快速适配专业领域的能力，能让AI技术更快地落地到各行各业，解决更多专业场景的痛点问题，推动整个社会的数字化转型。

八、128k超长上下文的“隐藏价值”：不止能记长文本，还能做复杂任务规划

前面咱们讲了128k超长上下文能“记住”几万字的信息，其实它还有一个“隐藏价值”——能做复杂任务规划，也就是让模型根据长文本信息，制定详细的执行计划，甚至完成多步骤的复杂任务。

（一）复杂任务规划：让模型成为你的“专属助理”

比如你是一个项目负责人，需要组织一个大型的线下活动，你可以给ERNIE 4.5 VL发一份几万字的活动需求文档，里面包括活动主题、参与人数、预算、时间节点、场地要求、流程安排等信息，然后让它“根据这份需求文档，制定一份详细的活动执行计划，包括人员分工、物资采购清单、宣传方案、应急预案等”。

因为模型能记住文档里的所有关键信息，所以它能制定出一份非常详细、贴合需求的执行计划：比如根据参与人数确定场地大小和物资数量，根据预算分配各个环节的费用，根据时间节点安排宣传、报名、现场布置等工作的时间，根据活动主题设计宣传方案，还能考虑到可能出现的突发情况（比如天气变化、设备故障、人员不足等），制定对应的应急预案。

以前做这样的执行计划，可能需要你和团队成员开会讨论几天，反复修改才能确定；现在有了ERNIE 4.5 VL，只需要把需求文档发给它，几十分钟就能得到一份完整的计划，你只需要在它的基础上做少量调整，就能直接使用，大大节省了时间和精力。

再比如你是一个学生，需要写一篇几万字的毕业论文，你可以给模型发一份详细的论文大纲和参考文献，让它“根据大纲和参考文献，制定一份论文写作计划，包括每个章节的写作重点、写作时间安排、需要补充的资料等”。模型能记住大纲里的逻辑结构和参考文献里的核心观点，制定出合理的写作计划，还能提醒你每个章节需要注意的问题，比如文献引用格式、逻辑连贯性等，帮你少走很多弯路。

（二）多步骤任务执行：让模型帮你“一步步搞定”

除了任务规划，128k超长上下文还能让模型帮你执行多步骤的复杂任务。比如你想让模型帮你写一份产品推广方案，需要完成以下步骤：1. 分析产品的核心卖点；2. 确定目标用户群体；3. 设计推广渠道；4. 制定推广预算；5. 撰写推广文案；6. 制定效果评估方案。

你可以给模型发一份产品介绍文档（几万字），然后让它“按照以下步骤帮我写一份产品推广方案：1. 分析产品的核心卖点；2. 确定目标用户群体；3. 设计推广渠道；4. 制定推广预算；5. 撰写推广文案；6. 制定效果评估方案”。模型能一次性记住所有步骤和产品介绍里的信息，一步步完成任务：先从产品介绍里提炼核心卖点，再根据卖点确定目标用户群体，然后针对目标用户设计合适的推广渠道，再根据渠道制定预算，接着撰写推广文案，最后制定效果评估方案，整个过程一气呵成，不用你反复提醒或补充信息。

以前做这样的多步骤任务，可能需要你先自己分析产品卖点，再找资料确定目标用户，然后设计推广渠道，每个步骤都要单独操作，而且容易出现前后不一致的情况；现在有了模型的帮助，能一次性完成所有步骤，而且各个环节衔接紧密，方案的逻辑性和完整性都更好。

本小章还未完，请点击下一页继续阅读后面精彩内容！

九、卷积码量化算法的“额外福利”：降低使用门槛，人人都能用得起

（二）减少能源消耗：更环保、更省钱

除了降低硬件门槛，卷积码量化算法还能减少模型运行时的能源消耗。因为模型的计算量降低了，硬件设备运行时的耗电量也会随之减少，不仅能节省电费，还能减少碳排放，更环保。

以前一台运行大模型的服务器，每天的耗电量可能要几十度甚至上百度，一年的电费就要几万元；现在用普通电脑运行ERNIE 4.5 VL，每天的耗电量可能只有几度，一年的电费只有几百元，对企业来说，长期下来能节省一笔不小的开支。

而且，减少能源消耗也符合国家“双碳”战略的要求，能为环保事业做出贡献。现在很多企业都在追求绿色发展，使用ERNIE 4.5 VL这样能耗低的AI模型，不仅能降低运营成本，还能提升企业的社会形象，可谓一举两得。

（三）适配移动设备：手机上也能流畅用，随时随地享AI服务

更让人惊喜的是，卷积码量化算法让ERNIE 4.5 VL具备了适配移动设备的能力。以前的大模型因为体积大、计算量大，根本无法在手机、平板等移动设备上运行，用户只能通过电脑或在线平台使用；现在，经过“瘦身”后的ERNIE 4.5 VL，体积大幅缩小，计算量也降到了移动设备能承受的范围，未来很可能会推出手机版APP，让用户随时随地都能享受AI服务。