大白话聊透人工智能精校章节_大白话解读：为啥说数据是AI的“粮食”？

这事儿就充分说明：数据的“相关性”比“量”更重要。就算数据量不大，但只要跟任务相关，AI也能学准；要是数据不相关，就算量再大，也是白费功夫。就像咱们学生考试，要是复习的时候只看跟考试无关的书，比如考数学，却看了一堆语文小说，就算看再多，数学也考不好；只有看数学课本、习题册，才能考出好成绩，AI也是这个道理。

五、现在的大模型：靠万亿级数据，才成了“通才”

咱们现在常听人说“AI大模型”，比如GPT-4、文心一言，这些大模型跟之前的AI不一样，它们像“通才”一样，能做很多事情——能写文章、能做PPT、能翻译外语、能帮人改代码，甚至还能跟人讨论哲学问题。为啥它们这么厉害？核心原因还是“数据”——它们背后有万亿级别的数据支撑。

之前的AI，比如咱们说的语音助手、早期的图像识别AI，大多是“专才”，只能做一件事：语音助手只能听说话、执行简单指令，没法写文章；图像识别AI只能认图片，没法翻译。因为它们背后的数据量不够大，而且类型单一——语音助手只有语音数据，图像识别AI只有图片数据，所以只能学一样技能。

这章没有结束，请点击下一页继续阅读！

但大模型不一样，它们的“知识库”特别全。开发者会给它们喂各种各样的数据：有全世界的书籍、论文，比如《红楼梦》《哈利·波特》，还有物理、化学、生物的学术论文；有网上的新闻、博客、论坛帖子，比如人民日报的新闻、知乎上的问答、微博上的话题讨论；还有图像、音频、视频数据，比如成千上万张风景照、音乐片段、电影片段。这些数据加起来，量级达到了“万亿级”——你可以理解成，相当于给大模型读了几千亿本书，看了几万亿张图，听了几万亿段声音。

有了这么多、这么全的数据，大模型才能像“通才”一样，啥都会一点。比如你让它写一篇关于“环保”的文章，它能从之前学过的环保论文、新闻里提取信息，组织成通顺的文字；你让它翻译一段英语，它能从学过的双语资料里找到对应的中文表达；你让它帮你改代码，它能从学过的编程教程、代码案例里找到错误，给出修改建议。

要是没有这么多数据，大模型也成不了“通才”。比如给它的数据只有中文书籍，没有英语资料，那它就没法翻译英语；给它的数据只有小说，没有编程资料，那它就没法改代码。就像一个人，要是只读过语文书，没读过数学、英语、物理书，那他只能会语文，其他科目都不会；只有读了各种各样的书，才能成为“全才”，大模型也是这个逻辑。

六、总结：数据是AI的“血液”，没它AI就“活”不了

咱们聊到这儿，相信大家都明白数据对AI有多重要了。最后咱们再总结一下：

数据就像AI的“粮食”，没有粮食，AI就没法“吃饭”，更没法“干活”；数据也像AI的“血液”，贯穿了AI从研发到应用的全过程——研发AI的时候，需要用数据让AI“学习”；AI投入使用后，还需要不断用新数据让AI“更新知识”，比如语音助手得不断收集新的语音数据，才能听懂更多人的话；大模型得不断收集新的书籍、新闻数据，才能知道最新的信息，比如“今年的世界杯冠军是谁”“最新的科技发明是什么”。

要是没有数据，AI就只是一个没有灵魂的程序，就算算法再先进，也啥都做不了。就像一辆没有油的汽车，就算车再贵、配置再好，也开不动；AI没有数据，就算技术再厉害，也没法发挥作用。

现在AI技术越来越普及，咱们生活里到处都是AI——刷视频的时候，AI会推荐你