训练AI的数据要枯竭了吗？-AI商业周刊

当我们兴高采烈的谈论将AI作为提高生产力方式的一种有效手段时，可能不是所有人都可以意识到，我们正在培育着一个人造的巨大婴儿，当然现阶段不止一个，而是很多个。这个人造Baby不仅需要吃喝也需要不断学习长大。这里只是一个比喻，所谓的吃喝，自然是对能源的巨大需求，而当前婴儿对学习数据的需求也是不容小觑的。

早在2006年，还在伊利诺伊大学的李飞飞教授就意识到了互联网上的数据对提升AI训练的有效性。就像李飞飞说的，“很多人关注模型，还是让我们关注数据吧。“于是在2009年，李飞飞到了斯坦福后与她的团队创立了ImageNet，一个用于研究视觉识别的大型视觉数据库，这个数据库自此被广泛用于训练和验证各种计算机视觉模型。

在2012年的一场ImageNet竞赛中，一个叫AlexNet的深度卷积神经网络（CNN）模型脱颖而出，证明了这种网络模型在图像识别任务中的强大能力，从此以后“深度学习”“神经网络”等热门AI词汇在学术界和工业界中频繁出现。AlexNet团队的三个成员现在都是AI领域的重磅级人物。可以这么说，将互联网数据应用到AI训练研究中，推动了人工智能浪潮的起步。

当然值得一提的是，那个时候的训练数据基本都是需要经过人工标注和分类的，从而提高数据的准确性和有效性。为此，亚马逊还专门建立一个众包平台（Amazon Mechanical Turk），让网民们完成数据标注、图像识别、文字转录、调查问卷等任务从而获取报酬。

随着大语言模型LLM登上舞台，训练AI模型发生了改变。LLM采用的是自监督学习方法（Self-Supervised Training），即通过未标注数据中的结构性信息来训练模型，也就是说，用于训练的数据不再需要进行人工标注了，而且数据越多，训练的效果越好。自然而然的，数十年来，在互联网上积累的大量文本数据就成了天然的训练素材。

随着AI训练量指数级的增长，也带来了人工智能符合人们期许的不断提升的优秀表现。但随着这个巨型婴儿的不断长大，它的胃口也越来越大。现如今，AI的开发人员面对的不仅仅是增加芯片，提升服务器算力的需求就可以了，还需要提供源源不断的高质量训练数据。

说到这里，你可以看到，对于人工智能的快速发展，在未来可预见的三大核心要素：首先是电力，人们预期着是否核能可以托底；然后是算力，虽然英伟达的芯片越来越大越来越贵，但好歹还有解决方案；最后一个就是即将枯竭的训练数据。

什么？互联网上的数据不是每时每刻都在由辛勤的网民们自发生成出来吗？怎么会枯竭呢？但现实的情况是，AI这个巨婴的胃口非常大，根据一家研究机构EpochAI的测算，到2028年，互联网上高质量的文本数据会被全部使用完，这在AI领域被称为“数据墙”（Data Wall）。

同时，由于AI训练很多是基于公众的数据，对于是否侵犯公众隐私权的议题也越来越多的浮上水面。不同地区对于公众数据的保护意识或者程度也不同。相对来说，欧洲国家对相关的政策法规更为严格，也就是能使用的数据也相对会缺乏。但随着人们对此重视度的提高，不排除未来获取训练数据的限制会越来越多。

所以说，当前AI的发展所面临的问题，不是电力或者算力的不足，而是未来可预见的学习数据的缺乏。

如何解决这个问题呢？其实办法也比较多，有些还在尝试验证阶段，这里举几个例子。

首当其冲的解决办法，就是如果文本不行了，可以用视频嘛，当然我们是讨论在算力足够应付的情况下。现在OpenAI的GPT-4o还有Google‘s的Gemini都将视频、图片还有音频加入到了他们的自监督训练中。可以想象得出，拿视频作为训练数据是比较难的，考虑到视频文件的数据点密度非常高，因此当前的模型训练基本都是用一系列视频帧来简化处理。

还有一个办法就是使用合成数据（Synthetic Data），也就是使用AI自己产生的数据。一个典型的例子就是Google的DeepMind团队研发的专门下围棋的AlphaGo。刚开始的时候，AlphaGo就是通过学习真实世界中大量棋手的数据而训练出来第一个成功的围棋模型。而之后的升级版本AlphaGo Zero则是直接从自己与自己的对战棋局中学习获胜策略。那么使用这种合成数据进行AI训练的最大好处就是再也没有侵犯数据隐私的问题，而且数据也可以无穷无尽的尽情使用。但缺点在于机器产生的数据，本身就是之前从真实世界学习得出的数据，很可能在对真实世界的模拟上，数据的逼真性上都会不够准确，会因为缺乏细节数据或者数据分布和真实情况不同等原因导致训练效果下降。

最后还有一个可以根本性解决问题的办法就是优化或者升级现有的模型，从而让更少的数据可以达到更好的训练效果。比如，之前我们说过的自监督训练（Self-Supervised Learning）就通过增加人类的反馈机制来提升训练效果，这个反馈机制就叫做“Reinforcement-Learning From Human Feedback”（RLHF）。具体就是采取问答形式，提出问题让机器回答，人对机器回答的结果反馈是好还是不好。这样，人对机器的评价结果反馈回训练数据中，让AI可以不断提升，从而产生符合人类要求的答案或者结果。

当然，最好的还是能有新的模型能够取代当前的Transformer模型，这点我们在之前曾经介绍过，后者的确太消耗数据和算力了。

说到这里，乐观的人也许会说，办法总是比问题要多的。但不论如何，要培养起这个AI巨婴，真正能够产生实际的生产价值，目前来看还需要一段时间，而且代价也是不小的。还是一句老话，让我们且走且看吧。

相关文章

人工智能专业遍地开花，恐怕相当“不智”

AI与智能的差异

【Ai科普】4、什么是人工智能算法？Ai实用宝典之百问百答