您的位置 首页 > AI技术

AI技术趋于停滞,我们如何实现下一个突破

想象一下,你向一个大语言模型(LLM)咨询如何制作完美的披萨,却被建议使用胶水来帮助奶酪粘合 — 或者看着它在普通初中生都不会犯的基本算术上出错。这就是当今生成式AI模型的局限性。

历史告诉我们,技术进步从来不是一条直线。难以察觉的知识和技艺积累遇到了火花,使创新爆发,而最终会达到一个停滞期。在过去几个世纪所有的创新都有一个共同的模式,那就是S曲线。例如:

AI技术趋于停滞,我们如何实现下一个突破

  • 传输控制协议(TCP)/ 互联网协议(IP)综合了1960年代的几项创新。在1973年首次发布后,发展显著加速,它的第四版终于在1981年稳定下来,现在仍在大部分互联网中使用。

  • 在90年代末的浏览器竞争期间,浏览器技术经历了显著改进。一个被动的终端变成了一个快速、互动且完全可编程的平台。在那之后,浏览器之间的转变相对而言是渐进的。

  • 应用商店App Store的推出导致了2010年代初期移动应用创新的爆发。如今,新颖的移动产品已经很少见了。

01

AI 的停滞期

在这次的AI变革中我们刚刚见证了这个模式的发生。阿兰 · 图灵 (Alan Turing) 作为首批计算机科学先驱在1950年的论文中尝试探索如何构建思维机器。

七十多年后,OpenAI抓住了几十年的一些进展,创造了一个大语言模型,它在某种程度上通过了图灵测试 (Turing Test),以一种与人类无差异的方式回答问题(尽管仍然远非完美)。

当ChatGPT在2022年11月首次发布时,震惊全球。随后一段时间中,每一次其后续的发布,以及来自Anthropic、Google和Meta等其他公司的模型发布,在技术上都有了显著的提高。

但现在,每个新模型的发布却进展有限。请看OpenAI模型性能提升的图表:

MMLU是一项基准测试,旨在衡量跨越57个学科(包括STEM、人文学科、社会科学等)的知识。

尽管每个基准测试系统都有其缺陷,但显然变化的速度不再那么引人注目。现在我们需要的同时也是我们最希望即将到来的,是跳跃到下一个S曲线。

我想我们知道现在AI技术停滞的原因,以及怎样才能实现下一个曲线:获取专有数据。

02

下一个曲线:专有业务数据

现在的大型语言模型是基于互联网的公有数据进行训练的。但互联网上的公有文本训练数据早已被使用(想想Github、Reddit、Wordpress和其他公共网站)。这迫使AI公司去搜寻其他数据来源,例如:OpenAI通过Whisper转录了百万小时的YouTube视频用于GPT-4,而另一种策略是通过像ScaleAI这样的服务进行数据标注。

模型提供商可以继续沿着这条道路走下去(毕竟估计有1.5亿小时的YouTube视频),但他们不会通过这种方式逃离S曲线。提高可能是微小的,回报也在下降。合成数据是另一条途径,但它有其自身的局限性和弱点。

我们认为真正能允许人类跳跃到下一个S曲线的突破是工作中产生的数据。工作环境中的数据质量远高于用于训练目的的公有数据,尤其是与转换处理互联网的剩余信息相比 (这可能是为什么很多AI生成的内容已经被称为“垃圾”的原因)。

在工作环境中生成的产品规范、销售PPT或医学研究,比未验证的维基百科页面或Reddit帖子有价值得多,如果这些信息来自各领域顶尖专家那就更好了。

那些解锁世界业务数据的初创企业将有望创造更多价值。我们比较了顶级2C互联网应用的每个用户的平均收入(ARPU)与部分B2B应用的每个用户的价格。即使是最“面向消费者”的企业应用,如Notion,仍然比2C公司每位用户带来的收入高得多:

数学很简单。AI对B2B的价值潜力是巨大的,而现在这些价值很大程度上还未被挖掘。

同时,知识工作者以惊人的速度持续产生业务数据:

  • 在2020年,Zoom捕获了3.3万亿分钟(550亿小时)的会议,这远远超过大约1.5亿小时的YouTube内容所带来的价值。

  • Ironclad每年处理超过10亿份文件。

  • Slack每周发送超过10亿条消息。

在工作环境中产生的数据将推动下一个S曲线。

03

滑坡

当大模型供应商开始解决业务用例时(参见OpenAI对Rockset的收购和Anthropic的最新发布),企业应该保持警惕。OpenAI和Anthropic称他们不会使用业务订阅的数据来训练模型。历史告诉我们,增长带来的压力可能会迫使他们食言。

以Facebook为例,Meta长期声称在用户登出账户时用户在合作伙伴网站上的活动记录不会被记录。而Meta在隐私诉讼中支付了7.25亿美元后,它仍在大规模地获取消费者数据。作为云软件的先驱,Salesforce最初承诺所有客户数据不会与第三方共享。但他们当前的隐私政策否定了这一点。

历史重演,但这次赌注会更高。随着云端的兴起,SaaS应用主要用于“非核心流程” ,任何对企业绝对核心的东西都会内部自建。随着这波AI技术的兴起,在闭源模型中输入的数据可能包括公司的所有数据,公司的知识库、内部流程、合同、个人可识别信息(PII)和其他专有的敏感数据。

这些丰富的数据构成了企业的可持续竞争优势。企业为了保护自己的利益,我们认为企业需要拥有自己的专有模型。

就像《纽约时报》在努力保护其知识产权一样,企业应抵制大型AI公司以公有数据的方式收集其专有数据。

为了充分利用其组织内部的智慧,企业应拥有自己的模型。拥有自己的模型使他们能够在保持竞争优势的同时不断改进优化。我们认为这是跳跃到下一个S曲线的正确方式。

大型AI公司正在迅速成为既得利益者,但初创企业也依然很有机会。我们已经确定了四个能帮创业企业解决AI停滞期的机会,以满足企业面临的需求和要求。

04

四大关键机会

这些是新兴初创企业的四个关键机会领域。我们已经看到每个领域都有巨大的市场需求,使其成为新颠覆者的肥沃土壤。

专家数据

创造新方法来获取AI训练数据有着很大的机会。最高质量的数据将来自每个领域的专家,而不是现在的人工标注。

机会

  • 建立社区

  • 获取专家知识需要初创企业融入顶尖人才社区,而不是传统的远程顾问。Centaur Labs建立了一个由数千名医生、研究人员和医疗专业人员组成的网络。Turing最初作为一家招聘机构,现在使用其300万软件工程师网络支持模型提供商的数据标注和RLHF (Reinforcement Learning from Human Feedback,人类反馈强化学习)。

  • 探索如游戏化等新颖的激励结构

  • Datacurve 通过将客户的数据请求转化为游戏化的“任务”,招募从顶级大学毕业的工程师来完成并获得奖励,从而收集高质量的编程数据。

利用潜在数据

企业应用中已经存在一个数据宝库(如Salesforce、Notion 和 Slack),而这些数据有利于帮助企业进行模型训练或推理。OpenAI最近收购Rockset,将为ChatGPT企业产品提供检索基础设施,也表明了对这一领域的投资增加。

机会

  • 帮助企业准备内部数据用于AI用例

  • 例如,Unstructured 和 Reducto 可以帮助提取复杂的非结构化文件供大模型使用。

  • 创建下一代数据框架

  • 连接企业业务应用中的数据 (Salesforce、Notion、Google Drive等) 供大模型使用。例如,LlamaIndex允许企业加载160多种数据源和格式进行数据处理。

  • 帮助企业识别风险、漏洞和矛盾

  • 例如,Shelf 帮助识别公司知识资产中的不准确性和风险。

在语境中捕捉新数据

在不打扰员工正常工作流程的情况下允许企业捕捉每天生成的新数据,而不是通过与语境无关的数据标注来实现。

机会

  • 捕捉人类智慧

  • 我们2017年关于AI驱动的教练网络(coaching network)的论述说明了为什么在语境中收集新数据如此重要。像Chorus (被ZoomInfo收购) 和Textio这样的应用程式允许组织指导员工更有效地完成工作,并在整个组织中做出更好的决策。

  • 创建跨应用程序的“通用捕捉层”

  • 微软的Recall曾尝试过这一点,但这一领域的赢家需要以隐私和安全为首要考虑。

  • 超越文本

  • 大多数关于训练数据的格式仍然基于文本,这使我们的工作失去了丰富性。我们相信有很大的机会帮助公司理解和解析各种类型的多模态内容。例如,Superlinked正在构建一个将任何类型的数据转化为向量嵌入的平台。Laminar正在构建工具,捕捉AI与人类共创过程中的多形态、形式丰富的数据。

保护知识产权

帮助企业创建和部署自己的定制化模型,使其保持控制并保护专有知识产权。

机会

  • 帮助企业快速且高效地构建和部署自己的定制模型

  • 利用开源模型:我们对Together AI的投资反映了我们坚信这一领域的机会。

  • 确保模型与目标及价值观相符

  • 企业需要确保模型与他们的目标和价值观保持一致。例如,Credo和Holistic正在开发工具对企业所有的AI模型进行治理。

  • 通过设备端保护个人数据

  • 通过联合学习等技术(Apple正在大力投资以保护消费者隐私)允许在不让敏感数据离开用户设备的情况下训练大模型。Flower和FedML开发的框架正在帮助组织实现这一技术。

但是这只是冰山一角:有无数的机会可以解决人工智能瓶颈,跳到人工智能性能的下一个S曲线。这只是正在进行的人类技术进步故事的最新章节。

至关重要的是,下一波技术看起来会像之前的技术一样。人工智能的进步应该基于人的发现和知识,并考虑到以人为中心的隐私和质量。在人与人工智能共同创造的新篇章中,人类需要占据领导地位。


本站涵盖的内容、图片、视频等数据,部分未能与原作者取得联系。若涉及版权问题,请及时通知我们并提供相关证明材料,我们将及时予以删除!谢谢大家的理解与支持!

Copyright © 2023