1. 大型语言模型是什么?
AI的一个主要例子是大型语言模型(LLMs)。这些模型使用无监督机器学习,并在大量文本上进行训练,以了解人类语言的工作原理。科技公司通常免费从互联网上抓取这些文本以降低成本——包括文章、书籍、网站和论坛的内容等。
在训练过程中,LLMs处理数十亿个单词和短语,以学习模式和它们之间的关系,使模型能够生成对提示的类似人类的答复。但是,再次提醒,这些模型正在复制常见的语法模式和单词配对,尽管在复杂的水平上——它们不像我们那样思考,在这个意义上,它们不能理解事实、逻辑或常识。OpenAI最近发布的GPT-4o目前在Chatbot Arena排行榜上名列前茅。该公司的GPT-4 Turbo被认为是最先进的LLM之一,而GPT-4是最大的LLM,据说有1.78万亿个参数。ChatGPT运行在GPT-3.5和GPT-4上。Gemini由同名的LLM驱动,由谷歌开发,虽然它的参数数量尚未确认,但估计高达175万亿。
2. 神经网络是什么?
机器学习的成功依赖于神经网络。这些是数学模型,其结构和功能松散地基于人脑中神经元之间的连接,模仿它们如何相互发送信号。
想象一群机器人一起解决一个谜题。每个都被编程以识别拼图块中的不同形状或颜色。神经网络就像一群机器人结合他们的能力一起解决谜题。神经网络可以调整内部参数以改变它们的输出。每个都提供数据库以学习在训练期间呈现特定数据时应该输出什么。这些网络由相互连接的算法层组成,这些层将数据输入彼此。神经网络可以通过修改数据在层之间传递时所赋予的重要性来训练以执行特定任务。在这些神经网络的训练期间,随着数据在层之间传递,附加到数据的权重将继续变化,直到神经网络的输出非常接近所需结果。
到那时,网络将已经“学会”如何执行特定任务。所需的输出可以是任何事情,从正确标记图像中的水果到基于其传感器数据预测电梯何时可能发生故障。
3. 深度学习是什么?
深度学习是ML家族的一部分,涉及训练具有三个或更多层的人工神经网络以执行不同任务。这些神经网络扩展到具有大量深层的庞大网络,使用大量数据进行训练。
深度学习模型至少有三层,最多可以有数百层。深度学习可以在训练过程中使用监督或无监督学习或两者兼有。由于深度学习技术可以学习使用AI在数据中识别复杂模式,因此它通常用于自然语言处理(NLP)、语音识别和图像识别。