GTP-3算法是一种“暴力美学”的胜利

发布日期：2021-02-03 15:45:50编辑：音乐人

2016 年，AlphaGo 可以说确立了 AI 的“围棋霸权”。但人工智能专家李志飞却说，“AlphaGo 更多是对人类心智的冲击”。在过去 5 年里，他认为去年问世的 AI GPT-3 的现实影响力可能会比 AlphaGo 更大，因为 GPT-3 让人类真切看到了通用语言智能的希望。

AlphaGo 虽能轻松击败人类，但也只限于围棋等专精领域，无法“触类旁通”；而 GPT-3 除了文本联想、翻译、写诗，还能画画、做财务报表、编程，“一个模型就可以做所有事”。通用，就是 GPT-3 的革命性。

李志飞把 GPT-3 形容为“一位科科都是高分的全才”。更让人激动的是，这么一个优秀的学生在学习过程中居然是无监督、完全自主驱动的，也就是学习过程它不需要人们提供有答案的练习题来复习测验（微调模型），只要给他无限多的文本序列，就能自动从文本里学到各种知识。

GPT-3 几乎是把整个互联网的浩瀚内容全部读完了。它总共阅读了大约 5000 亿词，模型大概有 1750 亿参数。系统有上万个 CPU/GPU 在 24 小时不间断地“阅读”任何领域的信息，半个月即可读完整个互联网的内容。猛灌数据量，是这个 AI 模型的“暴力”所在。

“我以前特别反对‘暴力’，觉得没有什么深度，研究也没有美感。”但是最近的很多现实进展，也让他开始相信这种训练 AI 的方法，这是一种“先求其然，再求其所以然”的功能主义。这种方法或许能让人类更早造出更接近人类的通用人工智能。

“暴力”的背后，是烧钱耗力。GPT-3 这个 AI 模型运算一次要花 450 万美金，可能比发一个卫星还贵。那么，中国是不是就不能做？李志飞说，“不是。因为很多系统第一次做出来时特别难，但是很快就有特别多的优化，成本大幅度的降低，我们可以做出同样甚至更好的系统。”

李志飞还认为，2020 年可能是通用 AI 的元年。对于人们对未来 AI 的恐惧心理，他说，“别怕。”

以下是李志飞的演讲实录，由极客公园编辑整理。

GPT-3，通向通用 AI 智能的希望

李志飞的 AI 语音替身：出门问问创始人兼 CEO 李志飞对 GPT-3 的技术突破感到激动，他认为 GPT-3 让人类真切看到了通往更加通用的语言智能的希望。李志飞是自然语言处理及人工智能专家，美国约翰霍普金斯大学计算机系博士，前 Google 总部科学家。通过他的解读你将能够理解 GPT-3 是谁，他厉害在哪里，以及未来会如何进化。

大家好，我是出门问问的李志飞，刚刚前面大家听到这个欢迎我的视频可能觉得很奇怪，感觉我是自己给自己录了个音然后欢迎我自己，但是其实不是这样的，这不是我的录音，而是我的 AI 语音的替身产生出来的声音。他基本上把我的湖南普通话已经学的非常像了，已经达到以假乱真的目的了。

在过去几年其实有很多这样的 AI 系统，比如语音助手、比如人脸识别、比如声音的替身，都进入了我们日常生活。但是所有的这些系统很大的问题是“不通用”，就是一个系统只能干一件事情，干不了很多事情。

今天我想花时间跟大家聊一下怎么做一个更加通用的人工智能系统。我会跟大家举例子——GPT-3。

GPT-3 是什么？GPT-3 本质上是一个语言模型，语言模型通过对语言进行建模，他可以生成或者预测语言，也可以判断这个语言好跟坏。GPT-3 是一个科研组织 OpenAI 创立的语言模型。

OpenAI 很多人可能非常陌生，但是其实说起他的联合创始人、早期的创始人就非常清楚了，他是 Elon Musk。

这个 GPT-3 这么神奇，他都能干什么？他其实可以做很多事情。比如他可以写作文，你给他开一个头，然后他就可以把整个文章写出来。而且他写出的文章句子非常通顺，更关键的是他段落之间逻辑也非常自洽。

网上有人把 GPT-3 写出来的文章和人类写出的文章给另外一个人判断，到底哪些机器写的，哪些是人类写的，其实人已经很难分出来了，所以他基本上可以以假乱真。

除了写文章，他也可以进行对话，而且他对话的内容可以非常的广泛，天文、地理、历史都可以。网上利用 GPT-3 创建了一个 Elon Musk 的对话机器人，人类跟 Elon Musk 对话机器人进行对话的时候，你会发现这个对话机器人他可以像 Elon Musk 一样说话。

比如他经常会讲到人类、火星、太空、地域性原理等这些普通人类一般不太会说的话。

他也可以做翻译，大家知道翻译是非常难的一件事情，因为他涉及到两个语言，以及这个语言之间的匹配，但是 GPT-3 可以做翻译，而且他做出来的翻译有的时候比一个专门翻译的系统还要做得更好，这也是非常厉害的。

前面无论是翻译，还是对话，他都是一个发散性的输出，也就是说这个 GPT-3 的输出他可以不是唯一的答案，只要意思对了就可以，所以也不是特别神奇。

但是 GPT-3 除了做这种发散性的输出以外，他也可以做非常精准的输出，比如他可以做算术题，比如如果你问他“48+12=多少”，他会告诉你等于 60。

大家可以看到这个 60 也是一个非常精准的答案，而不是随便说的，这个以前在语言模型中也是非常难做到的。

除了前面各种技能，他其实还可以干的事情非常多。比如他可以写诗，他可以编程，在某种程度上、某些地方可以代替程序员，也可以画画，也可以下国际象棋，做财务报表，基本上他会五六十种技能，关键是用同一个模型就可以完成所有的这些功能。

所以 GPT-3 出来以后，全球科技爱好者非常激动，因为 GPT-3 让大家看到了一个通向通用的 AI 智能的希望。

吞下整个互联网的数据，AI 演绎暴力美学

这个 GPT-3 表现这么好，背后的学习又牛在什么地方？其实可以用三个关键词来总结——多任务、无监督、小样本学习。

多任务，前面讲到，一个模型可以干很多事情，可以有 50 多种技能，这个非常厉害。

无监督，一般的模型我们要给他很多问题、答案、问题、答案，他才能训练出一个模型，但是 GPT-3 直接把互联网的内容全部给他，他就可以自学成才，这也是非常厉害的，小样本学习或者举一反三的能力，这是人类非常强的能力。

比如 GPT-3 本来可能没有关于高兴的概念，但是如果你对着 GPT-3 教他两个例子，他可能就会产生一个高兴的句子。

比如你对 GPT-3 说，GPT-3 我这里有两个关于高兴的例子，一个是我今天很开心，第二个是我今天玩得很好，他可能自己就会说“我今天真是嗨爆了”。这种举一反三的能力也是非常厉害的。

这个 GPT-3 这么厉害，背后是不是有特别复杂的理论算法？其实不是的，他背后就是用了一个非常简单、现在非常流行的算法，叫做 Transformer，中文大家可以翻译成变形金刚，当然他不是我们电影里面的那个变形金刚。所以这个模型其实是非常通用、非常简单的一个模型。

GPT-3 其实在我看来是一个暴力美学的胜利，他不是一个特别复杂理论的胜利。为什么这么说，大家可以从三个角度看，一般大家认为 AI 的三要素：算法、数据、算力。

这个 GPT-3 在每一个地方都非常暴力，算法他总共用了 1750 亿的参数，这是非常厉害的。

因为两年前我们可能觉得训练一个 5 亿、10 亿参数的模型就非常厉害了，但是这是 1750 亿；人的大脑，比如有 800 亿的神经元，有千万亿级的参数，那 GPT-3 跟人的大脑之间差了几个数量级。

第二个，数据，GPT-3 把互联网上的所有内容基本上是千亿级的词都读完，这个跟人相比也是非常厉害的。因为人假如一个月能读十本书，一年读一百本书，读 50 年，一生也就读 5000 本数，一本书假如 20 万字，加起来就 10 亿字。但是 GPT-3 读的是千亿级的字，所以这个数量级是差别很大的。

算力层面也非常暴力，他用了一万个 GPU 去算，算了半个月最后训练出了一个模型，网上算了一下，大概花了 450 万美金，也就是比发一个卫星可能都还贵。

大家可能会问，OpenAI 作为一个工业组织为什么这么喜欢暴力？这个其实跟它的使命、信仰是有关系的。

首先他的使命是要做通用的人工智能，一般认为实现通用的人工智能可能有两种不同的信念：

一种信念是今天的这个深度学习的算法都不够，肯定实现不了通用的人工智能，我们必须对人脑、对模型有更深刻的认知才能实现通用的人工智能；

另外一种信念说不是的，今天的模型可以了，我们关键是要把这个模型做得足够大，数据量足够大，当这个模型特别大的时候就可以实现通用的人工智能。

OpenAI 是非常坚信第二种方法的，他们花了很多精力做大模型，处理这个大数据，确实我们看到他最后出来的模型确实展现出非常惊人的智能行为。

这个其实在学术界是不一定非常认同的，因为学术界可能很多人不太喜欢这种暴力的模型，大家都喜欢理解这个原理最后做出个系统。

但是其实通过过去几年的进展，大家看到这些暴力模型都展现出非常好的表现，可能慢慢越来越多的人开始信仰这种暴力的方式。

其实这也非常容易理解，因为 GPT-3 就是一个典型的复杂系统，复杂系统当他非常大的时候就会有一些智能的行为，他有几个基本的特点：

第一，这个复杂系统有非常简单的节点，节点很简单。

第二，节点之间有很多交互，但是这个交互方式也是非常简单的。

但是当节点以及节点之间交互非常多，频率非常高的时候就会涌现出集体的智能。

比如蚂蚁的智能就是这么一个例子，单一个蚂蚁可能看起来没有那么智能，但是当一群蚂蚁他们通过简单的交互，最后搬运一个东西的时候你会发现他是一个非常强的智能体。

其实这样的复杂系统有很多，比如互联网、人类社会都是这么一个系统，也许我们人脑的智能也是这么一个系统，他也许有很多暴力的因素在里面，比如 800 亿的神经元，千万亿级别的参数，也就是说暴力可能是实现通用 AI 的一个方向。

如此烧钱耗力，中国也能做出 GPT-3 吗？

大家可能会说这个 GPT-3 花了这么多钱，那么多厉害的人训练，中国是不是就不能做？其实不是的。

因为很多系统第一次做出来的时候特别难，但是很快就有特别多的优化，这个成本大幅度的降低，你就可以做出同样甚至更好的系统。

我们其实就在做这样一个事情。为什么要做一个通用的语言系统？因为我们的使命也是希望定义下一代的人机交互，最核心的产品就是语音助手。

我们的语音助手用在智能手表、智能的无线耳机、智能的车载，我们希望智能的语音助手更加通用。

他真的像你的助理一样可以帮你完成很多任务，所以我们是非常有动力，也有能力做一个通用的语音智能系统，我们现在做的这个系统 UCLAI 就是通用中文语言 AI 的系统。

这里有一个例子，就是我们这个系统产生的例子，你给他输入一个文章，写一首诗，比如说你让他写情书，你前面输入了“当你老了，头白了，睡意昏沉，在炉火旁打盹，请取下这部诗歌。”这是我们输入进去的，这个时候我们的系统就会生成后面这一段话，“在你耳边轻轻诵读，请你记起你微笑的模样，尽管岁月远去，声音尤在，日子总会在和平中流淌”。

大家可以看到，首先这个诗不是原诗，不是只是简单的从互联网上 copy 一下。

第二，这个生成的部分跟上文前后是非常有对应的关系的，而且这个文字非常的优美，反正我作为一个工程师是很难写出这么优美的诗。

我们系统除了产生这种简单的诗以外，也可以产生非常长的诗，比如我们这个后面有一个例子。

我们前面输入博尔赫斯的一首诗的前段部分，后面就生成很长的部分，同样的他非常有创意，而且这个逻辑也非常的自洽，而且也比较优美，但我们做这个 UCLAI，或者 OpenAI 做 GPT-3，不是仅仅写诗，其实他可以干很多事情。

比如通用的语音助手，比如医疗、教育、金融里面的很多应用，我们希望未来在这里能发挥重大的价值。

未来的 GPT 会更通用，人类别怕

刚才前面讲的主要就是 GPT-3 在语言方面的一些能力，未来 GPT-3 还能干什么？其实我觉得特别重要的一种能力就是多模态，因为语言只是一种模态，图象、声音、视觉又是另外一种模态，我们怎么在一个系统里面做多模态的事情。

最近 OpenAI 展现出了一个例子，就是你跟 GPT-3 说“帮我生成一个牛油果咖啡桌”，可能很多人听到“牛油果咖啡桌”脑海中没有任何感觉，但是大家可以看到后面这个屏幕上 GPT-3 就生成出来了一个牛油果咖啡桌，非常有创意，非常有想象力。

除了生成图片，它也可以跳舞。比如 Google 最近做了一个系统，你给他一段音乐，给他前面起始动作，这个 AI 系统就可以自动生成一段舞蹈，而且这个舞蹈非常的有创意，而且非常的优美。

所以大家看到未来的 GPT、类 GPT 这种模型他会怎么进化？他可能会从一个单一模态，语言的模态进入到语言、视觉、图象、动作这种多模态，非常的通用。

如果大家看这个技术发展，如果以 5 年为周期，比如 2016 年 AlphaGo 出来以后 AI 火了，其实这个过去 5 年我们有很多进展。

未来 5 年可能又是同样的事情，我们可以认为 2020 年可能是通用 AI 的元年。

大家可能会担心 AI 进化得这么快，人类怎么办？我们需不需要非常担心？这确实是一个问题，首先我想表达一下一方面 AI 的进化确实是非常惊人，如果我们把 AI 的进化跟人类社会的进化比较一下，他有几个特点：

第一，AI 非常勤奋，他可以不吃饭，可以 24 小时，只要还有电他就可以不停地算。

第二，AI 系统可以大规模地协作，比如刚才说一万个 GPU 可以训练一个模型，你再给他加成十万个 GPU 他还可以做非常好的协作。这个在人类社会，协作可能没有那么容易，因为每一个人都有自己的想法，最后不一定能够通力协作。

第三，AI 的进化具有连续性。什么意思？比如这个人类我们好不容易出了一个天才爱因斯坦，但是到了一定的年龄可能爱因斯坦就去世了，这个时候我们要等很多年才能再出一个爱因斯坦，没有连续性，但是 AI 的进化他有连续性。

比如这个机器没电了，或者这个机器的模型在一台机器上算完了，你可以把它 copy 到另外一台机器上，就可以接着算。

这个也是非常厉害的，总体来说我们一方面确实要看到 AI 的进化是非常惊人的，而且非常快的，但是另外一方面我觉得我们也没有必要有太多的担心。

你担心也不一定有用，我觉得作为一个社会，作为一个个体可以做的事情，比如政府他应该立法保护隐私、保护数据，不要 AI 为敌人所用。

作为个人要理解这个 AI 能干什么，不能干什么，让 AI 成为你的朋友，帮助你解决问题。

前面是我对通用 AI 的一些简单介绍，以及以 GPT-3 作为一个例子，当然 GPT-3 只是其中的一个相对通用的 AI 模型，虽然前面我讲他非常厉害可以干各种事情，但是其实他还有很多不完善的地方。

所以我们真正要通往通用的人工智能还有非常长的一条路要走，最后用一句话来总结一下，就是“路漫漫其修远兮，AI 上下而求索”。

导航导航

GTP-3算法是一种“暴力美学”的胜利

大家都在看

最新资讯

推荐专题