Geoffery Hinton
近日,27 岁的天才创始人 Joel Hellermark 与 “AI 教父” Geoffery Hinton 进行了一场深入对话。在这次访谈中,Hinton 回顾了自己的人工智能生涯,并探讨了神经网络、Scaling Law、多模态学习、模拟计算和人工智能伦理安全等多个话题。此外,Hinton 还分享了他对其得意门生 Ilya Sutskever 的看法,给人以深刻的启迪。
Joel Hellermark
Hinton 的人工智能之路
早期求学与科研经历
Geoffery Hinton 的人工智能之路始于剑桥大学,他在剑桥大学最初学习生理学,试图通过生理学课程来理解大脑的工作原理。然而,他很快发现生理学课程只涉及神经元如何传导动作电位,而未能揭示大脑整体的工作机制,这令他非常失望。随后,他转向哲学,希望通过哲学课程了解心灵的运作方式,但结果同样令人失望。最终,他选择了人工智能,并在爱丁堡大学攻读人工智能博士学位,1978 年获得了博士学位。
Hellermark:我们回到起点 —— 剑桥时期的你。当时,你试图理解大脑的工作方式,那时是什么情况? Hinton:那是段非常令人失望的时光。我当时主要研究生理学。在夏季学期,他们要教我们大脑是如何工作的。他们教的只是神经元如何传导动作电位,这非常有趣,但它并没有告诉你大脑是如何工作的。所以那非常令人失望。随后,我转向了哲学。那时的想法是,也许哲学会告诉我们思维是如何工作的。结果同样令人失望。我最终去了爱丁堡大学学习人工智能,那更有趣。至少你可以模拟东西,这样你就可以测试理论了。
Hellermark:你还记得是什么让你对 AI 产生了兴趣吗?是读了某篇论文吗?还是某个特定的人向你介绍了这些想法? Hinton:我想是 Donald Hebb(加拿大心理学家,认知心理生理学的开创者)写的一本书对我产生了很大影响。他对如何在神经网络中学习连接强度非常感兴趣。我还读了冯・诺依曼(计算机之父)的书,他对大脑如何计算以及它与普通计算机有何不同非常感兴趣。
Donald Hebb即上一期中提到的Hebbian学习规则发明人
在卡内基梅隆大学的经历
Hinton 在 1982 年前往卡内基梅隆大学担任计算机科学系教授,直到 1987 年。在卡内基梅隆大学,他接触到了一台 Lisp 机器,这使他开始编写程序。他回忆到,在某个周六晚上,他发现自己无事可做,于是决定去实验室编写一些程序。这次经历让他认识到,美国的学生对未来充满激情,令他耳目一新。
我还与 Peter Brown 有很好的合作,他是一位非常优秀的统计学家,在 IBM 工作,研究语音识别。他是作为一名成熟的学生来到卡内基梅隆的,为了拿到博士学位。其实他已经懂得很多了。 他教了我很多关于语音的知识,教了我隐马尔可夫模型。我觉得我从他那里学到的比他从我这里学到的要多。这就是大家都想要的那种学生。当他教我隐马尔可夫模型时,我正在用隐藏层做反向传播。 那时它还不叫隐藏层。我认为马尔可夫模型中使用的这个名字对于那些你不知道它们在干什么的变量来说是一个很好的名字。所以这就是神经网络中「隐藏层」名字的由来。
隐藏层这个名字来源于隐马尔科夫模型
与 Ilya Sutskever 的合作
初次见面与早期合作
Hinton 回忆了与 Ilya Sutskever(Ilya Sutskever即前段时间刚刚离职的OpenAI首席科学家) 的初次见面。他描述了 Ilya 是如何在某个周日急切地敲门,要求加入他的实验室。
“所以我们聊了一会儿,我给了他一篇论文阅读,那是关于反向传播的《自然》(Nature)论文。我们约定一周后再见面,他回来后说:“我没看懂。”
我感到非常失望。我想:“他看起来挺聪明的,但这只是链式法则而已。理解起来并不难。” 他却说:“哦,不,不,那个我懂。我只是不明白 —— 为什么不直接将梯度(即损失函数相对于模型参数的导数)应用于一个更合理的函数优化器呢?” 后来,这个问题成为了我们多年研究探讨的重点。Ilya 就是这样,他对事物的直觉总是非常敏锐。”
Hinton:跟他合作非常有趣。我记得有一次我们试图用一种复杂的方法制作数据图,我有一种混合模型,你可以用同样的一组相似性制作两张图。这样在一张图上,银行可能离绿地很近,在另一张图上,银行可能离河流很近。 因为在一张图上,你不能让它同时离两者都很近,对吧?因为河流和绿地距离很远。
我们用 MATLAB 做这件事,这涉及到大量的代码重组,以进行正确的矩阵乘法。然后他厌烦了。所以有一天,他说,「我要去为 MATLAB 写一个接口。我要用这种不同的语言编程,我有一些东西可以将其转换为 MATLAB。」 我说,「不,Ilya,那将花费你一个月的时间。我们必须继续这个项目。不要被那个事情分散注意力。」Ilya 说,「没关系,我今天早上就做好了。」
Ilya 的贡献与影响
左一为 Ilya,右一为 Hinton
中间则是 Alex Krizhevsky
三人合作设计了 AlexNet
在 ImageNet 比赛取得了冠军
Scaling Law 与创造力
模型规模与性能
Ilya 很早就有了那种直觉。所以 Ilya 总是说,你只要把它做得更大,效果就会更好。我总觉得这有点逃避现实,你也得有新想法。结果,他的直觉基本上是正确的。新的想法有帮助。Transformer 之类的东西帮了大忙,但真正的问题在于数据的规模和计算的规模。 那时,我们根本不知道计算机会快上 10 亿倍。我们以为也许会快上 100 倍。我们试图通过提出一些聪明的想法来解决问题,但如果我们有更大的数据和计算规模,这些问题就会迎刃而解。
Ilya一段时间以前还是OpenAI的首席科学家,OpenAI发表了scaling law,即模型做得越大性能越好
创造力的来源
Hinton 认为,GPT-4 的创造力来自于其对事物间共同结构的理解。通过发现这些共同结构,模型能够高效地编码信息,并进行类比。例如,当被问到“为什么堆肥堆像原子弹”时,GPT-4 能够理解并联想到链式反应的概念,从而给出合理的回答。Hinton 认为,这种类比能力将使 GPT-4 变得非常有创造力,甚至超越人类。
Hinton:这些大型语言模型所做的是寻找共同的结构。它们可以使用共同的结构来编码事物,这样更有效率。
举个例子,如果你问 GPT-4,为什么堆肥堆像原子弹?大多数人回答不出来。大多数人没有想过,他们会认为原子弹和堆肥堆是非常不同的东西。但 GPT-4 会告诉你,它们的能量规模非常不同,时间规模非常不同。但它们的共同点是,当堆肥堆变得更热时,它产生热量的速度更快;当原子弹产生更多的中子时,它产生中子的速度也更快。所以这就得到了连锁反应的概念。
我相信它理解这两种连锁反应,它使用这种理解将所有这些信息压缩到它的权重中。如果它确实在这样做,那么它将会对我们还没有看到的所有事物进行同样的操作。这就是创造力的来源 —— 看到这些表面上截然不同的事物之间的类比关系。 所以我认为,当 GPT-4 变得更大时,它最终会变得非常有创造力。那种认为它只是在重复学习过的东西,只是把已经学过的内容粘贴在一起的想法,是完全错误的。它会比人类更有创造力。
有一个很久以前的实验,你训练一个神经网络来识别手写数字。我非常喜欢这个例子。你给它的训练数据中有一半的标签是错误的。问题是它能学得多好?而且这些错误标签是固定的,每次看到特定样本时它都与相同的错误标签配对,所以它不能通过多次看到相同样本但标签有时正确有时错误来平均化这些错误。训练数据中有 50% 的错误标签,但如果你用反向传播训练神经网络,它的错误率可以降到 5% 以下。
换句话说,即使从标注错误的数据中,它也能得到更好的结果。它能够识别出训练数据中的错误。这就像聪明的学生比他们的导师更聪明。导师告诉他们很多东西,但有一半的信息是错误的,学生能分辨出哪些是错的,只听正确的那一半,最后比导师更聪明。所以这些大规模神经网络实际上能够做到的比它们的训练数据更好,大多数人并没有意识到这一点。
象征性观点:认知是通过清晰的、没有歧义的逻辑语言符号字符串进行的。认知就是对这些符号字符串进行操作。这是一种极端的象征主义观点。
向量观点:进入大脑的一切都是向量。符号被转换为大型向量,所有的认知和理解都是通过这些向量完成的。比如在机器翻译中,单词会被转换成隐藏状态的向量,捕捉句子的含义,并产生输出。
嵌入观点:大脑将符号转换为嵌入(向量),并使用多层嵌入进行认知。这些嵌入仍然与符号相关联,通过向量的相互作用来预测下一个符号的向量。这种观点认为,符号的表面结构被保留,但实际的认知过程在于向量的使用和相互作用。这也是大型语言模型的工作方式,现在被认为是人类思维的更合理模型。
Hinton:关于语言是否进化到与大脑配合,或者大脑是否进化到与语言配合的问题,我认为这是一个非常好的问题。我认为两者都发生了。
我曾经认为我们会在根本不需要语言的情况下进行很多认知活动,但现在我改变主意了。我举三种关于语言以及它与认知的关系的观点。
第一种,老式象征性观点,即认知由一些清理过的逻辑语言中的符号字符串组成,没有歧义,且应用推理规则。因此认知只是对像语言符号字符串这样的东西进行符号操作。这是一种极端观点。
另一种极端观点是:一旦进入大脑内部,一切都是向量。符号进来,你将这些符号转换为大型向量,所有的洞察都是用大型向量完成的。如果你想产生输出,你将再次产生符号。所以在 2014 年的机器翻译中有一个时刻,人们使用循环神经网络,单词会不断进来,它们会有一个隐藏状态,并在这个隐藏状态中不断累积信息。所以当到达句子的结尾时,就有一个大的隐藏向量,捕捉了句子的含义。然后它可以用来产生另一种语言中的单词,这被称为思维向量。这是关于语言的第二种观点。
还有第三种观点,也是我现在相信的,即大脑将这些符号转换为嵌入,并使用多层嵌入。所以你将得到非常丰富的嵌入。但嵌入仍然与符号相关联,从这个意义上讲,符号有其对应的大向量。这些向量相互作用产生下一个词的符号的向量。因此理解是指知道如何将符号转换为向量,以及向量的元素如何相互作用以预测下一个符号的向量。这就是大型语言模型以及我们的大脑中的理解方式。你保留符号,但将其解释为大向量。
所有的工作以及所有的知识都在于使用哪些向量以及这些向量的元素如何相互作用,而不是在符号规则中。但这并不是说你完全摆脱了符号,而是说将符号转换为大向量,但保留符号的表面结构。这就是大型语言模型的运作方式。现在我认为这似乎也是人类思维一个更合理的模型。
多模态学习的定义
Hinton 认为,多模态学习(结合语言、图像、视频和声音等多种信息)将显著提高模型的推理能力和理解能力。他提到,多模态系统可以更好地理解空间关系和物体,并减少对语言的依赖。
Hellermark:你如何看待多模态?当我们引入图像、视频和声音时,你认为这将如何改变模型? Hinton:我认为这会有很大的改变。我认为这会让模型在理解空间事物方面做得更好。例如,仅从语言来理解一些空间事物相当困难,尽管令人惊讶的是,即使在成为多模态模型之前,GPT-4 也能做到这一点。但是当 GPT-4 成为多模态模型时,如果你同时让它做视觉和触觉,伸手去抓取东西,它会更了解物体。
所以尽管你可以从语言中学到很多东西,但如果是多模态,学习会更容易。实际上,你需要的语言就更少了。例如,有很多 YouTube 视频可以预测下一个画面。所以我认为多模态模型显然会占据主导地位。这可以获得更多数据,需要的语言会更少。所以这是一个哲学观点,你可以仅从语言中学到一个很好的模型,但从多模态系统中学到它要容易得多。
多模态学习的应用
通过多模态学习,模型可以获得更多的训练数据,从而提高其性能。例如,预测 YouTube 视频的下一帧可以让模型获得更多的数据,同时减少对语言的依赖。这种学习方式将使模型在处理多种感官输入时变得更加高效和直接。
Hellermark:你认为这将如何影响模型的推理? Hinton:我认为这会让模型在空间推理方面做得更好。例如,关于如果拿起物体会发生什么的推理。如果真的尝试拿起物体,你会得到各种各样的训练数据。
模拟计算的挑战
模拟计算的潜力
知识共享的优势
由于数字系统的权重可以被保存并在任意兼容的数字系统上重现,这使得数字系统在知识共享方面比人类更加优越。数字系统可以通过微小的学习更新,实现集体知识的即时同步,这是人类目前无法做到的。
Hinton:我在谷歌的最后几年,我一直在思考如何尝试进行模拟计算。即不是使用像一兆瓦这样庞大的电力,而是使用像大脑一样的 30 瓦电力,就可以在模拟硬件中运行大型语言模型。 这一点我从未实现过。但我开始真正欣赏数字计算。如果你要使用低功耗模拟计算,每个硬件都会有所不同,要利用硬件的特定属性。这就是发生在人类身上的事情。我们所有人的大脑都不同,所以我们不能把你大脑中的权重拿出来放进我的大脑。硬件是不同的。单个神经元的确切属性是不同的。
当我们去世后,我们的知识和经验大部分会随之消失,因为人类传递知识的方式通常涉及语言交流,这种方式相对效率较低。然而,数字系统则不同,它们可以通过共享权重(即学习过的数据和参数)来传递知识。一旦一个数字系统学习了某些知识,这些权重就可以被保存并在其他任何相同配置的系统中重用。这种方式不仅保证了知识的精确复制,还极大提高了学习和知识共享的效率。因此,数字系统在共享和扩散知识方面,具有远超人类的能力。
Hellermark询问了解AI模型和大脑工作原理对Hinton思考方式的影响,Hinton认为影响深远。
以前,AI领域普遍认为仅靠大量数据训练一个大规模的随机神经网络来学习复杂事物是不可能的。
然而,事实证明,通过大量数据和随机梯度下降法调整权重,庞大的随机神经网络可以学习复杂事物。
这改变了我们对大脑结构的理解,表明大脑不需要先天具有所有结构性知识,也挑战了乔姆斯基关于语言学习必须依赖先天大脑结构的理论,即复杂的语言学习必须依赖于先天就编织在大脑中的结构,并且要等待这种结构成熟。
事实证明,你可以通过大量数据训练一个庞大的随机神经网络,利用随机梯度下降方法不断调整权重,从而学习到复杂的事物。这一发现对我们理解大脑的结构具有重要意义,表明大脑并不需要天生就具有所有的结构性知识。当然,大脑确实具有许多先天结构,但它显然不需要依赖这些结构来学习那些容易获得的知识。
选择研究问题的方法
Hinton:我和我的学生做了很多最有意义的事情。这主要归功于与学生的良好合作以及我挑选优秀学生的能力。这是因为在上世纪 70 年代、80 年代、90 年代以及进入 21 世纪,很少有人研究神经网络。所以从事神经网络研究的少数人能够挑选到最优秀的学生,还需要依靠一点运气。
Hinton描述了他选择研究问题的方法。他会寻找那些被普遍接受但看起来有些不对劲的问题,凭借微妙的直觉感知到可能存在的问题。然后,他通过详细研究和简单的计算机模拟来验证这些问题,通常证明这些普遍接受的观点是错误的。例如,他提到添加噪声通常被认为会降低神经网络的效果,但实际研究表明它可以提高泛化能力。这种方法使他能够通过直觉和实验发现新的研究方向。
让我举一个例子。大多数人认为,如果你给神经网络添加噪声,它的效果会变差。实际上,我们知道如果这样做,它的泛化能力会更好。
需要得到重视的快速权重
Hinton 称,人工智能和神经科学的一个重要区别在于时间尺度的变化。在神经网络中,存在快速时间尺度的活动变化和慢速时间尺度的权重变化。大脑中也有这两种时间尺度。
Hellermark:很多已经在实际应用中部署的人工智能系统的理念源于早期的神经科学理论,这些理念已经存在了很长时间。现在的问题是,还有哪些未被充分利用的神经科学理论可以应用到我们开发的系统中?这需要我们探索神经科学中的未被充分挖掘的理论,将它们转化为技术,以推动人工智能技术的进一步发展。 Hinton:在人工智能与神经科学的对比中,一个我们仍需追赶的重要方面是变化的时间尺度。在几乎所有的神经网络中,都存在快速时间尺度的活动变化 —— 输入数据后,嵌入向量会发生变化。而另一种是慢速时间尺度,即权重的变化,这关系到长期学习。在大脑中也有这两个时间尺度。
例如,如果我突然说出一个意外的词,比如黄瓜,五分钟后你戴上耳机,在嘈杂的环境中,如果有很轻微的话语声,你会更容易识别出黄瓜这个词,因为我五分钟前说过它了。那么这个知识存储在哪里呢?在大脑中。这种认知显然是暂时性的突触改变所保存的,而不是特定的神经元来保存 —— 我们的大脑中并没有足够多的神经元来做这种事。这种暂时性的权重改变,我称之为快速权重,在我们目前的神经模型中并没有应用。
我们之所以没有在模型中使用快速权重,是因为如果权重的暂时性变化依赖于输入数据,那么我们就无法同时处理多种不同的情况。目前,我们通常会将多种不同的数据批量堆叠在一起,并行处理,因为这样可以进行矩阵乘法,效率更高。正是这种效率的需求阻碍了我们使用快速权重。然而,大脑明显利用快速权重来进行临时记忆存储,并且可以通过这种方式实现许多我们目前未能做到的功能。
我曾对像 GraphCore(一家英国半导体公司,开发人工智能和机器学习加速器,它引入了大规模并行智能处理单元,在处理器内保存完整的机器学习模型)这样的技术抱有很大希望,如果它们采取序列方式并只进行在线学习,那么它们就能使用快速权重。但这种方法尚未取得成功。我认为,当人们开始使用导电性(conductances)作为权重时,这种方法最终会取得成功。
人工智能伦理与安全
潜在的负面影响
AI 发展的国际竞赛
Hellermark:你有没有担心过,放慢这个领域的发展速度也可能会放慢积极的一面?
Hinton:当然。我认为这个领域不太可能放慢速度,部分原因是它是国际性的。如果一个国家放慢速度,其他国家不会放慢速度。很明显,中美之间存在一场AI竞赛,而双方都不会放慢脚步。之前有一个提议说我们应该暂停大模型研究六个月。我没有签名,因为我认为这永远不会发生。我可能应该签字,因为即使它永远不会发生,它也表明了一个观点。有时为了表明立场而使用它也是好事。但我不认为我们会放慢速度。
Hinton 对未来的展望
医疗保健的应用
Hinton 认为,医疗保健是 AI 发展的重要领域。AI 技术可以显著提高医疗服务的质量和效率,满足社会对更多医疗服务的需求。未来,每个人可能会拥有多位专属医生,AI 技术将在这一过程中发挥关键作用。
Hinton:我认为医疗保健显然是一个大领域。在医疗方面,社会可以吸收的数量几乎没有限制。对一个老人来说,他们可能需要全职的五位医生。所以当 AI 在做事上比人类更好时,你会希望你在这些领域出现更多的资源 —— 如果每个人都有三位医生,那就太好了。我们将达到那个地步。 还有新的工程,开发新材料,例如更好的太阳能电池板、室温超导或仅仅是理解身体的工作原理。这些都会有很大的影响力。我担心的是坏人利用它们做坏事。
新材料的开发
个人反思与未来研究
大脑与反向传播
Hinton 表示,他一直以来都在思考一个问题,即大脑是否进行反向传播。他相信大脑在学习过程中确实利用了梯度信息来优化其内部连接,但他对于大脑如何实际获得这些梯度仍持开放态度。Hinton 认为,这是一个重大且尚未解决的问题,他未来的研究将继续围绕这一问题展开。
Hellermark:如果你现在带领一组学生,他们来找你,说到我们之前讨论过的问题,你所在的领域中最重要的问题是什么?你会建议他们接下来研究并工作什么?我们谈到了推理的时间尺度。你建议的最优先的问题是什么? Hinton:对我来说,现在的问题和我过去大约 30 年一直关注的问题相同,那就是大脑是否进行反向传播?我相信大脑在获取梯度。如果你没有获取到梯度,你的学习效果会比获取到梯度时差很多。但大脑是如何获取梯度的?它是否在实现某种近似版本的反向传播,或者是采用了一种完全不同的技术?这是一个很大的未解之谜。如果我继续从事研究,这就是我将要研究的内容。
研究的收获与遗憾
我认为我对玻尔兹曼机的看法是错误的,我很高兴我在它上面花了很长时间。关于如何获得梯度,有比反向传播更美丽的理论,它只是普通且合理的,它只是一个章节。这两个机制都很聪明,这是一种非常有趣的获取梯度的方法。我希望大脑是这样运作的,但我认为事实并非如此。
我确实觉得科学家应该做那些能帮助社会的事情。但实际上,这不是你做出最好的研究的方式。当你的研究被好奇心驱动时,你才能做出最好的研究。你只需要理解一些事情。更近地,我意识到这些东西可能会造成很多伤害,也会带来很多好处。我变得更加关注它们对社会的影响。但这不是动机。我只想知道大脑是如何学会做事的?那就是我想知道的。而我在试错的过程中,我们得到了一些不错的工程结果。
如何培养直觉
Hinton:我认为部分原因是,他们不会接受无意义的东西。有个获得糟糕直觉的方法,那就是相信你被告知的一切,那太致命了。你必须能够... 我认为有些人是这样做的,他们对理解现实有一个完整的框架。当有人告诉他们某些事情时,他们会试图弄清楚这如何适应他们的框架。如果不适合,他们就拒绝它。这是一个非常好的策略。 试图吸收他们被告知的一切的人最终会得到一个非常模糊的框架。他们可以相信一切,那是没有用的。所以我认为实际上拥有一个对世界的坚定观点,并试图整合输入的事实以适应你的观点,这可能会导致深刻的宗教信仰和致命的缺陷等等,像我对玻尔兹曼机的信念,但我认为这是正确的。
关于 Joel Hellermark
总结
转自StatsART,版权属于原作者,仅用于学术分享
声明:该文观点仅代表作者本人,中加头条系信息发布平台,我们仅提供信息存储空间服务。
发表评论 取消回复