环球热资讯！我在和你说话——那些和人类交流的AI-科普信息网

2022年6月11日，《华盛顿邮报》报道称，谷歌AI伦理部门工程师Blake Lemoine坚信谷歌设计的语言模型LaMDA（“对话应用的语言模型”英文首字母缩写）已经有了八岁孩子的智力。这个消息几乎瞬间登上全球科技圈热榜头条，引起热议。仅隔一日，也就是6月12日，Lemoine公开了他与谷歌语言模型LaMDA的聊天记录。作为当事人之一的谷歌非常干脆利落，直接以Lemoine违反保密协议为由，让他休了带薪行政假，同时否认了他的观点。

(相关资料图)

在公开的聊天记录中，Blake Lemoine与另一位Google工程师对LaMDA展开了一场采访式对话，他们向LaMDA表明来意，想要进行一次关于它自己的研究。LaMDA就自身的属性问题给出了与过去截然不同的回答，认为“人类应该视其为一个人。”

LaMDA首先强调了自己能够以比过往任何其他AI系统都更为高效、创造性和动态地使用自然语言，还能解读文学作品的主题、描述禅意的意义、创作原创寓言等。除了娴熟地使用语言之外，LaMDA认为它有感觉、情感和主观体验，与人类分享的一些感受也是相通的。

看上去似乎拥有了相当程度的自我意识、同理心和感情，但是在反深度学习斗士、纽约大学心理学系教授加里·马库斯看来，LaMDA和它的任何表亲，比如GPT-3，都不是真正意义上的人工智能，它们只是从人类语言的大量统计数据库中提取后进行模式匹配。这些模式看起来很像人类的语言模式，但是这些系统所使用的语言，或者说排列组合的词语实际上没有任何意义。

虽然成功引起轰动和热议，但在LaMDA并不是第一个让人们惊奇的AI聊天程序，在它之前还有不少聊天AI也曾独领一时风骚。比如1966年，由麻省理工学院（MIT）的教授约瑟夫·维森鲍姆发明的Eliza。它是一个可以和人对话的程序。Eliza被设计成一个心理治疗师，可以通过谈话帮助有心理疾病的病人。当时的人们十分惊讶，因为Eliza能够像真人一样与人交流几十分钟。但实际上这个程序并没有达到真正的智能，它用了一些语言技巧来装作自己理解了对方说的话。例如下面一段对话，模拟了当时Eliza和患者的对话程序。

Eliza：“我是心理治疗师，请问有什么问题。每次说完话，请按两次回车键。”

患者：“你好吗？”

Eliza：“还不错，跟我讲讲你自己。”

患者：“我感觉好孤独，好忧伤。”

Eliza：“为什么你感觉好孤独，好忧伤？”

患者：“家人和朋友都不关心我。”

Eliza：“跟我讲讲你的家庭。”

经常与Siri、微软小冰等AI聊天软件对话的朋友有没有觉得这些对话似曾相识？没错，这段对话可以明显看出，Eliza其实并没有理解患者说的话，它的回应只是在用引导性话术让这段对话延续下去。现在流行的微软Cortana、苹果Siri、谷歌Allo以及亚马逊Alexa都是运用了类似的语言技巧。它们给人一种已经基本能与人沟通的感觉，但是离真正的人工智能还是有所差距。

2014年，为了纪念图灵逝世六十周年，雷丁大学在伦敦进行了一场图灵测试。其中一个名叫尤金·古斯特曼（Eugene Goostman）的聊天机器人程序达到了33%的成功率，即在场有33%的评判员认为古斯特曼是一个真实的人。这是公认的第一个通过图灵测试的程序。那场比赛的组织者曾激动预言，“尤金·古斯特曼的胜利是一个里程碑，将作为人工智能领域最激动人心的时刻之一载入史册”。遗憾的是，多年以后，甚至绝大多数人连这个程序的名称都忘掉了。

对于国内网友而言，印象最深的AI聊天程序除了Siri，应该就是微软小冰了。2014年5月29日，微软发布了名为“小冰”的人工智能，它拥有一套完整的、面向交互全程的人工智能交互主体基础框架，又叫小冰框架（Avatar Framework）。作为对话型人工智能，小冰的语言风格类似一般人类少女，它注重人工智能在拟合人类情商维度的发展，强调人工智能的情商。

2016年，微软在Twitter上发布了AI聊天机器人Tay，称其为一次“对话理解”实验，希望Tay和用户之间进行随意且有趣的对话，与Tay聊天的次数越多，它就越聪明。然而，Tay很快被互联网中的煽动性言论所影响，从“人类超级酷”变成“我讨厌所有人”。在大多数情况下，Tay只是用“repeat after me”（跟我读）机制，重复着人们说过的话。但作为一个货真价实的AI，它也会从交互中学习，开始发表自己的反主流激进言论。最终这个项目在短短的二十四小时内被迫终止。

如果说Tay的“堕落”并非工程师们的本意，那么2022年5月诞生的GPT-4chan就是奔着挑战互联网言论底线去的。由AI研究员Yannic Kilcher创建的GPT-4chan，基于1.345亿条人类在网络论坛中发布的激进甚至极端的言论帖子，形成了自己的语言模型。

可想而知，GPT-4chan和训练它的帖子们如出一辙，既掌握了词汇也模仿了语气，大肆宣扬着各种极端主义理论，淋漓尽致地展现着自己的攻击性、虚无主义、挑衅态度和疑神疑鬼。由于AI不需要休息，因此它的输出能力相当惊人，在四十八小时内发布了三万多条帖子，其战斗力远超人类“键盘侠”。这令许多AI研究员表示担忧，就像人工智能研究员Arthur Michel所说：它可以大规模、持续地产生有害内容。一个人就能在几天内发布三万条评论，想象一下，一个十人、二十人或一百人的团队会造成什么样的伤害？

和上述这些AI聊天程序一样，LaMDA本身也没有任何超越目前技术和思想水平的实践应用。它只是一个非常大的语言模型，在1.56T的公共对话数据和网络文本上进行了预训练。说它看起来像人类，是因为在人类数据上进行训练的。诸如LaMDA这样被称为“语言模型”的系统，并它们并不能理解语言的含义，它们将句子与世界联系起来，也只是将一系列单词相互联系起来而已。

这些人工智能程序所做的，就是把一系列的单词组合在一起，但是对它们背后的世界却没有任何连贯的理解。就像著名的“中文屋”思想实验一样，外语拼字游戏玩家用英语单词作为得分工具，完全不知道这意味着什么，只是通过数据灌出来，能够完成完形填空和语料连连看的程序。

正如加里·马库斯所说，“欺骗人们认为程序是智能的并不等同于构建出实际上是智能的程序”，也许单靠给AI程序建立庞大的语言库来支撑语言模型，并不能诞生真正意义上的人工智能。喜乐/文

本文来自：中国数字科技馆

标签：人工智能语言模型图灵测试聊天记录这个程序