wsc是啥 wsc是什么意思

-人工智能真的能听懂人类语言吗?
现在的人工智能似乎很容易理解数据 , 但事实证明 , 很难设计出一个测试机器是否真的“理解”人类语言的测试 。2010年 , 来自IBM的沃森人工智能在一次人工智能挑战赛中获得冠军 , 随后IBM宣称:“沃森可以理解人类自然语言的所有歧义和复杂” 。过去十年 , 社会各界都在唱衰人工智能 , 但计算机科学家通过长期研究发现我们幸福还为时过早!
虽然这十年人工智能在各个行业发挥了巨大的优势 , 但是经过十年的发展 , 人工智能可能会再次面临瓶颈期 。科学家后来在“用沃森人工智能彻底改变医学”的过程中失败了 。最近 , 研究人员发现 , 就像沃森人工智能的医学失败一样 , 人工智能处理人类语言的能力实际上是在“表面理解”和实际理解人类语言是不一样的 。
自然语言理解一直是人工智能研究的主要目标 。在人工智能发展的早期阶段 , 研究人员试图通过人工编程让机器理解人类的新闻故事、小说或人类可能表达的任何东西 。但这种方法是徒劳的——不可能写下理解文本所需的所有规则和假设 , 无论是书面的还是非书面的 。
随着机器神经网络的快速发展 , 人工智能建立了一种新的语言识别模式——通过神经网络让机器自己学习和理解语言 , 只需要训练大量的文本 , 为机器学习预测的单词 。这是目前建立语言模型的基本方法 。
基于大型神经网络的人工智能 , 如OpenAI的GPT-3 , 这种模型甚至可以生成令人难以置信的人类散文和诗歌 , 似乎能够进行复杂的语言推理 。
虽然GPT-3从成千上万的网站、书籍和百科全书中训练文本 , 但GPT-3只是超越了沃森的“肤浅理解”模型吗?GPT-3真的理解它生成的语言所表达的推理吗?目前这是AI研究中分歧明显的一个话题 。
这样的讨论曾经是哲学家的职权范围 , 但在过去的十年里 , 人工智能已经从generate中的学术泡沫中脱颖而出 , 进入了现实世界 。它对现实世界的不了解可能会产生真实的甚至是毁灭性的后果 。
科幻电影-机械公敌海报
在IBM的沃森人工智能应用于医疗实践中 , 研究人员发现 , 沃森多次向患者提出极不安全和不正确的治疗建议 , 谷歌的机器翻译系统在为非英语患者翻译医疗说明书时也出现了重大错误(事实证明 , 对于医疗药物的英文说明书 , 你不能依赖机器翻译 , 因为它可能会让你“吃错东西”) 。
但是我们如何确定机器在实践中是否能被理解呢?1950年 , 计算的先驱艾伦·图灵(Allen Turing)试图用他著名的《模仿游戏》(The Imitation Game)来回答这个问题 , 这本书现在被称为图灵测试 。一台机器和一个人隐藏在幕后 , 只允许对面的测试者通过对话来判断哪个是真人 。如果测试者分不清哪一个是人类 , 那么我们应该认为机器在以人类的方式思考——实际上是理解人类的语言 。
可惜 , 高估机器的不是图灵 , 而是人类 。比如20世纪60年代的机器心理治疗师伊莱扎(Eliza) , 就是一个非常简单的聊天机器人 , 它也欺骗人们相信自己在和正常的人类对话 。很难理解的是 , 即使人们知道他们交谈的伙伴是一台机器 , 许多人仍然相信对面是一个人!
在2012年的一篇论文中 , 计算机科学家提出了一个更客观的测试 , 叫做“Winograd”模型挑战 。这种测试已经广泛应用于人工智能语言领域 。作为一种评估机器理解能力的有效方式 , 它可能是最好的方式——尽管它并不完美 。这个句型由一对只有一个单词不同的句子组成 , 每个句子后面都有一个问题 。
【威诺格拉德模式挑战(Wei Nograd Model Challenge):英文:Winograd Schema Challenge , 缩写为WSC , 是多伦多大学计算机科学家提出的一种机器智能测试 。该测试是对传统图灵测试的改进 。在机器无法使用谷歌搜索(或类似搜索引擎)正确回答问题的前提下 , 通过向机器提出专门设计的选择题来测试人机交互的智能水平]
这里有两个例子:
示例1
第一句话:我把瓶子里的水倒进杯子里 , 直到杯子满了 。问题:什么是满的 , 瓶子还是杯子?第二句:我把瓶子里的水倒进杯子里 , 直到空 。问题:什么是空 , 瓶子还是杯子?
示例2
第一句话:乔的叔叔打网球还是能赢他 , 尽管他已经30岁了 。问题:谁年纪大 , 乔还是乔的叔叔?尽管乔的叔叔比他小30岁 , 但他打网球还是能赢他 。问题:谁更年轻 , 乔还是乔的叔叔?
基于神经网络的语言模型在测试中达到了约97%的准确率 , 与人类的表现大致相当 。
在每一句对话中 , 一个字的不同可以改变代词所指的物或人 。正确回答这些问题似乎需要常识性的理解 。“Winograd”旨在测试这种理解 , 目的是最大限度地减少人工智能对人类语言的误解和脆弱性 。
随着大型神经网络语言模型的出现 , 人工智能程序求解Winograd模式的能力迅速提高 。2020年 , OpenAI的GPT-3通过Winograd测试的准确率达到90% 。经过专门针对这些任务的训练后 , 其他语言模型的表现甚至更好 。在最近的人工智能语言理解大赛SuperGLUE中 , 一个神经网络语言模型的准确率达到了97%左右 , 接近人类的水平 。
这是否意味着神经网络语言模型已经达到了人类理解的水平?
不会 , 尽管竞赛创作者已经尽力使竞赛题无法通过谷歌或其他引擎进行搜索 , 但这些挑战和其他许多当前的人工智能语言理解测试一样 , 是允许神经网络在不理解的情况下表现良好的(高分但低能) 。
比如句子“跑车超过邮车是因为跑得快”“跑车超过邮车是因为跑得慢” 。在庞大的英语单词句子语料库上训练出来的语言模型 , 会吸收“跑车”和“快”之间 , “邮车”和“慢”之间的数学关联 。因此 , 我们可以在没有任何理解的情况下 , 仅通过从大量数据中训练出来的相关性 , 就能正确回答类似的问题 。目前不排除像强力胶这种各类比赛中使用统计相关来答对 。
目前 , 神经网络语言模型已经越来越大 , 越大 , 在这个挑战中的分数就会越高 。目前 , 最好的神经网络语言模型——已经在TB级文本上训练过 , 然后在数千个WinoGrande(Winograd和其他增强版本)例子上进一步训练——已经能够接近90%的正确率(人类获得大约94%的正确率) 。这种性能提升几乎完全是由于神经网络语言模型及其训练数据规模的增加 。
理解语言需要理解世界 , 而只接触语言的机器是无法获得这样的理解的 。
这些越来越大的神经网络语言模型是否最终达到了人类的常识性理解?一些研究人员认为这不太可能 。WinoGrande竞赛的结果有一些重要的警示意义 。例如 , 由于挑战的句子依赖于手工书写 , 书写的质量和一致性参差不齐 。此外 , 用于排除“谷歌搜索”句子的方法可能过于简单 , 无法手动找到大型神经网络的所有统计捷径 。
当前问题的关键在于 , 理解语言需要理解世界 , 而只接触语言的机器无法获得这样的理解 。理解“跑车超越邮车是因为它走得慢”的含义 , 比机器要宽泛和深刻得多 。人类对“跑车超越邮车是因为跑得慢”的理解 , 是指开跑车的人认为邮车跑得慢 , 人们的理解是基于人开车 , 而不是跑车和快、邮车和慢的相关性统计 。语言真正代表的是人类思想的表达 , 而不是当前人工智能数据相关性的统计 。
人工智能机器可以在阅读测试中打败人类 , 但它们真的懂吗?
根据生物神经病学的最新研究成果 , 人脑神经网络的复杂程度和工作模式与目前的人工智能相差甚远 。仅人脑的百万分之一神经元映射数据就需要1.4 PB(计算机存储单元1.4 PB=1024TB)用于计算机存储空 。人类大脑有860亿个神经元 , 每个神经元与其他神经元有几十到几千个连接 。甚至神经元的连接也可能扩展到量子领域 。计算这种网络结构的复杂程度不亚于天文学和量子力学 , 这是人脑能够以无数种方式做事的根本原因 。(关于人脑神经网络的最新研究进展 , 感兴趣的读者可以参考作者此前发表的文章《科学家即将揭开人脑神经网络结构之谜》)
人类神经网络结构
人类神经网络映射
为什么AlphaZero这样的人工智能在现实世界中会遇到很多麻烦?这些机器遇到的所有问题都是我们人类想当然的常识 , 但这些常识还不能内置到机器中 , 也不可能写在任何语言模型的训练文本中 。人类依靠空时间 , 以及其他许多先天和先在的基本属性来学习和理解语言 。
网络使用统计捷径——而不是实际展示理解人类语言的能力!语言代表思想 , 分析人类复杂的大脑和看似无限的神经元连接结构是一个极其宏大的挑战 , 考验着人类和人工智能的极限 。
当前社会上的“量子热”和“人工智能热” , 需要从发展的角度来“降温”和“除火” 。要知道 , 任何科技突破都是一个逐步积累的过程 , 没有积累就没有飞跃 。在人类生物神经科学和量子计算两大领域取得重大突破之前 , 当前的人工智能很难实现第三次飞跃 , 人工智能领域也将迎来第二次技术沉淀期 。当然 , 技术沉淀不代表没有进步 。目前人工智能的应用领域还是很广阔的 , 现有的研究成果足以推动人类文明前进一大步 。
【wsc是啥 wsc是什么意思】

  • 如果水逆过你 , 一切都会赢吗?查星座 , 你就无敌了?
  • 唐三终于娶了几个妻子(只有一个妻子 , 那就是小舞)
  • 科学家在太阳系找到其他栖息地 , 水、氧、氮资源丰富 , 比火星好?
  • 薛佳凝和胡歌怎么回事?胡歌与薛佳凝的人生轨迹有何不同
  • 为什么男人看到电视剧里的美女会流鼻血?

    推荐阅读