当前位置:主页 > L生活的 >AI需要新版涂林测试 >

AI需要新版涂林测试

2020-06-06

AI需要新版涂林測試

AI需要新版涂林测试!

温诺格雷基模挑战

以AI先驱温诺格雷命名的温诺格雷基模,是由简单但语意不清的自然语言构成的问句。正确回答这类问题,必须具备对真实世界中各种介质、物体与文化规範如何互相影响的基本常识。

温诺格雷在1971年写下的第一个基模,描述「市政府拒绝示威者的申请,因为他们担心暴力行为」,接着问一个简单问题:「谁担心有暴力行为?」这称为代名词歧义消除问题(PDP)。在这个问题中,「他们」指的是谁并不明确。但温诺格雷基模比其他PDP更难以捉摸,因为只需改变一个词,整个句子的指称词便完全相反,例如「市政府拒绝示威者的申请,因为他们鼓吹暴力行为」。大部份人利用「常识」或对「真实世界的了解」判断市政府与示威者的关係,来回答这类问题。这项挑战先用简单的PDP进行淘汰赛,通过第一轮测试的系统,才会接受真正的温诺格雷基模挑战。

优点:由于电脑缺乏温诺格雷基模所需知识的可靠来源,这项挑战能防止电脑靠网路搜寻来作弊。

缺点:可用的温诺格雷基模词句库相对较少。美国纽约大学的电脑科学教授戴维斯指出:「想出这类句子并不容易。」

困难度:高。在2016年有四套系统回答60个温诺格雷基模问题。优胜电脑的正确率只有58%,远低于研究人员设定的90%门槛。

应用範围:这项测试能分辨电脑是否真的理解语意,还是只会模仿。与戴维斯共同研究温诺格雷基模挑战、任职于雷多斯公司的研究员摩根斯坦解释:「苹果的语音助理Siri无法理解代名词或消除歧义。因此当你说到前一个句子中的指称词时,对话便无法继续下去。」

标準化的学科测验

在没有任何协助之下,AI将参加美国小学与中学生的标準化教育笔试,以评估是否具备连结事实与语意认知的能力。就像涂林原版的模仿游戏一样,这项测试非常直截了当:只要拿任何足够严谨的标準化学科测验,例如纽约州小学四年级科学测验中的选择题,并替电脑装上能读取测验材料的自然语言处理器与电脑视觉装置,便能进行测验。

优点:变化多端且十分实用。有别于温诺格雷基模,这项测验的材料既便宜又容易取得。此外,由于测验材料并未针对机器进行修改或事先处理过,光是分析问题便需要对真实世界有丰富的多方面常识,更甭说能够正确回答。

缺点:无法像温诺格雷基模一样,防止电脑藉由网路搜寻作弊。而且如同参加考试的人类,通过标準化测验并不代表真正的智慧。

困难度:中高。艾伦人工智慧研究所设计出一套系统「阿里斯托」(Aristo),在第一次参加四年级科学测验中,拿下平均75%的分数,但这只是不包含图表的选择题。该所的研究人员在发表于《人工智慧杂誌》上的论文中写道:「目前没有任何系统能通过完整的四年级科学测验。」

应用範围:执行真实性检查。艾伦人工智慧研究所的执行长伊兹奥尼(Oren Etzioni)表示:「基本上,我们没看过任何程式能在中学八年级科学测验中拿到超过60%的分数。在此同时,媒体却报导IBM的超级电脑华生(Watson)正就读医学院并试图解决癌症。要嘛IBM已取得惊人的重大突破,要嘛就是夸大其辞。」

实体化的涂林测试

大多数电脑的智慧测试都强调认知,但这项测试比较像实作课程。AI必须用有意义的方式,实际操作真实世界中的物体。测试包含两个项目:在建构项目中,实体化的AI(基本上就是机器人)得遵照口头、文字或图片中的指示,把一堆零件组成特定结构,就像组装IKEA家具一样。探索项目则要求机器人利用玩具积木,设计解决方案来克服开放且更需要创意的挑战,例如筑墙、建造房屋或加盖车库。测试的重头戏是最后的沟通挑战,机器人必须解释为什幺这幺做。测试对象可以是单一机器人、一群机器人,或与人类合作的机器人。

优点:这项测试整合了感官与动作两种真实世界的智慧,这是过去被忽视或研究不足的领域。此外,这项测试几乎不可能造假。纽昂斯沟通公司的奥蒂兹表示:「除非有人想出如何把任何东西的组装说明书放上网路,不然我很难想像机器人如何作弊。」

缺点:除非让机器人在虚拟实境(VR)中建造结构,否则相当麻烦、乏味,而且很难自动化。奥蒂兹说:「即使如此,机器人学家会说VR只是近似值。在真实世界中,当你捡起物体时可能会滑落,或得注意其他细节;虚拟世界很难忠实模拟出这些细微差异。」

困难度:只出现在科幻小说中。实体化AI若能操作物体、并条理清楚解释为什幺这幺做,基本上跟电影「星际大战」中的机器人一样,远超出目前的科技水準。奥蒂兹说:「要求机器人做到人类小孩就能完成的日常小事,仍是巨大挑战。」

应用範围:整合感官、动作、认知和语言,四项全能的AI是钻研单一能力的研究人员的梦想。

电脑奥林匹克

在一连串部份或完全自动化的测试中,AI必须总结出语音内容、叙述一段影片的情节、即时翻译自然语言,并执行其他任务,为的是建立客观的智慧评量指标。这项测试的特点是测验与评分将完全自动化,不需人类介入。把人类排除在评估AI的程序外,看似有些讽刺,但IBM的AI研究员、研发超级电脑深蓝(Deep Blue)成员之一的坎贝尔(Murray Campbell)指出,为了确保效率与再现性,这是必要的。他表示,利用演算法自动替AI评分,研究人员不必仰赖人类智慧(可能出现认知偏误)做为衡量标準。

优点:至少在理论上完全客观。裁判只需决定各项测验的评分方式与结果的权重,电脑便能自动完成评估。结果应该像奥林匹克终点线的裁定照片一样没有争议。多样化的测验也能协助找出IBM研究人员所谓的「一般性智慧系统」。

缺点:结果难以评断。电脑奥林匹克的演算法可能会给某种AI系统高分,但研究人员无法完全理解其运作方式。坎贝尔承认:「先进AI系统所做的某些决定,可能很难用简洁易懂的方式向人类清楚解释。」研究卷积神经网路的研究人员便已经遇到称为「黑盒子问题」这类困境。

困难度:视情况而定。目前系统在某些测验中表现良好,例如理解图片或翻译语言。但叙述影片内容、根据口头描述绘出图表等这类任务,仍然停留在科幻小说的範畴。

应用範围:在评估AI时,减少受到人类认知偏误的影响。除了分辨AI外,还能量化其效能。

相关推荐