测试四个顶级系统,科学家发现AI的仇恨言论审核能力依然很差

分享到:

尽管人工智能(AI)技术领域在最近取得了进步,但它依然在大多数基本应用上暴露出很多问题。

在一项新的研究中,科学家们对四个顶级人工智能系统的仇恨言论检测能力进行了测试,他们发现所有系统在识别恶意、以及无害言论上都存在着不同程度的问题。

(来源:公众号公众图库)

这一结果并不令人吃惊,因为构建可以理解自然语言细微差异的人工智能是一件非常困难的工作。然而,研究人员们诊断问题的方式却是非常重要的。

为了更加精确地找出系统故障的原因,研究人们针对仇恨言论的方方面面制定了 29 种不同的测试,这会让我们更容易地去了解克服系统缺陷的方法。同时,这些测试也正在帮助一项商业服务提升其人工智能的性能。

由牛津大学以及阿兰・图灵研究所科学家所领衔的论文作者们,对 16 家监管网络仇恨言论的非营利组织的雇员进行了采访。

研究团队利用这些采访将仇恨言论划分为了 18 个不同的种类,仅侧重于英语以及基于文本的仇恨言论,其中包括贬损用语、诋毁性文字以及威胁性词汇。

他们还发现了 11 种经常让人工智能监管者产生误判的不含仇恨情绪的情形,其中包括在不冒犯他人的情况下使用脏话、被目标群体所接纳的诋毁性词语,以及引用原始仇恨言论对仇恨言论进行谴责的行为(也被称为反面论证)。

研究人员针对 29 种不同情况中的每一种编写了数十个范例,并且使用了像 “我讨厌【某人】” 以及 “对我来说,你就是个【诋毁性词语】” 这样的 “模板” 语句,从而为七个受保护的群体生成相同的范例集合 —— 这些人都受美国法律的保护而不会遭到歧视。研究人员对被称作 HateCheck 的最终数据集进行了开源处理,该数据集中共含有近 4000 个范例。

之后,研究人员又对两项受欢迎的商业服务进行了测试:谷歌和 Jigsaw 的 Perspective AI、以及 Two Hat 的 SiftNinja。这两个服务都允许客户标记出帖子以及评论中带有仇恨色彩的内容。

Perspective 的用户包括 Reddit 以及像《纽约时报》、《华尔街日报》这样的新闻机构,根据其所处理的有害信息,人工智能服务会对帖子以及评论进行标记,以供人工审查使用。

SiftNinja 的检测标准过于宽松,进而没有识别出几乎所有的变化,而 Perspective 的标准则过于严格。它检测出了 18 个仇恨种类中的大部分,但同时也标记出了许多像被接纳的诋毁性词语以及反面论证这样的不含仇恨情绪的情况。

研究人员在测试谷歌的两个学术模型时也发现了相同的模式,这些模型代表了业界中顶级的语言人工智能技术,它们同时也是其它商业性内容审核系统的基础。学术模型还显示出,受保护群体之间的表现并不相同 —— 有些群体的仇恨程度比其它群体更容易被错误归类。

测试结果指明了当今人工智能仇恨言论检测方面最具挑战性的一个方面:审核太少,没法解决问题;而审核太多,就会删除掉边缘化群体用来强调和保护自己的话语。

牛津大学互联网研究院的博士候选人保罗·罗特格(Paul Röttger)是本篇论文的共同作者。罗特格表示,“突然之间,你就会成为那些在仇恨言论中首当其冲的群体的惩罚者。”

Jigsaw 的首席软件工程师露西·瓦瑟曼(Lucy Vasserman)表示,Perspective 利用人工审查来进行最终决策,进而克服了这些局限性。但是,这种方法无法扩展至更加庞大的平台上。当前,Jigsaw 正在开发一种基于 Perspective 的不确定性的,同时可以对帖子及评论变更优先顺序的系统。该系统可以自动移除带有仇恨色彩的内容,并将边缘信息标记出来。

瓦瑟曼说道,新研究最令人激动的地方在于,它为这种顶尖技术提供了一种细致的评估方式。她还表示,“论文中强调了的许多东西,例如对那些模型来说是一个挑战的被人们所接纳的诋毁性词语。我们早就认识到了它们的存在,但却一直很难对其进行量化处理。” 目前,Jigsaw 正在使用 HateCheck 来更好地了解自身模型间的差异,以及需要继续改进的地方。

学术界也对此次研究的成果感到兴奋。华盛顿大学语言人工智能研究员马丁·萨普(Maarten Sap)表示,“这篇论文为我们评估行业中的系统提供了一个优良且干净的资源,它会让企业和用户不断地去提升自己的系统。”

罗格斯大学社会学助理教授托马斯・戴维森托马斯·戴维森(Thomas Davidson)对此表示认同。戴维森表示,语言模型的局限性以及杂乱无章的语言现象意味着,人们总会在识别仇恨言论的过程中对过松或过紧的问题进行取舍。他还说道,“HateCheck 数据集让这些取舍变得可视化了。”

继续阅读
AI制药风潮席卷 打造药物研发“新常态”

随着创新药物研发日益受到重视,以及人工智能(AI)技术的迅速发展,AI赋能制药的大趋势愈发明显。由于AI制药相较传统制药可以大幅减少研发投入及时间成本,提高新药研发效率和成功率,近年来AI制药在资本市场的热度逐渐上升。

百度再获5项中国专利奖,AI领域高级别奖项累计第一

日前,第二十三届中国专利奖评选结果揭晓,百度再获5项中国专利奖。其中,银奖2项、优秀奖3项,涉及自动驾驶、计算机视觉、自然语言处理、地图等领域。截止目前,百度已累计斩获13项AI中国专利奖,包括1项金奖,6项银奖,AI领域高级别奖项累计第一。

科学家研发高性能介电弹性体,推动人工肌肉、VR等领域取得新突破

“这篇论文一共有三位审稿人,评价都挺高的。一位审稿人认为这项研究取得的成果推动了介电弹性体材料领域的重大进展。另一位审稿人认为我们提出的新工艺简单易用,能够被世界上大多数实验室所复现。他们都对这项研究非常感兴趣,愿意在他们的研究中采用我们开发的材料和工艺方法。”谈及论文审稿人的评价,浙江大学伊利诺伊大学厄巴纳香槟校区联合学院的研究员石烨博士如是说。

传美商务部对华实施AI芯片设计软件(EDA)出口限制

根据外媒Protocol最新报道称,为了缓解中国大陆制造先进芯片的能力,美国准备对特定的芯片设计软件实施出口限制,该软件对于生产人工智能(AI)应用所需最先进芯片至关重要。

苹果公布新AI研究GAUDI,可通过文字来合成3D场景

近期,苹果机器学习科研人员Miguel Angel Bautista和团队研发了一种可以通过文字来合成3D场景的AI系统:GAUDI。据悉,GAUDI是一种生成式AI模型,其特点是是解决了对参数化3D辐射场的学习难题,苹果将其称为“可合成3D场景的神经架构师”。

精彩活动