测试四个顶级系统,科学家发现AI的仇恨言论审核能力依然很差

分享到:

尽管人工智能(AI)技术领域在最近取得了进步,但它依然在大多数基本应用上暴露出很多问题。

在一项新的研究中,科学家们对四个顶级人工智能系统的仇恨言论检测能力进行了测试,他们发现所有系统在识别恶意、以及无害言论上都存在着不同程度的问题。

(来源:公众号公众图库)

这一结果并不令人吃惊,因为构建可以理解自然语言细微差异的人工智能是一件非常困难的工作。然而,研究人员们诊断问题的方式却是非常重要的。

为了更加精确地找出系统故障的原因,研究人们针对仇恨言论的方方面面制定了 29 种不同的测试,这会让我们更容易地去了解克服系统缺陷的方法。同时,这些测试也正在帮助一项商业服务提升其人工智能的性能。

由牛津大学以及阿兰・图灵研究所科学家所领衔的论文作者们,对 16 家监管网络仇恨言论的非营利组织的雇员进行了采访。

研究团队利用这些采访将仇恨言论划分为了 18 个不同的种类,仅侧重于英语以及基于文本的仇恨言论,其中包括贬损用语、诋毁性文字以及威胁性词汇。

他们还发现了 11 种经常让人工智能监管者产生误判的不含仇恨情绪的情形,其中包括在不冒犯他人的情况下使用脏话、被目标群体所接纳的诋毁性词语,以及引用原始仇恨言论对仇恨言论进行谴责的行为(也被称为反面论证)。

研究人员针对 29 种不同情况中的每一种编写了数十个范例,并且使用了像 “我讨厌【某人】” 以及 “对我来说,你就是个【诋毁性词语】” 这样的 “模板” 语句,从而为七个受保护的群体生成相同的范例集合 —— 这些人都受美国法律的保护而不会遭到歧视。研究人员对被称作 HateCheck 的最终数据集进行了开源处理,该数据集中共含有近 4000 个范例。

之后,研究人员又对两项受欢迎的商业服务进行了测试:谷歌和 Jigsaw 的 Perspective AI、以及 Two Hat 的 SiftNinja。这两个服务都允许客户标记出帖子以及评论中带有仇恨色彩的内容。

Perspective 的用户包括 Reddit 以及像《纽约时报》、《华尔街日报》这样的新闻机构,根据其所处理的有害信息,人工智能服务会对帖子以及评论进行标记,以供人工审查使用。

SiftNinja 的检测标准过于宽松,进而没有识别出几乎所有的变化,而 Perspective 的标准则过于严格。它检测出了 18 个仇恨种类中的大部分,但同时也标记出了许多像被接纳的诋毁性词语以及反面论证这样的不含仇恨情绪的情况。

研究人员在测试谷歌的两个学术模型时也发现了相同的模式,这些模型代表了业界中顶级的语言人工智能技术,它们同时也是其它商业性内容审核系统的基础。学术模型还显示出,受保护群体之间的表现并不相同 —— 有些群体的仇恨程度比其它群体更容易被错误归类。

测试结果指明了当今人工智能仇恨言论检测方面最具挑战性的一个方面:审核太少,没法解决问题;而审核太多,就会删除掉边缘化群体用来强调和保护自己的话语。

牛津大学互联网研究院的博士候选人保罗·罗特格(Paul Röttger)是本篇论文的共同作者。罗特格表示,“突然之间,你就会成为那些在仇恨言论中首当其冲的群体的惩罚者。”

Jigsaw 的首席软件工程师露西·瓦瑟曼(Lucy Vasserman)表示,Perspective 利用人工审查来进行最终决策,进而克服了这些局限性。但是,这种方法无法扩展至更加庞大的平台上。当前,Jigsaw 正在开发一种基于 Perspective 的不确定性的,同时可以对帖子及评论变更优先顺序的系统。该系统可以自动移除带有仇恨色彩的内容,并将边缘信息标记出来。

瓦瑟曼说道,新研究最令人激动的地方在于,它为这种顶尖技术提供了一种细致的评估方式。她还表示,“论文中强调了的许多东西,例如对那些模型来说是一个挑战的被人们所接纳的诋毁性词语。我们早就认识到了它们的存在,但却一直很难对其进行量化处理。” 目前,Jigsaw 正在使用 HateCheck 来更好地了解自身模型间的差异,以及需要继续改进的地方。

学术界也对此次研究的成果感到兴奋。华盛顿大学语言人工智能研究员马丁·萨普(Maarten Sap)表示,“这篇论文为我们评估行业中的系统提供了一个优良且干净的资源,它会让企业和用户不断地去提升自己的系统。”

罗格斯大学社会学助理教授托马斯・戴维森托马斯·戴维森(Thomas Davidson)对此表示认同。戴维森表示,语言模型的局限性以及杂乱无章的语言现象意味着,人们总会在识别仇恨言论的过程中对过松或过紧的问题进行取舍。他还说道,“HateCheck 数据集让这些取舍变得可视化了。”

继续阅读
让城市会思考,百度AI全面赋能新型智慧城市建设

城市智能化发展四大阶段,分别是运算智能(让城市有记忆),感知智能(让城市听见、看见),认知智能(让城市会思考),决策智能(让城市会决策)。百度一直以来深耕智慧城市建设,打造了百度智慧城市理念。百度智慧城市通过部署统一自主可控的新一代政务云数字底座、构建云智一体的城市大脑、深度赋能四领域智慧应用场景,打造“1+1+4”的智慧城市总体架构,助力城市创新数字化转型、保障智慧城市可持续运营和安全可靠。

拥有人类的表情与部分能力 AI越来越接近人类是一件好事吗?

10月20日讯(刘亚珠) 自出现首个获得合法公民身份的机器人索菲亚后,清华大学也迎来了首个原创虚拟学生“华智冰”。随着人类科技的不断进步与发展,人工智能的各项技术也在不停完善。

AI大变局:开启全新的人类历史100年?

光电芯片、人工智能、航空航天、生物技术、信息技术、新材料、新能源、智能制造。探索硬核科技产业八大领域。

AI 战“疫”:人工智能如何助力疫情防控

面对密集的人流,高铁、地铁、机场等交通枢纽采用传统的手持式“额温枪”“耳温枪”显然难以满足需求。在这种情况下,利用人脸关键点检测及图像红外温度点阵温度分析算法,可在一定面积范围内对人流区域多人额头温度进行快速筛选及预警,实现“人体识别+人像识别+红外/可见光双传感”的AI测温方案。此技术避免了因佩戴口罩及帽子等造成的面部识别特征较少的问题,有利于人群聚集时快速进行体温检测,大大加快了疫情防控的效率,现已在全国多地火车站、地铁站、汽车站应用。

AI赋能,智能网联汽车产业驶入快车道

从《智能汽车创新发展战略》到34亿新基建蜂拥而至,智能网联汽车站上风口,成为各地持续发力的热门行业。随着越来越多高科技公司的渗透,汽车的技术含量也在提高,与传统汽车相比,不仅属性和边界变了,就连定义也变了。