NLP-机器理解人类的桥梁

标签:NLP机器
分享到:

NLP (Natural Language Processing) 自然语言处理,作为人工智能和语言学领域的交叉学科,自然语言处理简单来说,就是把自然语言(如英语或汉语普通话)转换成计算机能够用于理解这个世界的数据(数字)。同时,这种对世界的理解有时被用于生成能够体现这种理解的自然语言文本(即自然语言生成)。

NLP起源

自然语言处理缘起于图灵测试,它讨论的是如何处理及运用自然语言,简单理解就是是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。

自然语言处理的起源是从1950年开始,那一年,艾伦·图灵(Alan Turing)写了一篇论文,描述了对“思考型”机器的测试。他说,如果一台机器可以通过使用电传打字机成为对话的一部分,并且它完全模仿了人类,没有明显的差异,那么该机器就可以被认为具有思维能力。

此后不久,在1952年,霍奇金-赫克斯利模型展示了大脑如何利用神经元形成网络。这些事件激发了人工智能(AI)的思想,自然语言处理 (NLP),以及计算机的发展。

1960年代发展特别成功的NLP系统有两个,一个是SHRDLU——一套词汇设限、运作也受限如“积木世界”的一种自然语言系统;另外一个是1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的ELIZA,它有时候却能呈现令人讶异地类似人之间的交互。但仅限于在ELIZA 极小的知识范围之内,否则,就只能得到空泛的回答。

一直到1980年代,多数自然语言处理系统仍是以一套复杂、人工订定的规则为基础。不过从1980年代末期开始,语言处理引进了机器学习的算法,NLP产生革新,开始了蓬勃发展。

什么是自然语言处理-NLP

每种动物都有自己的语言,机器也是!

自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。

人类通过语言来交流,狗通过汪汪叫来交流。机器也有自己的交流方式,那就是数字信息。

不同的语言之间是无法沟通的,比如说人类就无法听懂狗叫,甚至不同语言的人类之间都无法直接交流,需要翻译才能交流。

而计算机更是如此,为了让计算机之间互相交流,人们让所有计算机都遵守一些规则,计算机的这些规则就是计算机之间的语言。

既然不同人类语言之间可以有翻译,那么人类和机器之间是否可以通过“翻译”的方式来直接交流呢?

NLP 就是人类和机器之间沟通的桥梁!

为什么是“自然语言”处理?

其实就是将我们日常生活中的话语让机器能够理解,例如:

球铁,是钢铁行业中的一项细分产品,但对于机器来说,他可能会理解为“球”和“铁”两个物体,这时候就需要深度学习对机器进行训练,从而让他理解球铁是一个整体。

同样的,对于这样一句话“领导非常重视民生银行工作人员的服务态度存在问题”,这句话我们很容易理解,谓语是民生银行,但对于机器来说,它可能理解为“领导重视民生”、“银行工作人员的态度存在问题”,同样的,我们同样需要对机器进行训练,从而让其理解民生银行这是一个整体。而这也是自然语言处理的的难点。

工作原理

它的工作原理是这样的:

1、接收自然语言,这种语言是通过人类的自然使用演变而来的,我们每天都用它来交流

2、转译自然语言,通常是通过基于概率的算法

3、分析自然语言并输出结果

简而言之,这就是一个创建算法的过程。

你使用过苹果公司的人工智能语音助手Siri吗?有没有好奇过Siri是如何理解你说的(大部分的)话的?Siri的工作过程就是自然语言处理在实践中应用的一个鲜活案例。

NLP正在成为我们生活中不可或缺的一部分,其与机器学习、深度学习一起达成的高度远远优于几年前取得的成就。

那么,NLP可以做些什么?

应用范围

NLP应用广泛,其中包括:

1、机器翻译

你上一次去国外旅行并且使用手机翻译外语是什么时候?可能你用的是谷歌翻译?这种操作是NLP机器翻译的一个日常应用。

机器翻译是通过使用NLP把一种语言翻译成另一种语言。从历史上看,简单的基于规则的方法已经这样做了,但是时至今日,NLP技术是对已经存在多年基于规则的方法的一大改进。

为了使NLP在机器翻译方面做得更好,它使用了深度学习技术。这种形式的机器翻译因为利用了神经网络,所以有时被称为神经机器翻译(NMT)。因此,基于统计、试错等方法翻译语言的NMT能够联系语境翻译语言,处理语言的其他微妙之处。

除了像谷歌翻译这种应用程序,NLP也被使用在非常多商业软件上,例如:

翻译纯文本、网页或文件,如Excel、Powerpoint或者Word。Systran就是这样一家翻译服务公司。实时翻译社交软件回复,SDL Government可以提供相应服务(一家专业做公共部门翻译服务的公司)。在医疗环境下翻译,例如当一名英语语系医生正在给西班牙语病患治疗时,Canopy Speak可以提供帮助。翻译财务文件,如年报、投资评论和信息文件等。

2、语音识别

上面,我们提到Siri是NLP的一个著名应用。Siri使用NLP一个非常明显的特征就是语音识别。当然,Alexa和谷歌语音助手同样也是NLP语音识别的著名应用。

语音识别不是一项新的科学技术,距今已有50多年的历史了。直到最近,多亏有了NLP,它的准确性和易用性才有了质的提升。

语音识别的核心是识别口语单词、解释它们并将其转换为文本的能力。然后可以采取一系列行动,如回答问题、执行指示或编写电子邮件。在NLP中使用强大的深度学习的方法使今天的语音识别应用程序比以往任何时候都表现得更出色。

3、聊天机器人

聊天机器人是一种模仿人类对话聊天的程序。第一个聊天机器人Eliza Doolittle出现在20世纪60年代,经过几十年的发展,NLP已经成为创建聊天机器人的基础,尽管这样的系统仍不算完美,但它们可以轻松地处理标准任务。聊天机器人当前可在多种渠道上运行,包括Internet,应用程序和消息传递平台。很多公司用聊天机器人来进行客户服务、售前咨询和售后咨询。

例如我们在网上经常需要寻求客服的帮助,而现在很多公司的客服其实就是聊天机器人。

虽然简单的聊天机器人使用基于规则的方法,但如今功能更强的聊天机器人使用NLP来理解客户在说什么以及如何响应。

聊天机器人的著名应用包括:

建立在WhatsApp平台上的世界卫生组织(WHO)聊天机器人,分享关于COVID-19病毒传播的信息并回答问题。《国家地理》(National Geographic)的天才聊天机器人(Genius chatbot),聊天风格像爱因斯坦(Albert Einstein),与用户互动,推广同名的《国家地理》节目。Kian,韩国汽车制造商起亚在FaceBook Messenger上的聊天机器人,回答有关起亚汽车的咨询并帮助销售查询。Whole Foods的聊天机器人,帮助提供配方信息、烹饪灵感和产品推荐。

4、情感分析

情感分析是种有趣的NLP和数据挖掘任务,对文本数据中包含的情绪进行解析和分类,衡量人们的观点倾向。例如被用来分析观众对电影的评论或由该电影引起的情绪状态,又例如将在线客户对产品或服务的反馈按照正面或负面的体验进行分类。

情感分析最简单的形式是,根据传达情感的特定词语,如“爱”、“恨”、“高兴”、“伤心”或“生气”,对文本进行分类。这种情绪分析方法已经存在了很长时间,但由于其简单性,实际应用非常有限。

今天的情感分析使用基于统计和深度学习方法的NLP对文本进行分类。其结果就是能够处理复杂的、自然发音的文本。

如今,世界各地的企业都对情感分析非常感兴趣。因为其可以在客户偏好、满意度和意见反馈等方面提供有助于市场活动和产品设计的数据。

5、电子邮件分类

电子邮件过载是现代职场常见的难题。NLP可以协助分析和分类收到的电子邮件,以便它们可以自动转发到正确的收件方。

曾经,人们使用简单的关键词匹配技术对电子邮件进行分类。这种做法成败参半。NLP可以更好的进行分类,因为它可以理解整个句子、段落和文本的文本中的上下文。

鉴于当今企业必须处理的电子邮件数量庞大,基于NLP的电子邮件分类可以极大地提高工作效率。使用NLP进行分类有助于确保邮件不会被遗忘在负担过重的收件箱中,还可以适当地归档以备进一步处理。

6、声量系统

在我们的系统中,同样用到了自然语言处理的技术,例如我们的事件关联及推理系统,我们将能收集到的数据进行分析,提取关键信息,通过建模计算事件的影响程度。

在自然语言分析中,语境分析尤为重要,同样的词或者一句话,在不同的语境中表达的意思就不同,而且,就算在同一篇文章中,同样的词语在文章的前面或者后面出现所表达的意义也不尽相同,我们也是在不同的场景下一次次的实验以及完善建模,一步步优化算法,发掘事件间的逻辑联系。分析事件对于经济以及数据上的影响。

继续阅读
对抗性神经网络让机器拥有了欺骗人类的能力,人工智能愈加强大

在短短一万余年的人类文明历程中,每一个飞跃性的进步都是以某一种技术的出现作为主导而实现的。

中国科大成功研发出新型量子机器学习技术,实现数据特征提取

据中国科学技术大学官方微博,该校中国科学院微观磁共振重点实验室杜江峰、王亚、李兆凯等人在量子机器学习研究中取得重要进展,研发出新型量子特征提取算法,实验实现了对未知量子系统矩阵的分析与信息提取。该成果以”Resonant Quantum Principal Component Analysis”为题发表在近期的Science Advances上[Science Advances 7, eabg2589 (2021)]。

从TB到EB:支持人工智能和机器学习的对象存储技术

越来越多的机构正在使用人工智能和机器学习技术,来增强自身的关键任务能力,加速研究突破,并释放人力资本。

用人工智能和机器学习为数据中心提供动力

随着数据在当今企业中的重要性日益增加,数据管理对于管理和治理大型数据集以促进业务增长至关重要。公司正在利用先进的分析和自动化工具来处理大量数据。他们还利用装备精良的数据中心进行更好的数据管理。数据中心提供无缝的数据备份和恢复设施,同时支持云存储应用程序和交易。由于它们为业务数据存储提供了独特的功能,因此公司正在转向人工智能和机器学习等新兴技术来改进其数据中心基础设施。

如何让机器有“常识”且更理解人类?第三代人工智能可能要从人机混合上找答案

美国作家Pamela McCorduck在《Machines Who Think (2nd ed.)》一书中写道:“某种形式上的人工智能是一个遍布于西方知识分子历史的观点,是一个急需被实现的梦想,先民对人工智能的追求表现在诸多神话,传说,故事,预言以及制作机器人偶(自动机)的实践之中。”