技术专栏(五):NLP,强大的社交「读心术」





本期技术分享家

AdMaster高级研发总监 史腾飞(Stanford Shi)


上期技术专栏,我的同事蒋善文曾深入剖析AdMaster百亿社交数据秒级响应背后的技术——ES,作为强大的搜索引擎,ES兼具全文检索、多维统计、数据仓储等多种功能,AdMaster在传统ES中文自动分词的基础上,定制化开发了社交化分词及高复杂自定义功能,从而实现了社交搜索的秒级响应。我今天要分享的,则是分词技术背后强大的支撑——NLP自然语言处理技术。


作为计算机科学以及AI人工智能的前沿领域,想必大家对NLP耳熟能详。简单而言,它就是一项让机器读懂人的语言,并与人实现有效对话的技术,在搜索、语义分析、机器翻译、语音识别、问答等认知领域,NLP具有广泛的应用场景,它也是知识图谱等未来人工智能技术的技术基础。


NLP也是AdMaster提供专业社交和洞察分析服务的基础,早在2011年,国内首个全平台社交解决方案SocialMaster上线时,NLP就已经运用到社交舆情监测、危机预警等功能中,随着精准度的不断精进,目前已应用到AdMaster全线产品中。



NLP研发积累超8年,

情感识别准确率高达80%



NLP技术在全球的发展大致可以划分为三个阶段,分别以2013年和2018年为界。


2013年之前,属于NLP技术发展的早期,此时的NLP更多是指统计语言建模技术,2013年,谷歌公开了Word2vec 模型,Word2vec作为简单化的神经网络,可以根据给定的语料库将离散的词语向量化,为自然语言处理的发展起到了重要推动作用。此后,随着深度神经网络的发展,LSTM、CNN等各种网络模型不断应用到NLP技术中,以这些模型为基础的各种层数更深的网络结构逐步应用,更大规模的语料投入训练,使得NLP的效果不断提升。2017年,谷歌又提出Transformer自注意力模型。


2018年,基于Tranformer的Bert预训练模型横空出世,开启了NLP技术的新时代。如今,ERNIE,XLNET等模型站在Bert的肩膀上,不断刷新着Bert创造的记录,NLP技术让机器理解人的目标越来越近。


作为人工智能驱动的社交和洞察分析解决方案提供商,AdMaster的NLP技术伴随着AdMaster的发展不断精进。早在2014年,AdMaster就和南京大学计算机系共同成立了NLP联合实验室,研究如何通过机器学习实现精准的自然语言语义和情感分析,并成功构建了TC-LSTM深度学习模型,可实现对汽车行业的评论主体进行抽取、预测实体讨论角度及评论用户的情感。


从早期应用于搜索、基本的数据挖掘到现在更加精细化的文本情感识别、信息抽取、实体关系抽取等,NLP技术在AdMaster各产品线不断开花结果。近年来深度学习技术的引入从根本上改变了NLP技术的面貌,极大地提升了NLP技术的处理能力、扩展了应用范围,AdMaster也将最新的NLP技术应用到产品中。通过最新的训练语言模型,目前,AdMaster的情感识别准确率已经提高到80%,处于国内领先水平。



从“会读”数据到“读懂”数据,

助力客户及时、科学决策



NLP技术目前在AdMaster的多条产品线中均发挥基础作用,通过对海量的文本数据进行挖掘,分析文本情感倾向性,危机预警,发现新词,提取文本主题,NLP可助力客户利用社交数据做出更好的商业决策。此外,利用NLP,AdMaster还可以从文本中提取消费者关心的产品、成分、功效等信息,做到不仅知道一段文字在谈论什么,还能精细化构建内容之间的关系,让机器实现从“会读”数据到“读懂”数据的突破。以下是NLP在社交分析领域的几个应用:


——社交分词及话题聚类:AdMaster的全平台社交解决方案SocialMaster和轻量级社交舆情分析工具Social X中都集成了NLP技术,用来实现准确分词,发现热门话题和新词,以及话题聚类。以最近大热的电影《哪吒之魔童降世》为例,在SocialMaster中,我们搜索哪吒,得出的词云,高频的内容大致可归为三类:“孩子”、“父母”聚焦影片内容,“票房”、“导演”聚焦影片发型及制作,“努力”、“偏见”偏向影片核心精神,可见,若品牌想借势“哪吒”展开内容营销,围绕上述主题更容易引发讨论,并带来较高的互动


——情感判断:社交舆情分析,最重要的一个版块就是危机预警,第一时间找到负面舆情源头、及时了解舆情走向并采取对策是品牌社交时代的基本功,这背后必须借助NLP的情感判断功能。如前所述,基于多年的积累训练,AdMaster目前的情感判断准确度已经达到80%,可在全网范围内围绕某个实体或话题进行正负面舆情判断。仍以哪吒为例,以下是全网对哪吒的情感占比,可以发现,相比47亿的高票房,网民对电影的评价还是较为克制的,正面评论仅占比20.56%。


——发现新词:新词发现是NLP技术非常重要的应用方向,互联网每天产生大量文本数据的同时,也在不断产生新词,尤其在社交领域。在NLP技术中,非常关键的一个环节就是分词,如果不能对新词有效识别,就不能准确地分词。在新词发现这一块,AdMaster通过概率统计的方法可以准确捕捉到语料中的新词汇,为准确分词打下了良好基础。



NLP的未来:

精细化情感感知,更高阶的智能化应用



近年来,深度学习与NLP的结合,将后者的发展推上了新巅峰,在一些任务上,机器首次在感知能力上达到甚至超越了人类的水平,人工智能已经进入感知智能阶段,在新形势下,AdMaster也在紧紧跟随技术前进的步伐,提升NLP技术水平。


首先,我们将把最新的技术逐步应用到产品体系中,比如对于情感识别,我们的目标不仅在于通用的情感识别,而会聚焦更加精细化的情感感知。接下来,AdMaster关注的将不止是通用情感,而是将情感分类变为ABSA (Aspect Based Sentiment Analysis)问题,引入attention机制,对一段文本的每一个实体进行情感分析。


其次,随着数据复杂度的提升,未来海量数据都需要通过数据图谱的形式呈现,而NLP技术在知识的提取中有着很重要的应用。AdMaster将会使用Bert、ERNIE等模型提取文本中特定实体以提高实体的识别精度使用远监督的手段降低对训练数据的要求,持续在此领域深入挖掘。


再次,AdMaster不仅希望机器能读懂人类的语言,更希望机器可以用语言“写出”自己的观点,也就是实现自然语言处理的分支——自然语言生成。通过GAN等文本生成技术,AdMaster接下来将让机器撰写报告,自动生成客户关心的内容,解放劳动力,实现NLP真正的智能化应用。