AdMaster技术专栏(一):Social Master,转动数据的魔方



源头活水,


首期,


我们的视线聚焦AdMaster底层社交数据处理平台


数据魔方-Social Master


数据魔方,又称Social Master,是AdMaster早在2011年便研发并上线的社交数据平台。数据魔方如其名,它宛若一个多阶魔方,通过对接多种社交数据源,既能快速复原,还原品牌真实的社交表现,也能通过不同的变幻组合,助力品牌洞察宝贵的市场机会。作为稳健的根基,数据魔方源源不断地为AdMaster多个社交和洞察解决方案提供数据支持。


数据魔方究竟有哪些功能?它目前的数据源及数据规模如何?是否支持复杂的搜索规则?以及AI在数据魔方中将有哪些强大应用?数据魔方研发负责人,AdMaster架构师蒋善文将一一作出解答。


AdMaster架构师 蒋善文



数据魔方的核心能力是什么?


数据魔方是支撑AdMaster社交及洞察业务的PAAS(平台即服务)平台,承担着所有社交数据的清洗、计算、存储和分析工作,它不仅为数据分析师输出洞察提供支持,也为实时动态更新的上层数据可视化系统提供弹药。


目前,数据魔方每天更新并新增上亿条社交数据,累计处理的数据高达上百亿条。可支持客户及数据分析师从内容、账号、活动等多个角度对舆情数据进行深度分析,并支持多种维度的下钻归因、自由探索式分析,秒级的响应速度也保证了分析师能从海量的社交数据中快速找到真正的洞察。


比如, 我们的轻量级社交舆情分析工具Social X,通过数据魔方提供的接口,为品牌主提供了一种及时、高效而强大的声量查询途径,通过关键词实时搜索、自助语义分析,让品牌主的社交表现及全网热点事件尽收眼底,零门槛开启自助社交数据分析新时代。




数据魔方目前覆盖哪些数据源?

数据魔方目前覆盖所有社交媒体平台及36,000+主流媒体,平台覆盖微博、微信、论坛、博客、新闻、问答、电商、视频、直播等;行业覆盖汽车、美妆、快消、母婴、医疗、金融、教育、旅游、餐饮、IT等,并且在不断的增加小红书、抖音、B站等新兴的平台和站点。


它可以灵活对接外部数据源,支持FTP、HTTP、JDBC、手工导入,数据格式支持JSON、CSV等。目前,数据魔方代理IP池有10万多个,分布在30+城市,每天可抓取10亿+的url。采用分布式架构,智能路由,可动态增加节点,根据业务需求扩展抓取能力,通过简单的种子和规则配置,就可以自动支持大部分站点解析。


需要强调的是作为微博数据战略合作伙伴,数据魔方拥有微博数据接口API最高权限,可以实时获取最新的微博数据并计算入库,延迟能把控在分钟级内。



如此海量的数据,是否会导致搜索的延迟和分析的低效?


这个完全不需要担心,数据魔方支持复杂的搜索逻辑和算法,支持任意使用关键词查询,以及自由组合关键词去搜索文章或者帖子的文本、标题内容,最终这些复杂的搜索都可以通过数据魔方的查询引擎在秒级内返回查询结果。


分析层面,数据魔方中所有维度和指标可以任意组合查询,并且支持自定义维度,所有的数据字段支持过滤,过滤可以和搜索组合使用。在数据结果排序上我们会根据用户的规则,默认给出和搜索算法相匹配的最优排序结果,同时可以支持自定义排序。



AI技术在数据魔方中如何发挥巨大作用?


大数据和AI不分家,作为实时收集、清洗、存储并分析数据的底层平台,数据魔方拥有强大的AI计算引擎,集成了以知识图谱为核心的情感分析、水军鉴别、行业分类、角度分类、内容聚类等AI模型。AI如何赋能社交及洞察分析,我们后续将详细展开,这里简单分享下数据魔方中AI应用的几个方面:


一、构建行业知识图谱:从非结构化的文本数据中抽取三元组,识别实体,构建实体之间的相互关系。例如构建品牌和产品的关系,产品和成分的关系,明星和品牌的关联关系等。


二、自然语言处理:对海量的文本数据进行挖掘,分析文本情感倾向性,发现新词,提取文本主题,帮助客户利用Social数据做出更好的商业决策;


三、图像及视频识别:使用图像识别和语音识别技术,对Social数据中的图片和视频数据进行识别,对图像和视频进行分类,从图像和视频中发现品牌产品流行趋势,帮助品牌客户发现用户偏好,助力产品设计;


四、水军鉴别:可以有效识别水军刷量行为,还原帖子真实互动情况,发现消费者在社交网络中实际关心讨论的内容;