媒体舆情大数据分析技术的应用与实现2020年11月 作者:丁芳桂 郑创伟 来源:中国报业 责任编辑:前进者
简介:
自2014年推动传统媒体和新兴媒体融合发展正式成为国家战略以来,在党中央领导下,媒体融合的推进速度明显加快,但是距离党中央对主流媒体通过媒体融合占领网络舆论阵地的要求,尚存在一定差距。当前对于 ... 内容:
自2014年推动传统媒体和新兴媒体融合发展正式成为国家战略以来,在党中央领导下,媒体融合的推进速度明显加快,但是距离党中央对主流媒体通过媒体融合占领网络舆论阵地的要求,尚存在一定差距。当前对于网络舆情信息的分析研究大部分仍集中在对传统结构化文本舆情分析上,而对于以微博、帖文、微信等新媒体形式非结构化舆情信息的挖掘分析研究还较少。人们迫切需要一种能够结合大数据处理分析技术的新媒体舆情信息分析技术。深圳报业集团以此为契机,建立了大数据与舆情分析平台。 总体设计 深圳报业集团建立了一种能够满足媒体融合与商业模式需求的大数据与舆情分析平台,立足为用户提供个性化服务。该平台主要实现如下功能: 1.融合媒体内容整合技术。传统媒体和新媒体结合的采集、整合,通过统一管理和使用。 2.融合媒体内容检索技术。涉及摘要、分类、聚类、挖掘、检索和推荐等。 3.融合媒体内容分析技术。主要涉及统计分析、个性化展示以及按照时间、地域分布等,形成统计报告。 关键技术 大数据与舆情分析平台架构包含数据、核心技术、软件中间件和系统平台,以互联网数据获取技术为基础,以融合媒体内容整合技术、检索技术和分析技术等大数据与商业分析技术为支撑,搭建多模态互联网融合媒体信息推荐中间件和引擎,向用户提供新媒体融合信息推荐服务。 1.融合媒体内容整合技术 (1)数据资源分析技术。采用先进的云端采集和智能爬虫技术,实现各种网络资源的实时汇聚。平台主要分为新媒体资源云端抓取引擎、新媒体资源云端抓取控制模块、新媒体资源管理模块和可灵活信源快速扩展模块。 (2)数据资源处理技术。融合媒体资源处理技术路线依托原有技术成熟的采编体系架构而成,同时具备对多种版本、多种格式的新媒体信息资源数据处理功能,支持用户对各种新媒体资源信息进行逆向操作和追踪,并可实时监控整个资源处理平台的任何一步操作,从而满足各行业、各部门信息交流的需要。 (3)融合媒体资源分发技术。针对需要发布或待发布的内容进行二次加工和过滤,可以选择不同方式将内容精准分发、转发到相对应的各个终端,在分发的同时,所有数据可以进行统一存储和管理,主要功能模块包括新媒体海量数据资源挖掘模块、新媒体内容终端分发模块、新媒体数据追踪模块。 2.融合媒体内容检索技术 (1)互联网话题分析与溯源技术。以自然语言理解技术研究细粒度话题信息抽取方法,实现更深、更高效的互联网话题信息抽取。研究基于Co-Clustering的多文档文摘方法,同时进行话题文摘和话题关键词提取两个任务,在多轮递增学习后获得全局最优的提取结果。 开发针对热点人物、热点地点和热点机构的全局统计分析工具。引入基于时间的分析,获得互联网话题机器热点关注内容的变化趋势,为预测话题发展提供依据。 (2)内容正负面分析技术(意见挖掘)。开展搭配驱动的意见对象学习方法。不仅考虑意见的主题属性和情感词,还能从意见单元的合一搭配关系中获取意见情感内上下文信息,为意见分类和聚类提供更有价值的搭配特征。同时,意见单元还通过连词涵盖意见间上下文信息,能有效提高未登录(OOV)意见对象识别的召回率和情感词情感极性分析的准确率。 提出基于意见单元的意见索引和检索方法,即先通过意见挖掘技术扫描社交媒体内容,获得所有(或特定关注的)意见;然后以意见目标、意见关键词、意见极性三个元素进行联合索引,构建结构化索引表;最后提供检索接口,支持用户对多字段或单字段的意见检索,将相关度排序结果显示给用户。 3.融合媒体内容分析技术 (1)社会网络分析技术。采用FP-树频集算法来获取社会关系网络中所包含的关联规则,也就是采用分而治之的策略。在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。根据关联规则,在社会关系网络上画出传播机理。 (2)融合媒体内容推荐技术。集成现有信息推送的渠道和架构。信息推送服务由离线分析模块和在线相应模块组成。离线分析模块主要用来从日志文件中发现用户浏览模式、访问偏好等,并借助模式和偏好实现信息推荐。在线相应模块则主要用来实时观察用户的访问情况,识别用户需求的个性化特征,更新用户行为模式库,为每个用户自动推荐其可能感兴趣的信息。 4.融合媒体内容分析及辅助决策 通过媒体内容统计分析与辅助决策系统为用户提供如下服务: (1)信息检索服务。采取信息检索常见手段提供信息咨询服务,包括基于关键词的信息搜索引擎、相关融合媒体信息推荐、融合媒体信息问答机制等。 (2)统计报表服务。通过数理统计手段提供统计报表服务,包括现代服务业年度、月度、一周和当日的热点信息简报,行业突发事件简报,行业内关注度排名,行业发展趋势报告等。 (3)行业网络应用服务。基于行业社会网络和行业商情,提供行业连锁影响预警、决策跟踪、可视化行业监控等服务。 应用效益 平台的建设,充分发挥新媒体优势,同时加快与传统媒体产业链的深度融合,有效提升传统媒体核心竞争力,促进产业结构优化升级。这一平台主要应用在舆情监管、预警方面,通过平台的技术,进一步提升了媒体传播的时效性、客观性、真实性、公正性,真正发挥舆论引导和舆论监督功能,更好地服务群众、服务市场、服务社会,促进社会良性发展、和谐发展。 结语 大数据时代的数据爆炸是无止境的,只有从大数据中提取有益人工智能(AI),造福全人类,才能避免在大数据海洋里迷失,避免造成数据资源浪费。本平台的建设有效解决了上述“痛点”,在舆情监管和信息监控等方面实现成果落地转化,拓展了新闻信息的受众群体,增强了集团产业经营管理能力,带动了深圳市传媒及文化行业发展,成为促进消费升级、经济社会转型、构建国家竞争新优势的重要推动力。
|
热点 . . .
最新 . . .
|
组织机构 | 商务合作 | 版权与免责 | 声明 | 关于我们 | 友情链接申请 | 广告 | ||
本站内容属原作者所有,其原创文章除本站或作者授权不得转载、复制、建立镜像,违者必究。 业务服务电话:010-85899333/6333 邮箱:vip@xwpx.com 京ICP备06063928号 京公网安备 11010502041874号 | ||
网上有害信息举报专区 网络举报APP下载 |
||