智能语音技术在融媒体业务中的应用2020年10月 作者:韩冰 张慧 来源:中国报业 责任编辑:前进者
简介:
中共中央政治局第十二次集体学习时,习近平总书记强调推动媒体融合发展。随着5G、云计算、物联网、人工智能等技术不断发展,移动媒体进入加速发展的新阶段。推动关键核心技术自主创新并不断实现突破,探 ...
内容:
中共中央政治局第十二次集体学习时,习近平总书记强调推动媒体融合发展。随着5G、云计算、物联网、人工智能等技术不断发展,移动媒体进入加速发展的新阶段。推动关键核心技术自主创新并不断实现突破,探索将人工智能技术运用在新闻采集、生产和分发等流程中,全面提高舆论引导能力,是媒体融合发展面临的一项紧迫课题。 1.人工智能语音技术 2017年国务院印发《新一代人工智能发展规划》。《规划》指出,我国发展人工智能具有良好的技术基础与环境,要大力发展人工智能新兴产业。以语音识别和语音合成技术为代表的人工智能技术,近年来已经应用在电信、媒体和政府政务等多个领域。 2.智能语音技术在国内外媒体行业的应用 作为内容提供者,媒体成功运用现有智能语音技术打造创新型应用场景,建立新的流量入口,多渠道进行内容分发。将人机交互加入新闻生产流程中,通过音频内容进行定制化生产,实现新闻内容的个性化发布。谷歌在2009年为YouTube视频提供自动生成字幕的功能,大量主流媒体入驻合作,路透社、福克斯、英国广播公司、纽约时报、华盛顿邮报等都参与其中。人机语音交互系统提供了更为丰富的用户数据,在人工智能与用户调研等领域具有广阔的应用前景。 语音技术与机器学习技术的结合,为用户提供更为真实的使用体验。新华社在2017年12月推出中国第一条MGC(机器生产内容)视频新闻,人民日报推出“人民智播报”,浙江24小时栏目联合微软小冰进行新闻播报,智能语音技术正在潜移默化改变传统新闻传播方式。 研究方法 1.语音合成技术 语音合成技术实现文字转换为语音的功能,并将音频标准流畅地朗读出来,也被称为文语转换(Text to Speech)技术。语音合成系统包含前端模块和后端模块两大功能模块。前端模块会将输入文本相关的语言学信息给到后端模块,最终才能输出合成结果。以中文的语音合成为例,前端模块的正则化、词性预测、多音字消歧等子模块功能对文本进行分析,前端将分析结果通过后端模块产生语音波形。后端模块系统包含两种语音合成方式,分别为基于统计参数建模和基于波形拼接的语音合成方式。参数合成在训练阶段对语言声学特征、时长信息进行上下文相关建模,在合成阶段通过时长模型和声学模型预测声学特征参数。 2.语音识别技术 语音识别属于模式识别的另一个分支应用,与数理统计、语言学、语音学等学科关系非常密切。其目的就是让机器能“听懂”人类的语言。这包含了两方面意思:一方面可以将语言转换为书面的文字语言;另一方面会对语言加以理解,并做出正确的语音识别。语音识别技术有三个基本原理:一是语音信号中的编码方式,语言信息是按照短时幅度谱的时间变化模式来编码;二是语音的可阅读性;三是语音交互的不可分割性。 构建语音识别系统需同时考虑训练和识别两个部分。语音识别的前端主要功能是端点检测,用于去除多余的静音和非说话声。后端会基于前端产生的信息借助语言模型和声学模型进行特征向量的提取,进行统计模型的识别。后端模块中的自适应反馈模块,能够实现自学习功能,从而对语音模型的错误进行纠正,优化并提高语音识别准确率。 方案设计 将机器学习与人工智能在新闻传播领域进行应用,实现语音读稿和采访转录及其相关语音模型研究。采用人工智能将语音合成技术用于编辑读报审稿,语音识别技术用于记者采访,完善传统媒体智能生产平台的能力。本文以中国日报社为例,介绍了智能语音技术在传统媒体的应用,推进媒体业务创新和转型,让新兴科学技术真正用于新闻媒体自身业务中。 1.场景应用 智能语音技术与媒体生产平台相结合,探讨语音识别与语音合成的应用场景。 (1)语音识别应用场景。语音识别应用场景实现语音文件的快速整理,采用简约设计,将提升用户体验作为首要目标。支持多文件格式上传,用户可对上传文件中包含的非通用人名、地名及专业名词进行词库预置,实现检测准确性优化。另外,针对采访/会议等场景,支持无效语气词过滤,提升转写文本有效信息。支持转写后结果导出,且支持在历史记录中对转写结果的查看和二次编辑。 (2)语音合成应用场景。语音合成应用场景实现编辑读报审稿。在应用场景中,支持自定义配置,用户根据文本语种选择中文/英文发音人及音色,自定义配置发音语速、断句停顿、数字与数值的读法等。针对发音不满意的地方仍可以进行重新配置修改,内容支持导出mp3/wav两种格式文件。 2.架构设计 架构设计分为4层,分别为应用接入层、应用服务层、核心能力层和基础支撑层。 应用接入层:对接接口服务,支撑网络交互适配和语音处理等,为语音识别和语音合成业务提供服务。 应用服务层:集成最新的语音识别和语音合成检测能力,提供规模化服务,并进行统一管理和维护。 核心能力层:部署AI核心引擎,进行资源自优化管理,提供语音识别和语音转写等核心服务能力。 基础支撑层:基于云计算架构,统一进行分布式硬件和存储资源等的调度与管理。 智能语音技术未来应用展望 未来,传统媒体对智能语音技术的应用将不仅限于现有的应用模式,可以更多应用在新闻播报中。比如,在新闻APP中增加智能播报模块,让APP变得不光能看还能听。通过语音合成、语音识别、语义理解、图像处理等技术,打造媒体专属虚拟主播形象,通过定制形象与声音等实现IP化运营。机器读新闻也不再是一成不变,通过加入语义理解,机器也能对新闻稿件进行情感判断,让用户能“听到”新闻中的温度。 在视频直播中,可以集成实时语音转写功能,在直播中叠加字幕,扩大直播受众群。近几年,人工智能在高级文本分析技术、个性化推荐技术、预测技术方面取得了突破性进展。基于自然语言处理技术的文本分析技术,可以为记者赋能,让机器具备“创造力”,形成能“创作”的模板,用人机结合方式强化记者的写作能力。 结语 媒体行业正处于融合发展的转型期,尤其是报业急需找到新的方向促进自身发展。随着人工智能产业的发展和行业应用成果的诞生,人工智能+报业的应用也会随之深入。 目前,我们已经将人工智能的语音识别、语音合成应用到了报业内容采集、生产等业务流程中。我们也会积极探索其他应用模式,将人工智能技术更多应用在包括线索采集、编前会、新闻采访、编辑、刊发、稿件评定、用户行为分析等报业融媒体的全业务环节,实现智能机器写稿、智能校验、用户评论审查、新闻查证、算法推送新闻、语音新闻等功能,让人工智能不断优化报业融媒体整个流程。
|
热点 . . .
最新 . . .
|
![]() |
![]() |
组织机构 | 商务合作 | 版权与免责 | 声明 | 关于我们 | 友情链接申请 | 广告 |
本站内容属原作者所有,其原创文章除本站或作者授权不得转载、复制、建立镜像,违者必究。 业务服务电话:010-85899333/6333 邮箱:vip@xwpx.com 京ICP备06063928号 ![]() 京公网安备 11010502041874号 | ||
|
||