机器新闻写作: 媒体行业的探索研究与实践

您所在的位置:网站首页 有关人工智能的新闻素材 机器新闻写作: 媒体行业的探索研究与实践

机器新闻写作: 媒体行业的探索研究与实践

2024-07-13 14:58:45| 来源: 网络整理| 查看: 265

原创 任鼎 传媒

在2019年1月,习近平总书记在中共中央政治局第十二次集体学习时强调,探索将人工智能运用在新闻采集、生产、分发、接收、反馈中,全面提高舆论引导能力。机器新闻写作作为人工智能与新闻业相结合的典型代表,是新闻业基于人工智能技术创新出的内容生产方式。在媒体竞争中,回归优质内容将是媒体内容生产的重要趋势,新闻内容的高质量和多元化是其主要竞争力,这势必会推动新闻内核的重归。机器新闻写作对搜集和输入的数据信息进行自动化的分析、处理和加工,进而根据特定的场景生成一篇较为完整的新闻报道,通常包括数据挖掘、知识图谱、自然语言处理、事理图谱、神经网络、深度学习等人工智能技术。

01

机器新闻写作应用现状

机器新闻写作最早起源于美国,至今仍然以绝对的优势领先,中国在第二批发展浪潮中表现亮眼,瑞典、英国、法国、丹麦等国家紧随其后。目前机器新闻写作的话题较为局限,以体育竞技与经济热点为主,包括体育赛况报告、财报解读等,社会民生、自然灾害、气象变化等话题占比合计仅为30%。

在国外,美联社、雅虎、华盛顿邮报、BBC新闻都已开始使用机器新闻写作技术来负责稿件的生成,其中,华盛顿邮报的Heliograf软件,只需编辑设置稿件模板,确定好关键词便可完成稿件编写,升级之后,可以用更加专业的评论语气和分析事情的思路进行写稿;BBC新闻实验室的Juicer在2012年被首次引入,它的任务包括新闻快讯、视频新闻、政府公告、社交媒体信息等在内的海量数据汇集,并进行自由调用,同时监控着850余个媒体新闻源、政府信息源和部分互联网新闻源,再将其分门别类以供写稿使用。

中国的机器新闻写作研究起步较晚,但发展迅速,新华社的“快笔小新”在擅长的体育和财经领域,编辑记者需要用15~30分钟时间完成的稿件,小新只需要3~5秒钟,而且小新可根据文字自动搜索资源库匹配关联性最强的图片、视频、音频素材,自动制作成一段视频,同时支持语言配音。封面新闻的小封机器人在2018年世界杯期间总共推送了世界杯相关资讯600多篇,获得了全网总阅读量超2亿的成绩。字节跳动Xiaomingbot作为首个3D多语言AI记者,除了新闻写作的基本功能外,还被赋予了3D动画形象,能够配合文本内容完成多种语言的新闻播报任务。

02

机器新闻写作技术支撑

人工智能的三大支撑为算力、数据与算法,机器新闻写作同样如此。算力被形容为支撑人工智能走向应用的“发动机”,芯片、加速计算、服务器等软硬件技术和产品的完整系统提供超强算力,帮助算法快速运算出结果。数据作为大数据时代的基石,为人工智能的实际应用提供“燃料”,大数据具备5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。算法模型是人工智能落地的“承载体”,其复杂度不断加深,解决问题的能力以及服务的业务场景也不断增强。

硬件平台支撑。在人工智能发展的早期阶段,以能力训练为核心,这一阶段更多的计算负载集中在离线的数据中心。在进入大规模应用阶段后,人工智能的能力赋能产品或行业解决方案,成为普适的应用技术,在这一阶段将呈现“云+端”部署、分散化、终端化、场景化的特点,对算力的需求也将迅速增长,更加多元化。

媒体大数据云服务平台基础。媒体大数据云服务平台涵盖数据采集、数据挖掘、自然语言处理、计算机视觉处理等一系列的相关技术与理论,并对海量文、图、音视频数据进行统一采集、处理、存储、检索以及深度智能挖掘分析的大数据平台。

数据采集。数据是起点,数据让机器新闻写作所需内容的关联、预测、分析成为可能。数据采集为大数据平台的基础,广泛、大量、多样性的真实数据保障模型的学习训练与优化。

大数据平台的数据源大致可以分为三类:互联网公开采集数据、中央媒体新闻稿件、媒体单位内部数据。由于外部数据的获取渠道不同,需要多种数据采集方式,以实现覆盖新闻/视频网站、微博、微信、移动新闻客户端等多种媒体渠道的文、图、音视频的富文本数据采集。

大数据平台建设。随着智能媒体时代到来,传统媒体正处于向新型智能媒体的转型期。构建媒体大数据服务平台为媒体单位的网站、官方微博、微信、移动新闻客户端的运营提供强有力的数据支撑,也为机器新闻写作提供底层数据支持,助力技术与传统媒体和新媒体在新闻生产、内容传播、技术创新、产品创新、服务创新等方面深度结合。

机器新闻写作旨在特定的新闻报道场景下,如重大突发性事件、体育、财经等,可以快速地生产出内容,在这一过程中,并不否定人参与的重要性,而是通过机器新闻写作得到完成度极高的稿件内容,在机器或者人工审核通过后进行最终发布。为了保障机器新闻写作的成稿质量,数据的规范性以及标签体系的构建显得尤为重要,数据的准确性与代表性是模型学习训练的关键,这对大数据平台的建设提出了较高的要求。

非结构化数据的数据消重、垃圾信息过滤、非相关数据过滤、统一格式等多种数据处理操作,转换为格式规范的数据,并存入数据资源池。自然语言处理技术与计算机视觉处理技术实现文本数据的多维挖掘分析,以及图像内容的提取分析识别处理。

围绕当前媒体融合发展的趋势,针对不同行业以及媒体单位属性构建符合其特点的分类标签体系,对来自不同媒体渠道、不同表现形式、不同数据字段的多媒体数据进行分类与标注,从而快速发现互联网热点线索与信息,为机器新闻写作提供方向与素材。

应用服务。脱离了应用场景的机器新闻写作以及人工智能技术是没有意义的,技术的发展更新迭代都是为了更好地服务业务场景的实际应用需要,技术、算法与模型的实际落地也需要同应用服务场景相结合。

算法模型支撑。算法是计算机科学领域最重要的基石之一,算法与模型自人工智能与机器新闻写作技术提出以来就备受关注,诸多公司将算法作为企业的核心竞争力之一。算法按照模型训练方式和解决任务不同可以划分为很多类型,在具体的业务场景中,算法的选择与使用也呈现出差异化的特点。

目前的机器新闻写作大致可以分为两类:一是将数据填空到系统模板形成新闻,模板是常量,数据是变量;二是从管理系统获取数据,将数据进行分类、筛选、汇总、计算处理后,利用最终数据形成文本,主要适用于写作财经类新闻文本。现有机器新闻写作报道算法缺乏针对深度报道、追踪报道以及富文本形式报道的稿件生成算法,随着短视频的兴起,针对短视频的机器新闻写作报道也将是大家关注的焦点。

新闻热点发现与新闻素材匹配。基于内容相似度计算模型与聚类算法模型,对大数据平台中的素材进行相似度计算与内容聚类,快速发现互联网新闻热点线索,为机器新闻写作提供内容创作方向。构建从语言、图片和视频到文本的跨模态语义映射和对齐,对未标注的原始数据进行自动精确的文本标注,将提取到的语义特征投影到深度特征空间进行面向语义理解的多层次的深度匹配,以实现在报道需求确定后,新闻素材的快速匹配。

新闻报道脉络挖掘。以大数据平台提供的新闻素材为数据基础,事理图谱与马尔科夫随机场为计算模型学习新闻报道事件间的因果关系,使模型实现自动识别新闻报道脉络,并具备连续报道事件的能力。

典型新闻报道场景下新闻与短视频生成。对语音、图片、视频数据的文本标注,结合知识图谱技术与弱监督学习的方法,融合多元信息,面向新闻素材领域的弱监督迁移学习。基于自然语言生成算法和注意力机制,实现端到端学习自动生成新闻文本,自动选择图片与视频素材,不断提高学习网络模型的鲁棒性。最终形成面向多领域、多主题事件模型的泛化性,开展零次学习、主动学习与强化学习的模式。

在机器新闻写作走向应用的过程中,以业务场景为核心,实现以最少的数据、最简单的模型、最少的计算力解决最实际的问题,达到最好的效果。

03

机器新闻写作评价体系

机器新闻写作自2015年走入国内公众的视野以来,已经历了5年的发展,机器新闻写作评价体系的建立对算法模型与数据质量的优化将起到一定的指导性作用。目前,国内外还没有针对机器新闻写作评价体系的权威发布,对标传统媒体内容与新媒体内容稿件的评价标准与指标权重体系,维度包含内容的完整性、准确性与时效性,内容安全,传播效果以及写稿的效率评估。

内容的完整性、准确性与时效性。在地震、爆炸、事故等重大突发性事件的报道工作中,基于其硬新闻的属性,有极严格的时间要求,报道必须迅速、准确、信息尽可能量化,这类新闻一般带有强烈的时效性、广泛性和指向性。机器新闻写作,可实现文字、图片、短视频等多媒体稿件与专题的自动生成,大大减少了新闻成稿的时间,也保证了内容的完整、准确与时效。

内容安全。在新闻的内容审核环节,可以对文字、图片、音视频进行基于人工智能的内容审核,精准识别涉政、涉黄、涉暴、涉恐和敏感人物等信息,有效管控业务违规风险。

通过语法分析、语义分析、知识图谱、规则模型以及检索模型等技术实现稿件内容审查。解决常见的字词差错、标点差错、政治性差错、常识性差错、中英文关键词差错等类型,实现自动查错、手动纠错,提示错误原因、修改建议,并可统计错情、生成勘误表。

传播效果。机器新闻写作的内容大多发布在新媒体渠道中,在早先学者的研究中,网络新闻的传播效果体现在:一是网民的新闻消费行为,二是网民的新闻生产行为,三是媒体的反应,并且提出了点击量、网站访问浏览量、网民搜索等网民消费行为的评估方式,网民评论、转发、收藏、受众调查等网民新闻生产行为的评估方式以及从媒体转发量、媒体跟进报道两个方面分析媒体反应与网络新闻传播效果的评估方式。

机器新闻写作写稿效率。机器新闻写作需要与现媒体单位使用的数据库、采编系统、发布系统、媒资系统等平台以及环境相适配,确保顺利运行。同时,作为新的生产工具,需要一定的可操作性与便捷性,才能更快地推动落地应用。

04

机器新闻写作的优势与影响

新闻内容的生产方式在由PGC(媒体生产内容)到UGC(用户生产内容),再到AGC(算法生产内容)的演变趋势发展。机器新闻写作依托数据与算法自动生成新闻稿件,避免了主观因素导致的新闻失实,减轻新闻创作者的重复性工作,使新闻的生产与传播更加高效,内容更加丰富。

真实、准确、客观。新闻具有播散性与导向性,真实、准确、客观是新闻报道工作的基本要求,在新闻生产过程中,为报道一篇作品,新闻人员需要对历史新闻数据有基本的了解与掌握,而对于素材的收集整理归类是一项需要时间的繁重且重复性工作。机器新闻写作一是可以将新闻工作者从重复的素材整理工作中解脱出来,二是能提高内容生产的真实性、准确性与客观性。

快速、高产。前文提到的美联社使用的Wordsmith平台,每秒甚至能生产2000篇文章,每周将可以写出上百万篇文章。财报报道的工作效率已经大大超过预期,在采用该平台之前,每季度仅能够完成300家企业的财报,而现在能够完成3000家企业的报道。

对于地震、火灾等突发性重大事件的报道,机器新闻写作在报道速度方面体现了极大的优势。2017年,九寨沟地震的第一条新闻报道便来自于写稿机器人,7.0级地震报道用时25秒,其他余震消息仅用时5秒。

05

结 语

马克思在《资本论》中提出:“社会劳动生产力首先是科学的力量。大工业把巨大的自然力和自然科学并入生产过程,必然会极大地提高劳动生产率。”人工智能的快速发展给生产效率带来了提升,诸多行业都享受到了这次技术革新带来的红利。在智能媒体时代,从新闻素材采集、数据处理与分类标签、新闻报道选题策划、富文本内容的生产编辑、新闻的发布与精准推送、新闻人员的绩效考核,人工智能将参与到媒体行业的各个环节。

太极计算机股份有限公司深耕媒体行业20年,长期服务于媒体单位,见证并参与了媒体行业的技术发展及产业转型,太极深刻地理解技术给媒体带来的巨大影响。人工智能等新技术将持续赋能媒体应用,创新新闻创作、发布形式,太极将同媒体单位一起拥抱新技术,引领媒体融合的未来。(作者系太极计算机股份有限公司文旅战略业务本部业务发展中心总经理)

喜欢此内容的人还喜欢

原标题:《机器新闻写作: 媒体行业的探索研究与实践》

阅读原文



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭