《智能时代:媒体重塑》| 科大讯飞:让机器听、说、理解、思考
当21世纪初人工智能在语音识别、图像识别领域取得突破并开启产业化步伐时,科大讯飞决定重点关注语音产业的发展方向,并已成为亚太地区智能语音行业知名上市公司。
从智能语音技术起步,开发智能语音平台,建立中国语音交互技术标准,科大讯飞逐渐成为人工智能领域的领导者。 随着消费产品的不断输出,讯飞输入法、讯飞翻译机等,让越来越多的人看到了中国科技企业在人工智能领域的飞跃。
1、产品形态及核心技术
在人工智能产业爆发的关键窗口期,科大讯飞加大对人工智能技术和应用的投入,连续五年保持研发投入超过销售收入的20%。 近年来,讯飞在语音识别、语音合成、机器翻译、常识推理、知识发现、机器阅读理解、图像识别、图形识别、认知理解等领域的竞赛和评测中多次获奖。 这些核心技术的研发平台和成果,构成了讯飞生命树的“根系”。 技术中心、硬件中心、功能支持、营销支持构成了讯飞生命树的支柱。 在“让机器会听、会说、会理解、会思考,用人工智能建设更美好的世界”的目标驱动下,各种具体的业务方向和产品类型已经成为讯飞生命树的果实。
回顾科大讯飞对智能语音技术的研究,深度学习一直贯穿其中。 2010年,我国开始深度神经网络(DNN)语音识别研究,科大讯飞也参与其中,并随后推出了业界首个基于深度学习框架的商用中文语音识别系统。 此后,为了解决语音识别系统在实验室的应用与实际场景的精度差距问题,研发团队在大约一年半的时间里持续推进技术框架的迭代更新。 自循环神经网络(RNN)开始逐步取代传统深度神经网络(DNN)成为主流语音识别建模方案以来,2015年,新型循环神经网络(RNN)语音识别系统全面升级。 2016年,继提出前馈序列记忆网络(FSMN)新框架后,科大讯飞结合经验,再次创新性地开发了深度全序列卷积神经网络(DFCNN)。 目前,讯飞语音识别系统已实现高速迭代,一般场景下的识别准确率可达98%。
从智能语音技术开始,再到人工智能技术,科大讯飞在技术领域走出了一条从“计算智能”到“感知智能”再到“认知智能”的沉淀和演进之路。 计算智能是指机器“存储和计算”的能力。 现阶段,机器已经远远超越了人类。 感知智能是让机器能够“听、说”。 机器可以听到人们说话,依靠语音识别技术,机器可以说话,依靠语音合成技术。 目前,讯飞中文合成语音是全球唯一超过普通人语音水平的系统。 认知智能是让机器能够“理解和思考”,即能够理解语言、进行知识表达和逻辑推理,这是人工智能发展的难点和重点。 科大讯飞自2014年起启动“讯飞超脑”项目,专注于认知智能领域的研究。 自2017年起,科大讯飞正式承建了我国首个认知智能国家重点实验室,这也是我国首个认知智能领域的国家重点实验室。
科大讯飞将感知智能与认知智能紧密结合,在不同领域优势互补。 通过底层语音识别和语义理解的深度融合,在语音交互方面,支持远场识别、全双工、多轮交互、方言识别的软硬件一体化AIUI产品解决方案已经研发出来并可以量产。
2、应用场景
凭借“听、说、理解、思考”的机器智能,科大讯飞不断向多个应用场景拓展,并形成了三个同心圆。 第一层为核心层,围绕“讯飞超脑”形成教育、智慧城市、消费、政府、智慧医疗、智慧服务、智能汽车等业务领域。 第二层为探索层,鼓励内部落实创业机制和战略合作机制,通过资本债券的形式推动人工智能产业化。
在新闻传播领域,科大讯飞构建了一套AI智能媒体解决方案和成熟的生态框架。 基于“AI智能媒体云平台”的核心能力,包括智能语音和机器视觉技术(语音识别、语音合成、人脸识别、智能剥离、自然语言、OCR识别、语音交互、语音转录、机器翻译、智能推荐、声纹识别、NLP、黄恐监测、场景/事件识别、服务监控、用户管理等),打造高效优质的内容生产平台、全面精准的内容运营平台、个性化前沿的内容传播系统。
在内容制作层面,科大讯飞通过“AI智能媒体云平台”为媒体工作者提供“采、播、审、存”的全套产品《智能时代:媒体重塑》| 科大讯飞:让机器听、说、理解、思考,包括采编制作环节的“智能稿件歌词系统”、播出环节的“智能直播字幕系统”和“智能虚拟直播系统”、监控审核环节的“智能内容监督审核平台”、存储环节的“智能内容管理平台”。
“AI智能媒体云平台”具有多模态服务模式在线英语转语音,拥有软件和硬件两种产品形态,匹配客户安全可控的私有云部署需求。 通过集成标准SDK/API,为用户提供语音识别、语音合成、自然语言理解等功能和服务。 具有易于调用的统一接口(一键输入目标内容获取返回内容,无需二次集成开发组合调用,接口简单易用),统一的管理控制后台(能力引入试用、API接口试用说明、服务监控,让人工智能使用更简单,7×24监控让服务更安全),并具有根据业务定制、使用效率高、服务实时稳定性高、可扩展性强、安全保密等优点。
1.采访录音
采访录音费时费力,存在拾音效果差、音质嘈杂、拾音距离远、音质不清晰、音频隐私无法保证、文件容易泄露等问题。 讯飞听到的语音转录可以实现1小时音频和5分钟文字。
2.稿件字幕制作
传统节目字幕制作费时费力,存在来源多、数量大、效率低、成本高等问题。 讯飞智能剧本唱词系统可以实现智能语音转写、智能剧本分句、时间码自动对齐、多语言翻译、文字音频联动编辑、多种格式导出等功能。
3.虚拟视频、语音播报
针对海量音视频播出、主持人工作强度大的痛点,科大讯飞AI虚拟主播利用科大讯飞的语音合成、语音识别、语义理解、图像处理、机器翻译等人工智能技术,实现多语种新闻自动播出,并支持自动文字转视频输出。 可实现分身、多语言播报、语音定制、实时合成、表情生成,支持音视频实时快速导出,满足各种场景下内容的自动化制作。
针对传统有声读物(有声新闻)制作成本高、效率低的问题,科大讯飞的人工智能技术可以实现有声读物的批量生产。
在新媒体运营方面,创意H5制作技术不仅拥有特色、明星、名人IP语音的授权使用,还可以定制语音。 例如,用户UGC可以生成电子音乐、Freestyle、方言Rap等专属声音和各种搞笑音效。 敏感词检测可降低传播风险。 与传统H5相比,智能H5产品通过定制和交互增强了个性化和参与性,促进了沟通和共享。
4.媒体内容智能监管审核
随着媒体资源的“海量化”,内容监管的压力越来越大。 机器辅助可实现多通道实时报警提示、关键词、人脸、声纹多维度分析研判、历史音视频挖掘、关键问题提取、舆情研判内容自动提交报告。
5.智能媒体资产管理
语音识别可以实现音频、音字对齐的快速检索编目、多维标注和智能编目。 对音频数据进行分类集中管控,获取当前全资源库并数字化; 通过智能语音书写技术将其转录为文字,形成音频和文字对应的数据文件; 结合媒体资产的结构化标签,对转录的海量视频资源进行管理和控制; 挖掘数据在信息检索、用户画像、资源分类、大数据分析等方面的价值。
3. 用户体验和市场反应
截至2019年底,讯飞开放平台开发者总数超过110万,生态合作伙伴数量达到160万。 讯飞输入法累计用户超过7亿,月均活跃用户超过1.4亿,语音活跃用户占比61%,支持23种方言; 讯飞翻译机3.0支持多语言翻译,覆盖近200个国家和地区。 其中,中英在线语音翻译水平已达到CATTI英语2级标准,并新增多种翻译语言。 支持老挝、波斯、乌尔都语等“一带一路”沿线国家。 此外,还支持粤语、四川话、东北话、河南话四大方言与英语之间的互译。
在近期宏观经济影响以及科大讯飞向AI 2.0战略调整的背景下,2019年上半年科大讯飞营收42.28亿元,同比增长31.72%; 毛利润21.33亿元,同比增长33.11%; 归属于上市公司股东的净利润1.89亿元,同比增长45.06%,扣除非经常性费用后的净利润增长56.61%。 其中,消费业务智能硬件营业收入4.93亿元,同比增长47.80%; 教育产品及服务营业收入9.79亿元,同比增长48.86%; 政法业务实现营业收入4.59亿元,同比增长31.58%。 从这些数据可以看出,在To B+To C的双轮驱动下,科大讯飞正在迎来新的盈利拐点。
虽然媒体领域占比较小,但科大讯飞的AI研发赋能依然系统化、规模化。 通过战略合作、共建实验室等方式,科大讯飞与国家新闻出版广电总局广播科学研究所、安徽广播电视台、上海广播电视台以及人民日报、新华社、人民网、中央电视台等主流媒体进行深度合作。
科大讯飞与新华社的合作就是典型。 科大讯飞承担了新华社全媒体采集采编分发项目的语音智能分析服务子项目,提供语音识别、语音合成能力、录音收听工具、语音大屏控制模块等。 语音转录功能提供将中文普通话和英语录音转录成文本的功能。 中英文转换准确率高,使用方便。 方便记者更快捷地整理材料、形成内容,并支持采访时实时转录。 功能很实用。
消费端讯飞语音转录工具“M1”采访辅助工具成为2019年两会报告的一大亮点,其速度和准确性备受关注。 与此同时,科大讯飞与央视联合打造的人工智能记者助理“小白”再现了著名主持人白岩松的声音,学习了很多两场的知识,并以记者助理的身份及时向参会媒体提供了两场的信息。 讯飞听力、讯飞智能办公本、讯飞智能录音笔等产品都是记者的好帮手。
智能剧本歌词系统将人工智能技术与电视节目制作流程相结合,设计出人机耦合的字幕制作流程。 一方面,智能稿件唱词系统已进入传统广电,如2019年春晚、《今日说法》、《我爱发明》、《海峡两岸》等500多个常规节目字幕制作流程。 智能剧本歌词系统将传统电视字幕流程从听写、验证修改、剧本拍摄、时间点修改、审阅5个步骤简化为语音转录、验证修改、字幕生成和审阅3个步骤。 新工艺的生产效率比传统工艺平均提高3倍。 也摒弃了几十年来“拍”字幕的历史,缩短了高质量后期机房用于电视字幕制作的时间在线英语转语音,提高了后期机房的节目产出率。
AI虚拟主播产品创新节目播出形式,更快、更高效、更稳定、更丰富。 科大讯飞虚拟主播产品的研发始于2018年3月,采用最新自主研发的语音合成、图像处理、人脸检测、唇部驱动等人工智能技术,针对电视媒体和新媒体等节目播出场景,以提高新闻内容制作效率、降低新闻视频制作成本、缩短新闻节目制作时间为设计出发点,打造了全球首款多语言AI虚拟主播产品,支持从文字到视频的自动输出。 产品推出不到半年,已与各媒体、报业集团十几家客户合作。 AI虚拟主播小青的身影已被广泛传播,如AI主播文正、紫金山新闻AI播音等。同时,科大讯飞为人民情报广播等一些头部媒体定制并协助创作AI虚拟主播形式的新节目。 这个功能也应用在学习力客户端,直接阅读新闻。 发音语调基本达到播音员的水平,句子句子自然。
讯飞人工智能技术深深嵌入财经媒体产品制作中,梵语语音类H5产品——《确认过眼神,我的老课文——舆邀您和大咖一起诵读等经典》,一系列历年人教社版语文教材中的经典课文,邀请莫言、鞠萍文学文艺文艺界人士前往目读,促使科大飞语音识别、语音测评等技术为交互朗读者测评打分,融怀旧、机器,推出后仅半小时就实现了10万+浏览量,阅读总体250万+。
4. 风险挑战及解决方案
用户隐私和数据安全是重中之重。 讯飞输入法、讯飞听力等产品依托海量用户数据,包括B端和C端。 在此过程中,用户隐私对技术是透明的; 数据权益和安全并不能消除技术合法化下数据滥用和泄露的可能性。 在万物互联、人人互联的趋势下,这种伦理问题将会越来越突出。
数据资产和版权问题是科大讯飞和媒体行业面临的共同问题。 在人工智能领域,没有场景的大数据是没有价值的。 目前,媒体行业提供数据和场景,科大讯飞用它们来训练其人工智能产品。 由此产生的优化和改进对于双方来说是双赢的,但是存在收入权重和话语权重的问题。 这需要双方在长期合作中探索明确合理的规则。
对于科大讯飞来说,还面临着同行竞争的挑战。 深度学习降低了智能语音技术的门槛,让后来者与先行者站在了同一起跑线上。 技术层主要依托基础层的计算平台和数据资源进行海量识别训练和机器学习建模,以及针对不同领域的应用技术的开发,主要包括语音识别、自然语言处理、计算机视觉、深度学习技术等。这是科大讯飞的主战场,也是科技巨头和众多初创公司争相进入的领域。 同时,未来人工智能、物联网时代,参与者只会越来越多。 房地产开发商可以做智能家居,家电制造商可以做智能家电。 科大讯飞在规模和盈利能力上仍难以与互联网巨头相比。 在与市场巨头和行业新人的竞争中,科大讯飞将在垂直领域跑得更快、更准、更深。
五、前景与趋势
人工智能的阶段性主要取决于三个方面:一是有没有看得见、摸得着的案例; 第二在线英语转语音,是否有已经大规模推广的产品和系统; 第三,能否用统计数据来说明应用的有效性。 由此看来在线英语转语音,2019年可以算是人工智能应用红利兑现的一年,人工智能已经进入规模化应用阶段。
未来,5G驱动的万物互联将成为IT产业的第六次浪潮,语音将成为最重要的人机交互方式。 相比触觉交互,语音交互更符合人类向外界输出信息的自然方式,能够有效满足“人机分离”场景下的远场交互需求。 随着移动互联网、大数据、云计算技术的进步,语音交互技术有望成为物联网时代的入门级技术,具有良好的增长前景; 语音交互技术(语音合成、语音识别、自然语言处理)与人工智能技术深度融合的领域也拥有广阔的市场空间。
无论是技术成熟度、社会效益还是经济效益,人工智能都具有积累和发展的特点,需要达到一定的运营规模才能实现边际效益的飞跃。 目前,科大讯飞在教育、政法、运营商、消费业务等领域推出了真正商用的产品和服务,并获得了现金流和正利润。 对于近年来发力的媒体领域,科大讯飞对媒体行业的赋能和通信行业的反馈也将随着媒体融合从顶层设计到底层探索的深入,拥有新的想象空间。 当然,这更依赖于三个方向的重点突破:一是算法突破,将继续在面临小样本、无监督、个性化问题的基础理论上取得突破; 二是脑与智能齐飞,脑科学研究与数理统计建模方法深度融合; 第三,人机耦合,不断探索人工智能系统与人类行为协作的人机耦合方法。 这三个方向的探索成果直接决定了科大讯飞未来在人工智能领域的地位。 (本文摘自《智能时代:媒体重塑》)
智能时代:媒体重塑
国际标准书号:978-7-5166-5026-4
新华社,2020 年 5 月
定价:48.00元
本文由佚名发布,不代表阿卡索英语培训 - 英语一对一线上外教培训!立场,转载联系作者并注明出处:/xians/8842.html