1.  > 英语一对一辅导

大模型发展加速,中文语料够用吗?


目前大模型发展加速,中文语料够用吗?,我国可供大规模模型训练的优质数据资源比较碎片化、分散。

“尤其是优质的中文数据集如语料库、科研成果等开放程度较低,企业在训练大模型时使用的语料库来源不透明、权属不明,开源后存在合规风险,导致企业更倾向于自行收集和使用数据,大模型数据流通机制尚未形成。”王政说。

北京理工大学管理学院副研究员尹希明认为,要构建市场化、互利共赢的数据共享机制,促进中国优质数据的积累和有效利用。

“建立清晰的数据要素市场体系,对促进优质数据集建设至关重要。”在复旦大学教授、上海市数据科学重点实验室主任肖扬华看来学英语专业,只有市场机制能够保证数据贡献者获得合理回报,才能吸引更多数据入市,充分挖掘和实现数据共享的巨大潜力和价值。

2023年12月31日,国家数据局等部门印发《“数据元×”三年行动计划(2024-2026年)》,强调坚持需求驱动、注重实效、试点先行、重点突破、市场有效、政府有效、开放融合、安全有序四项基本原则。

行动计划进一步明确,要提升数据供给水平,鼓励科研机构、龙头企业等在科研、文化、交通等领域建设行业共用数据资源库,打造高质量人工智能大规模模型训练数据集。

事实上,作为数据流通领域最大的“金矿”,公共数据开放步伐正在加快。《国家数据资源调查报告》显示,2023年,我国公共数据开放量同比增长16%;省级开放数据量同比增长18.5%,北京、浙江等15地数据管理部门开始探索公共数据授权运营机制。

“数据入库”政策于今年初开始实施。张继晨认为,随着“数据入库”政策的实施,出版企业的数字资源经过确权、评估、标准化等处理后,将入库,成为出版企业的数据资产。在此基础上,可以构建大模型训练用户和出版企业共赢的商业模式,在人工智能时代,可以充分发挥中国核心价值数据在智能服务中的话语权。“这样一来,‘数据入库’或许会成为加速数据有效流动共享、实现共赢的关键一步。”他说。

数据流通问题突出

算法、算力、数据、场景是大模型发展的四大核心要素,当前,我国大模型算力、算法能力显著提升,高质量发展靠数据、靠场景,要建设“可用、流通、用得好”的优质数据集。

尹希明表示,大模型做强做优的前提是要树立场景驱动的创新思维,引领优质数据在各类应用场景中不断发挥价值。所以,在解决了数据“供给”问题后,要着力保证优质数据“流动”,真正释放数据乘数效应和大模型在场景中催生新质量生产力的引擎价值。

数据元在生产中的地位日益重要,数据元流动所带来的开放性和动态性对传统数据理论和相应技术提出了新的挑战和新的要求。

“其中之一就是数据确权。”肖扬华表示,相比于其他生产要素,数据要素在流通过程中的主体更加多样,涉及数据生产者、收集者、处理者、使用者、运营者等产权所有者,权利界定复杂。

北京致远人工智能研究院理事长、中国互联网协会人工智能工作委员会主任委员黄铁军指出:“大家普遍存在一个误区,把数据当成传统意义上的实物资产。其实学英语专业,数据并不是实物资产,作为数字化产品,可以无限期使用,不会造成数据丢失。”

英语专业可以考公务员哪些单位_英语专业要学高数吗_学英语专业

他主张,在确保合规的前提下,大模型训练阶段可以免费获取数据资源,如果数据使用过程中没有产生商业利益,就不需要支付费用;反之,一旦数据使用产生商业利益,就要按照既定比例支付相应的数据使用费。

“虽然这一模式涉及数据确权、费率制定、监管机制等复杂问题,仍需深入探索解决,但‘先用后惠’更有利于大模式的健康发展。”黄铁军说。

王政认为,保障数据流通,需要政府、企业、开源或非营利组织、学术界、各类机构等社会力量的协同努力。

他建议,在政府侧,应鼓励可用于模型训练的公共数据“尽量开放”,避免数据开放过程中因预设特定场景而限制应用范围;在社会力量侧,应坚持“尽量开放”的原则,通过不断迭代,探索数据的有效组合,找到价值最大化的“公式”。

标签专业化、规模化已提上日程

自2022年《关于构建数据基础设施体系更好发挥数据要素作用的意见》发布以来,数据要素建设和市场化改革稳步推进,今年5月国家数据局提出建设国家数据标注基地,这对人工智能发展至关重要。

中国信息通信研究院人工智能研究所高级工程师、中国人工智能产业发展联盟数据委员会主任李笋表示,数据标注是推动人工智能进步的核心环节,可以提升数据质量,挖掘数据核心价值,形成优质数据集,为人工智能持续提供数据支撑。

也就是说,在解决了数据供给问题、促进数据共享、打通流通机制等一定程度之后,如何让大模型能够学习到高质量的数据,是各行各业接下来要面临的又一新挑战。

数据标注的专业化、规模化也被提上日程。

李笋指出,目前国内数据标注行业还比较初级,大部分标注工作都是人工完成学英语专业,劳动强度大。但在通用人工智能时代学英语专业,传统的人工标注或者简单的自动化标注方式都无法满足大模型对于大规模、高质量、多样化数据的需求,尤其是具备模型训练知识和行业知识的专业数据标注人才相对匮乏。

“大模型训练对数据标注人员的学历要求比以前更高了,很多都是本科毕业的。”王政说,业界大模型数据标注更加凸显专业知识的重要性。

机器对语言能力这个抽象概念进行评价时,必须依赖人类预先设定的价值判断和标准。电子科技大学智能语言学习与测评实验室曾与字节跳动合作开发了一款语言能力测试产品。实验室负责人陈大建介绍说,研发阶段,实验室负责对自身采集的用户音频数据进行标注,标注内容主要根据音频所体现的英语水平进行分类标注。标注人员由学校四五十名大学英语教师组成,均为应用语言学硕士、博士研究生。

“吃”得好、“吃”得香、“吃”得饱。只有最终实现大规模高质量诠释,才能有效提升大模型理解汉语、传递中华传统文化价值的能力。中国大模型的蓬勃发展,也将有助于中华优秀传统文化的海外传播,搭建起一座承上启下、沟通中国与外界的桥梁。

中国出版集团中国图书进出口公司子公司国图科技(北京)有限公司总经理李英锋认为,从文献、学术专著等正式出版物入手,依托先进的抽取工具和解析技术,将出版物进行语料化、碎片化、标准化,加工成高质量的语料数据,不同于一般的数据处理。“我们实现了大规模、批量数据语料化的技术和工具软件,可以对数据进行更深层次的解析,形成独立的图片、表格、公式数据集,为大模型人工智能服务提供更高价值、更标准化的语料供给,让人工智能时代的出版数据焕发新的活力。”他说。

在数字经济的大潮中,数据要素的放大、叠加、倍增越来越显著,成为推动相关产业高质量发展的必然要求。张继晨认为:“我们正站在新一轮产业技术革命的门槛上,这是一个不进则退的时代。”

本文由佚名发布,不代表阿卡索英语培训 - 英语一对一线上外教培训!立场,转载联系作者并注明出处:/fudao/17047.html

联系我们

在线咨询:点击这里给我发消息

微信号:weixin888

工作日:9:30-18:30,节假日休息