瑞财经 2025-12-25 07:10 3085阅读
Ai快讯 中文存在“一词多义”现象,如“看车”在不同语境中有不同含义。人工智能大模型理解这一现象,离不开中文数据的持续供给。
目前,国内多数模型训练使用的数据中,中文数据占比超过60%,有的模型达到80%。不同语言的数据对大模型性能有不同影响,数据如同大模型的“知识教材”,教材语言属性不同,会影响模型的知识体系。
过去我国大模型面临“数据依赖”风险,英文数据在全球互联网占比较高,前沿科技论文、行业标准、文化典籍等多以英文呈现,全球高质量标注数据也多为英文。中文数据占比提高,既方便用户理解输出结果,又能保障和提升我国在大模型上的研发能力。同时,可助力我国在“数据安全”“技术自主”上取得进展,掌握大模型发展主动权。此外,还能增强大模型对中华文化及中国场景的理解能力,推动中华文化的数字化传播。
中文普通数据和高质量数据存在区别。普通数据多为未经审核的网络文本、非专业内容,易出现事实错误或概念混淆;高质量数据需经过“事实核查、专业审核”,语义准确且来源可追溯。以医疗诊断场景为例,“磐医知识图谱”中的数据由医学专家审核,每个知识点都有明确来源,且动态更新医学进展。
在一系列因素推动下,中文高质量数据供给能力不断增强。政策方面,《“数据要素×”三年行动计划(2024—2026年)》提出打造高质量人工智能大模型训练数据集,国家数据局布局建设数据标注基地,加速了大量中文高质量数据集的建设。技术上,随着进步,中文数据开发难度降低,如国内某“中文语义标注系统”可自动区分词义,提升标注效率,降低成本。行业内,国内垂直场景对“中文适配”大模型的需求增加,推动中文数据成为核心资源,更多企业参与开发,如中国移动建成覆盖超30个行业、超3500TB的通用高质量数据集。
2024年初,我国日均Token消耗量为1000亿,截至当年9月底,日均Token消耗量已突破40万亿,体现了中文数据资源的快速积累和价值释放。
对于进一步增强中文数据的开发和供给,专家提出建议。一是建标准,现有中文数据中重复内容多、高质量少,尤其在医疗、工业等垂直领域,高质量数据稀缺。如医疗数据记录方式不同,若无标准判断数据质量,开发难以推进,因此需加快研究制定中文数据分级标准。二是强技术,高质量数据集建设中存在数据孤岛和合规难题,不同机构数据因隐私安全等要求难以跨域流通,导致资源浪费。可推广新一代标注技术,在保证原始数据不出域和隐私安全的条件下,完成跨机构协同标注。三是补场景,我国产业体系完备,需要更多细分场景的中文数据。如元宇宙等新兴场景中,中文数据使用量仅为英文的1/5;中医、非遗等传统场景数字化程度低。可推动政产学研用协同,专项采集各种垂直场景中文数据。
“十五五”规划建议提出“推进文化和科技融合”。具体方式包括“文化IP+科技体验”,通过线上数字平台与线下沉浸场景结合,打造数字文旅空间、开发“旅游+智能体”新应用;“文化创作+人工智能”,AI技术与影视、文博等领域融合,催生出AI短剧、博物馆数字文创等新产品;“特色文化+数字技术”,将地标农产品、乡村非遗技艺融入微短剧等内容创作,为乡村全面振兴注入新动能。
(AI撰文,仅供参考)