语言是人类交流思想的工具、传承文明的载体、增进理解的桥梁。在以大语言模型为代表的人工智能技术飞速发展的今天,语言数据作为基础资源的重要性日益凸显。2025年初,数字中文正式成为数字中国建设的重要组成部分。一方面,中文数字化是我国数字经济发展的重要基石,中文数据资源是新质生产力的关键要素。另一方面,数据中文化则要不断提升中文在全球数字空间和世界现实生活中的使用占比、价值引领和文化贡献。语料库是语言资源的数据库,语料库建设正从规模扩张迈向质量跃升,多层次、分领域的数据体系日益完善,支撑起语言智能与社会应用的双重需求。我国语料库的建设历经50余年积淀,已形成语种多元、领域覆盖广泛、标注逐步规范的高质量数据资源体系。
汉字信息技术突破,筑就中文语料库建设根基。我国语料库研究主要起步于二十世纪改革开放后。当时,面对全球信息革命浪潮,我们最大的困境是汉字如何进入计算机。不同于表音文字,汉字的字符数量庞大、字形复杂,录入时也无法与键盘一一对应。那时,国内外大量中文数据都以各种拼音的形态存在,诸多涉及中文字词的频率统计也只能依靠手写卡片来完成,严重制约了中文信息产业的发展。二十世纪八九十年代,我国连续突破汉字的计算机编码、显示与录入三大难题,形成了自主可控的汉字字符集、汉字字形存储与显示技术,以及多种高效的汉字输入法。大量中文文件、经典作品得以进入电脑,通过人工录入的方式形成了最早一批百万字级语料库,奠定了中文信息产业发展的基础。
跨领域、高质量、深标注,语料库蓬勃发展。随着世纪之交互联网的快速兴起,网络数据爆发式增长。得益于汉字成功进入计算机的系列基础技术,无论是网络门户网站还是个人用户生成的中文数据不断涌现,中文网络数据快速增长。然而,互联网数据内容差异大,质量参差不齐,语料库在研制中需要根据不同语种和方言、不同领域、不同主题、不同质量进行采集和整理入库。与表音文字不同,中文的词与词之间没有空格作为分隔符,词和句子也没有形态变化,语法也不像英语具有严格的规则,因此要解决表意文字信息处理特有的诸多技术难题。在我国学者和产业界的共同努力下,信息处理用汉语分词规范的国家标准,以及专有名词、词性、句法、语义标注等诸多标注规范被研制出来,形成了一大批高质量、深标注的语料库,大大促进了语言学研究和语言智能产业发展。尤其值得一提的是,在这一阶段,我国古籍语料库也获得巨大进步。古籍汉字的字符数量巨大、字形更为复杂、异体字多,古籍文本又缺少断句和标点信息。我国已联合日本、韩国等国家共同研制出汉字超大字符集,建设了包含不同时代、不同字形和义项的汉字字料库。
此外,我国自主研制的文字图像识别系统更是超越国际上的表音文字水平,能够识别数以万计的不同汉字,大幅降低了人工录入的工作量,加快了古籍汉字入库速度。古籍语料库建设已形成覆盖经典文献、重要文献的数十亿字的庞大规模。在智能技术的支撑下,自动标点、繁简体转换、分词和词性标注、专名识别等技术快速发展,加之人工校正,形成了一批高质量、深标注的古籍语料库,为传承发展中华优秀传统文化、中国文化走出去奠定了重要的数据基础。
把毕业作品“搬进”城市公共空间
近日,西安美术学院“无界西美”2026届毕业展收官。毕业展采用“校内展区+校外城市展区”立体模式,把作品搬进城市街区和商业空间。据不完全统计,各展区累计接待市民观众300万人次
大模型赋能,中文语料库量质齐增。近年来,大语言模型的出现对语料库建设提出了更加多样的需求:既要数据量大,又要文本质量高。首先,我国语料库的覆盖度高,在语种上覆盖了汉语、英语、法语、俄语、阿拉伯语等诸多语种,囊括了新闻、社交、金融、法律等专业领域,以此为基础开发出通用的多语言大模型产品和机器翻译系统,还形成了诸多细分垂直领域的汉语和古汉语大模型。其次,语音、图片、视频等多模态语料库持续扩大,主要外语、少数民族语言及诸多方言的语音数据建设不断跟进,大大提升了国内语言智能产品对英语、普通话乃至方言的语音自动识别和合成能力,智能理解与生成图片和视频能力,以及大模型对多模态信息的集成处理能力。国内也形成了一批数据采集、清洗、标注的企业和机构,显著提升了语料处理效率与一致性,促进了语料产业的规模化与专业化发展。
机遇与挑战并存,擘画未来新篇。目前,随着人工智能技术的快速迭代和语言信息产业的高速发展,大模型正迈向垂直领域精准服务和具身多模态的发展方向,中文语料库还面临诸多挑战与机遇。如果说通用大语言模型,语料是质量为基、量大取胜,那么在垂直细分的当下,语料则更强调场景适配与专业精度。面向垂直领域,语料采集正逐步延伸至真实工作与生活情境中。新一代具身智能则需要更加个体感知的语料支撑,要求数据不仅涵盖特定场景下的语言表达,还需融合环境、行为与情感等多维信息。因此,存在的问题与挑战主要有四个方面:
第一,语料的版权问题待解决,数据隐私保护与伦理规范待完善,以保障语料作为新质生产力的关键要素广泛应用。第二,数据的流通和使用还缺乏足够的平台支撑,亟须建立国家、地方、各领域的数据发布与交易平台,让数据要素在供求关系中流动。第三,语料的标准规范仍以企业和行业标准为主,缺乏有效整合,特别是在国际标准制定方面尚缺乏话语权,需要系统展开顶层设计与具体实施。第四,高质量垂直领域语料仍显匮乏,尤其在医疗、法律、金融等专业领域和新一代具身感知数据的采集与标注方面,依然需要大量的资金、技术与人才投入。
我们要看到,在人工智能时代的新纪元,中文语料库建设也迎来了重要历史机遇。凭借庞大的中文用户基数、大量的语言智能企业和完善的上下游产业链,以及日益增长的多模态交互需求,中文语料库正加速向高质量、高精度、具身化、多模态、深标注方向发展。在智能机器人、虚拟现实、物联网产业的联动发展中,新型语料库具备了强劲的产业支撑。数字中文的两大核心是中文数据化和数据中文化。在50多年语料库的发展过程中,以海量语料库为代表的中文数据化已经取得了核心技术突破、形成了庞大数据积累。数据中文化仍待加强探索、系统推进,特别是借助以中文为主的多语言信息产业发展,可以更多地主导研发语料标注的国际标准,同时“活化利用”典籍中的中华优秀传统文化,推动中文在全球数字空间中的影响力持续提升。
(作者:李 斌 袁毓林,分别系南京师范大学文学院教授,澳门大学人文学院教授)(李 斌 袁毓林)
原创文章,作者:长江航运船舶代理水运船代,如若转载,请注明出处:https://www.changjianghangyun.com/%e9%ab%98%e8%b4%a8%e9%87%8f-%e9%ab%98%e7%b2%be%e5%ba%a6-%e5%85%b7%e8%ba%ab%e5%8c%96-%e5%a4%9a%e6%a8%a1%e6%80%81-%e6%b7%b1%e6%a0%87%e6%b3%a8%e4%b8%ad%e6%96%87%e8%af%ad%e6%96%99%e5%ba%93%e9%87%8f.html
