首页 > 科研进展

基于大规模自发言语的汉语学前儿童词汇数据库发布

2026年02月05日 心理研究所
【字体:

语音播报

词汇数据库是心理语言学和认知神经科学研究的重要基础工具。然而,现有的汉语词汇数据库主要来源于成人文本、儿童读物及动画等输入性材料,难以客观反映学前儿童在自然交流场景中能产出的词汇类型及表达特征。学前阶段是儿童词汇量快速增长的关键时期,但儿童的表达性词汇与理解性词汇在规模与分布上存在明显差异。因此,构建基于儿童真实口语表达产出的专门数据库,对于深入探讨儿童语言发展规律与认知机制具有重要价值。

近日,中国科学院心理研究所研究团队,发布了汉语学前儿童口语词汇数据库(CPCSLD)。该数据库基于北京地区648名3至6岁儿童,在同伴对话情境中的自发言语构建,语料涵盖旅行、玩具、图书、动画、机器人、游乐园等贴近儿童日常生活的主题。该语料库共包含约120万词次、21372个不同词条、1147个带声调音节及400个不带声调音节,并按幼儿园小班(K1)、中班(K2)及大班(K3)三个年龄段分别构建了对应的子数据库。

该数据库系统性提供了词汇和音节两个层面的多维信息,涵盖词频、词长、词类、音节频率(带声调/不带声调)等多种指标,可支撑对学前儿童口语词汇结构特征和发展变化规律的精细刻画。分析结果显示,随着儿童年龄增长,其自发言语中多音节词占比呈逐步上升趋势,词汇结构日趋复杂,且不同词类在儿童表达性语言中的分布也呈现出年龄相关性发展规律

为检验该数据库的心理语言学效度,研究团队进一步将CPCSLD与多个已有的汉语词汇数据库开展对比分析,并将其应用于学前儿童在语义判断任务与图片命名任务表现的预测。结果表明,CPCSLD在预测儿童图片命名反应和正确率方面具有明显优势,其预测效果优于基于成人语料或输入性儿童语料构建的数据库;而在以词汇理解为主的语义判断任务中,其预测优势相对有限。上述结果表明,基于儿童自发言语构建的词汇数据库,更能捕捉学前儿童言语产生过程中的关键统计特征。

CPCSLD是首个专门面向汉语学前儿童表达性词汇、基于自然口语产出构建的汉语词汇数据库,为儿童语言发展与言语产生研究提供了新的工具。同时,该数据库可用于探讨学前儿童词汇与言语产生的发展机制,并可服务于儿童语言评估、语言障碍早期筛查及教育干预等研究,为探索儿童心理词汇表组织结构、发展轨迹以及其神经基础,提供了重要的数据支撑。

相关研究成果发表在《行为研究方法》(Behavior Research Methods)上。研究工作得到国家自然科学基金委员会、中国科学院的支持。

论文链接

词汇数据库的构建流程

词频和音节频率的分布

打印 责任编辑:闫文艺

扫一扫在手机打开当前页

© 1996 - 中国科学院 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002

地址:北京市西城区三里河路52号 邮编:100864

电话: 86 10 68597114(总机) 86 10 68597289(总值班室)