主要职责
中国科学院贯彻落实党中央关于科技创新的方针政策和决策部署,在履行职责过程中坚持党中央对科技工作的集中统一领导。主要职责是:
一、开展使命导向的自然科学领域基础研究,承担国家重大基础研究、应用基础研究、前沿交叉共性技术研究和引领性颠覆性技术研究任务,打造原始创新策源地。 更多+
院况简介
中国科学院是国家科学技术界最高学术机构、国家科学技术思想库,自然科学基础研究与高技术综合研究的国家战略科技力量。
1949年,伴随着新中国的诞生,中国科学院成立。建院70余年来,中国科学院时刻牢记使命,与科学共进,与祖国同行,以国家富强、人民幸福为己任,人才辈出,硕果累累,为我国科技进步、经济社会发展和国家安全作出了不可替代的重要贡献。 更多+
院领导集体
创新单元
科技奖励
科技期刊
工作动态/ 更多
中国科学院学部
中国科学院院部
语音播报
近日,中国科学院软件研究所互联网软件技术实验室在代码注释数据治理方面取得进展。该研究针对当前代码注释大数据质量治理难的问题,通过分析4个大规模代码注释基准数据集,归纳出12种类型的噪声数据并研发了基于规则的代码注释数据噪声清理工具,能够高效、精准地自动治理代码注释数据质量,为代码注释自动生成模型形成高质量数据提供保障,有效促进现有的代码注释自动生成模型提升性能。
代码注释自动生成技术旨在减轻人工编写注释代码的工作量,从而提高软件开发效率。目前主流的代码注释生成模型大多采用深度学习框架,模型的有效性依赖大规模高质量数据集。然而现实中基准数据集主要采集自真实的开源项目代码,其数据质量如何尚无研究深入分析。
针对上述问题,科研人员检测了4个基准数据集中的噪声,发现这些数据集中均广泛存在噪声数据,噪声数据占比最低31%,最多高达到65%;定义了12种类型的噪声数据并给出了具体示例;并研发了基于规则的代码注释数据噪声清理工具,治理准确率达到97.5%。科研人员对比了清理前后的3个最新代码注释自动生成模型,发现去除噪声后,模型的性能普遍提升了21%-27%。
相关研究成果以Are We Building on the Rock? On the Importance of Data Preprocessing for Code Summarization为题,被软件工程领域会议ESEC/FSE 2022录用。研究工作得到国家重点研发计划的支持。

代码注释数据质量分析方法框架
© 1996 - 中国科学院 版权所有 京ICP备05002857号-1
京公网安备110402500047号 网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话: 86 10 68597114(总机) 86 10 68597289(总值班室)
© 1996 - 中国科学院 版权所有 京ICP备05002857号-1
京公网安备110402500047号 网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话: 86 10 68597114(总机) 86 10 68597289(总值班室)
© 1996 - 中国科学院 版权所有
京ICP备05002857号-1
京公网安备110402500047号
网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话:86 10 68597114(总机)
86 10 68597289(总值班室)







