加快打造原始创新策源地,加快突破关键核心技术,努力抢占科技制高点,为把我国建设成为世界科技强国作出新的更大的贡献。

——习近平总书记在致中国科学院建院70周年贺信中作出的“两加快一努力”重要指示要求

面向世界科技前沿、面向经济主战场、面向国家重大需求、面向人民生命健康,率先实现科学技术跨越发展,率先建成国家创新人才高地,率先建成国家高水平科技智库,率先建设国际一流科研机构。

——中国科学院办院方针

首页 > 科研进展

软件所在代码注释数据治理方面取得进展

2022-07-26 软件研究所
【字体:

语音播报

    近日,中国科学院软件研究所互联网软件技术实验室在代码注释数据治理方面取得进展。该研究针对当前代码注释大数据质量治理难的问题,通过分析4个大规模代码注释基准数据集,归纳出12种类型的噪声数据并研发了基于规则的代码注释数据噪声清理工具,能够高效、精准地自动治理代码注释数据质量,为代码注释自动生成模型形成高质量数据提供保障,有效促进现有的代码注释自动生成模型提升性能。 

  代码注释自动生成技术旨在减轻人工编写注释代码的工作量,从而提高软件开发效率。目前主流的代码注释生成模型大多采用深度学习框架,模型的有效性依赖大规模高质量数据集。然而现实中基准数据集主要采集自真实的开源项目代码,其数据质量如何尚无研究深入分析。 

  针对上述问题,科研人员检测了4个基准数据集中的噪声,发现这些数据集中均广泛存在噪声数据,噪声数据占比最低31%,最多高达到65%;定义了12种类型的噪声数据并给出了具体示例;并研发了基于规则的代码注释数据噪声清理工具,治理准确率达到97.5%。科研人员对比了清理前后的3个最新代码注释自动生成模型,发现去除噪声后,模型的性能普遍提升了21%-27% 

  相关研究成果以Are We Building on the Rock? On the Importance of Data Preprocessing for Code Summarization为题,被软件工程领域会议ESEC/FSE 2022录用。研究工作得到国家重点研发计划的支持。 

代码注释数据质量分析方法框架 

打印 责任编辑:阎芳

扫一扫在手机打开当前页

© 1996 - 中国科学院 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002

地址:北京市西城区三里河路52号 邮编:100864

电话: 86 10 68597114(总机) 86 10 68597289(总值班室)

编辑部邮箱:casweb@cashq.ac.cn

  • © 1996 - 中国科学院 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002

    地址:北京市西城区三里河路52号 邮编:100864

    电话: 86 10 68597114(总机) 86 10 68597289(总值班室)

    编辑部邮箱:casweb@cashq.ac.cn

  • © 1996 - 中国科学院 版权所有
    京ICP备05002857号-1
    京公网安备110402500047号
    网站标识码bm48000002

    地址:北京市西城区三里河路52号 邮编:100864
    电话:86 10 68597114(总机)
       86 10 68597289(总值班室)
    编辑部邮箱:casweb@cashq.ac.cn