摘要
软件文档及其程序代码之间的关联性或可追踪性分析是软件分析、理解的重要基础。探讨了软件的中文文档和程序代码中蕴含的主题及其相关性。针对软件文档的章节结构和词汇空间,以及程序代码结构、标识符命名空间、注释风格等方面的特点,在LDA模型的基础上提出了一种基于主题词的软件中文文档与代码间关联关系的分析方法。该方法依据词汇的香农信息提取文本段的主题词。实验结果表明,主题词分析方法与LSI模型分析方法相比在查全率和查准率上均有2%到5%的提高。
In order to establish traceability between Chinese documentations and source codes more effectively, this paper pro- poses one method based on LDA model. It names the topic word-based Traceability Retrieval Method(TRM) in which the topic words are extracted according to Shannon information. Experimental result shows that, compared with the LSI method, the topic word method can increase the recall and precision from 2% to 5%.
出处
《计算机工程与应用》
CSCD
2013年第5期70-76,共7页
Computer Engineering and Applications