期刊文献+

基于Chi-quare检验与词义分析的试题重复检测算法 被引量:1

Algorithm of feature terms semantic similarity based on chi-square test
下载PDF
导出
摘要 针对无纸化考试系统入库试题重复检测问题;提出基于卡方检验与词义分析的试题重复检测算法,首先自动提取试题的特征信息词项,利用卡方检验改进公式进行特征词分析并删除冗余词;其次,结合中文WordNet词典对特征词进行词义分析,并利用Tf-Idf方法计算入库试题的特征词向量与不同题型特征词的余弦相似度;最后,根据所得相似度值判别该试题是否与题库试题重复。实验结果表明,在重复度阀值选取0.8时,算法耗时少、准确性高。 According to the question repeatability problem of paperless examination. The algorithm of Feature semantic similarity is proposed based on Chi square test. First, automatic extraction of words features information from the question, delete the redundant words by test, Second, analysis feature words semantic under the Chinese WordNet Dictionary, and calculate the cosine similarity of feature vectors by using the TF-IDF method, Finally, according to the result to determine whether the question is put into question database. The experimental result shows that the algorithm is good robustness, high accuracy, high efficiency under the threshold selection 0.8.
作者 雷虎 任佳
机构地区 西安翻译学院
出处 《电子设计工程》 2016年第13期26-29,共4页 Electronic Design Engineering
基金 陕西省高等教育教学改革研究重点项目(13BZ69) 陕西省教育厅专项科学研究项目(16JK2078)
关键词 卡方检验 特征词 语义 余弦相似度 试题重复度 chi-square test feature terms semantic cosine similarity question redundancy
  • 相关文献

参考文献7

二级参考文献57

  • 1徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量:56
  • 2罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量:55
  • 3张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量:120
  • 4初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量:14
  • 5董振东,董强.知网[EB/OL].http://keenage.com/zhiwang/e_zhiwang.html,1999.
  • 6哈尔滨工业大学信息检索研究室.语言技术平台LTP[EB/0L].http://ir.hit.edu.cn/,2006.
  • 7Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975.
  • 8Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971.
  • 9Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63.
  • 10Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550.

共引文献239

同被引文献14

引证文献1

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部