基于多示例学习的题库重复性检测研究被引量：5

Itembank Redundancy Checking Based on Multi-Instance Learning

下载PDF

导出

摘要基于多示例学习方法对题库重复性检测算法进行了改进,其基本思想是:将包含多个子问题的试题重复性检测转化为多示例学习问题.采用基于前缀树的高频词抽取算法抽取试题的内容特征,避免了对同义词典的依赖.在此基础上,结合试题的元数据特征提出试题相似度计算方法.在真实题库基础上进行的实验结果显示,该方法简便可行,正确率和查全率分别达到91.3%和92.3%,为进一步实现题库系统的整合奠定了基础. A method based on multi-instance learning to improve the itembank redundancy checking algorithm is proposed. Redundancy checking for items with multiple questions is addressed through transforming it into a multi-instance learning problem. High-frequency words addressed through transforming it into a multi-instance learning problem. High-frequency words extracting algorithm based on suffix tree is used to extract content features of items and the use of thesaurus can be avoided. Combined with metadata features of items item similarity is proposed. Experiments on the realworld itembank , a method to compute dataset show that the proposed method is an effective and feasible solution to the itembank redundancy checking problem, and achieves 91.3% precision and 92.3% recall. It laid groundwork for future work on the integration of itembank systems.

作者汤世平樊孝忠

机构地区北京理工大学信息科学技术学院计算机科学工程系

出处《北京理工大学学报》 EI CAS CSCD 北大核心 2005年第12期1071-1074,共4页 Transactions of Beijing Institute of Technology

关键词题库重复性检测多示例学习最小Hausdorff距离 itembank redundancy checking multi-instance learning minimum Hausdorffdistance

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1黄国祯曾秋蓉朱蕙君.智慧型线上测验系统题型之分析与改进[J].科学教育学刊,2002,10(4):423-439.
2Dietterich T G,Lathrop R H,Lozano-Pérez T.Solving the multiple-instance problem with axisparallel rectangles[J].Artificial Intelligence,1997,89(1-2):31-71.
3Maron O,Lozano-Pérez T.A framework for multiple-instance learning[A].Jordan M I,Kearns M J,Solla S A.Advances in Neural Information Processing Systems 10[C].Cambridge:MIT Press,1998.570-576.
4Wang J,Zucker J D.Solving the multiple-instance problem:A lazy learning approach[A].Langley P.Proc of 17th Int'l Conf on Machine Learning[C].San Francisco:Morgan Kaufmann Publishers,2000.1119-1125.
5祝钧毅.[D].南投:国立暨南国际大学资讯管理研究所,1998.
6萧经武.[D].南投:国立暨南国际大学资讯管理研究所,2000.
7黎铭,薛晓冰,周志华.基于多示例学习的中文Web目录页面推荐[J].软件学报,2004,15(9):1328-1335. 被引量：17

二级参考文献2

1韩客松,王永成,陈桂林.无词典高频字串快速提取和统计算法研究[J].中文信息学报,2001,15(2):23-30. 被引量：36
2金翔宇,孙正兴,张福炎.一种中文文档的非受限无词典抽词方法[J].中文信息学报,2001,15(6):33-39. 被引量：28

共引文献16

1何波,杨武,张建勋,王越.基于用户模式聚类的智能信息推荐算法[J].计算机工程与设计,2006,27(13):2360-2361. 被引量：7
2程涛远,王珊.A Novel Approach to Clustering Merchandise Records[J].Journal of Computer Science & Technology,2007,22(2):228-231. 被引量：3
3薛晓冰,韩洁凌,姜远,周志华.基于多示例学习技术的Web目录页面链接推荐[J].计算机研究与发展,2007,44(3):406-411. 被引量：6
4印鉴,谭焕云.基于χ~2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. 被引量：13
5于春燕.Web使用挖掘研究及最新进展[J].滁州学院学报,2007,9(6):26-28. 被引量：2
6陈冬林,丁峰,聂规划,李丽颖.基于Web的电子政务本体自动构建方法[J].情报杂志,2008,27(9):20-22. 被引量：1
7岳峰,孙亮,王宽全,王永吉,左旺孟.利用构建语义词典的查询自动分类方法[J].哈尔滨工业大学学报,2008,40(7):1094-1098. 被引量：3
8张郴,张树夫,陶卓民.基于机器学习技术的旅游方式偏好研究——以南京市为例[J].人文地理,2010,25(1):155-160. 被引量：3
9邓蔚,秦志光,刘峤,程红蓉.抗好词攻击的中文垃圾邮件过滤模型[J].电子测量与仪器学报,2010,24(12):1146-1152. 被引量：5
10王龙,刘衍珩,李晓光,官健.基于树型结构和加权熵的中文高频词提取算法[J].吉林大学学报（工学版）,2011,41(1):188-192. 被引量：1

同被引文献22

1陶南,周定康,朱凌.一种基于关联规则的大型题库启发式教学系统[J].计算机应用,2004,24(11):94-96. 被引量：2
2陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
3陈伟,丁秋林.数据清理中编辑距离的应用及Java编程实现[J].电脑与信息技术,2003,11(6):33-35. 被引量：9
4李晓媛,徐润章.Latex系统辅助下的学习系统的建构[J].应用科技,2005,32(7):48-49. 被引量：4
5Salton G, Lesk ME. Computer evaluation of indexing and text processing. Journal of the ACM,1968,15(1):8 - 36.
6Baeza-Yates R, Ribeiro-Neto B. Modem Information Retrieval: Addison Wesley, 1999.38 - 42.
7Salton G, Buckley C. Term-weighting approaches in automatic retrieval. Information Processing & Management, 1988,24(5):513 - 523.
8陈文,李龙澍,王本年.关联规则挖掘在在线考试系统中的应用[J].铜陵学院学报,2007,6(4):75-76. 被引量：2
9王绍清,严光银.基于文本格式的题库与试卷自动生成系统研究[J].电脑知识与技术.2008(18)
10植兆衍,彭宏.基于向量空间模型的试题分类系统[J].计算机工程与设计,2008,29(12):3227-3229. 被引量：4

引证文献5

1汪忠国,吴敏.基于向量空间模型的题库相似度检查算法[J].计算机系统应用,2010,19(3):213-216. 被引量：12
2卢希,董东.基于LaTeX的高等数学命审题系统设计与实现[J].软件导刊,2014,13(8):77-79. 被引量：2
3王禄,吴洋,王振光,郑金星.字符串编辑距离算法在网络竞赛试题筛选中的应用[J].山东冶金,2015,37(5):79-80. 被引量：2
4郭娜,路梅,赵向军.习题的关联分析及其向量化表示方法[J].计算机工程与科学,2017,39(10):1950-1957. 被引量：1
5梁圣.基于RNN的试题相似度计算模型研究与实现[J].数码设计,2018,7(1):15-17. 被引量：1

二级引证文献18

1王禄.基于试题辅助整理程序TestAA的题库筛选策略研究[J].办公自动化,2020,0(2):58-61. 被引量：1
2付永贵.一种改进的余弦向量度量法文本检索模型[J].图书情报工作,2011,55(19):115-119. 被引量：2
3杨瑞成,吕强,杨静.基于圆形邻域孤立点挖掘算法的企业信用风险失真度研究[J].数学的实践与认识,2012,24(4):94-101. 被引量：2
4付永贵.基于云计算的余弦向量度量法文本检索模型[J].情报科学,2012,30(5):736-739. 被引量：4
5周小平,王佳,马晓轩.基于VSM的电子作业反抄袭系统的设计与实现[J].实验技术与管理,2013,30(3):109-111. 被引量：2
6付永贵,尚成国,马尚才.基于云计算的改进余弦向量度量法索引项权值算法[J].计算机系统应用,2013,22(6):86-90.
7贺海涛,郑山红,侯丽鑫,王国春,王璐.基于中文文本的疾病领域本体学习的研究[J].吉林大学学报（信息科学版）,2014,32(1):76-81. 被引量：5
8刘忠宝,赵文娟,贾君枝.多标记用户分类系统构建方法研究[J].图书情报工作,2014,58(10):145-148. 被引量：1
9胡玉琦.基于Levenshtein算法的题库相似度检测算法的设计与改进[J].东莞理工学院学报,2014,21(5):57-60. 被引量：1
10王禄.用字符串编辑距离算法筛选相似试题[J].电脑编程技巧与维护,2017(1):24-30. 被引量：1

1罗萱.基于粒子滤波和多示例学习的目标跟踪[J].计算机应用与软件,2014,31(8):186-190. 被引量：2
2欧阳军林,徐建波,刘建勋.基于LMISVM的相关反馈图像检索[J].计算机工程与科学,2009,31(2):24-26.
3刘良旭,乔少杰,刘宾,乐嘉锦,唐常杰.基于R-Tree的高效异常轨迹检测算法[J].软件学报,2009,20(9):2426-2435. 被引量：15
4王爽,张化祥,刘丽.基于多示例多标记KNN的图像分类算法的改进[J].济南大学学报（自然科学版）,2015,29(4):275-279. 被引量：1
5温超,耿国华,李展.构建新包空间的多示例学习方法[J].西安交通大学学报,2011,45(8):62-66. 被引量：1
6王盼卿,刘增良,陶源.基于同义词典的装备信息集成应用研究[J].微计算机信息,2009,25(9):175-177.
7邓波,陆颖隽,王如志.一种基于CRO的高阶神经网络多示例学习方法[J].计算机科学,2017,44(3):264-267. 被引量：2
8李大湘,彭进业,贺静芳.基于EMD-CkNN多示例学习算法的图像分类[J].光电子．激光,2010,21(2):303-306. 被引量：11
9徐德智,贾栋,王建新.基于本体的XML语义集成和查询的研究[J].计算技术与自动化,2007,26(1):77-80. 被引量：8
10陈晓平,许卓明.一种基于同义词典及模糊集技术IR模型[J].计算机工程与应用,2002,38(24):121-122.

北京理工大学学报

2005年第12期

浏览历史

内容加载中请稍等...

基于多示例学习的题库重复性检测研究被引量：5

参考文献7

二级参考文献2

共引文献16

同被引文献22

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于多示例学习的题库重复性检测研究 被引量：5

参考文献7

二级参考文献2

共引文献16

同被引文献22

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于多示例学习的题库重复性检测研究被引量：5