基于模板法的网页英语试卷自动抽取技术的研究被引量：1

A Novel Method to Extract English Examination Papers from Web Pages Based on Template

下载PDF

导出

摘要为解决在线考试系统中建立海量数据库的问题,采用基于模板法的Web信息抽取方法,提取相似网页中的正文内容。并根据包含英文试卷的网页特点,制定正文抽取规则,最终可获得完整的英语试卷及其答案。实验结果表明,该方法具有较高的准确率和提取速度。 In order to solve the problems of building massive database in on-line examination system, a novel method to extract English examination papers from similar web pages based on template was proposed in this paper. The extraction rules were formulated according to the features of web pages including English examination papers. At last, full papers and answers could be obtained. Experiments indicate that the accuracy and extraction speed reach a high level.

作者熊惠荟欧阳君

机构地区华中科技大学信息存储和薄膜技术研究所

出处《计算机与数字工程》 2009年第4期50-52,共3页 Computer & Digital Engineering

关键词 WEB 信息抽取 DOM抽取规则模板 Web, information extraction, dom, extraction rules, template

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1李蕾,王劲林,白鹤,胡晶晶.基于FFT的网页正文提取算法研究与实现[J].计算机工程与应用,2007,43(30):148-151. 被引量：15
2张健,欧红.应用正则式抽取Google网页内容[J].现代图书情报技术,2005(9):50-53. 被引量：6
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70

二级参考文献16

1荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
4全立新.谈异构数据库之间的代码移植技术——SQLJ[J].计算机应用与软件,2004,21(9):41-43. 被引量：24
5王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
6于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
7胡飞.基于标记树的Web页面区域划分和搜索方法[J].计算机科学,2005,32(8):182-185. 被引量：7
8Theodore W. Hong, Keith L. Clark. Towards a Universal Web Wrapper.In :Proceddings of the 17th International Florida Intelligence Research Symposium Conference. Florida, USA : AAAI Press ,2004. Available at .
9Google Web APIs Reference. http://www.google.com/api/reference,( Accessed May. 8,2005 ).
10Linger F.McQueen C. Wilton P.著.刘乐亭译.C#字符串和正则表达式参考手册[M].北京:清华大学出版社,2003..

共引文献88

1王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
2郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
3胡立辉,张健,陈曦.基于正则式的CNKI网页全自动包装器[J].长沙理工大学学报（自然科学版）,2006,3(2):58-63. 被引量：3
4胡立辉,周斌,黄园媛.基于正则式的维普网全自动包装器的实现[J].计算机工程与应用,2006,42(31):87-89. 被引量：1
5许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11
6刘晨曦,吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报（自然科学版）,2007,25(2):149-152. 被引量：8
7冯少卿,都云程.网页结构模板生成新方法研究[J].北京机械工业学院学报,2007,22(3):15-19. 被引量：2
8张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10
9时达明,林鸿飞,杨志豪.基于网页框架和规则的网页噪音去除方法[J].计算机工程,2007,33(19):276-278. 被引量：17
10王建冬,王继民,田飞佳.一种基于内容规则的网页去噪算法[J].现代图书情报技术,2008(3):51-54. 被引量：4

同被引文献8

1陆亿红,柳红.基于整数编码和自适应遗传算法的自动组卷[J].计算机工程,2005,31(23):232-232. 被引量：29
2王萌,金汉均,王晓荣.集合随机抽选法在智能组卷中的研究[J].计算机工程与设计,2006,27(19):3583-3585. 被引量：26
3杨锋.基于遗传算法的试题库管理及自动组卷系统的研究[D].山东农业大学硕士论文,2008.
4Storn R, Price K. Differential evolution- a simple and efficient heuristic for global optimization over continuous space, Technical Report TR-95-012[R].Berkeley.. International Computer Science Institute, 1995.
5朱明,王俊普.一种智能组卷方法的研究与实现[J].微小型计算机开发与应用,1997(4):5-9. 被引量：9
6张建萍,刘希玉,谭业武.改进免疫遗传算法及其应用研究[J].计算机技术与发展,2008,18(10):166-169. 被引量：8
7张端,苏健民.基于改进遗传算法的智能组卷在试题库建设中的研究[J].自动化技术与应用,2010,29(1):41-43. 被引量：11
8全惠云,范国闯,赵霆雷.基于遗传算法的试题库智能组卷系统研究[J].武汉大学学报（自然科学版）,1999,45(5):758-760. 被引量：83

引证文献1

1刘淳安,赵天绪,黄梅娟.基于差分进化算法的智能组卷方法[J].计算机与数字工程,2011,39(1):1-3. 被引量：6

二级引证文献6

1杜利峰,牛永洁.改进的粒子群算法在智能组卷中的应用研究[J].信息技术,2012,36(9):165-167. 被引量：1
2闫保权.高校计算机公共课通用评测平台的设计与实现[J].计算机与现代化,2013(4):53-56.
3赵丽萍,舒期梁.基于差分进化算法的自动组卷方法研究[J].办公自动化,2015,20(12):37-39.
4刘学丰.基于差分进化算法的英语考试智能组卷[J].计算机技术与发展,2016,26(1):181-184. 被引量：1
5蔡佳.差分进化算法在大学英语考试智能组卷中的研究应用[J].微型电脑应用,2019,35(7):25-27. 被引量：2
6张晓冬.基于差分进化算法的船舶直流电网多目标优化[J].船舶职业教育,2023,11(3):60-63.

1毛毛虫.中英文混排的技巧[J].电脑知识与技术（经验技巧）,2008(5):50-50.
2马洁.浅谈网页制作中文字元素的设计[J].信息与电脑（理论版）,2015(14):48-49.
3小森.轻松搞定中英文混合排版[J].电脑迷,2008,0(16):79-79.
4王志军.快速对齐选择题的各个选项[J].办公自动化,2007,0(24):45-45.
5卫登峰.情态动词can的考查热点[J].语数外学习（高中版）,2008(33):53-55.
6符于江.基于内容特征码的重复网页检测方法探析[J].科技信息,2012(26):162-163.
7彭媛媛,许建潮.基于xml的Deep Web信息自动抽取技术的研究[J].科技信息,2009(33):85-85.
8周亚.2001—2008年国内元数据自动抽取研究综述[J].科技情报开发与经济,2009,19(23):140-142. 被引量：3
9王君来,张景燕.借助夏普PC-1500袖珍计算机批阅英语试卷的初步偿试[J].石家庄铁道大学学报（自然科学版）,1986,14(3):88-90.
10储赟.面向源代码软件设计模式自动抽取技术的研究[J].电子世界,2013(24):9-10.

计算机与数字工程

2009年第4期

浏览历史

内容加载中请稍等...

基于模板法的网页英语试卷自动抽取技术的研究被引量：1

参考文献3

二级参考文献16

共引文献88

同被引文献8

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于模板法的网页英语试卷自动抽取技术的研究 被引量：1

参考文献3

二级参考文献16

共引文献88

同被引文献8

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于模板法的网页英语试卷自动抽取技术的研究被引量：1