基于决策树和马尔可夫链的问答对自动提取被引量：5

Decision Tree and Markov Model Based Question-Answer Pair Extraction

下载PDF

导出

摘要问答系统能用准确、简洁的答案回答用户用自然语言提出的问题,很明显系统中问答对的规模是影响问答系统最终性能的主要因素。为了提高问答对的规模、充分利用互联网资源,本文提出了一种基于决策树和马尔科夫链的在互联网上自动抽取问答对的算法。先根据网页中的HTML标记把网页表示成一棵DOM树;然后利用树中每个节点的结构和文字信息,抽取相应的特征;最后将得到的节点特征通过由决策树和一阶马尔可夫链结合得出的分类模型进行分类。试验结果表明准确率达到了90.398%,召回率达到了86.032%。对大量网页抽取的结果表明该分类模型能够适应对各种各样的网页的抽取。 Question Answering System can give users precise answer to the question presented in natural language and the major factor which influence the System＇s performance is the scale of Question-Answer pairs. In order to increase the Question-Answer pair＇s scale and make full use of Web Pages＇ resource, in this paper we propose a method that uses decision tree and Markov model to extract Question-Answer pairs in Web Pages. The method uses DOM tree to represent a web page according to HTML tags. Then acquire features value from every DOM tree＇s node. Last allow the features overpass the classification model, which created by decision tree and Markov model, to get the node＇s last classification result. Experimental results show that the precision achieved 90.40% and recall achieved 86. 03%. Experimental results also show that this model could extract information from all kinds of Web Pages.

作者刘佳宾胡国平陈超邵正荣

机构地区中国科学技术大学电子工程与信息科学系

出处《中文信息学报》 CSCD 北大核心 2007年第2期46-51,共6页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60672056) 微软基金资助项目(2006120809)

关键词人工智能模式识别信息抽取 DOM树决策树马尔可夫链 artificial intelligence pattern recognition information extraction DOM tree decision tree Markovmodel

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Craven, T. C. HTML Tags as Extraction Cues for Web Page Description Construction [J]. Informing Science Journal, 2003, 6: 1-12.
2Kosala, R.,Bruynooghe, M.,Bussche, J. V.,et al. Information Extraction from Web Documents Basecl onLocal Unranked Tree Automaton Inference [A]. In:Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence ( IJCAI-2003 )[C]. 2003.
3Eikvil, L. Information Extraction from World Wide Web- A Survey [R]. Technical Report 945, 1999.
4Reis, D., Golgher, P., Silva, A.,et al. Automatic Web News Extraction Using Tree Edit Distance [A].In: Proceedings of International WWW Conference (WWW-2004) [C]. 2004,502-511.
5Yunhua Hu, Guomao Xin,et al. Title Extraction from Bodies of HTML Documents and its Application to Web Page Retrieval [A]. The 28th Annual International ACM SIGIR Conference (SIGIR' 2005) [C].August 2005.
6何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15. 被引量：54
7Breuel, T. M. Information Extraction from HTML Documents by Structural Matching. In: Proceedings of the Second International Workshop on Web Document Analysis(WDA2003), 2003.
8李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101
9J. R. Quinlan. C4. 5 Programs for Machine Learning[J]. Morgan Kaufmannn Publishers San Meteo, California, 1992.
10于琨,蔡智,糜仲春,蔡庆生.基于路径学习的信息自动抽取方法[J].小型微型计算机系统,2003,24(12):2147-2149. 被引量：7

二级参考文献30

1[1]Doorenbos R B, Etzioni O and Weld W S. A scalable comparisonshopping agent for the world_wide web [C]. Proceedings of the first international conference on Autonomous Agents, 1997:39～48.
2[2]Embley D W, Jiang Y and Ng Y K. Record boundary discovery in web documents[C]. Proc. SIGMOD'99 , 1999: 467～478.
3[3]David Buttler, Ling Liu and Calton Pu. A fully automated object extraction system for the world wide web[C]. International Conference on Distributed Computing Systems, 2001.
4[4]Kushmerick N, Weld D, Doorenbos R. Wrapper induction for Information extraction[C]. Proc. IJCAI 97, 1997.
5[5]Muslea I, Minton S and Knoblock C. A hierarchical approach to Wrapper induction[C]. Proc. 3rd International Conference Autonomous Agents, 1999.
6[6]Arnaud Sahuguet, Fabien Azavant. Taming Web sources with "minute_made" wrappers[M]. Unpublished, 1999.
7[7]Craven M, DiPasquo D, Freitag D, McCallum A, Mitchell T,Nigam N, Lattery S S. Learning to extract symbolic knowledge from the World Wide Web[C]. Proc. AAAI-98, 1998.
8[8]Ashish N, Knoblock C. Semi_automatic wrapper generation for Internet information sources[C]. Proc. Cooperative Information Systems, 1997.
9[9]McCallum A, Nigam K, Rennie J and Seymore K. A machine learning approach to building domain_specific search engines[C].Proc. IJCAI99, 1999: 662～667.
10[10]http://www. w3. org/People/Raggett/tidy/#download.

共引文献159

1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
5许增福,梁静国,田晓宇.基于加权模糊推理网络的文本自动分类方法[J].哈尔滨工程大学学报,2004,25(4):504-508. 被引量：1
6王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
7王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6
8孟宪福,狄慧.基于Agent和XML的Web页面信息抽取研究与设计[J].计算机工程与设计,2004,25(8):1411-1414. 被引量：6
9李向阳,张亚非.一种网上图书信息抽取方法[J].情报学报,2004,23(6):655-660. 被引量：6
10张清军,朱才连.基于主动学习的Web页面信息抽取[J].情报学报,2004,23(6):667-671. 被引量：5

同被引文献79

1余正涛,邓锦辉,韩露,毛存礼,郑志蕴,郭剑毅.受限域FAQ中文问答系统研究[J].计算机研究与发展,2007,44(z2):388-393. 被引量：6
2张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
3吴友政,赵军,段湘煜,徐波.问答式检索技术及评测研究综述[J].中文信息学报,2005,19(3):1-13. 被引量：48
4游斓,周雅倩,黄萱菁,吴立德.基于最大熵模型的QA系统置信度评分算法[J].软件学报,2005,16(8):1407-1414. 被引量：8
5文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
6吴晨,张全.基于概念匹配的中文问答处理模型核心问题探讨[J].中文信息学报,2006,20(4):49-55. 被引量：2
7孙景广,蔡东风,吕德新,董燕举.基于知网的中文问题自动分类[J].中文信息学报,2007,21(1):90-95. 被引量：41
8王灿辉,张敏,马少平.自然语言处理在信息检索中的应用综述[J].中文信息学报,2007,21(2):35-45. 被引量：50
9叶正,林鸿飞,杨志豪.基于问句相似度的中文FAQ问答系统[J].计算机工程与应用,2007,43(9):161-163. 被引量：14
10Dang, H. T., Kelly, D. &. Lin, J. Overview of the TREC 2006 Question Answering Track [C]// Proceedings of the Fifteenth Text REtrieval Conference, 2007.

引证文献5

1董燕举,蔡东风,白宇.面向事实性问题的答案选择技术研究综述[J].中文信息学报,2009,23(1):86-94.
2毛煜,余正涛,孟祥燕,张志坤,许洋波,郭剑毅.中文问答对过滤方法研究[J].广西师范大学学报（自然科学版）,2009,27(3):142-145.
3侯丽敏,张永强.面向课程的中文FAQ自动问答系统模型[J].计算机与现代化,2014(10):20-24. 被引量：3
4张民航,蔡东风,李绍鸣.面向社交群问答对获取的深度学习模型[J].计算机应用与软件,2022,39(3):172-179. 被引量：1
5仲兆满,熊玉龙,黄贤波.基于异构集成学习的多元文本情感分析研究[J].南京大学学报（自然科学版）,2023,59(3):471-482. 被引量：1

二级引证文献5

1黄洪,陈德锐.基于语义依存的汉语句子相似度改进算法[J].浙江工业大学学报,2017,45(1):6-9. 被引量：11
2耿倩.面向校园咨询场景的自动问答系统设计[J].自动化技术与应用,2018,37(6):151-153. 被引量：4
3李启行,廖薇.基于注意力机制的生物医学文本分类模型[J].中国医学物理学杂志,2022,39(4):518-523. 被引量：4
4刘忠艳,乔沐溪,乔付.基于情感分析技术的大学生心理危机检测与干预措施探讨[J].电脑知识与技术,2024,20(12):77-80.
5赵沛时,葛亮,张晓阳,.基于交通知识的移动智能问答系统[J].电子测试,2016,27(12):25-28.

1陈建彪.面向领域的Web信息自动抽取技术研究[J].计算机光盘软件与应用,2012,15(24):59-60.
2王冠,裘正定.结合中文网页自动分类系统的AIP平台[J].微机发展,2005,15(3):136-138.
3朱红灿,龙朝阳.基于熵的新闻网页抽取方法的研究[J].现代图书情报技术,2007(4):48-51. 被引量：2
4许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11
5张敏.信息抽取技术在网页中的应用[J].中国城市经济,2011(20):150-151.
6徐铁,耿佳宁.网页信息抽取方法的研究[J].信息技术,2009,33(4):112-115. 被引量：4
7罗超然,王纯,廖建新.新闻网页内容抽取模块的设计与实现[J].电信技术,2014(5):85-87. 被引量：1
8孔胜,王宇.一种基于正文特征的新闻网页抽取方法[J].情报杂志,2010,29(8):122-124. 被引量：7
9张军.网络入侵环境下健康节点选择方法设计与仿真[J].华侨大学学报（自然科学版）,2016,37(6):754-757. 被引量：2
10狂风.摆脱龟速让Windows真正飞起来[J].电脑爱好者,2004(18):57-63.

中文信息学报

2007年第2期

浏览历史

内容加载中请稍等...

基于决策树和马尔可夫链的问答对自动提取被引量：5

参考文献12

二级参考文献30

共引文献159

同被引文献79

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于决策树和马尔可夫链的问答对自动提取 被引量：5

参考文献12

二级参考文献30

共引文献159

同被引文献79

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于决策树和马尔可夫链的问答对自动提取被引量：5