一种基于逆序匹配重复模式的主题信息提取方法

A THEME INFORMATION EXTRACTION METHOD BASED ON REPETITIVE PATTERN REVERSE MATCHING

下载PDF

导出

摘要网页中的信息主要以重复的HTML结构进行组织并形成一致的展现形式,主要研究具备复杂重复模式的网页主题信息块识别,提出一种改进的基于逆序匹配重复模式的算法。该算法依据HTML标签结构和class属性改进DOM树,重构页面的向量空间模型,逆序匹配重复结构模式并完成对主题信息的提取。实验结果表明,该方法能准确识别复杂页面结构中主题重复模式,有效避免非主题重复模式的干扰,有较好的召回率和准确率。 The information in webpage is mainly arranged with repetitive HTML structure and presents in consistent display style.In the paper we put emphasis on studying the recognition of the webpage theme information with complicated repetitive pattern and propose an improved algorithm which is based on repetitive pattern reverse matching.The method improves document tree model in accordance with HTML tag structure and class property,reconstructs vector space model of the pages,reversely matches the repetitive structure pattern and then completes the extraction of the theme information.Experimental results suggest that this method can precisely recognise the theme repetitive pattern in complicated webpage structure,effectively avoid the disturbance from non-theme repetitive pattern blocks and performs well in precision and recall.

作者伍杰华倪振声陈有青

机构地区广东工贸职业技术学院计算机工程系中山大学信息科学与技术学院

出处《计算机应用与软件》 CSCD 北大核心 2013年第4期88-91,共4页 Computer Applications and Software

基金国家自然科学基金项目(61003045)

关键词信息提取重复模式主题识别逆序匹配 Information extraction Repetitive pattern Theme recognition Reverse match

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1Bing Liu. Web Data Mining[ M].俞勇,薛贵荣,韩定一,译.北京:清华大学出版社,2011:231.
2Bing Liu, Robert Grossman, Zhai Yanhong. Mining data records in Web pages [ C ]//Proceedings of the ninth ACM SIGKDD international con- ference on Knowledge discovery and data mining. ACM, 2003:601 - 606.
3Xu Zhiwei, Wang Xinghua. Research for Information Extraction Based on Wrapper Model Algorithm [ C ]//Computer Research and Develop- ment,2010 Second International Conference on,2010:652- 655.
4Nicholas Kushmerick. Wrapper induction:Efficiency and Expressive- ness[ J]. Artificial Intelligence ,2000,118 : 15 - 68.
5Deng Cai, Yu Shipeng, Wen Jirong, et al. VIPS : A vision-based page segmentation algorithm. Microsoft Technical Report [ R ]. MSR-TR- 2003-79. 2003 : 10.
6Yu Shipeng, Cai Deng, Wen Jirong, et al. Improving pseudo-re-levance feedback in Web information retrieval using Web page seg-mentation [C].2003.
7高乐,张健,田贤忠.基于视觉的Web页面分块算法的改进与实现[J].计算机系统应用,2009,18(4):65-69. 被引量：11
8黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
9王少康,董科军,阎保平.使用特征文本密度的网页正文提取[J].计算机工程与应用,2010,46(20):1-3. 被引量：13
10周佳颖,朱珍民,高晓芳.基于统计与正文特征的中文网页正文抽取研究[J].中文信息学报,2009,23(5):80-85. 被引量：16

二级参考文献62

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3陈兰,左志宏,熊毅,孟令谦.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2004,21(8):155-157. 被引量：18
4于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
5Chang Chia-Hui, Kayed M, Girgis M R. A Survey of Web Information Extraction Systems[J]. IEEE Transaction on Know-ledge and Data Engineering, 2006, 18( 10): 1411 - 1428.
6Crescenzi V, Mecca G, Merialdo R Road-runner: Towards Automatic Data Extraction from Large Web Sites[C]//Proc. of the 26th Int'l Conf. on Very Large Database Systems. Roma, Italy: [s. n.], 2001: 109-118.
7Chang Chia-Hui, Lui C. IEPAD: Information Extraction Based on Pattern Discovery[C]//Proceedings of the 10th International Conference on World Wide Web. Hong Kong, China: [s. n.], 2001: 681-688.
8Liu Bing, Grossman R, Zhai Yanhong. Mining Data Records in Web Pages[C]//Proceedings of KDD'03. Washington D. C., USA: [s. n.], 2003: 601-606.
9Phong L Vuong B Gao Xiaoying, et al. Data Extraction from Semi-structured Web Pages by Clustering[C]//Proceedings of WI'06. Hong Kong, China: [s. n.], 2006: 374-377.
10Wu Yang. Identifying Syntactic Differences Between Two Programs[J]. Software-practice and Experience, 1991, 21(7): 739-755.

共引文献97

1黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
2白似雪,刘华斌.基于页面分块模型的PageRank算法研究[J].南昌大学学报（工科版）,2008,30(2):179-183. 被引量：4
3孙桂煌,刘发升.基于正文特征的网页正文信息提取方法[J].现代计算机,2008,14(9):34-38. 被引量：5
4王燕,吴灏,毛天宇.基于K-中心点聚类算法的论坛信息识别技术研究[J].计算机工程与设计,2009,30(1):210-212. 被引量：3
5张霞亮,陈家骏.基于逻辑行和最大接纳距离的网页正文抽取[J].计算机工程与应用,2009,45(25):125-128. 被引量：5
6邬海波,吴保国.基于WebService的多源数据库数据访问方法[J].电脑知识与技术,2009,5(11):8628-8631. 被引量：2
7滕艳平,廉佐政,王海珍.基于语义元模型的需求信息本体构建方法[J].情报科学,2009,27(11):1695-1699.
8顾韵华,田伟.基于DOM模型扩展的Web信息提取[J].计算机科学,2009,36(11):235-237. 被引量：21
9顾韵华,李佩,谢刚.一种基于文本样式的Web主题信息提取方法研究[J].计算机与数字工程,2009,37(11):17-20.
10王舒,朱敏,张明,牛颢,赵瑜.一种基于特征符号的网页主题信息抽取方法[J].计算机应用研究,2009,26(12):4539-4541. 被引量：4

1秦平.数据库模糊匹配查询和逆序匹配查询探讨[J].软件产业,1990(10):32-33.
2高强,张敬之,耿桦,潘金贵.基于重复模式的Web信息抽取[J].计算机科学,2007,34(4):210-212. 被引量：6
3栾虹.HTML文档分类中的词元权重算法[J].山东师范大学学报（自然科学版）,2005,20(2):22-25. 被引量：1
4郭晓,蒋宗礼.基于网页结构与链接关系的中文文本分类方法[J].现代电子技术,2010,33(22):54-56. 被引量：3
5胡军伟,秦奕青,张伟.正则表达式在Web信息抽取中的应用[J].北京信息科技大学学报（自然科学版）,2011,26(6):86-89. 被引量：39
6崔慧超,刘莉.应用聚类技术分类提取Web页面[J].电脑知识与技术,2010,6(1):212-213.
7隋丽萍,徐承韬,李瑞芳.基于HTML结构的Web文本主题挖掘研究[J].电脑与电信,2007(1):47-51. 被引量：1
8隋丽萍,徐承韬,李瑞芳.基于HTML结构的Web文本主题挖掘研究[J].西安外事学院学报,2007,0(1):102-105.
9宋睿华,马少平,张敏.一种提高Web信息检索精度的分段检索方法[J].广西师范大学学报（自然科学版）,2003,21(A01):151-155. 被引量：2
10越野苍狼.My Notes Keeperr——我的数据管家[J].软件指南,2007(5):28-28.

计算机应用与软件

2013年第4期

浏览历史

内容加载中请稍等...

一种基于逆序匹配重复模式的主题信息提取方法

参考文献15

二级参考文献62

共引文献97

相关作者

相关机构

相关主题

浏览历史