一种基于标签路径聚类的文本信息抽取算法被引量：2

A TEXT INFORMATION EXTRACTION ALGORITHM BASED ON TAG XPATH CLUSTERING

下载PDF

导出

摘要针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法。该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页.分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站实验表明,该方法获得快速和较高准确度的效果。 This paper proposes a new approach for text information extraction based on tag xpath clustering,in order to solve the problem of high complexity in extracting webpage noise and unstructured webpage information.The method first carries out the web noise pre-treatment,as well as the tag xpath clustering according to the DOM tree structure of the webpage,and fast determines key parts of the webpage through automatically trained threshold value and webpage segmentation algorithm,then finds webpage＇s text extracted template based on the embedded structure of data block.The experiments performed on several different kinds of website show that this method obtains faster effect with higher accuracy.

作者刘云峰

机构地区山西工程职业技术学院网络电教中心

出处《计算机应用与软件》 CSCD 2010年第11期199-202,共4页 Computer Applications and Software

关键词 XPATH 网页分割信息抽取聚类阈值 Xpath Webpage segmentation Information extraction Clustering Threshold

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1杨少华,林海略,韩燕波.针对模板生成网页的一种数据自动抽取方法(英文)[J].软件学报,2008,19(2):209-223. 被引量：45

二级参考文献12

1Chang CH, Kayed M, Girgis MR, Shaalan K. A survey of Web information extraction systems. IEEE Trans. on Knowledge and Data Engineering, 2006,18(10): 1411-1428.
2Gold ME. Language identification in the limit. Information and Control, 1967,10(5):447-474.
3Laender AHF, Ribeiro-Neto BA, da Silva AD, Teixeira JS. A brief survey of Web data extraction tools. SIGMOD Record, 2002,31 (2):84-93.
4Arasu A, Hector GM. Extracting structured data from Web pages. In: Proc. of the ACM SIGMOD Int'l Conf. on Management of Data. San Diego: ACM Press, 2003. 337-348.
5EXALG datasets, http://infolab.stanford.edu/-arvind/extract/
6TBDW v1.02, http://daisen.cc.kyushu-u.ac.jp/TBDW/testbed/
7Zhao HK, Meng WY, Wu ZH, Raghavan V, Yu C. Fully automatic wrapper generation for search engines. In: Proc. of the 14th Int'l Conf. on World Wide Web (WWW 2005). Chiba: ACM Press, 2005.66-75.
8Simon K, Lausen G. VIPER: Augmenting automatic information extraction with visual perceptions. In: Proc. of the ACM CIKM Int'l Conf. on Information and Knowledge Management. Bremen: ACM Press, 2005. 381-388.
9Crescenzi V, Mecca G, Meraldo P. RoadRunner: Towards automatic data extraction from large Web sites. In: Proc. of the 27th Int'l Conf. on Very Large Data Bases (VLDB 2001). Roma: Morgan Kaufmann Publishers, 2001. 109-118.
10Wang JY, Lochovsky FH. Data extraction and label assignment for Web databases. In: Proc. of the 12th Int'l World Wide Web Conf. (WWW 2003). Budapest: ACM Press, 2003. 187-196.

共引文献44

1赵靖,王侨文,管马周,单传佳.自动提取布局结构相似网页的结构化信息[J].安徽科技学院学报,2010,24(6):37-42. 被引量：1
2李舒晨,刘云,李勇.网络舆情分析中网页信息预处理方案的实现[J].电脑与电信,2008(10):30-33. 被引量：2
3耿焕同,宋庆席,何宏强.一种基于视觉分块的Web信息抽取方法研究[J].情报理论与实践,2009,32(3):106-109. 被引量：4
4陈治昂,周知予,李大学.一种基于模板的快速网页文本自动抽取算法[J].计算机应用研究,2009,26(7):2646-2649. 被引量：11
5张彦超,刘云,李勇,沈波.基于自动生成模板的Web信息抽取技术[J].北京交通大学学报,2009,33(5):40-45. 被引量：13
6周佳颖,朱珍民,高晓芳.基于统计与正文特征的中文网页正文抽取研究[J].中文信息学报,2009,23(5):80-85. 被引量：16
7李广建,乔建忠.全自动生成网页信息抽取包装器的主要技术方法研究[J].情报理论与实践,2010,33(1):100-104. 被引量：4
8寇月,李冬,申德荣,于戈,聂铁铮.D-EEM:一种基于DOM树的Deep Web实体抽取机制[J].计算机研究与发展,2010,47(5):858-865. 被引量：17
9赵刚,郭东伟,李丹.基于序列比对的动态Web信息抽取算法[J].吉林大学学报（理学版）,2010,48(3):421-426.
10关冕,马军.针对Web论坛的一种结构化数据自动抽取方法[J].山东大学学报（理学版）,2010,45(5):42-47. 被引量：1

同被引文献13

1陈挺,刘嘉勇,夏天,范刚.基于平板型Web论坛的信息抽取研究[J].成都信息工程学院学报,2009,24(1):1-4. 被引量：9
2吴俊杰,陈俊杰,赵栓柱.基于用户访问兴趣的路径聚类研究[J].计算机工程与应用,2005,41(36):170-171. 被引量：7
3宋江春,沈钧毅.一个基于Web访问路径聚类的智能推荐系统[J].信息与控制,2007,36(1):119-124. 被引量：1
4杨少华,林海略,韩燕波.针对模板生成网页的一种数据自动抽取方法(英文)[J].软件学报,2008,19(2):209-223. 被引量：45
5卢群,张忠能.Web站点的路径聚类研究[J].计算机应用与软件,2008,25(8):205-206. 被引量：1
6陈健美,陆虎,宋余庆,宋顺林,徐景,谢从华,倪巍伟.一种隶属关系不确定的可能性模糊聚类方法[J].计算机研究与发展,2008,45(9):1486-1492. 被引量：23
7张红云,李萍萍.一种基于层次聚类的k均值算法研究[J].微计算机信息,2010,26(12):228-229. 被引量：7
8李睿,曾俊瑀,周四望.基于局部标签树匹配的改进网页聚类算法[J].计算机应用,2010,30(3):818-820. 被引量：14
9韩普,王泽.基于重复模式的论坛信息抽取研究[J].南京师范大学学报（工程技术版）,2010,10(3):74-77. 被引量：4
10杨舟,卓林,赵朋朋,崔志明.一种针对商品数据记录的自动抽取方法[J].计算机工程,2010,36(23):262-265. 被引量：8

引证文献2

1张春娜,李轶然.基于路径聚类的页面访问次序的挖掘[J].计算机工程与设计,2013,34(1):303-306. 被引量：2
2刘春梅,郭岩,俞晓明,赵岭,刘悦,程学旗.针对开源论坛网页的信息抽取研究[J].计算机科学与探索,2017,11(1):114-123. 被引量：10

二级引证文献12

1姚瑶,王战红,石磊.一种基于页面聚类的Web概念化建模新方法[J].微电子学与计算机,2015,32(1):156-160. 被引量：2
2陈祖琴,葛继科,刘喜文.结合资源语义和用户访问路径分析的个性化推荐模型[J].情报理论与实践,2014,37(9):129-132. 被引量：4
3王鑫.分布式聚合型网站群管理系统的研究与实践[J].电子科技,2017,30(6):122-123. 被引量：1
4张儒清,郭岩,刘悦,俞晓明,程学旗.任意网页的主题信息抽取研究[J].中文信息学报,2017,31(5):127-137. 被引量：6
5万福成,马宁,何向真.融合事件特征及语义角色标注的藏文信息抽取技术[J].广西师范大学学报（自然科学版）,2018,36(2):18-23. 被引量：1
6程月.大数据资源中用户需求信息定向提取仿真[J].计算机仿真,2018,35(5):422-425. 被引量：4
7刘锐,谭文韬,付园斌,王红.一种通用论坛信息提取方法[J].小型微型计算机系统,2018,39(7):1398-1404.
8朱子骁,邹艳珍,华晨彦,沈琦,赵俊峰.基于StackOverflow数据的软件功能特征挖掘组织方法[J].软件学报,2018,29(8):2210-2225. 被引量：3
9张潇文.网页设计中计算机图像处理技术应用探讨[J].无线互联科技,2018,15(24):74-76. 被引量：3
10黄秀常.基于广义线性模型的网页信息搜索错误概率分析[J].菏泽学院学报,2019,41(2):14-20.

1刘云峰.基于标签路径聚类的文本信息抽取算法[J].计算机工程,2010,36(12):83-84. 被引量：1
2侯明燕,杨天奇.基于网页分割的Web信息提取算法[J].微型机与应用,2011,30(5):54-56. 被引量：2
3于鲁波,陈超.互联网商品信息抽取技术[J].计算机工程,2008,34(5):274-276. 被引量：5
4王实,高文,李锦涛,谢辉.路径聚类:在Web站点中的知识发现[J].计算机研究与发展,2001,38(4):482-486. 被引量：59
5陈治昂,周知予,李大学.一种基于模板的快速网页文本自动抽取算法[J].计算机应用研究,2009,26(7):2646-2649. 被引量：11
6陈明,孙丽丽.基于WAP的移动搜索模型[J].计算机工程,2008,34(3):205-206. 被引量：6
7张国平,黄淼,马丽,赵桂钦.路径聚类融合USTU的自适应多通道生物特征识别研究[J].计算机应用研究,2015,32(7):2184-2188.
8冷泳林,鲁富宇.一种基于时序的层次轨迹聚类算法[J].重庆理工大学学报（自然科学）,2017,31(3):123-127. 被引量：4
9吴俊杰,陈俊杰,赵栓柱.基于用户访问兴趣的路径聚类研究[J].计算机工程与应用,2005,41(36):170-171. 被引量：7
10张奇,郝志峰,温雯,蔡瑞初.基于互信息度量的Web信息抽取[J].计算机应用与软件,2013,30(12):15-18. 被引量：5

计算机应用与软件

2010年第11期

浏览历史

内容加载中请稍等...

一种基于标签路径聚类的文本信息抽取算法被引量：2

参考文献1

二级参考文献12

共引文献44

同被引文献13

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种基于标签路径聚类的文本信息抽取算法 被引量：2

参考文献1

二级参考文献12

共引文献44

同被引文献13

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种基于标签路径聚类的文本信息抽取算法被引量：2