基于标签路径聚类的文本信息抽取算法被引量：1

Text Information Extraction Algorithm Based on Tag Path Clustering

下载PDF

导出

摘要针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径聚类的文本信息抽取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。 This paper proposes a text information extraction algorithm based on tag path clustering to solve the high complexity problem of Web noise and unstructured information extraction. The method adopts Web noise pretreatment, carries on the tag path clustering according to the Document Object Model（DOM） tree structure of Web. The key part of the Web is determined rapidly through automatic training threshold value and Web page division algorithm, and Web text extracted templates are obtained according to nesting structure in the data block. Experimental results on different kinds of Web sites show that the algorithm is fast and accurate.

作者刘云峰

机构地区山西工程职业技术学院网络电教中心

出处《计算机工程》 CAS CSCD 北大核心 2010年第12期83-84,87,共3页 Computer Engineering

关键词标签路径网页分割信息抽取聚类阈值 tag path Web page segmentation information extraction clustering threshold

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1杨少华,林海略,韩燕波.针对模板生成网页的一种数据自动抽取方法(英文)[J].软件学报,2008,19(2):209-223. 被引量：45
2Gupta S,Kaiser G,Neistadt D,et al.DOM-based Content Extraction of HTML Documents[C] //Proc.of the 12th Word Wide Web Conf..New York,USA:[s.n.] ,2003.
3Pelleg D,Baras D.K-means with Large and Noisy Constraint Sets[C] //Proc.of the 18th European Conference on Machine Learning.Warsaw,Poland:[s.n.] ,2007.

二级参考文献12

1Chang CH, Kayed M, Girgis MR, Shaalan K. A survey of Web information extraction systems. IEEE Trans. on Knowledge and Data Engineering, 2006,18(10): 1411-1428.
2Gold ME. Language identification in the limit. Information and Control, 1967,10(5):447-474.
3Laender AHF, Ribeiro-Neto BA, da Silva AD, Teixeira JS. A brief survey of Web data extraction tools. SIGMOD Record, 2002,31 (2):84-93.
4Arasu A, Hector GM. Extracting structured data from Web pages. In: Proc. of the ACM SIGMOD Int'l Conf. on Management of Data. San Diego: ACM Press, 2003. 337-348.
5EXALG datasets, http://infolab.stanford.edu/-arvind/extract/
6TBDW v1.02, http://daisen.cc.kyushu-u.ac.jp/TBDW/testbed/
7Zhao HK, Meng WY, Wu ZH, Raghavan V, Yu C. Fully automatic wrapper generation for search engines. In: Proc. of the 14th Int'l Conf. on World Wide Web (WWW 2005). Chiba: ACM Press, 2005.66-75.
8Simon K, Lausen G. VIPER: Augmenting automatic information extraction with visual perceptions. In: Proc. of the ACM CIKM Int'l Conf. on Information and Knowledge Management. Bremen: ACM Press, 2005. 381-388.
9Crescenzi V, Mecca G, Meraldo P. RoadRunner: Towards automatic data extraction from large Web sites. In: Proc. of the 27th Int'l Conf. on Very Large Data Bases (VLDB 2001). Roma: Morgan Kaufmann Publishers, 2001. 109-118.
10Wang JY, Lochovsky FH. Data extraction and label assignment for Web databases. In: Proc. of the 12th Int'l World Wide Web Conf. (WWW 2003). Budapest: ACM Press, 2003. 187-196.

共引文献44

1赵靖,王侨文,管马周,单传佳.自动提取布局结构相似网页的结构化信息[J].安徽科技学院学报,2010,24(6):37-42. 被引量：1
2李舒晨,刘云,李勇.网络舆情分析中网页信息预处理方案的实现[J].电脑与电信,2008(10):30-33. 被引量：2
3耿焕同,宋庆席,何宏强.一种基于视觉分块的Web信息抽取方法研究[J].情报理论与实践,2009,32(3):106-109. 被引量：4
4陈治昂,周知予,李大学.一种基于模板的快速网页文本自动抽取算法[J].计算机应用研究,2009,26(7):2646-2649. 被引量：11
5张彦超,刘云,李勇,沈波.基于自动生成模板的Web信息抽取技术[J].北京交通大学学报,2009,33(5):40-45. 被引量：13
6周佳颖,朱珍民,高晓芳.基于统计与正文特征的中文网页正文抽取研究[J].中文信息学报,2009,23(5):80-85. 被引量：16
7李广建,乔建忠.全自动生成网页信息抽取包装器的主要技术方法研究[J].情报理论与实践,2010,33(1):100-104. 被引量：4
8寇月,李冬,申德荣,于戈,聂铁铮.D-EEM:一种基于DOM树的Deep Web实体抽取机制[J].计算机研究与发展,2010,47(5):858-865. 被引量：17
9赵刚,郭东伟,李丹.基于序列比对的动态Web信息抽取算法[J].吉林大学学报（理学版）,2010,48(3):421-426.
10关冕,马军.针对Web论坛的一种结构化数据自动抽取方法[J].山东大学学报（理学版）,2010,45(5):42-47. 被引量：1

同被引文献7

1谢艳玲,何丕廉,于鷃,孙越恒.一种高效的网页聚类方法[J].计算机工程与设计,2007,28(17):4229-4232. 被引量：7
2Zhang X,Hu X,Zhou X. A comparative evaluation of different link types on enhancing document clustering[A].Singapore:ACM,2008.135-139.
3Dou Z,Song R,Wen J R. A large-scale evaluation and analysis of personalized search strategies[A].Banff,Alberta,Canada,2007.112-114.
4Qiu F,Cho J. Automatic identification of user interest for personalized search[A].Edinburgh,Scotland:ACM,2006.256-259.
5Chirita P A,Firan C S,Nejdl W. Personalized query expansion for the web[A].Amsterdam,The Netherlands,ACM,2007.326-329.
6李睿,曾俊瑀,周四望.基于局部标签树匹配的改进网页聚类算法[J].计算机应用,2010,30(3):818-820. 被引量：14
7刘凯鹏,方滨兴.基于社会性标注的本体学习方法[J].计算机学报,2010,33(10):1823-1834. 被引量：14

引证文献1

1贺秋芳,曾启杰,蔡延光.挖掘用户标签的增强型社区网页聚类算法[J].微电子学与计算机,2013,30(2):74-77. 被引量：4

二级引证文献4

1姚瑶,王战红,石磊.一种基于页面聚类的Web概念化建模新方法[J].微电子学与计算机,2015,32(1):156-160. 被引量：2
2顾晓雪,章成志.结合内容和标签的Web文本聚类研究[J].现代图书情报技术,2014(11):45-52. 被引量：8
3刘勘,范琴.链路结构的网页聚类研究[J].小型微型计算机系统,2016,37(7):1450-1454. 被引量：1
4郭红建,陈一飞.社会标注系统自适应网页聚类算法研究[J].电子科技,2018,31(8):73-76.

1刘云峰.一种基于标签路径聚类的文本信息抽取算法[J].计算机应用与软件,2010,27(11):199-202. 被引量：2
2侯明燕,杨天奇.基于网页分割的Web信息提取算法[J].微型机与应用,2011,30(5):54-56. 被引量：2
3于鲁波,陈超.互联网商品信息抽取技术[J].计算机工程,2008,34(5):274-276. 被引量：5
4王实,高文,李锦涛,谢辉.路径聚类:在Web站点中的知识发现[J].计算机研究与发展,2001,38(4):482-486. 被引量：59
5李贵,陈成,李征宇,韩子扬,孙平,孙焕良.基于标签路径的Web结构化数据自动抽取[J].计算机科学,2013,40(06A):141-144. 被引量：3
6陈明,孙丽丽.基于WAP的移动搜索模型[J].计算机工程,2008,34(3):205-206. 被引量：6
7陈治昂,周知予,李大学.一种基于模板的快速网页文本自动抽取算法[J].计算机应用研究,2009,26(7):2646-2649. 被引量：11
8张国平,黄淼,马丽,赵桂钦.路径聚类融合USTU的自适应多通道生物特征识别研究[J].计算机应用研究,2015,32(7):2184-2188.
9冷泳林,鲁富宇.一种基于时序的层次轨迹聚类算法[J].重庆理工大学学报（自然科学）,2017,31(3):123-127. 被引量：4
10李晓光,宋宝燕,于戈,王大玲.L(k)-index:一种支持标签路径的高效k双拟结构索引[J].计算机学报,2014,37(8):1732-1742.

计算机工程

2010年第12期

浏览历史

内容加载中请稍等...

基于标签路径聚类的文本信息抽取算法被引量：1

参考文献3

二级参考文献12

共引文献44

同被引文献7

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于标签路径聚类的文本信息抽取算法 被引量：1

参考文献3

二级参考文献12

共引文献44

同被引文献7

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于标签路径聚类的文本信息抽取算法被引量：1