Web信息抽取中基于结点权重的树编辑距离匹配法研究被引量：2

Research on Node-Weighted Tree Edit Distance Matching in Web Information Extraction

下载PDF

导出

摘要提出一种改进的树匹配算法,通过考量HTML特性,对树编辑距离方法进行改进,根据不同HTML树结点在浏览器中所显示的相关数据的不同权重赋以不同的权重值。算法由HTML数据对象构造具有结点权重的HTML树,模式识别通过取得两棵构造树的最大映射值达成。通过基于商用网站的实验对算法有效性进行了证实。 An enhanced tree matching algorithm is proposed, which improves the tree edit distance method by considering HTML features, assigns different values to HTML tree nodes according to their weights for displaying the relevant data in browser. The algorithm constructs the node-weighted HTML tree from HTML data objects and the pattern recognition is done by obtaining the maximum mapping value of two constructed trees. The effectiveness of the algorithm has been verified by the experiments based on commercial websitcs.

作者朱南丽朱晓鸣叶五梅

机构地区宁波工程学院电子与信息工程学院浙江工商职业技术学院信息工程学院

出处《计算机时代》 2010年第3期49-51,共3页 Computer Era

关键词信息抽取 DOM 树编辑距离模式识别 information extraction DOM tree edit distance pattern recognition

分类号 TP301.6 [自动化与计算机技术—计算机系统结构] TP392 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1A. Hemnani and S. Bressan, Information Extraction-Tree Alignment Approach to Pattern Discovery in Web Documents, EEXA 2002, Lecture Notes in Computer Science, 2002.2453:789-798.
2D. Buttler, L. Liu, and C. Pu, A Fully Automated Object Extraction System for the World Wide Web,ICDCS 01,2001:361-370.
3D. Reis, P. Golgher, A. Silva, and A. Laender, AutomaticWeb News Extraction Using Tree Edit Distance, World Wide Web-04,2004:502-511.
4D. Embley, Y. Jiang, and Y. Ng, Record-Boundary Discovery in Web Documents, SIGMOD,1999:467-478.
5C. Chia-Hui and K. Shih-Chien, OLERA: Semisupervised- Web-Data Extraction with Visual Support, IEEE Intelligent Systems,2004.19(6):56-64.
6高强,张敬之,耿桦,潘金贵.基于重复模式的Web信息抽取[J].计算机科学,2007,34(4):210-212. 被引量：6
7K. Tai, The Tree-to-Tree Correction Problem, Journal of ACM, 1979.26(3):422-433.
8W. Yang,Identifying Syntactic Differences Between Two Programs, Software-Practice and Experience,1991.21(7):739-755.

二级参考文献10

1.RSS 2.0站点[EB/OL].http://blogs.law.harvard.edu/tech/rss,.
2Laender A,Ribeiro-Neto B,Silva A,et al.A brief survey of Web data extraction tools.SIGMOD Record,2002,31(2)
3Arasu A,Garcia-Molina H.Extracting Structured Data from Web Pages.SIGMOD-03,2003
4Chang C H,Lui S L.IEPAD:Information extraction based on pattern discovery.WWW-10,2001
5Embley D W,Jiang Y,Ng Y K.Record-Boundary Discovery in Web Documents.In:Proc.SIGMOD'99,1999
6McCreight E.A space-economical suffix tree construction algorithm.Journal of the ACM,1976,23:262～272
7Ukkonen E.On-line construction of suffix trees.Algorithmica,1995,I4:249～60
8Muslea I,Minton S,Knoblock C.A Hierarchical Approach to Wrapper Induction.In:Proceedings of the 3rd International Conference on Autonomous Agents,1999
9Kushmerick N,Weld D,Doorenbos B.Wrapper induction for information extraction.In:Proc.Int Joint Conf.Artificial Intelligence,1997
10Soderland S.Learning Information Extraction Rules for Semistructured and Free Text.Machine Learning,1999

共引文献5

1顾韵华,田伟.基于DOM模型扩展的Web信息提取[J].计算机科学,2009,36(11):235-237. 被引量：21
2宫继兵,唐杰,杨文军.通用抽取引擎框架:一种新的Web信息抽取方法的研究[J].计算机科学,2011,38(1):198-202. 被引量：3
3黄亮,赵泽茂,梁兴开.基于属性标签的Web数据挖掘[J].计算机应用与软件,2012,29(11):156-159. 被引量：1
4伍杰华,倪振声,陈有青.一种基于逆序匹配重复模式的主题信息提取方法[J].计算机应用与软件,2013,30(4):88-91.
5木妮娜.玉素甫,古丽娜.玉素甫.重复模式识别算法及在Web信息抽取和聚类分析中的应用[J].计算机科学,2017,44(B11):39-45. 被引量：1

同被引文献18

1张锐.Wordnet综述[J].辽宁教育行政学院学报,2003,20(9):5-7. 被引量：3
2乔少杰唐常杰陈瑜等.基于树编辑距离的层次聚类算法.计算机科学与探索,2007,1(3):282-292.
3CRESCENZI V, MECCA G, MERIALDO P. RoadRunner: Towards automatic data extraction from large Web sites[ C]// Proceedings of the 27th Very Large Data Base Endowment Conference. San Fran- cisco: Morgan Kaufmann Publishers Inc, 2001 : 109 - 118.
4CHANG CHIA-HUI, LUI SHAO-CHEN. IEPAD: information ex- traction based on pattern discovery[ C]// Proceedings of the 10th International Conference on World Wide Web. New York: ACM, 2001:681 -688.
5LIU BING, GROSSMAN R L, ZHAI YANHONG. Mining data re- cords in Web pages[ C]//Proceedings of the 9th ACM SIGKDD In- ternational Conference on Knowledge Discovery and Data Mining. New York: ACM, 2003:601 -606.
6RAID H X.窜和序列处理2--字符串编辑距离算法[EB/OL].[2011-11-20].http://hxraid.iteye.com/blog/615469.
7张勇,门涛.基于WORDNET的领域本体半自动构建研究[J].渤海大学学报（自然科学版）,2007,28(4):381-384. 被引量：2
8胡仁龙,袁春风,武港山,濮小佳.基于重复模式的自动Web信息抽取[J].计算机工程,2008,34(22):73-76. 被引量：8
9姜波,丁岳伟.基于约束树编辑距离与导航树的信息采集[J].计算机工程,2009,35(14):75-77. 被引量：9
10顾韵华,田伟.基于DOM模型扩展的Web信息提取[J].计算机科学,2009,36(11):235-237. 被引量：21

引证文献2

1张玉芳,熊荣东,熊忠阳.本体概念与词汇的语义相似度计算方法[J].世界科技研究与发展,2011,33(5):763-764.
2黄亮,赵泽茂,梁兴开.基于编辑距离的Web数据挖掘[J].计算机应用,2012,32(6):1662-1665. 被引量：16

二级引证文献16

1陈熙.编辑距离的Web数据挖掘问题研究[J].中国电子商务,2014(6):46-46.
2姜蕾,董东.一种古诗词联机评判算法[J].福建电脑,2014,30(2):1-4.
3郭文龙.基于长度过滤和有效权值的SNM改进算法[J].计算机工程与应用,2014,50(19):123-127. 被引量：7
4李雪琴,李聪,马丽,梁昌勇.树型网络相似性度量方法研究：一个分类视角[J].情报学报,2014,33(11):1146-1159.
5何锋,谷锁林,陈彦辉.基于编辑距离相似度的文本校验技术研究与应用[J].飞行器测控学报,2015,34(4):389-394. 被引量：12
6李圣文,凌微,龚君芳,周长征.一种基于熵的文本相似性计算方法[J].计算机应用研究,2016,33(3):665-668. 被引量：13
7赵艳妮,郭华磊.基于有效路径权重的XML树匹配算法[J].计算机工程与设计,2016,37(4):949-953. 被引量：2
8杨巧巧,郭振波,王开西.基于聚类分组和属性综合权值的SNM改进算法[J].工业控制计算机,2017,30(9):27-28. 被引量：6
9吴振华,高瑞泽.智能家居场景下改进的中文字符串匹配算法[J].南昌航空大学学报（自然科学版）,2018,32(2):81-85. 被引量：1
10张培根,黄树成.一种用于中文数据清洗的近邻排序算法[J].计算机应用与软件,2018,35(8):286-288. 被引量：8

1刘思含,贾美娟.树匹配算法在网页分类中的应用[J].电脑学习,2010(4):126-127.
2杨晓,刘廷章,王健.XML树匹配算法在城市照明故障诊断专家库中的应用[J].计算机应用与软件,2010,27(1):76-80.
3赵震,张龙昌.XML文档实体识别技术研究[J].计算机技术与发展,2014,24(10):84-87. 被引量：2
4马文科,刘琨.基于Android的数字化校园客户端设计与实现[J].萍乡高等专科学校学报,2014,31(3):55-58. 被引量：2
5齐德昱.数据结构课程的面向对象化[J].华南理工大学学报（自然科学版）,1999,27(7):112-115. 被引量：2
6杨建红,舒江波.面向VxWorks的嵌入式浏览器解析和布局技术研究[J].湖北大学学报（自然科学版）,2010,32(4):384-388. 被引量：1
7王卫红,严鲁琴,金丹丹,徐文涛,李曲.基于GEPSO模型的面向对象遥感图像分类[J].计算机科学,2015,42(5):51-53. 被引量：20
8杨喜权,代书.基于知网的概念匹配细粒度化研究[J].计算机应用,2008,28(11):2837-2839. 被引量：3
9周欣,黄席樾.基于卡尔曼滤波的车辆跟踪技术[J].四川师范大学学报（自然科学版）,2008,31(6):766-769. 被引量：5
10何莹.基于KPS的HTML数据抽取[J].网络安全技术与应用,2009(3):92-93.

计算机时代

2010年第3期

浏览历史

内容加载中请稍等...

Web信息抽取中基于结点权重的树编辑距离匹配法研究被引量：2

参考文献8

二级参考文献10

共引文献5

同被引文献18

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

Web信息抽取中基于结点权重的树编辑距离匹配法研究 被引量：2

参考文献8

二级参考文献10

共引文献5

同被引文献18

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

Web信息抽取中基于结点权重的树编辑距离匹配法研究被引量：2