基于相似度的网页标题抽取方法被引量：6

Title Extraction from HTML Documents Based on Similarity

下载PDF

导出

摘要目前网页标题的抽取方法大多结合HTML结构和标签特征进行抽取,但是这些方法并没有考虑标题与正文信息之间内容上的联系。该文提出一种基于相似度的网页标题抽取方法,该方法利用网页标题与正文信息之间的关系,通过计算语言"单位"之间的相似度和对应的权值,并引入HITS算法模型对权值进行调整,根据特定的选取方法抽取出真实标题。实验结果表明,该方法不仅对"非标准网页"的抽取达到满意的效果,而且对"标准网页"具有较高的泛化能力。 Most of the methods for title extraction from HTML documents are based on the structure of HTML document or the features of label.They do not considered the correlation between the title and the content.This paper proposes a method of title extraction from HTML documents based on similarity,which makes full use of the correlation between the title and the main body.The similarity between units are calculated and adjusted by the HITS algorithm.Then the ＂real title＂ is extracted in a series of steps.Experimental results show that this method performs well for ＂nonstandard HTML document＂ and has good generalization ability for ＂standard HTML document＂.

作者李国华昝红英

机构地区郑州大学信息工程学院

出处《中文信息学报》 CSCD 北大核心 2011年第2期32-37,共6页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60970083) 国家社会科学基金资助项目(09BTQ027)

关键词网页标题抽取相似度 WEB信息抽取 title extraction similarity Web information retrieval

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献22

1郑州大学校内搜索引擎.http://search.ha.edu.cn/zzu/[CP/OL].
2Freitag D. Machine Learning for Information Extraction in Informal Domains [J]. Machine Learning, 2000,39 (2-3) : 169-202.
3Soderland S. Learning Information Extraction Rules for Semi-structured and Free Text[J]. Machine Learning, 1999,34(1-3) :233-272.
4Yipu Wu, Xuejie Zhang, Qing Li, Jing Chen. Title Extraction from Loosely Structured Data Records [C]//Proceedings of the Seventh International Conference on Machine Learning and Cybernetics, 2008.
5Crescenzi, V., Mecca, G. and Merialdo, P. Roadrunner: Towards Automatic Data Extraction from Large Web Sites[C]//Proceedings of the Twenty-seventh International Conference on Very Large Databases (VLDB2001), 2002.
6Chidlovskii, B. ,Ragetli, J. , and de Rijke, M. Wrapper Generation via Grammar Induction[C]//Proceedings of the Eleventh European Conference on Machine Learning(ECML2000), 2000.
7Crescenzi, V. , Mecca, G, and Merialdo, P. Wrapping-Oriented Classification of Web pages[C]//Proeceedings of the 2002 ACM Symposium on Applied Conaputing(SAC-2002), 2002 : 1108-1112.
8Craven, T. C. HTML Tags as Extraction Cues for Web Page Description Construction[J]. Informing Science Journal, 2003,6 : 1-12.
9Hsu C N, Dung M T. Generating Finite-State Transducers for Semi-Structured Data Extraction from the Web[J]. Information Systems, 1998,23(8) :521-538.
10Kushmerick N, Weld D S. Doorenbos R. Wrapper Induction for Information Extraction[J]. 15th International Joint Conference on Artificial Intelligence (IJCAI-97), Nagoya, 1997:729-737.

二级参考文献25

1J. Zhang, M. S. Ackerman, and L. Adamic. Expertise networks in online communities: structure and algorithms[C]//Proc. 16th WWW, Banff, Canada May 2007. 2007:221-230.
2I. Muslea, S. Minton, C. Knoblock. A Hierarchical Approach to Wrapper Induction [C]//Third International Conference on Autonomous Agents, (Agents' 99), Seattle, May 1999.
3S. Soderland. Learning Information Extraction Rules for Semistructured and Free Text[J]. Machine Learning, 1999.
4Liu B. , Grossman R. , Zhai Y. Mining Data Records in Web Pages [C]//KDD 2003 : 601-606.
5Z. Yanhong and L. Bing, Web Data Extraction Based on Partial Tree Alignment[C]//Proceedings of the ACM, 2005: 76-85.
6Liu, B. and Zhai, Y. , NET - A System for Extracting Web Data from Flat and Nested Data Records[C]// WISE 2005, 2005: 487-495.
7Justin Park and Denilson Barbosa. Adaptive Record Extraction From Web Pages[C]//WWW 2007.
8Gusfield, D. Algorithms on strings, tree, and sequence[M]. Cambridge. 1997.
9J. Carbonell, J. Goldstein, 1998. The use of MMR, diversity-based reranking for reordering documents and producing summaries [ A],In: Proceedings of the 21st ACM-SIGIR International Conference on Research and Development in Information Retrieval [C], Melbourne, Australia.
10Lin, Chin-Yew and E. H. Hovy 2003. Automatic Evaluation of Summaries Using N-gram Co-occurrence Statistics [ A ]. In Proceedings of 2003 Language Technology Conference (HLT-NAACL 2003) [C],Edmonton,Canada,May 27- June 1,2003.

共引文献41

1刘茂福,李淑君,金可佳,张晓龙.多文档自动文摘中的特征组合优化[J].计算机系统应用,2008,17(8):59-63. 被引量：3
2化柏林.基于句子匹配的文章自写度测评系统[J].现代图书情报技术,2007(11):40-44. 被引量：2
3周法国,杨炳儒.句子相似度计算新方法及在问答系统中的应用[J].计算机工程与应用,2008,44(1):165-167. 被引量：45
4杨思春,陈家骏.中文自动问答中句子相似度计算研究[J].情报学报,2008,27(1):35-41. 被引量：5
5樊勇,郑家恒.基于主题的网页去重[J].电脑开发与应用,2008,21(4):4-6. 被引量：2
6赵善祥,刘万军.翻译记忆中数据筛选方法的研究[J].计算机系统应用,2009,18(4):109-113. 被引量：3
7乔剑敏,张仰森.词义标注一致性检验系统的设计与实现[J].中文信息学报,2010,24(4):44-51. 被引量：3
8张志平,李琳娜.NSTL文献检索系统中相关文献推荐功能的设计及实现[J].现代图书情报技术,2010(7):110-113. 被引量：8
9张培颖.多特征融合的语句相似度计算模型[J].计算机工程与应用,2010,46(26):136-137. 被引量：19
10刘青磊,顾小丰.基于《知网》的词语相似度算法研究[J].中文信息学报,2010,24(6):31-36. 被引量：34

同被引文献46

1游贵荣,陆玉昌.基于统计和机器学习的中文Web网页正文内容抽取[J].福建商业高等专科学校学报,2009(2):68-72. 被引量：5
2黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
3张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(S2):216-233. 被引量：377
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
6郭太飞,何洁月.归纳学习XPATH Web信息提取规则[J].计算机技术与发展,2007,17(3):98-101. 被引量：7
7刘兵.Web数据挖掘[M].北京:清华大学出版社,201l:113-119.
8Gomez-Perez A benjamins. Ooverview of Knowledge Sharing and Reuse Components: Ontologies and Problem Solving Meth- ods [C]. Proceedings of UCA I99' s Workshop on Ontologies and Problem Solving Methods. Lessons Learned and Future T rends. San Francisco: Morgan Kaufmann, 1999:65-78.
9金梅.网络爬虫性能提升与功能拓展的研究与实现[D].长春:吉林大学.2012.
10Elsas J, Efron M. HTML Tag Based Metrics for Use in Web Page Type Classification [ C ]//American Society for Information Science and Technology Annual Meeting ,2004.

引证文献6

1刘建华,张智雄,谢靖,邹益民.基于规则的网络文本资源标题快速自动识别方法[J].现代图书情报技术,2011(6):27-31. 被引量：5
2陈媛媛,聂规划,刘平峰,欧阳由.Web文档本体模型与实例析取算法研究[J].情报杂志,2014,33(4):144-147.
3张兵,汤进,罗斌.基于超链接和DOM结构树的网页标题实时抽取方法[J].计算机与现代化,2015(8):84-88. 被引量：2
4李湘东,霍亚勇,张娇.基于LDA主题模型的图书网页书目信息提取研究[J].情报科学,2016,34(1):34-37. 被引量：7
5彭圳生,巩青歌,高志强,段妍羽,曾子贤.基于密度及文本特征的新闻标题抽取算法[J].中文信息学报,2018,32(10):78-86. 被引量：6
6何春辉.一种基于文本相似度的网页新闻标题自动抽取算法[J].湖南城市学院学报（自然科学版）,2019,28(1):58-61. 被引量：2

二级引证文献21

1丁振凡.基于Tika语义分析的文档标题提取研究[J].长沙大学学报,2012,26(5):69-71. 被引量：1
2李传席,张智雄,刘建华,钱力.半监督的网络科技信息分类模型[J].现代图书情报技术,2014(11):53-58.
3张兵,汤进,罗斌.基于超链接和DOM结构树的网页标题实时抽取方法[J].计算机与现代化,2015(8):84-88. 被引量：2
4张敏,刘建华,谢靖.网络科技信息监测中富文档识别与信息提取技术研究[J].情报科学,2017,35(1):128-132. 被引量：8
5周娜,李秀霞,高丹,焦红.基于潜在主题的知识组合分析研究——以传播学为例[J].农业图书情报学刊,2018,30(9):85-90. 被引量：4
6何跃,丰月,赵书朋,马玉凤.基于知乎问答社区的内容推荐研究——以物流话题为例[J].数据分析与知识发现,2018,2(9):42-49. 被引量：6
7郑幸子.移动数字图书馆的图书分类系统设计[J].现代电子技术,2018,41(7):165-169. 被引量：6
8何春辉.一种基于文本相似度的网页新闻标题自动抽取算法[J].湖南城市学院学报（自然科学版）,2019,28(1):58-61. 被引量：2
9吕容政,刘嘉勇.基于决策树的自适应网页正文抽取方法[J].现代计算机,2019,25(7):16-22.
10石宇,胡昌平,时颖惠.个性化推荐中基于认知的用户兴趣建模研究[J].情报科学,2019,37(6):37-41. 被引量：10

1高强,张敬之,耿桦,潘金贵.基于重复模式的Web信息抽取[J].计算机科学,2007,34(4):210-212. 被引量：6
2栾虹.HTML文档分类中的词元权重算法[J].山东师范大学学报（自然科学版）,2005,20(2):22-25. 被引量：1
3郭晓,蒋宗礼.基于网页结构与链接关系的中文文本分类方法[J].现代电子技术,2010,33(22):54-56. 被引量：3
4胡军伟,秦奕青,张伟.正则表达式在Web信息抽取中的应用[J].北京信息科技大学学报（自然科学版）,2011,26(6):86-89. 被引量：39
5崔慧超,刘莉.应用聚类技术分类提取Web页面[J].电脑知识与技术,2010,6(1):212-213.
6隋丽萍,徐承韬,李瑞芳.基于HTML结构的Web文本主题挖掘研究[J].电脑与电信,2007(1):47-51. 被引量：1
7隋丽萍,徐承韬,李瑞芳.基于HTML结构的Web文本主题挖掘研究[J].西安外事学院学报,2007,0(1):102-105.
8宋睿华,马少平,张敏.一种提高Web信息检索精度的分段检索方法[J].广西师范大学学报（自然科学版）,2003,21(A01):151-155. 被引量：2
9戴慧敏,朱艳辉.WEB就业信息抽取技术研究[J].电脑知识与技术,2013,9(4):2298-2300. 被引量：1
10茹蓓,陈建彪.基于朴素贝叶斯方法的Web数据噪音分类研究[J].内江科技,2016,37(7):36-37.

中文信息学报

2011年第2期

浏览历史

内容加载中请稍等...

基于相似度的网页标题抽取方法被引量：6

参考文献22

二级参考文献25

共引文献41

同被引文献46

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于相似度的网页标题抽取方法 被引量：6

参考文献22

二级参考文献25

共引文献41

同被引文献46

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于相似度的网页标题抽取方法被引量：6