一种新闻网页关键信息的提取算法被引量：6

Key information extraction algorithm of news Web pages

下载PDF

导出

摘要针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法news Extractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文,根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源;最后构造了数据集与国外开源软件news Paper进行提取准确率的对比实验。实验结果表明,news Extractor在正文、标题、时间、来源的平均提取准确率上均优于news Paper,具有通用性和鲁棒性。 Since information extraction algorithm for Web pages lacks generality and information of title, release-time and source in news Web page, a new information extraction algorithm was proposed to resolve those problems. Firstly, HTML code of Web page was parsed to text sets combined with line number and text; then, extractor began to search boundary of news content from line which the longest sentence belonged to due to the characteristic that the longest sentence belongs to the content of news with an extremely high probability. Meanwhile, the longest common string algorithm was used to extract title, the regular expression and line number were used to extract release-time, and the presentation characteristics of source and line number were used to extract source. Finally, a data set was built to conduct a comparison experiment with an open-source software named newsPaper in accuracy of extraction. Experimental results show that newsExtractor outperforms newsPaper in average accuracy of content, title, release-time and source, it has strong generality and robustness.

作者向菁菁耿光刚李晓东

机构地区中国互联网络信息中心中国科学院大学计算机网络信息中心

出处《计算机应用》 CSCD 北大核心 2016年第8期2082-2086,2120,共6页 journal of Computer Applications

基金国家自然科学基金面上项目(61375039) 中国科学院网络中心一三五重点项目(CNIC_PY_1402)~~

关键词网页信息提取新闻信息提取网页去噪 Web information extraction news information extraction Web denoising

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献23

1COWIE J, LEHNERT W. Information extraction [ J]. Communica- tions of the ACM, 1996, 39(1) : 80 -91.
2MOONEY R J, BUNESCU R. Mining knowledge from text using in- formation extraction [ J]. ACM SIGKDD Explorations Newsletter, 2005, 7(1): 3-10.
3CHANG C-H, LUI S-C. IEPAD : information extraction based on pattern discovery [ C]// WWW '01: Proceedings of the 10th Inter- national Conference on World Wide Web. New York: ACM, 2001: 681 - 688.
4BANKO M, CAFARELLA M J, SODERLAND S, et al. Open infor- mation extraction from the Web [ C]// IJCAI 2007: Proceedings of the 20th International Joint Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2007:2670-2676.
5BAUMGARTNER R, FLESCA S, GOTTLOB G. Visual Web infor- mation extraction with Lixlo [C]// VLDB '01: Proceedings of the 27th International Conference on Very Large Data Bases. San Fran- cisco, CA: Morgan Kaufmann, 2001:119 - 128.
6孙承杰,关毅.基于统计的网页正文信息抽取方法的研究[J].中文信息学报,2004,18(5):17-22.
7赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
8王磊,蒋建中,郭军利.基于扩展DOM树的Web页面信息抽取[J].计算机应用与软件,2007,24(6):137-139. 被引量：12
9GOTrLOB G, KOCH C. Logic-based Web information extraction [J]. ACM SIGMOD Record, 2004, 33(2): 87 -94.
10梅雪,程学旗,郭岩,张刚,丁国栋.一种全自动生成网页信息抽取Wrapper的方法[J].中文信息学报,2008,22(1):22-29. 被引量：21

二级参考文献85

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
3何昕,谢志鹏.基于简单树匹配算法的Web页面结构相似性度量[J].计算机研究与发展,2007,44(z3):1-6. 被引量：15
4常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
5王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
6于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
7崔继馨,张鹏,杨文柱.基于DOM的Web信息抽取[J].河北农业大学学报,2005,28(3):90-93. 被引量：12
8陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24
9朱明,王庆伟.半结构化网页中多记录信息的自动抽取方法[J].计算机仿真,2005,22(12):95-97. 被引量：2
10王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12

共引文献133

1游贵荣,陆玉昌.基于统计和机器学习的中文Web网页正文内容抽取[J].福建商业高等专科学校学报,2009(2):68-72. 被引量：5
2何忠育,王勇,王瑛,陈新,廖朝辉.基于分布式计算的网络舆情分析系统的设计[J].警察技术,2010(3):19-22. 被引量：6
3宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
4王静,姚勇,刘志镜.基于广义隐马尔可夫模型的网页信息抽取方法[J].山东大学学报（理学版）,2007,42(11):49-52. 被引量：3
5孙桂煌,刘发升.基于正文特征的网页正文信息提取方法[J].现代计算机,2008,14(9):34-38. 被引量：5
6韩忠明,李文正,莫倩.有效HTML文本信息抽取方法的研究[J].计算机应用研究,2008,25(12):3568-3571. 被引量：15
7孟军,刘秋水,王秀坤.节点频度和语义距离相结合的网页正文信息抽取[J].计算机工程与应用,2009,45(1):140-143. 被引量：3
8霍滨焱.最小节点信息树抽取规则及可视化生成方法[J].应用科技,2009,36(7):37-40.
9张霞亮,陈家骏.基于逻辑行和最大接纳距离的网页正文抽取[J].计算机工程与应用,2009,45(25):125-128. 被引量：5
10周佳颖,朱珍民,高晓芳.基于统计与正文特征的中文网页正文抽取研究[J].中文信息学报,2009,23(5):80-85. 被引量：16

同被引文献39

1杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
2郑皎凌,唐常杰,姜玥,杨宁,李红军.基于伪属性语义匹配的Deep web信息抽取[J].四川大学学报（工程科学版）,2009,41(2):173-178. 被引量：4
3郭太飞,何洁月.归纳学习XPATH Web信息提取规则[J].计算机技术与发展,2007,17(3):98-101. 被引量：7
4时达明,林鸿飞,杨志豪.基于网页框架和规则的网页噪音去除方法[J].计算机工程,2007,33(19):276-278. 被引量：17
5石倩,陈荣,鲁明羽.基于规则归纳的信息抽取系统实现[J].计算机工程与应用,2008,44(21):166-170. 被引量：19
6孙桂煌,刘发升.基于正文特征的网页正文信息提取方法[J].现代计算机,2008,14(9):34-38. 被引量：5
7琚春华,郑丽丽.基于隐私保护的分类算法在反洗钱领域的研究[J].微电子学与计算机,2009,26(10):200-202. 被引量：1
8祝伟华,卢熠,刘斌斌.基于HMM的Web信息抽取算法的研究与应用[J].计算机科学,2010,37(2):203-206. 被引量：12
9王利,刘宗田,王燕华,廖涛.基于内容相似度的网页正文提取[J].计算机工程,2010,36(6):102-104. 被引量：20
10朱青,吕晓旭.基于机器学习的HTML标题抽取[J].微计算机信息,2010,26(9):15-16. 被引量：4

引证文献6

1刘志杰,潘洋.基于文本行特征的网页正文信息抽取方法研究[J].软件导刊,2017,16(10):15-18.
2李欣,李绍稳,许高建,林建彬.基于正则抽取的竹种数据结构化方法研究[J].计算机技术与发展,2018,28(6):147-150.
3何春辉.一种基于文本相似度的网页新闻标题自动抽取算法[J].湖南城市学院学报（自然科学版）,2019,28(1):58-61. 被引量：2
4吕容政,刘嘉勇.基于决策树的自适应网页正文抽取方法[J].现代计算机,2019,25(7):16-22.
5王立志.网页信息抽取方法综述[J].网络安全技术与应用,2022(3):12-13. 被引量：2
6刘志强,都云程,施水才.基于改进的隐马尔科夫模型的网页新闻关键信息抽取[J].数据分析与知识发现,2019,3(3):120-128. 被引量：9

二级引证文献12

1陈平,匡尧,陈婧.基于BERT-wwm-ext多特征文本表示的经济事件主体抽取方法研究[J].武汉电力职业技术学院学报,2020(2):45-50. 被引量：1
2李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
3陈志泊,李钰曼,许福,冯国明,师栋瑜,崔晓晖.基于TextRank和簇过滤的林业文本关键信息抽取研究[J].农业机械学报,2020,51(5):207-214. 被引量：15
4刘辉.基于强类别特征的文本相似度计算及其性能评估[J].软件工程,2020,23(10):5-7. 被引量：2
5白曙光,林民,李艳玲,张树钧.文本关键词抽取方法及在几种民族语言上的应用[J].内蒙古师范大学学报（自然科学版）,2021,50(2):134-144. 被引量：1
6邓子云.一种通过筛选和位置感知精准提取资讯类网页标题的方法[J].信息化研究,2021,47(4):8-15.
7王群,张江波.基于OPM3模型的智慧医院建设全过程工程咨询模式研究[J].粉煤灰综合利用,2022,36(1):133-139. 被引量：3
8钟爱,梁小青,肖梅,向黎藜,段凯,李竹.基于正则算法和命名实体识别模型的95598工单结构化信息自动提取[J].电力大数据,2021,24(12):38-45. 被引量：2
9柏志安,廖健,曾剑平.基于DOM树与模板的自适应网络信息抽取方法[J].计算机应用与软件,2022,39(8):15-20. 被引量：2
10王丽亚,陈哲.基于BERT_BiGRU边界预测的中文意见目标提取[J].计算机时代,2023(5):94-98.

1金涛.网络爬虫在网页信息提取中的应用研究[J].现代计算机,2012,18(1):16-18. 被引量：11
2严宏伟,何俊.基于房源分析系统的垂直搜索引擎关键技术的探讨[J].中国科技信息,2007(5):153-155.
3李伟,黄颖.基于HtmlParser的网页信息提取[J].兵工自动化,2007,26(7):41-41. 被引量：4
4宋明秋,张瑞雪,吴新涛,李文立.网页正文信息抽取新方法[J].大连理工大学学报,2009,49(4):594-597. 被引量：20
5马倩,沈奇威.面向移动端适配的网页信息提取研究[J].电信网技术,2015(11):53-56.
6日光.没有不可能网页链接“截”下来[J].软件指南,2006(3):40-40.
7网页转换过度效果的实现技巧[J].电脑知识与技术（过刊）,2002(11):55-55.
8何克右.MIS输出数据的网页转换[J].现代计算机,1999,5(8):9-12.
9珠杰,罗潘.基于HTML Parser的网页信息提取技术研究[J].西藏大学学报（社会科学版）,2010,25(3):41-44. 被引量：3
10陈红花.计算机技术在电力自动化中的应用[J].电子技术与软件工程,2016(2):169-169. 被引量：1

计算机应用

2016年第8期

浏览历史

内容加载中请稍等...

一种新闻网页关键信息的提取算法被引量：6

参考文献23

二级参考文献85

共引文献133

同被引文献39

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种新闻网页关键信息的提取算法 被引量：6

参考文献23

二级参考文献85

共引文献133

同被引文献39

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种新闻网页关键信息的提取算法被引量：6