基于决策树与单元距离抽取新闻网页内容

Content Extraction from News Web Pages Based on Decision Trees and Unit Distance

下载PDF

导出

摘要针对新闻网页文本处理问题,提出了一种基于决策树抽取新闻标题并利用单元距离识别正文的方法.该方法将文本相似度、网页标记和属性作为决策树节点选择的测试属性项,各属性项的信息熵计算同时考虑了与标题相关和不相关的因素,在此基础上建立决策树,并根据规则定位新闻标题.利用网页标记的嵌套特征,缩小查找范围,根据网页各信息块间的显著边界定位新闻正文.实验结果表明,该方法抽取新闻标题的准确率在87%以上,抽取正文的平均准确率达到76%,对其他网页文本处理具有一定借鉴意义. Concerning the processing of news web pages,an extracted news headline and text method based on decision trees and unit distance was proposed.Text similarity,web page tags and attributes were taken as the test of node selection in decision tree.The feature information entropy was calculated with the title related and unrelated factors.On this basis,a decision tree was established and news headlines were located according to rules.By reducing searching range according to nesting of web pages,the news text was located on the basis of information between visual block of web pages.Experimental results show that the proposed method extracts news headlines with an accuracy rate of more than 87 percent and extracts news texts with an 76 percent average accuracy rate.The method is for reference to other kind of text processing of web page.

作者王晓罗永莲 WANG Xiao;LUO Yong-lian(School of Information Technology & Engineering,Jinzhong University,Jinzhong Shanxi,030619,China)

机构地区晋中学院信息技术与工程学院

出处《晋中学院学报》 2019年第3期66-71,共6页 Journal of Jinzhong University

基金山西省教育科学“十三五”规划课题:“基于创新创业教育理念的大数据相关专业教学模式研究”(GH-18091) 晋中学院教学改革创新项目:“创新创业教育融入数据科学和大数据技术专业教育的案例研究”(Jg201807)

关键词信息增益决策树新闻网页内容抽取网页信息块 information gain decision tree news web page content extraction web page visual block

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138. 被引量：711
2张裕钦,李振坤,吴永杰.基于规则模型的网页主题文本提取方法[J].计算机工程与设计,2009,30(20):4665-4667. 被引量：3
3郭建兵,崔志明,陈明,赵朋朋.一种基于范围型属性的Deep Web数据提取方法[J].计算机应用与软件,2013,30(2):54-57. 被引量：2
4赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
5任仲晟,薛永生.基于页面标签的Web结构化数据抽取[J].计算机科学,2007,34(10):133-136. 被引量：8
6汪建伟,杨冬青,高军,王腾蛟.一种基于分类算法的网页信息提取方法[J].计算机科学,2008,35(3):91-93. 被引量：11
7刘俊,邹东升,邢欣来,李英豪.基于主题特征的关键词抽取[J].计算机应用研究,2012,29(11):4224-4227. 被引量：30
8王晓,赵丽.基于待测样本标记的加速K-NN分类方法[J].计算机与现代化,2017(9):102-105. 被引量：1
9罗永莲,罗永秀,张永奎.突发事件新闻网页的去重方法研究[J].计算机应用与软件,2008,25(8):24-26. 被引量：4
10李敏,王勇,蔡立军.数据流分类中的增量特征选择算法[J].计算机应用,2010,30(9):2321-2323. 被引量：5

二级参考文献146

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
4陈兰,左志宏,熊毅,孟令谦.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2004,21(8):155-157. 被引量：18
5王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
6林鸿飞,杨志豪,赵晶.基于内容和合作模式的信息推荐机制[J].中文信息学报,2005,19(1):48-55. 被引量：14
7于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
8崔继馨,张鹏,杨文柱.基于DOM的Web信息抽取[J].河北农业大学学报,2005,28(3):90-93. 被引量：12
9吕铁强,于满泉,孟庆发,周立德.基于网页分块的个性化信息采集的研究与设计[J].微电子学与计算机,2005,22(10):120-123. 被引量：10
10王敬普,林亚平,周顺先,岳文.基于包装器模型的文本信息抽取[J].计算机应用,2006,26(3):655-658. 被引量：8

共引文献808

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2张丛铄.基于大数据的研究生心理危机预警机制的构建[J].中国新通信,2020,0(2):80-81. 被引量：2
3吴嘉琪.一种基于ELK框架的地理信息动态时空数据获取与挖掘方法[J].测绘通报,2020(1):45-49. 被引量：2
4谢月锋,董现垒,陈卉,王燕,刘志成.利用网络痕迹信息即时预测儿童腹泻流行趋势[J].医学信息（医学与计算机应用）,2016,29(29):1-4.
5黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
6韩益亮,卢万谊,武光明,杨晓元.适用于网络大数据的属性基广义签密方案[J].计算机研究与发展,2013,50(S2):23-29. 被引量：2
7邓波,张玉超,金松昌,林旺群.基于MapReduce并行架构的大数据社会网络社团挖掘方法[J].计算机研究与发展,2013,50(S2):187-195. 被引量：10
8梁俊杰,熊亚军.以固态硬盘为缓存的存储技术研究[J].微电子学与计算机,2015,32(1):40-44. 被引量：2
9王静,姚勇,刘志镜.基于广义隐马尔可夫模型的网页信息抽取方法[J].山东大学学报（理学版）,2007,42(11):49-52. 被引量：3
10李伟通,皮德常.基于统计学习的自然语言对话系统的设计与实现[J].微计算机应用,2008,29(7):38-46.

1韩如波,张志国.2018年工程总承包地方政策观察(上)[J].建筑,2019,0(5):32-39. 被引量：3
2郭梦,李建西.殷墟陶器的制作技术——重读李济《殷墟陶器研究》[J].西部考古,2018,0(2):143-158. 被引量：1
3张晓兵.基于高认知的初中数学单元教学实践策略[J].读与写（上旬）,2019(7):216-216.
4王嘉琦,李东平,康贺磊,李萌,师艳丽.齿轮齿条的边界仿真与定位[J].长春师范大学学报,2019,38(2):173-175.
5刘振栋,罗群.云计算平台下船舶通信网络信息块应急调度系统设计[J].舰船科学技术,2019,41(2):178-180. 被引量：1
6叶情.基于改进Trie树的变形敏感词过滤算法[J].现代计算机,2018,24(22):3-7. 被引量：4
7刘志强,都云程,施水才.基于改进的隐马尔科夫模型的网页新闻关键信息抽取[J].数据分析与知识发现,2019,3(3):120-128. 被引量：9
8郭洋洋.高校内部控制制度存在的缺陷及完善策略研究[J].中国总会计师,2019(3):146-148. 被引量：11
9徐建国,蔺珍,张鹏,徐明磊,李恒忠.网络舆情热点获取与分析算法研究[J].软件导刊,2019,18(5):93-97. 被引量：3
10王雪梅,陈兴蜀,王海舟,王文贤.基于标签和分块特征的新闻网页关键信息自动抽取[J].山东大学学报（理学版）,2019,54(3):67-74. 被引量：6

晋中学院学报

2019年第3期

浏览历史

内容加载中请稍等...

基于决策树与单元距离抽取新闻网页内容

参考文献12

二级参考文献146

共引文献808

相关作者

相关机构

相关主题

浏览历史