面向网络评论的文本信息抽取方法研究被引量：1

Research on the Method of Network Review Extraction

下载PDF

导出

摘要为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验,结合正确率与召回率等指标验证了算法的有效性. In order to efficiently analyze and extract online reviews,this paper proposed a parsing algorithm of text extraction based on HtmlParser.First,we realized the algorithm through the language and format rules to filter tags.Secondly,we used the Regex model for text cleaning and denoising.Finally,we verified the validity of the algorithm by the experiment of combining the accuracy and the recall rate.

作者段建勇高会娟张梅

机构地区北方工业大学信息工程学院

出处《北方工业大学学报》 2015年第1期7-12,50,共7页 Journal of North China University of Technology

基金国家自然科学基金(61103112) 北京市哲学社会科学规划基金(13SHC031) 北京市青年拔尖人才培育计划(CIT&TCD201404005)

关键词网页提取信息抽取 URL采集模式匹配 HtmlParser information extraction URL collection pattern matching

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1陈少飞,郝亚南,李天柱,徐林昊,杨文柱.Web信息抽取技术研究进展[J].河北大学学报（自然科学版）,2003,23(1):106-112. 被引量：19
2宫进,胡长军,曾广平.互联网信息定向采集系统的设计与实现[J].计算机应用,2007,27(B06):16-17. 被引量：7
3郭冲,王振宇.面向细粒度意见挖掘的情感本体树及自动构建[J].中文信息学报,2013,27(5):75-83. 被引量：11
4Califf M, Mooney R. Relational learning of pat tern-match rules for information extraction[J]. In Proceedings of the Sixteenth National Conference on Artificial Intelligence and Eleventh Conference on Innovative Applications of Artificial Intelli gence, 1999 : 328-334.
5Soderland S. Learning information extraction rules for semi structured and free text [J]. Machine Learning, 1999,34:233 272.
6Freitag D. Machine learning for information ex traction in information domains [J]. Machine Learning,2000,39(2) .. 169 202.
7崔新华.自然语言处理在信息检索中的应用研究[J].贵阳学院学报（自然科学版）,2012,7(3):37-40. 被引量：3
8Muslea I, Minton S, Craig A, et al. Active learning for hierarchical wrapper induction[C]. In Pro ceedings of the Sixteenth National Conference on Artificial Intelligence and Eleventh Conference on Innovative Applications of Artificial Intelligence, 2007.
9Hsu C N,Dung M. Generating finite-state trans- ducers for semi-structured data extraction from the web[J]. Information System, 1998 : 521-538.
10Kushmerick N. Wrapper induction: efficiency and expressiveness[J]. Artifical Intelligence Journal, 2000:15 68.

二级参考文献36

1张敏,宋睿华,马少平.基于语义关系查询扩展的文档重构方法[J].计算机学报,2004,27(10):1395-1401. 被引量：55
2李彦刚,魏海平,侯兴华.基于HTMLParser的Web信息抽取系统的设计与实现[J].辽宁石油化工大学学报,2006,26(2):83-86. 被引量：8
3龙银香.基于HTML标记的信息隐藏方法[J].微计算机信息,2006(07X):129-131. 被引量：5
4杨文柱徐林昊郝亚南.个性化的Web查询助手的设计与实现[Z]..19届全国数据库会议[C].郑州,2002..
5徐林吴杨文柱陈少飞.基于XPath的Web信息抽取[Z]..19届全国数据库会议[C].郑州,2002..
6姚天昉,聂青阳,李建超,李林琳,陈柯,付宁.一个用于汉语汽车评论的意见挖掘系统[C]//中文信息处理前沿进展-中国中文信息学会二十五周年学术会议论文集.北京:清华大学出版社,2006:260-281.
7陈静,朱巧明,贡正仙.基于Ontology的信息抽取研究综述[J].计算机技术与发展,2007,17(10):84-86. 被引量：10
8刘群李素建.基于《知网》的词汇语义相似度计算.中文计算语言学,2002,7(2):59-76.
9陈松桥.计算机应用[M].长沙:湖南科学技术出版社,2002.191-193.
10任仲晟,薛永生.基于页面标签的Web结构化数据抽取[J].计算机科学,2007,34(10):133-136. 被引量：8

共引文献41

1周霜菊,孙济庆.基于Agent的Web知识过滤器设计[J].计算机与数字工程,2005,33(3):85-89.
2刘鲁红.信息抽取技术及其在数字图书馆中的应用[J].中国信息导报,2005(2):49-52. 被引量：1
3刘鲁红,刘力强,胡亚军.信息抽取技术在数字图书馆中的应用研究[J].情报理论与实践,2005,28(3):321-324. 被引量：12
4李剑波,李小华,董树明,杨科华.一种基于XML的Web信息抽取方法[J].情报杂志,2006,25(8):49-51. 被引量：7
5刘爽.信息抽取技术及其在数字图书馆中的应用前景分析[J].现代情报,2006,26(11):75-76. 被引量：1
6黄永文.信息抽取在竞争情报中的应用研究[J].图书情报工作,2006,50(11):17-20. 被引量：4
7马静,倪辉峰.基于模式匹配抽取技术的网上产品情报获取[J].情报理论与实践,2007,30(2):228-231. 被引量：3
8蒲筱哥.基于Web的信息抽取技术研究综述[J].现代情报,2007,27(10):215-219. 被引量：18
9周宇,吕强.基于模板和数据采集的综合信息查询平台的实现[J].福建电脑,2008,24(2):138-139.
10满鹏.海量文档信息的高效检索算法[J].长春大学学报,2008,18(2):66-69.

同被引文献6

1王哲,徐燕文.基于差异化融合的语义信息检索模型仿真[J].微电子学与计算机,2015,32(1):146-149. 被引量：2
2马斌,王金虹,闫娟娟,芦倩.基于本体的智能语义检索模型设计与研究[J].情报科学,2015,33(2):46-49. 被引量：20
3杨中国,李洪奇,朱丽萍,刘蔷.基于语义模式和引用分布的科技文献信息抽取[J].山东大学学报（理学版）,2015,50(3):11-19. 被引量：3
4姬鑫,钟诚.基于分块的新闻网页信息抽取算法[J].计算机应用与软件,2015,32(4):317-322. 被引量：6
5刘丽娟,张胤,杨一.基于本体思想的网页信息抽取方法[J].计算机与现代化,2015(9):90-94. 被引量：5
6高源,席耀一,李弼程.基于依存句法分析与分类器融合的触发词抽取方法[J].计算机应用研究,2016,33(5):1407-1410. 被引量：10

引证文献1

1宋硕.基于Web信息抽取技术的企业情报分析系统的研究[J].数字技术与应用,2016,34(2):91-92. 被引量：1

二级引证文献1

1陈俊洁.web信息提取技术与应用的研究[J].数字技术与应用,2017,35(9):114-114. 被引量：2

1张红梅.基于块的Web网页信息提取[J].软件导刊,2012,11(1):132-134. 被引量：4
2金一宁,王华兵,王德峰.基于KNN及相关链接的中文网页分类研究[J].哈尔滨商业大学学报（自然科学版）,2011,27(2):203-207. 被引量：2
3周广深.如何利用正则表达式验证输入的字符串[J].计算机光盘软件与应用,2013,16(5):303-303.
4张斌斌,何金国.基于特定领域的网页文本提取与实现[J].中央民族大学学报（自然科学版）,2013,22(3):92-96.
5吴聪聪,赵建立.基于本体的主题爬虫的研究[J].电脑知识与技术,2011,7(1X):612-613.
6朱征宇,周智,罗颖,李力沛.基于浏览行为量化分析的兴趣网页提取[J].重庆工学院学报（自然科学版）,2009,23(7):79-84. 被引量：5
7赵勋.C#中分割字符串的几种方法[J].程序员（CSDN开发高手）,2004(11):41-42.
8陈宇,孟凡龙,刘培玉,朱振方.基于 Regex 网页去噪 Hash 比对的网络爬虫无登陆微博采集技术[J].山东师范大学学报（自然科学版）,2015,30(3):14-17. 被引量：1
9杨成.基于XML的网页信息提取系统的研究与设计[J].电脑知识与技术（过刊）,2009,15(9X):7327-7329. 被引量：1
10邵增荣,李英,范体军.正则表达式在油价事件网页提取中的应用[J].现代图书情报技术,2009(2):83-88. 被引量：1

北方工业大学学报

2015年第1期

浏览历史

内容加载中请稍等...

面向网络评论的文本信息抽取方法研究被引量：1

参考文献13

二级参考文献36

共引文献41

同被引文献6

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向网络评论的文本信息抽取方法研究 被引量：1

参考文献13

二级参考文献36

共引文献41

同被引文献6

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向网络评论的文本信息抽取方法研究被引量：1