基于特定领域的网页文本提取与实现

Extraction and Implementation of Text Based on Specific Areas of the Webpage

下载PDF

导出

摘要提出了针对小范围的网页文本提取的一种方法.结合对东方财富网的股评网页的HTML文件进行网页文本分析,设计出基于特定领域的网页结构特征的网页文本提取算法.该算法的设计与普通的广义网页提取算法的设计相比,设计简单,针对性较强,提取效率较高,且对股票市场的网页信息的识别与处理起到基础性的作用. This article proposes a method for web text extraction of small scale, and conducts the practice using the HTML doeuments of stock comment pages of www. eastmoney, com. The algorithm designed is based on the web structural characters of a certain specific field, which includes two main steps ： the pretreatment of HTML web documents and its acception or rejection. Compared with the ordinary designs of general web page extraction algorithms, this algorithmic design is of simplicity, stronger pertinence and higher extraction efficiency, which plays a fundamental role in the recognition and processing of web information of the stock market.

作者张斌斌何金国

机构地区中央民族大学理学院

出处《中央民族大学学报（自然科学版）》 2013年第3期92-96,共5页 Journal of Minzu University of China(Natural Sciences Edition)

关键词股票信息提取网页信息 stock information extraction web information

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
2高丙坤,成战刚,李倩.基于正则表达式的信息滤除算法[J].现代计算机,2008,14(2):54-55. 被引量：6

二级参考文献9

1张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
2于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
3程冲,黄水清.利用正则表达式解析新闻网页的算法研究[J].农业图书情报学刊,2005,17(4):5-8. 被引量：7
4LIN S-H,HO J-M.Discovering informative content blocks from Web documents[A].the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD'02)[C].July,2002.
5DENG C,YU SP,WEN JR,et al.VIPS:A Vision-Based Page Segmentation,MSR-TR-2003-79[R].2003.
6KOVACEVIC M.Recognition of common areas in web page using visual information:A possible application in a page classification[A].Proceedings of ICDM02[C].Maebashi,Japan:IEEE Press,2002.250-258.
7HANZLIK S.Gorilla Design Studios Presents:The Hosts File[EB/OL].http://aocs-net.com/hosts/,2006.
8Steven A. Smith. ASP.NET中的正则表达式.http://msdn2.microsofi.com/zh-cn/library/ms972966.aspx.2004.08.17
9周源远,王继成,郑刚,张福炎.Web页面清洗技术的研究与实现[J].计算机工程,2002,28(9):48-50. 被引量：20

共引文献34

1黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
2白似雪,刘华斌.基于页面分块模型的PageRank算法研究[J].南昌大学学报（工科版）,2008,30(2):179-183. 被引量：4
3孙桂煌,刘发升.基于正文特征的网页正文信息提取方法[J].现代计算机,2008,14(9):34-38. 被引量：5
4王燕,吴灏,毛天宇.基于K-中心点聚类算法的论坛信息识别技术研究[J].计算机工程与设计,2009,30(1):210-212. 被引量：3
5张霞亮,陈家骏.基于逻辑行和最大接纳距离的网页正文抽取[J].计算机工程与应用,2009,45(25):125-128. 被引量：5
6王舒,朱敏,张明,牛颢,赵瑜.一种基于特征符号的网页主题信息抽取方法[J].计算机应用研究,2009,26(12):4539-4541. 被引量：4
7李烯,徐朝军.基于分块和统计相结合的新闻正文抽取[J].情报理论与实践,2010,33(1):117-120. 被引量：4
8安增文,徐杰锋.基于视觉特征的网页正文提取方法研究[J].微型机与应用,2010,29(3):38-41. 被引量：13
9常红要,朱征宇.网页正文提取中与正文无关的图像清除技术[J].计算机技术与发展,2010,20(7):17-20. 被引量：1
10缪霖,邱会中.Web页面自顶向下的正文信息定位算法[J].计算机工程,2010,36(13):76-78. 被引量：2

1钱学松.应用再上台阶[J].中国计算机用户,2002(5):27-27.
2张红梅.基于块的Web网页信息提取[J].软件导刊,2012,11(1):132-134. 被引量：4
3金一宁,王华兵,王德峰.基于KNN及相关链接的中文网页分类研究[J].哈尔滨商业大学学报（自然科学版）,2011,27(2):203-207. 被引量：2
4王志军.利用QQ随时监控股票信息[J].网友世界,2009(23):32-32.
5段建勇,高会娟,张梅.面向网络评论的文本信息抽取方法研究[J].北方工业大学学报,2015,27(1):7-12. 被引量：1
6网站集萃[J].互联网周刊,1999,0(28):56-56.
7杨伟杰,马博渊,刘雯.基于意见目标句抽取的中文股评情感分析方法[J].计算机仿真,2014,31(3):431-436. 被引量：2
8王喜东.财务信息的情感分析技术研究及应用[J].中国管理信息化,2016,19(3):195-197.
9莫倩,张渝杰,胡航丽,张华平.一种混合的股评观点倾向性分析方法[J].计算机工程与应用,2011,47(19):222-225. 被引量：5
10吴聪聪,赵建立.基于本体的主题爬虫的研究[J].电脑知识与技术,2011,7(1X):612-613.

中央民族大学学报（自然科学版）

2013年第3期

浏览历史

内容加载中请稍等...

基于特定领域的网页文本提取与实现

参考文献2

二级参考文献9

共引文献34

相关作者

相关机构

相关主题

浏览历史