中文网页信息抽取技术及分类算法研究

Chinese webpage information extraction technology and classification algorithm research

下载PDF

导出

摘要对信息抽取的关键技术及评价标准进行分析,通过具体设计模块实现了信息抽取及分类,并通过实验得出结论. Key technologies and the evaluation criteria of information extraction are analysed.Finally the information extraction module and classifer is implemented through the specific design,and the conclusions are given.

作者于成龙

机构地区牡丹江大学信息与电气工程学院

出处《山东理工大学学报（自然科学版）》 CAS 2011年第3期108-110,共3页 Journal of Shandong University of Technology:Natural Science Edition

关键词信息抽取分类算法 information extraction classification algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1Adami G, Avesani P,Sona D. Clustering documents into a web directory for bootstrapping a supervised classification [ J ]. DataKnowledge Engineering, 2005,54(3) : 301-325.
2宋明秋,张瑞雪,吴新涛,李文立.网页正文信息抽取新方法[J].大连理工大学学报,2009,49(4):594-597. 被引量：20
3王少康,董科军,阎保平.使用特征文本密度的网页正文提取[J].计算机工程与应用,2010,46(20):1-3. 被引量：13
4Caulkins J P,Ding W,Duncan G. A method for managing access to web pages: filtering by statistical classifleation(FSC) applied to text[J]. Decision Support Sytems,2006,42 : 144-161.

二级参考文献11

1常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
2王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12
3Eikvil L.Information extraction from World Wide Web-A survey[R].Norwegian Computing Center,1999.
4Nechyba M C,Xu Yang-sheng.Stochastic similarity for validating human control strategy models[J].IEEE Trans on Robotics and Automation,1998,14(3):437-451.
5Wang Ji-ying,Lochovsky F H.Data-rich section extraction from HTML pages[C] //Proceedings of the 3rd International Conference on Web Information Systems Engineering.Singapore:IEEE Computer Society Press,2002:313-322.
6Lerman K,Knoblock C,Minton S.Automatic data extraction from lists and tables in web sources[C] //Proceedings of the Workshop on Advances in Text Extraction and Mining.Menlo Park:AAAI Press,2001:149-181.
7Lin Shianhua,Ho Janming.Discovering informative content blocks from Web document[C] //Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Edmonton:ACM Press,2002:588-593.
8Stenback J,Hegaret P L,Hors A L.Document Object Model(DOM) Level 2 HTML specification[EB/OL].(2003).http://www.w3.org/TR/2003/REC-DOM-Level-2-HTML-20030109/DOM2-HTML.html# html-ID-1176245063.
9孙承杰,关毅.基于统计的网页正文信息抽取方法的研究[J]中文信息学报,2004(05).
10孟军,刘秋水,王秀坤.节点频度和语义距离相结合的网页正文信息抽取[J].计算机工程与应用,2009,45(1):140-143. 被引量：3

共引文献31

1宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
2熊子奇,张晖,林茂松.基于相似度的中文网页正文提取算法[J].西南科技大学学报,2010,25(1):80-84. 被引量：3
3王楠.一种实现Web数据到XML文档的转换算法[J].大连海事大学学报,2010,36(3):76-78.
4李文立,王乐超,宋春雷.基于HTML树和模板的文献信息提取方法研究[J].计算机应用研究,2010,27(12):4615-4617. 被引量：7
5张瑞雪,宋明秋,公衍磊.逆序解析DOM树及网页正文信息提取[J].计算机科学,2011,38(4):213-215. 被引量：15
6殷彬,杨会志.灵活结构网页的正文提取[J].计算机技术与发展,2011,21(9):111-113. 被引量：3
7姜子进,吐尔根.依布拉音,赛依旦.阿不力米提,田生伟.Web环境下自动获取汉、维语料库[J].计算机应用与软件,2011,28(12):19-21. 被引量：1
8李霞,蒋盛益.基于DOM树及行文本统计去噪的网页文本抽取技术[J].山东大学学报（理学版）,2012,47(3):38-42. 被引量：4
9唐朝伟,李俊,苗光胜,杜欣慧.基于DOM树的视频元数据抽取系统[J].计算机工程,2012,38(8):268-270. 被引量：1
10陈阳,陈兴蜀,吴麒.基于信息量衰减幅度的网页正文提取[J].计算机工程与设计,2012,33(7):2555-2560. 被引量：1

1崔春,龚捷.Web信息抽取研究综述[J].电脑知识与技术,2011,7(4):2279-2280. 被引量：2
2沈杰.信息抽取技术面临的挑战及其策略[J].计算机光盘软件与应用,2011(8):3-4.
3卢红杰.基于Web数据的信息抽取技术[J].兰台世界（上旬）,2006(04S):52-53.
4史树敏,刘东升.信息抽取与信息检索技术比较研究[J].计算机科学,2006,33(B12):141-145.
5聂华.基于领域本体的信息抽取方法研究[J].价值工程,2012,31(6):117-117.
6柳佳刚,刘高嵩,贺令亚,陈山.基于Web的信息抽取技术现状与发展[J].福建电脑,2007,23(7):48-49. 被引量：6
7宋艳娟,李金铭,陈振标.基于XSLT的PDF信息抽取技术的研究[J].计算机与数字工程,2008,36(5):156-159. 被引量：7
8王军.Web信息抽取技术简述[J].河南科技,2013,32(10):5-6.
9陈基.命名实体识别综述[J].现代计算机,2016,22(2):24-26. 被引量：10
10张小莉,夏冉,姚建民.浅谈基于XML的web页面信息抽取方法的设计和实现[J].科技风,2008(1):74-74.

山东理工大学学报（自然科学版）

2011年第3期

浏览历史

内容加载中请稍等...

中文网页信息抽取技术及分类算法研究

参考文献4

二级参考文献11

共引文献31

相关作者

相关机构

相关主题

浏览历史