面向开源社区的Web数据抽取方法研究

Research on the Method of Web Data Extraction from Open Source Communities

下载PDF

导出

摘要由协同开发社区和知识分享社区所组成的开源社区中汇集海量的开源数据资源。如何从数量众多,页面结构各异的开源社区中准确、高效地获取这些数据是对开源数据资源进行全面分析,深度关联的前提。阐述面向开源社区的Web数据抽取方法研究过程,实现对开源社区中Web数据的精确抽取。 Open source community, which consists of collaborative development community and knowledge sharing community, assembles a huge amount of open-source data resources together. How to obtain these data precisely and efficiently from numerous open source communi- ties with various page structures is a prerequisite for comprehensive analysis and deep correlation. Describes the research process of web data extraction method and achieves the accurate extraction of Web data from open source communities.

作者张方尹刚王涛余跃

机构地区国防科学技术大学计算机学院

出处《现代计算机》 2017年第3期27-29,39,共4页 Modern Computer

关键词开源社区 WEB数据抽取协同开发社区知识共享社区 Open Source Community Web Data Extraction Collaborative Development Community Knowledge Sharing Community

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1吴共庆,胡骏,李莉,徐喆昊,刘鹏程,胡学钢,吴信东.基于标签路径特征融合的在线Web新闻内容抽取[J].软件学报,2016,27(3):714-735. 被引量：23
2张丽娜,陈俊杰,赵丽欣.基于HTMLParser的BT种子网页信息抽取[J].电脑开发与应用,2010,23(3):59-61. 被引量：4
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70

二级参考文献45

1李胜利,李昌清,袁平鹏,刘英书.基于Web的电子期刊元数据信息抽取方法[J].华中科技大学学报（自然科学版）,2007,35(12):13-15. 被引量：7
2荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
3张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
4常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
5Horstmann CS.Java2核心技术[M].第5版.北京:机械工业出版社,2001.
6卢睿.信息的抽取[D].大连:大连海事大学信息工程学院,2004.
7Gaizauskas Robert, Yorick Wilks. Information Extraction: Beyond Document Retrieval Journal of Documentation[J], 1998, 54(1): 70-105.
8Gibson D,Punera K,Tomkins A.The volume and evolution of web page templates.In:Proc.of the Special Interest Tracks and Posters of the 14th Int'l Conf.on World Wide Web(WWW 2005).New York:ACM Press,2005.830-839.[doi:10.1145/1062745.1062763].
9Reis DC,Golgher PB,Silva AS,Laender AHF.Automatic Web news extraction using tree edit distance.In:Proc.of the 13th Int'l Conf.on World Wide Web(WWW 2004).New York:ACM Press,2004.502-511.[doi:10.1145/988672.988740].
10Parapar J,Barreiro á.An effective and efficient Web news extraction technique for an operational NewsIR system.In:Proc.of the 12th Conf.of the Spanish Association for Artificial Intelligence,Vol.2.2007.319-328.

共引文献94

1王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
2郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
3许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11
4刘晨曦,吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报（自然科学版）,2007,25(2):149-152. 被引量：8
5冯少卿,都云程.网页结构模板生成新方法研究[J].北京机械工业学院学报,2007,22(3):15-19. 被引量：2
6张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10
7时达明,林鸿飞,杨志豪.基于网页框架和规则的网页噪音去除方法[J].计算机工程,2007,33(19):276-278. 被引量：17
8王建冬,王继民,田飞佳.一种基于内容规则的网页去噪算法[J].现代图书情报技术,2008(3):51-54. 被引量：4
9时达明,林鸿飞,赵晶.基于模板化的Blog信息抽取[J].计算机工程与应用,2008,44(9):156-158. 被引量：5
10万乐,左万利,高金.基于主题的网页噪音去除机制[J].计算机工程与设计,2008,29(8):2072-2074. 被引量：8

1涂曙光.微软技术[J].程序员,2006(9):12-12.
2英特尔发布Hadoop发行版免费版本[J].电信技术,2012(12):53-53.
3张文,王坚,熊节,代远,陆亦斌,段胜春.RoR开发工具大比拼[J].程序员,2007(8):114-114.
4MIPS科技推出在MIPS架构上的Android平台[J].单片机与嵌入式系统应用,2009,9(7):75-75.
5MIPS科技推出在MIPS架构上的Android平台[J].电子设计工程,2009,17(7):83-83.
6徐俊毅.MIPS将未来捆绑在Android平台[J].电子与电脑,2009(7):28-28.
7Jonathan Mack,徐涵,W3China.SOA秘诀[J].软件世界,2009(1):78-79.
8三星为中国的Java程序员提供服务[J].移动通信,2009(16):61-61.
9霍泰稳.由Android平台受工信部支持所想到的[J].程序员,2010(2):14-14.
10下一代软件开发社区Jazz出炉[J].软件世界,2008(4):6-6.

现代计算机

2017年第3期

浏览历史

内容加载中请稍等...

面向开源社区的Web数据抽取方法研究

参考文献3

二级参考文献45

共引文献94

相关作者

相关机构

相关主题

浏览历史