HTMLParser提取网页超链接研究被引量：1

HTMLParser Extract Web Page Hyperlink Research

下载PDF

导出

摘要每个网页中都存在许多超链接,很多网页的有用信息都存在于超链接中,如何有效地获取这些超链接成为Web挖掘的一个重要步骤。提出了利用HTMLParser开源工具实现Web页面解析,提取网页的超链接,从而获取有用信息,为下一步开发搜索引擎做准备。 There are many hyperlinks in each Web page, many pages of useful information exist the hyperlink, how to effectively access to these hyperlinks as an important step in Web mining. We propose the use of open source tools to achieve Web page HTMLParser parse, extract web page hyperlink in order to gain useful information for further development of search engine preparation.

作者郎凤举

机构地区中国海洋大学信息科学与工程学院

出处《电脑编程技巧与维护》 2010年第2期74-75,共2页 Computer Programming Skills & Maintenance

关键词 HTMLPARSER 页面解析信息提取 HTMLParser, page analysis information extraction

分类号 TP393.092 [自动化与计算机技术—计算机应用技术] TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1张俊英,胡侠,卜佳俊.网页文本信息自动提取技术综述[J].计算机应用研究,2009,26(8):2827-2831. 被引量：9
2Gaizauskas R,Wilks Y.lnformation Extraction.Beyond Document Retrieval.Journal of Documentation, 2000.
3李伟,黄颖.基于HtmlParser的网页信息提取[J].兵工自动化,2007,26(7):41-41. 被引量：4

二级参考文献18

1许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15
2洪辉,刘子敬,李石君,欧伟杰.智能WEB信息提取系统的研究和设计[J].微计算机信息,2005,21(11X):71-74. 被引量：8
3张茂元,邹春燕,卢正鼎.一种基于语义匹配的Web信息提取方法研究[J].计算机工程与应用,2006,42(23):141-143. 被引量：3
4Crescenzi V,Mecca G.Merialdo,P Roadrunner.Towards Automatic Data Extraction from Large Web Sites[A].In International Conference on Very Large Data Bases (VLDB 2001)[C].Roma,Italy:September 1,2001.1-14.
5Valter Crescenzi,Giansalvatore Mecca,Paolo Merialdo,etc.An Automatic Data Grabber for Large Web Sites[A].In International Conference on Very Large Data Bases (VLDB 2004).
6LIUWei,MENG Xiao-feng,MENG Wei-yi.Vision-based Web datarecords extraction[].Proc of the th SIGMOD International Work-shop on Web and Databases.2006
7NIE Zai-qing,WEN Ji-rong,MA Wei-ying.Object-level verticalsearch[].Proc of the rd Biennial Conference on Innovative DataSystems Research.2007
8XIAO Xiang-ya,LUO Qiong,HONG Dan,et al.Slicing-tree basedWeb page transformation for small displays[].Proc of the thACMInternational Conference on Information and Knowledge Manage-ment.2005
9LEE E,KANG J,CHOI J,et al.Topic-specific Web content adapta-tion to mobile devices[].Proc of IEEE/WIC/ACM InternationalConference on Web Intelligence.2006
10CHUNG C Y,GERTZ M,SUNDARESAN N.Reverse engineeringfor Web data:from visual to semantic structures[].Proc of theth International Conference on Data Engineering.2002

共引文献11

1王楠.一种实现Web数据到XML文档的转换算法[J].大连海事大学学报,2010,36(3):76-78.
2孙镇,王惠临.组织机构文本信息资源管理应用研究[J].情报理论与实践,2010,33(9):86-88. 被引量：1
3崔宇红.机构知识库自动存储系统研究[J].现代图书情报技术,2010(12):76-80. 被引量：2
4李畅,王永良,冯晓洁,聂峰.作战文书关键信息抽取方法[J].兵工自动化,2011,30(5):26-29. 被引量：8
5柳永念,钟诚,焦小焦.基于单元识别的网页信息抽取方法[J].广西大学学报（自然科学版）,2011,36(5):787-791. 被引量：1
6赵晓峰,凌天斌,彭波,王转妮.一种基于网页源文件的信息提取算法[J].计算机与现代化,2012(2):38-39. 被引量：1
7朱学芳,冯曦曦.基于文本内容的农业网页信息抽取和分类研究[J].情报科学,2012,30(7):1012-1015. 被引量：3
8吴家皋,余浩,张雪英.基于链接回溯的地理信息更新主题爬虫研究[J].计算机技术与发展,2014,24(7):52-55. 被引量：2
9罗永莲,赵昌垣.突发事件新闻标题与正文提取方法[J].计算机应用,2014,34(10):2865-2868. 被引量：10
10曾凡涛.基于信息抽取技术的中大布市导购助手的设计与实现[J].广东轻工职业技术学院学报,2015,14(3):1-4.

同被引文献7

1丁振国,吴宝贵,辛友强.基于Bloom Filter的大规模网页去重策略研究[J].现代图书情报技术,2008(3):45-50. 被引量：15
2潘谦红,王炬,史忠植.基于属性论的文本相似度计算[J].计算机学报,1999,22(6):651-655. 被引量：63
3卫泽,周登文.基于用户的优化协同过滤推荐算法[J].计算机与数字工程,2017,45(4):613-615. 被引量：5
4林建辉,严宣辉,黄波.融合信任用户的协同过滤推荐算法[J].计算机系统应用,2017,26(6):124-130. 被引量：12
5李荣宽,贲婷婷,汪敏,丁乙,朱子杰.战术云环境服务支撑系统架构[J].指挥信息系统与技术,2017,8(3):33-37. 被引量：23
6文俊浩,袁培雷,曾骏,王喜宾,周魏.基于标签主题的协同过滤推荐算法研究[J].计算机工程,2017,43(1):247-252. 被引量：23
7廖志芳,符本才,孔令远,王佳宁.一种新颖的混合相似度计算模型[J].计算机应用与软件,2018,35(1):175-182. 被引量：3

引证文献1

1马雷鸣,张道伟.联合作战模式下的信息过滤方法[J].指挥信息系统与技术,2023,14(2):76-80.

1李建廷.元搜索引擎中搜索结果的采集与处理[J].电子科技,2010,23(6):64-66. 被引量：2
2魏宗秀.WEB网页超链接路径的选择[J].淮北煤炭师范学院学报（自然科学版）,2005,26(2):60-61.
3路遥,周海亮,任女尔,林涛,薛桂香,廖文喆.基于Lotus Domino的移动办公平台的框架研究[J].计量技术,2014,0(11):64-67.
4郑蓉,陈虹,徐丽珍.网页超链接与路径的选择[J].电脑知识与技术,2006,1(3):72-72. 被引量：1
5杨留慧,雷航,郭文生.嵌入式浏览器解析排版并行化研究与设计[J].计算机应用,2011,31(12):3331-3333. 被引量：3
6宋凯伦,邱广华,李珊.基于Web的定向信息采集系统的设计与实现[J].福建电脑,2011,27(11):18-19. 被引量：1
7吴静,杨波,孙润元,马坤.基于虚拟化的应用服务监控软件设计[J].山东科学,2012,25(5):78-82. 被引量：1
8姜玥,井福荣,谢青,李建阳,杨玉涵.WHPM-Apriori:网页超链接挖掘的Apriori改进算法[J].西南民族大学学报（自然科学版）,2007,33(3):644-647.
9王玉,张伟红,刘雨.基于Apriori关联规则在信息无障碍网站的应用[J].吉林大学学报（信息科学版）,2013,31(1):101-106. 被引量：3
10刘战东.Web数据挖掘与挖掘算法探讨[J].电脑与电信,2008(12):65-67. 被引量：1

电脑编程技巧与维护

2010年第2期

浏览历史

内容加载中请稍等...

HTMLParser提取网页超链接研究被引量：1

参考文献3

二级参考文献18

共引文献11

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

HTMLParser提取网页超链接研究 被引量：1

参考文献3

二级参考文献18

共引文献11

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

HTMLParser提取网页超链接研究被引量：1