期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

基于Swing的HTML解析器的实现与应用

Implementation and Application of HTML Parser Based on Swing

下载PDF

导出

摘要 HTML页面解析是一切工作的基础。首先,通过分析HTML解析器感兴趣的标签与超链接的分类,在Java的Swing包的基础上实现了一个HTML解析器,用来提取HTML文档的超链接和锚文本;其次,把HTML解析器应用到多媒体信息检索系统的搜索器Spider的开发中,通过设定若干个种子网站,选择合适的搜索算法,从中筛选出包含音频、视频和Flash动画的Web页面,并将其存放在数据库中。 HTML page parsing is the foundation of all work.By analyzing the tags and classification of hyperlinks that HTML parsers are interested in,an HTML parser has been implemented based on Java's Swing package to extract hyperlinks and anchor text from HTML documents;Then,the HTML parser is applied to the development of the search engine Spider for multimedia information retrieval systems.By setting several seed websites and selecting appropriate search algorithms,web pages containing audio,video,and Flash animations are filtered out and stored in a database.

作者宋宇 SONG Yu(Library of Nanjing University of Chinese Medicine,Nanjing,Jiangsu Province,210023 China)

机构地区南京中医药大学图书馆

出处《科技资讯》 2024年第14期43-45,49,共4页 Science & Technology Information

关键词解析器 HTML SWING 超文本链接链接文本 Parser HTML Swing Hyperlink Link text

分类号 G250 [文化科学—图书馆学]

引文网络
相关文献

参考文献5

1刘晓旭.主题网络爬虫研究综述[J].电脑知识与技术,2024,20(8):97-99. 被引量：1
2郭婺,郭建,张劲松,石翠萍,刘道森,刘超.基于Python的网络爬虫的设计与实现[J].信息记录材料,2023,24(4):159-162. 被引量：8
3古志敏,吴明珠.基于Python网络爬虫设计与实现[J].电脑编程技巧与维护,2023(9):163-166. 被引量：9
4王勇,洪进,杜兰兰,王圣波.基于Java Swing的找点软件设计与实现[J].现代计算机,2022,28(16):96-100. 被引量：2
5杨大为,王诗念,包立岩,要虹吏,刘畅.基于文本及HTML标签密度的网页正文提取[J].沈阳理工大学学报,2022,41(4):14-19. 被引量：1

二级参考文献36

1解志勇,李其蔓.完善网络爬虫行政规制路径提高数字经济治理水平[J].审计观察,2022(3):4-11. 被引量：1
2张丽.PageRank算法的改进[J].科学技术与工程,2007,7(5):673-677. 被引量：6
3张翔,周明全,李智杰,董丽丽.基于PageRank与Bagging的主题爬虫研究[J].计算机工程与设计,2010,31(14):3309-3312. 被引量：11
4罗林波,陈绮,吴清秀.基于Shark-Search和Hits算法的主题爬虫研究[J].计算机技术与发展,2010,20(11):76-79. 被引量：18
5张鑫,陈梅,王翰虎,王嫣然.基于视觉特征和领域本体的Web信息抽取[J].计算机技术与发展,2011,21(2):58-61. 被引量：5
6熊忠阳,史艳,张玉芳.基于信息增益的自适应主题爬行策略[J].计算机应用研究,2012,29(2):501-503. 被引量：3
7朱泽德,李淼,张健,陈雷,曾新华.基于文本密度模型的Web正文抽取[J].模式识别与人工智能,2013,26(7):667-672. 被引量：13
8张奇,郝志峰,温雯,蔡瑞初.基于互信息度量的Web信息抽取[J].计算机应用与软件,2013,30(12):15-18. 被引量：5
9陈巧灵,廖祥文,魏晶晶,陈国龙.基于DOM树层次特征的多记录网页抽取[J].模式识别与人工智能,2015,28(2):125-131. 被引量：7
10王征,王林森,赵磊.基于信息密度的微博突发话题检测模型研究[J].情报理论与实践,2016,39(3):125-129. 被引量：5

共引文献14

1郭晓丽.基于Java开发的“世界和平”游戏[J].计算机应用文摘,2023,39(13):40-42.
2杨冰倩.基于Python爬虫的影评情感分析与可视化系统设计[J].无线互联科技,2023,20(20):43-45. 被引量：1
3潘瑞平,刘露,王萌,马超,窦静雅.基于Python爬虫技术的天气预警信息抓取方法[J].信息与电脑,2023,35(22):202-204.
4郭瑾.基于Python的招聘数据爬取与数据可视化分析研究[J].轻工科技,2024,40(2):94-96. 被引量：3
5刘沛鹏.网络爬虫技术在继续教育平台系统中的应用研究[J].科技资讯,2024,22(4):198-201.
6刘逸凯,吴瑰.融合ChatGPT的智能化Selenium网络爬虫设计与实现[J].现代信息科技,2024,8(14):69-75.
7赵伟霞.Python语言的分布式共享系统设计[J].数字技术与应用,2024,42(4):105-107.
8彭健.基于Python的抖音“高职教育教学”舆情数据抓取与分析[J].科技资讯,2024,22(15):253-256. 被引量：1
9郭晨灏,柳箐,姜澳,赵美娇,徐子薇,王博.基于Python的全国旅游信息统计网站数据抓取研究[J].电脑与信息技术,2024,32(5):71-74.
10吴任翔.基于万维网爬行器的计量信息系统数据管理程序设计[J].铁道技术监督,2024,52(9):23-27.

1尹曼.“手机互联网时代”下专业教师如何正确引导学生正确学习景观设计系列课程[J].中国科技期刊数据库科研,2016(9):148-148.
2曹光忠.机器学习中用Python模拟K近邻算法的实现与应用[J].电脑知识与技术,2024,20(21):36-39.
3石金军,王新梅.例谈状物类习作教学策略[J].湖北教育,2024(21):84-85.
4邱云飞,邢浩然,于智龙,张文文.联合多模态与多跨度特征的嵌套命名实体识别[J].计算机科学与探索,2024,18(6):1613-1626.
5朱青,肖和平.湖南省治超联网管理信息系统建设实践与思考[J].中国信息界,2024(4):80-82.
6于国龙.以学生为中心的嵌入式系统课程动画模型构建及应用[J].创新创业理论研究与实践,2024(11):55-57.
7吴雪尘,诸仲夏,吴鸯.光学神经网络实现与应用研究[J].应用激光,2024,44(5):190-200.
8汪洋,董伟,潘宸,陈圣权.基于分区识别技术的自然资源智能监管系统设计与实现[J].现代测绘,2024,47(2):58-62.
9马骏明,贺云峰,沈策.智能电网下高压电气设备远程监控与故障诊断系统[J].葡萄酒,2024(16):0115-0117.
10施唯,王东明.全国房屋设施抗震设防信息化管理平台设计与实现[J].震灾防御技术,2024,19(2):229-240.

科技资讯

2024年第14期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部