改进的基于本体的Web信息抽取被引量：6

IMPROVED ONTOLOGY-BASED WEB INFORMATION EXTRACTION

下载PDF

导出

摘要针对Web信息抽取主要依据内容进行抽取的思想,通过对基于本体的Web信息抽取技术的分析,在对网页进行预处理的过程中引入网页分块思想。通过网页分块技术准确提取出所需信息的抽取区域,再根据本体抽取规则对得到的抽取区域进行处理,最终得到需要的信息。实验验证了改进的基于本体的Web信息抽取算法具有更高的准确率和召回率,具有良好的应用前景。 In light of the idea that the Web information extraction mainly to be done according to the content, by analysing the ontology- based Web information extraction technology, we introduce webpage segmentation concept in the process of webpage pretreatment. Through the webpage segmentation technology we accurately extract the extraction region of the required information, then process it according to ontology extraction rules, and ultimately get the information required. Through the experiments we verify that the improved ontology-based Web information extraction algorithm has higher precision and recall rate, and has good prospects in practical applications.

作者陈雪梁永全赵相彬

机构地区山东科技大学信息科学与工程学院

出处《计算机应用与软件》 CSCD 北大核心 2013年第7期14-16,42,共4页 Computer Applications and Software

基金国家自然科学基金专项基金项目(71240003) 山东省自然科学基金项目(ZR2012FM003) 山东科技大学专项基金项目(YCA120341 YCA120345)

关键词信息抽取网页分块本体抽取规则准确率 Information extraction Webpage segmentation Ontology Extraction rules Precision

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献9

1任仲晟,薛永生.基于页面标签的Web结构化数据抽取[J].计算机科学,2007,34(10):133-136. 被引量：8
2柳佳刚,陈山,黄樱.一种改进的基于本体的Web信息抽取[J].计算机工程,2010,36(4):39-41. 被引量：7
3周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
4贾赛,乔鸿.基于本体的Web信息抽取及本体的构建实现研究[J].图书馆学研究,2011(5):31-36. 被引量：3
5黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
6岳国伟,吕楠,申玉三.基于领域本体的Web信息抽取模型研究[J].情报探索,2012(1):105-107. 被引量：4
7毕蕾,沈洁,徐法艳,魏榴花,朱燕,孙荣霜.领域本体指导的Web商品信息抽取[J].计算机工程与设计,2008,29(24):6393-6396. 被引量：9
8廖涛,刘宗田,孙荣.Web表格定位技术的研究与实现[J].计算机科学,2009,36(9):227-230. 被引量：9
9刘鹏博,车海燕,陈伟.知识抽取技术综述[J].计算机应用研究,2010,27(9):3222-3226. 被引量：15

二级参考文献113

1周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
2胡鹤,刘大有,王生生.Web本体语言OWL[J].计算机工程,2004,30(12):1-2. 被引量：42
3陈兰,左志宏,熊毅,孟令谦.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2004,21(8):155-157. 被引量：18
4车海燕,孙吉贵,荆涛,白曦.一个基于本体主题的中文知识获取方法[J].计算机科学与探索,2007,1(2):206-215. 被引量：5
5王海涛,曹存根,高颖.基于领域本体的半结构化文本知识自动获取方法的设计和实现[J].计算机学报,2005,28(12):2010-2018. 被引量：31
6刘耀,穗志方.领域Ontology概念描述体系构建方法探析[J].大学图书馆学报,2006,24(5):28-33. 被引量：15
7蒲强,李鑫,刘启和,杨国纬.一种Web主题文本通用提取方法[J].计算机应用,2007,27(6):1394-1396. 被引量：5
8黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
9Ralph Grishm.An information extraction:Techniques and challenges[C].Information Extraction Springer-Verlag, Lecture Nots in Artificial Intelligece, 1997.
10Alan Wessman,Stephen W Liddle,David W Embley.A generalized framework for an ontology-based data-extraction systemiC]. Proc of the 4th Int Confon Information Systems Technology and its Applications,2005:239-253.

共引文献80

1路威,赵丽君.兵要知识图谱的构建与应用研究[J].测绘地理信息,2022,47(4):119-123. 被引量：3
2岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
3黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
4宫秀志.对中国画人物画创新探索的几点认识[J].齐齐哈尔大学学报（哲学社会科学版）,2005(1):119-119.
5楼玉萍,王丽侠.基于本体的智能答疑系统的模型研究[J].浙江工业大学学报,2005,33(1):71-73. 被引量：8
6刘颖,詹萌.Ontology在数字图书馆领域中的应用与研究综述[J].图书馆杂志,2005,24(6):53-58. 被引量：5
7翟东升,余旸.国际贸易技术壁垒信息采集系统设计与实现[J].情报杂志,2005,24(8):33-35. 被引量：3
8翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1
9严玥,李华.基于本体论的课件资源检索系统设计[J].计算机工程与设计,2006,27(5):879-881. 被引量：2
10彭莉,韩景生.玩具行业应对TBT风险预警系统的研究[J].玩具世界,2006(11):55-59.

同被引文献118

1王波,姚敏.基于信息抽取的匿名用户兴趣描述[J].华南理工大学学报（自然科学版）,2004,32(z1):117-120. 被引量：1
2周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
3黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
4陈兰,左志宏,熊毅,孟令谦.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2004,21(8):155-157. 被引量：18
5李向阳,陆建江,张亚非.基于竞争分类的Web信息抽取[J].电子学报,2004,32(11):1915-1917. 被引量：2
6翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1
7梁晓涛,谢荣传.基于OWL描述本体的语义信息抽取[J].计算机技术与发展,2006,16(1):62-65. 被引量：2
8谢红薇,周慧,李娟莉.基于应急案例本体的信息抽取的模型及应用[J].电脑开发与应用,2006,19(2):46-48. 被引量：3
9郭志鑫.基于本体的文档引文元数据信息抽取[J].微计算机信息,2006,22(06X):304-306. 被引量：18
10韩颖,陈墨,李铎.纪传中基于本体的信息抽取和分析[J].数字图书馆论坛,2007(5):12-17. 被引量：1

引证文献6

1毛浪,赵传钢.基于聚类的林业病虫害实体抽取研究[J].计算机应用与软件,2015,32(3):37-40. 被引量：2
2余伟,陶皖,徐京,刘成满.基于领域本体的微博用户信息抽取方法[J].长江大学学报（自科版）（上旬）,2015,12(4):36-40. 被引量：1
3杜磊,许博,阚媛,高珊.基于本体的应急情境知识表示[J].军事交通学院学报,2016,18(2):79-83. 被引量：1
4阳广元.国内基于本体的信息抽取研究现状与热点分析[J].图书馆理论与实践,2017,0(5):38-43. 被引量：1
5彭艳兵,谢馨庭.基于单DOM树特征预分类的自适应Web信息抽取方法[J].电子设计工程,2017,25(19):56-59. 被引量：4
6李志义,沈之锐.基于重复模式识别的网页信息抽取研究[J].情报科学,2019,37(3):88-92. 被引量：6

二级引证文献15

1王浩.彩色图像视觉目标区域轨迹点跟踪方法[J].周口师范学院学报,2020(2):129-133.
2阳广元.国内基于本体的信息抽取研究现状与热点分析[J].图书馆理论与实践,2017,0(5):38-43. 被引量：1
3张建安.基于移动切换认证的分层异构网络中的用户敏感信息隐藏方法[J].计算机科学,2019,46(3):217-220. 被引量：4
4段乃侠.基于多媒体图像技术的招贴信息自动分类方法研究[J].自动化与仪器仪表,2019,0(7):18-21. 被引量：1
5武时龙.海量异构电子商务信息的集成算法研究[J].滁州学院学报,2019,21(5):71-74.
6朱琪.基于网络爬虫的舆情分析预警系统设计[J].电子设计工程,2020,28(22):56-60. 被引量：10
7周卓玲,周爱玲.化学除草技术在林业育苗中的应用效果分析[J].造纸装备及材料,2021,50(6):140-141. 被引量：5
8钟爱,梁小青,肖梅,向黎藜,段凯,李竹.基于正则算法和命名实体识别模型的95598工单结构化信息自动提取[J].电力大数据,2021,24(12):38-45. 被引量：2
9李玉琦,李龙.基于模式识别算法的网页重复信息抽取仿真[J].计算机仿真,2022,39(3):439-443. 被引量：2
10赵蔷.基于Python爬虫的旅游网站数据分析与可视化[J].电子设计工程,2022,30(16):152-155. 被引量：6

1李晓静,余东满,熊毅.UGNX4模具设计中抽取区域的研究[J].模具技术,2011(1):51-53.
2刘建元.基于UG半自动分模方法的研究与应用[J].制造业自动化,2010,32(A7):161-164. 被引量：5
3柳佳刚,陈山,贺令亚.基于本体和DOM相结合的Web信息抽取器[J].现代图书情报技术,2009(5):44-49. 被引量：5
4张鑫,陈梅,王翰虎,王嫣然.基于视觉特征和领域本体的Web信息抽取[J].计算机技术与发展,2011,21(2):58-61. 被引量：5

计算机应用与软件

2013年第7期

浏览历史

内容加载中请稍等...

改进的基于本体的Web信息抽取被引量：6

参考文献9

二级参考文献113

共引文献80

同被引文献118

引证文献6

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

改进的基于本体的Web信息抽取 被引量：6

参考文献9

二级参考文献113

共引文献80

同被引文献118

引证文献6

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

改进的基于本体的Web信息抽取被引量：6