期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
面向领域的Web信息自动抽取技术研究
下载PDF
职称材料
导出
摘要
本文分析了目前Web数据抽取主流技术,针对领域网站上文本信息采用MDR算法进行抽取,阐述了网页抽取的工作流程,并通过引入文本分类算法提高了网页抽取的查准率。
作者
陈建彪
机构地区
新乡学院
出处
《计算机光盘软件与应用》
2012年第24期59-60,共2页
Computer CD Software and Application
关键词
网页抽取
DOM
面向领域
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
引文网络
相关文献
节点文献
二级参考文献
45
参考文献
6
共引文献
358
同被引文献
0
引证文献
0
二级引证文献
0
参考文献
6
1
郑庆华;刘均;田锋.Web知识挖掘理论、方法与应用[M]北京:科学出版社,20106.
2
陈钊,张冬梅.
Web信息抽取技术综述[J]
.计算机应用研究,2010,27(12):4401-4405.
被引量:22
3
王志华,魏斌,李占波,赵伟.
基于本体的Web信息抽取系统[J]
.计算机工程与设计,2012,33(7):2634-2639.
被引量:14
4
B.Liu;俞勇.Web 数据挖掘[M]北京:清华大学出版社,2009258-262.
5
代六玲,黄河燕,陈肇雄.
中文文本分类中特征抽取方法的比较研究[J]
.中文信息学报,2004,18(1):26-32.
被引量:228
6
李效东,顾毓清.
基于DOM的Web信息提取[J]
.计算机学报,2002,25(5):526-533.
被引量:101
二级参考文献
45
1
杨桢,赵燕平,朱东华.
基于正则表达式的信息抽取系统在国防技术监测中的应用[J]
.北京理工大学学报,2006,26(z1):74-78.
被引量:9
2
欧健文,董守斌,蔡斌.
模板化网页主题信息的提取方法[J]
.清华大学学报(自然科学版),2005,45(S1):1743-1747.
被引量:70
3
郑长松,傅彦,佘莉.
基于模板的Web信息自动提取方法[J]
.计算机应用研究,2009,26(2):570-572.
被引量:10
4
张志刚,陈静,李晓明.
一种HTML网页净化方法[J]
.情报学报,2004,23(4):387-393.
被引量:57
5
杜小勇,李曼,王珊.
本体学习研究综述[J]
.软件学报,2006,17(9):1837-1847.
被引量:242
6
赵欣欣,索红光,刘玉树.
基于标记窗的网页正文信息提取方法[J]
.计算机应用研究,2007,24(3):144-145.
被引量:33
7
刘迁,焦慧,贾惠波.
信息抽取技术的发展现状及构建方法的研究[J]
.计算机应用研究,2007,24(7):6-9.
被引量:41
8
黄昌宁 等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
9
Florescu D, Levy A Y, Mendelzon A. Database techniques for the World-Wide Web: A Survery. In: ACM The SIGMOD Record, 1998.59-74
10
Atzeni P, Mecca G, Merialdo P. To weave the Web. In: Proc the 23rd International Conference on Very Large Data Bases. Athens, Greece, 1997. 206-215
共引文献
358
1
龚丽娟,王昊,张紫玄,朱立平.
Word2Vec对海关报关商品文本特征降维效果分析[J]
.数据分析与知识发现,2020,4(2):89-100.
被引量:7
2
骆魁永.
一种面向不均衡数据集的CHI特征选择改进算法[J]
.商丘师范学院学报,2021,37(6):9-13.
3
张莉.
网页自动分类技术概念分析[J]
.娄底职业技术学院学报(职教与经济研究),2007(2):58-62.
4
王丽,唐建雄.
基于DOM和网页模板的Web信息抽取[J]
.电脑知识与技术(过刊),2007(18):1617-1619.
被引量:1
5
杨桢,赵燕平,朱东华.
基于正则表达式的信息抽取系统在国防技术监测中的应用[J]
.北京理工大学学报,2006,26(z1):74-78.
被引量:9
6
张培颖.
基于Web内容和日志挖掘的个性化网页推荐系统[J]
.计算机系统应用,2008,17(9):9-11.
被引量:6
7
欧健文,董守斌,蔡斌.
模板化网页主题信息的提取方法[J]
.清华大学学报(自然科学版),2005,45(S1):1743-1747.
被引量:70
8
孙皓,董守斌.
基于标签密度的自适应正文提取方法[J]
.郑州大学学报(理学版),2009,41(1):44-47.
被引量:3
9
贾志洋,高炜,王勇刚.
结合信息检索技术的半监督文本分类方法[J]
.苏州大学学报(自然科学版),2012,28(1):34-39.
被引量:1
10
尤晶晶.
基于贝叶斯的垃圾邮件过滤优化算法[J]
.烟台职业学院学报,2008(2):80-83.
1
朱红灿,龙朝阳.
基于熵的新闻网页抽取方法的研究[J]
.现代图书情报技术,2007(4):48-51.
被引量:2
2
张敏.
信息抽取技术在网页中的应用[J]
.中国城市经济,2011(20):150-151.
3
徐铁,耿佳宁.
网页信息抽取方法的研究[J]
.信息技术,2009,33(4):112-115.
被引量:4
4
罗超然,王纯,廖建新.
新闻网页内容抽取模块的设计与实现[J]
.电信技术,2014(5):85-87.
被引量:1
5
邓垦,胡勇.
基于DOM树的通用论坛抽取技术[J]
.网络安全技术与应用,2015(1):20-20.
被引量:1
6
王志,吴卫东,熊洛,邹小虎.
Web测试与链路瓶颈分析系统设计与实现[J]
.微计算机信息,2011,27(5):149-151.
7
孙建红,耿爱丽,郭文峰.
智能导库工具研究与实现[J]
.中国高校科技,2006(S3):197-198.
8
高永平.
基于脚本代码和局部数据匹配的网页抽取研究[J]
.计算机光盘软件与应用,2014,17(15):124-124.
9
陈巧灵,廖祥文,魏晶晶,陈国龙.
基于DOM树层次特征的多记录网页抽取[J]
.模式识别与人工智能,2015,28(2):125-131.
被引量:6
10
桂林斌.
基于HtmlParser抽取动态异构Web信息的研究与实现[J]
.计算机与数字工程,2009,37(7):161-164.
被引量:4
计算机光盘软件与应用
2012年 第24期
职称评审材料打包下载
相关作者
内容加载中请稍等...
相关机构
内容加载中请稍等...
相关主题
内容加载中请稍等...
浏览历史
内容加载中请稍等...
;
用户登录
登录
IP登录
使用帮助
返回顶部