-
题名基于重复模式的Web信息抽取
被引量:6
- 1
-
-
作者
高强
张敬之
耿桦
潘金贵
-
机构
南京大学计算机软件新技术国家重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2007年第4期210-212,221,共4页
-
文摘
网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式。根据这一特征,本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实例中抽取出对应的数据记录。
-
关键词
web信息抽取
重复模式
后缀树
-
Keywords
web information extraction, repeated pattern, suffix tree
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于后缀树的Web论坛信息抽取
被引量:3
- 2
-
-
作者
肖建鹏
张来顺
任星
宋晓光
-
机构
解放军信息工程大学电子技术学院
中国人民解放军
-
出处
《计算机工程与设计》
CSCD
北大核心
2008年第7期1675-1677,共3页
-
文摘
针对现有网上论坛信息抽取的不足,提出一种基于后缀树的论坛信息抽取方法。将标准化后的HTML文档转换为后缀树,查找出其中的重复模式并产生分装器,将分装器转换为NFA(非确定型有穷自动机)达到抽取论坛信息的目的。该方法运用构造后缀树的技术来抽取论坛信息,较好地解决了现有的抽取方法准确性较差、通用性不强的问题。实验结果表明,该方法具有较高的准确性和实用性。
-
关键词
信息抽取
分装器
后缀树
重复模式
论坛
-
Keywords
information extraction
wrapper
suffix tree
repeated pattern
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于重复模式的自动Web信息抽取
被引量:8
- 3
-
-
作者
胡仁龙
袁春风
武港山
濮小佳
-
机构
南京大学计算机软件新技术国家重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第22期73-76,共4页
-
基金
国家自然科学基金资助项目(60673043)
国家社会科学基金资助项目(07BYY051)
-
文摘
互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽取过程中不需要人工干预。对10个在线购物网站进行了测试,实验结果表明提出的方法是有效的。
-
关键词
web信息抽取
DOM树
重复模式
-
Keywords
web information extraction
DOM tree
repetitive pattern
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于网页结构树的Web信息抽取方法
被引量:24
- 4
-
-
作者
陈琼
苏文健
-
机构
华南理工大学计算机科学与工程学院
-
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第20期54-55,140,共3页
-
基金
国家自然科学基金资助项目(60003019)
广东省自然科学基金资助项目(990582)
广东省科技攻关资助项目项目(C10201)
-
文摘
提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。
-
关键词
信息抽取
半结构
网页结构树
模式
-
Keywords
information extraction
Semi-structure
web page structure tree
pattern
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于网页结构挖掘的信息提取
被引量:2
- 5
-
-
作者
李媛
耿桦
张甍
潘金贵
-
机构
南京大学计算机软件新技术国家重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2006年第3期191-193,218,共4页
-
文摘
本文提出了两种细粒度的、基于网页结构挖掘的信息提取方法,比较了它们的优缺点,并给出了相应具体实现的性能测试和结果分析。
-
关键词
信息提取
网页结构挖掘
重复模式
时间特征
RSS
-
Keywords
information extraction, Mining structures of web pages, repeated pattern, Time characteristic, RSS
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TP311.5
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于后缀树的包装器自动生成方法研究
被引量:2
- 6
-
-
作者
李永丽
张玉良
-
机构
东北师范大学计算机学院
吉林大学计算机科学与技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2007年第34期114-118,共5页
-
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.60473042)。
-
文摘
包装器是一种能够从网页中自动抽取数据并将其转换为结构化数据的软件程序。现有的包装器生成系统多是半自动化的,需要用户具有关于目标页面的先验知识,而且大多只能处理简单结构数据,而不能很好地处理具有嵌套结构的数据。提出了一种基于后缀树的包装器自动生成方法,生成的包装器不仅可以处理简单结构数据,还可以处理嵌套结构数据,具有较低的时间复杂度,有一定的实用价值。
-
关键词
网页
信息抽取
后缀树
半结构化数据
包装器自动生成
-
Keywords
web page
information extraction
suffix tree
semi-structure data
automatic wrapper generation
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-
-
题名自动粒度选择的半结构化页面信息抽取
被引量:2
- 7
-
-
作者
王晓斌
王鹏坡
石昭祥
-
机构
解放军电子工程学院网络工程系
-
出处
《计算机工程与应用》
CSCD
北大核心
2009年第6期165-167,172,共4页
-
文摘
半结构化页面的数据记录间存在结构相似性,在先序遍历DOM树生成的标记序列中表现为重复出现的模式,可利用后缀树进行挖掘。由于标记序列可以在块粒度和文本粒度两个级别上展现,而不同粒度下产生的最佳抽取模式在抽取效果方面又表现出不确定性,因此提出一种自动粒度选择的半结构化页面信息抽取方法。算法从后缀树获取的重复模式中选取最大重复和串联重复构成候选模式集,通过特征参数确定两个粒度各自的最佳模式集,最后引入抽取结果规则度参数并进行综合评价,以确定抽取模式完成半结构化页面数据记录的自动抽取。
-
关键词
信息抽取
重复模式挖掘
粒度分析
后缀树
-
Keywords
information extraction
repeat pattern mining
granularity analysis
suffix-tree
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-