检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到7篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

基于重复模式的Web信息抽取被引量：6: 1; 作者高强张敬之 +1 位作者耿桦潘金贵《计算机科学》 CSCD 北大核心 2007年第4期210-212,221,共4页; 网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式。根据这一特征,本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实... 展开更多; 关键词 web信息抽取重复模式后缀树; 下载PDF 职称材料

基于后缀树的Web论坛信息抽取被引量：3: 2; 作者肖建鹏张来顺 +1 位作者任星宋晓光《计算机工程与设计》 CSCD 北大核心 2008年第7期1675-1677,共3页; 针对现有网上论坛信息抽取的不足,提出一种基于后缀树的论坛信息抽取方法。将标准化后的HTML文档转换为后缀树,查找出其中的重复模式并产生分装器,将分装器转换为NFA(非确定型有穷自动机)达到抽取论坛信息的目的。该方法运用构造后缀树... 展开更多; 关键词信息抽取分装器后缀树重复模式论坛; 下载PDF 职称材料

基于重复模式的自动Web信息抽取被引量：8: 3; 作者胡仁龙袁春风 +1 位作者武港山濮小佳《计算机工程》 CAS CSCD 北大核心 2008年第22期73-76,共4页; 互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽... 展开更多; 关键词 web信息抽取 DOM树重复模式; 下载PDF 职称材料

基于网页结构树的Web信息抽取方法被引量：24: 4; 作者陈琼苏文健《计算机工程》 EI CAS CSCD 北大核心 2005年第20期54-55,140,共3页; 提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构... 展开更多; 关键词信息抽取半结构网页结构树模式; 下载PDF 职称材料

基于网页结构挖掘的信息提取被引量：2: 5; 作者李媛耿桦 +1 位作者张甍潘金贵《计算机科学》 CSCD 北大核心 2006年第3期191-193,218,共4页; 本文提出了两种细粒度的、基于网页结构挖掘的信息提取方法,比较了它们的优缺点,并给出了相应具体实现的性能测试和结果分析。; 关键词信息提取网页结构挖掘重复模式时间特征 RSS; 下载PDF 职称材料

一种基于后缀树的包装器自动生成方法研究被引量：2: 6; 作者李永丽张玉良《计算机工程与应用》 CSCD 北大核心 2007年第34期114-118,共5页; 包装器是一种能够从网页中自动抽取数据并将其转换为结构化数据的软件程序。现有的包装器生成系统多是半自动化的,需要用户具有关于目标页面的先验知识,而且大多只能处理简单结构数据,而不能很好地处理具有嵌套结构的数据。提出了一种... 展开更多; 关键词网页信息抽取后缀树半结构化数据包装器自动生成; 下载PDF 职称材料

自动粒度选择的半结构化页面信息抽取被引量：2: 7; 作者王晓斌王鹏坡石昭祥《计算机工程与应用》 CSCD 北大核心 2009年第6期165-167,172,共4页; 半结构化页面的数据记录间存在结构相似性,在先序遍历DOM树生成的标记序列中表现为重复出现的模式,可利用后缀树进行挖掘。由于标记序列可以在块粒度和文本粒度两个级别上展现,而不同粒度下产生的最佳抽取模式在抽取效果方面又表现出不... 展开更多; 关键词信息抽取重复模式挖掘粒度分析后缀树; 下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部