期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于链接分块的相关链接提取方法 被引量:2
1
作者 王芳 于浩 +1 位作者 谭红叶 赵铁军 《计算机工程与应用》 CSCD 北大核心 2006年第31期110-113,共4页
每个网页都包含了大量的超链接,其中既包含了相关链接,也包含了大量噪声链接。提出了一种基于链接分块的相关链接提取方法。首先,将网页按照HTML语言中标签将网页分成许多的块,从块中提取链接,形成若干链接块;其次,根据相关链接的成块出... 每个网页都包含了大量的超链接,其中既包含了相关链接,也包含了大量噪声链接。提出了一种基于链接分块的相关链接提取方法。首先,将网页按照HTML语言中标签将网页分成许多的块,从块中提取链接,形成若干链接块;其次,根据相关链接的成块出现,相关链接文字与其所在网页标题含相同词等特征,应用规则与统计相结合的方法从所有链接块中提取相关链接块。相关链接提取方法测试结果,精确率在85%以上,召回率在70%左右,表明该方法很有效。 展开更多
关键词 网页分块 相关链接提取
下载PDF
基于网页分块和链接特征的卷期目录链接提取方法 被引量:1
2
作者 于洪涛 王冬青 张付志 《情报学报》 CSSCI 北大核心 2012年第7期686-693,共8页
针对传统的信息抽取方法在提取卷期目录链接时精度不高的问题,本文提出一种基于网页分块和链接特征的卷期目录链接提取方法。首先,以网页标签树的布局标签为最小粒度,提出一种原子网页分块算法,将网页分割为若干个相互独立、互不包... 针对传统的信息抽取方法在提取卷期目录链接时精度不高的问题,本文提出一种基于网页分块和链接特征的卷期目录链接提取方法。首先,以网页标签树的布局标签为最小粒度,提出一种原子网页分块算法,将网页分割为若干个相互独立、互不包含的内容块;其次,根据内容块的子树结构,提出一种原子内容块聚类算法,通过合并相似内容块对网页进行语义块划分;最后,提出一种卷期目录链接块的识别算法,通过融合链接文本相似度和基于Bayes的语义分析方法识别出卷期目录链接区域,从而实现链接的提取。实验结果表明,本文提出的方法能够有效提取卷期Et录链接。 展开更多
关键词 网页分块 卷期目录 链接提取
下载PDF
面向企业竞争情报的网站链接提取软件研究
3
作者 龚平 《情报探索》 2011年第10期76-79,共4页
在传统网络爬虫器的设计思路上改进,设计了一种面向企业竞争情报的网站链接提取软件,为竞争情报工作人员提供了一种有用的工具。
关键词 竞争情报 VB6.0 网站链接提取
下载PDF
一种新的Web链接提取模型 被引量:4
4
作者 苏杭 严建援 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第z1期975-982,共8页
以搜索引擎链接提取模块所要求的容错性、正确性、全面性、高效性和可扩展性为目标,提出了一种新的链接提取模型的设计思路。该模型将链接提取过程划分为信息提取、信息加工、信息分析和信息储存。信息的获取是通过HTM L(hypertex t m a... 以搜索引擎链接提取模块所要求的容错性、正确性、全面性、高效性和可扩展性为目标,提出了一种新的链接提取模型的设计思路。该模型将链接提取过程划分为信息提取、信息加工、信息分析和信息储存。信息的获取是通过HTM L(hypertex t m arkup language)文法分析方法从文档中得到初始统一资源地址(un iform resourceiden tifier,UR I)数据;信息加工阶段通过运用UR I解析算法对初始数据进行精练;然后在信息分析过程中进一步加以筛选和过滤;最后将结果存储在一个灵活的数据结构中。通过对比测试证实这种新的链接提取模式比传统方法在各项指标上均具有明显优势。 展开更多
关键词 搜索引擎 链接提取 统一资源地址(URI)
原文传递
一种用于模型验证的Web应用模型抽取方法 被引量:1
5
作者 方明科 缪淮扣 《应用科学学报》 CAS CSCD 北大核心 2009年第1期90-96,共7页
以模型验证为目标,提出一种Web应用FSM(finite state machines)模型的抽取方法。该方法将模型抽取划分为链接提取、模型构造和结果显示。通过建立标签库和对标签的定位,并结合正则表达式的方法,对Web应用进行逆向分析,从源代码开始进行... 以模型验证为目标,提出一种Web应用FSM(finite state machines)模型的抽取方法。该方法将模型抽取划分为链接提取、模型构造和结果显示。通过建立标签库和对标签的定位,并结合正则表达式的方法,对Web应用进行逆向分析,从源代码开始进行链接及相关信息的提取、规整和存储。对Web应用中的页面、链接等建模元素进行分析,应用映射与聚合等抽象技术对获得的信息进行重构,得到适用于验证的Web应用的FSM模型。 展开更多
关键词 链接提取 WEB应用模型 模型抽取 有限状态机
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部