期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
一种嵌入分布信息的Web文档相似性度量 被引量:1
1
作者 孙春红 杨明 《南京师范大学学报(工程技术版)》 CAS 2008年第3期66-70,76,共6页
Web文档间的相似性度量是Web文本分类的关键,有效的相似性度量策略可改进Web文本分类的精度.经典的向量空间模型(VSM)仅考虑网页中单词的出现频率,未有效利用单词的分布信息,因而影响了网页的分类精度.论文计算了网页中单词分布位置的... Web文档间的相似性度量是Web文本分类的关键,有效的相似性度量策略可改进Web文本分类的精度.经典的向量空间模型(VSM)仅考虑网页中单词的出现频率,未有效利用单词的分布信息,因而影响了网页的分类精度.论文计算了网页中单词分布位置的均值和方差,并将之引入到网页的相似性计算中,提出了一种直接嵌入分布信息的新的网页相似性度量方法.该方法因合理利用单词的出现频率及其分布信息,可有效改进和拓展经典的网页相似性度量策略.实验结果表明,该网页相似性度量方法是有效可行的. 展开更多
关键词 web网页的相似性度量 VSM 分布信息 web网页分类
下载PDF
一种改进的基于WSDL描述的操作相似性度量方法 被引量:17
2
作者 何玲娟 刘连臣 吴澄 《计算机学报》 EI CSCD 北大核心 2008年第8期1331-1339,共9页
在目前通用的Web服务描述标准WSDL基础上,文中提出一种改进的操作相似性度量方法MOSM.MOSM在数据预处理后将Web服务内含的操作(operation)建模为无序标签树,并通过计算满足约束的编辑距离对其进行相似性度量.其具体做法是抽取操作的XML... 在目前通用的Web服务描述标准WSDL基础上,文中提出一种改进的操作相似性度量方法MOSM.MOSM在数据预处理后将Web服务内含的操作(operation)建模为无序标签树,并通过计算满足约束的编辑距离对其进行相似性度量.其具体做法是抽取操作的XML模式的树形结构,对结构进行变形,只保留标签结点;然后计算生成的无序标签树之间满足约束的编辑距离,将操作相似性度量的问题转化为无序标签树匹配的问题.该文的创新主要在:建模时采用满足约束的无序树模型,在编辑距离算法中引入支持不对称性的代价模型,另外为结构和文字标签匹配引入了相似系数.文中最后给出实验了对比结果,MOSM算法能有效提高top-k查准率,对找寻相似的备选操作具有重要意义. 展开更多
关键词 web服务发现 WSDL 相似性度量 无序标签树 编辑距离 模式匹配
下载PDF
融合用户标签和关系的微博用户相似性度量 被引量:8
3
作者 吴树芳 徐建民 武晓波 《情报杂志》 CSSCI 北大核心 2014年第12期170-173,126,共5页
已有的微博用户相似性度量主要依据用户关系,实际上,在微博网络中,用户的标签信息直接表征了用户的兴趣爱好,是影响微博用户相似度的另一因素,为此,在网页相似度计算的基础上提出了融合用户关系和标签的微博用户相似性度量方法,该方法... 已有的微博用户相似性度量主要依据用户关系,实际上,在微博网络中,用户的标签信息直接表征了用户的兴趣爱好,是影响微博用户相似度的另一因素,为此,在网页相似度计算的基础上提出了融合用户关系和标签的微博用户相似性度量方法,该方法分别计算用户的链入标签相似度和链出标签相似度,并将其进行线性调和。实验从新浪微博采集实验数据,实验结果表明新方法对微博用户分类的准确率明显高于仅考虑用户关系的微博用户相似性计算方法。 展开更多
关键词 社交网络 微博用户 相似性度量 用户标签 用户关系 网页相似
下载PDF
基于HTML树的网页结构相似度研究 被引量:2
4
作者 宋明秋 张瑞雪 《情报学报》 CSSCI 北大核心 2011年第2期160-165,共6页
HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似... HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似性提取网页信息的方法.本文中的计算方法都用python语言实现.通过实验,本文对不同网页之间的相似度进行了计算和分析,实验数据表明,基于子树最优自由匹配规则的树结构相似度度量模型具有较好的系统性和适用性;通过树结构相似度来确定网页内部元素及两个网页之间的联系,也弥补了传统方法中依赖单调的文本信息比较的不足,使得网页信息提取更加准确,更加迅速. 展开更多
关键词 HTML网页 网页信息提取 结构相似 Based web 结构相似性 匹配规则 度量模型 计算方法 网页信息块 PYTHON语言 自由 信息比较 数据表 实验 结构特征 传统方法 半结构化 系统性 适用性
下载PDF
应用于拟态Web服务器的相似度求解方法 被引量:1
5
作者 王灿 倪明 +1 位作者 喻卫东 黎想 《计算机系统应用》 2019年第1期75-80,共6页
拟态Web服务器中表决器通过计算并比较异构执行体响应网页的相似性来判断响应是否为合法输出,达到网页防篡改的目的.目前表决器中将网页整体作为字符串输入,采用字符串编辑距离方法计算网页的相似性,存在计算量大忽略网页原有结构信息... 拟态Web服务器中表决器通过计算并比较异构执行体响应网页的相似性来判断响应是否为合法输出,达到网页防篡改的目的.目前表决器中将网页整体作为字符串输入,采用字符串编辑距离方法计算网页的相似性,存在计算量大忽略网页原有结构信息等问题.本文采用改进简单树匹配方法,通过对网页DOM树匹配判别得到网页的相似性, DOM树节点匹配程度由节点字符串的编辑距离决定.将本文算法应用于拟态Web服务器上,进行网页篡改实验验证,与现使用算法相比,本文所采用算法在适应执行体异构性的基础上,提高了表决器的计算效率和准确性. 展开更多
关键词 拟态web服务器 编辑距离 简单树匹配 相似性 网页防篡改 DOM树
下载PDF
基于核Batch SOM聚类优化的语义Web服务发现机制研究 被引量:6
6
作者 陈蕾 杨庚 +1 位作者 张迎周 陈燕俐 《电子与信息学报》 EI CSCD 北大核心 2011年第6期1307-1313,共7页
如何快速、准确和高效地发现满足用户需求的Web服务已成为制约服务发展的瓶颈之一。该文针对现有Web服务发现机制中存在的效率低下和查准率不高的两个主要问题,提出了一个基于核Batch SOM神经网络聚类优化的语义Web服务发现框架。该框... 如何快速、准确和高效地发现满足用户需求的Web服务已成为制约服务发展的瓶颈之一。该文针对现有Web服务发现机制中存在的效率低下和查准率不高的两个主要问题,提出了一个基于核Batch SOM神经网络聚类优化的语义Web服务发现框架。该框架分别在服务表示阶段引入WordNet和隐含语义索引技术对Web服务进行语义扩展和概念语义空间降维;在服务分类阶段利用核机学习理论改进一类适用于Web服务分类的核Batch SOM神经网络算法;在服务匹配阶段提出一种基于核余弦相似性测度的Web服务匹配算法。最后,真实Web服务数据集上的实验结果验证了所提出方法的可行性。 展开更多
关键词 web服务发现 自组织映射神经网络 WORDNET 隐含语义索引 相似性度量
下载PDF
基于多重特征的双层Web用户聚类方法 被引量:1
7
作者 王钊 樊钊 《计算机应用研究》 CSCD 北大核心 2018年第1期93-96,共4页
通过对Web日志的聚类分析,可以发现用户的群体特征,甚至可以预测用户将来的访问模式,进而为不同的用户群提供个性化服务。针对现有方法的一般缺陷,包括特征选择单一无法充分体现用户兴趣偏好和传统Hierarchical算法在用户聚类时存在的... 通过对Web日志的聚类分析,可以发现用户的群体特征,甚至可以预测用户将来的访问模式,进而为不同的用户群提供个性化服务。针对现有方法的一般缺陷,包括特征选择单一无法充分体现用户兴趣偏好和传统Hierarchical算法在用户聚类时存在的收敛效率低、易受用户访问多样性影响的问题,提出了基于多重特征的双层用户聚类方法。该方法采用多重特征对用户相似性进行度量,并在此基础上进行双层聚类。采用基于密度的DBSCAN算法来排除用户会话中的离群对象和发现不规则簇,然后再采用自底向上的Hierarchical方法对第一层的聚类结果进行聚类。实验结果表明,该方法具有良好的稳定性和聚类效果。 展开更多
关键词 web日志 多重特征 聚类方法 用户相似性度量
下载PDF
用Java实现分布式基于内容的Web图像检索系统 被引量:2
8
作者 方昭辉 陈冬霞 《南京师范大学学报(工程技术版)》 CAS 2004年第1期60-63,共4页
给出了一个分布式基于内容的Web图像检索系统的模型 ,并给出了用Java技术实现的方案 .介绍了系统的体系结构和各功能模块 ,以及使用的JSP、Servlet、JavaBean。
关键词 JAVA 分布式 web 图像检索系统 数字图像处理 距离度量相似性
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部