-
题名基于词间语义相关度的搜索结果聚类算法
被引量:2
- 1
-
-
作者
沙芸
张国英
-
机构
北京石油化工学院计算机科学与工程系
-
出处
《郑州大学学报(理学版)》
CAS
北大核心
2009年第1期73-76,共4页
-
基金
北京市教育委员会项目
编号KM200610017007
-
文摘
将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词间语义相关度的搜索结果聚类算法,该算法以词为聚类的核心,词所出现的文档为词的属性,根据词在搜索结果文档中共现的情况来划分类别.该方法可以充分利用词间的语义相关性,类别划分后即可确定类名.实验结果表明,对搜索结果聚类时与K-Means和STC算法相比,质量上有所提高.
-
关键词
搜索结果聚类
词间语义相关度
文档相似度
-
Keywords
search result clustering
semantic relevance between words
document similarity
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于主题词匹配频数的搜索引擎结果聚类算法
被引量:2
- 2
-
-
作者
胡诗未
李晓峰
徐伟
-
机构
四川大学计算机学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2011年第6期130-132,共3页
-
基金
国家自然科学基金资助项目(60736046)
-
文摘
搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚类。传统搜索引擎聚类没有充分利用搜索引擎结果的自身特点,或者计算复杂度较高。本文提出了一种基于主题词匹配频数的搜索引擎聚类算法,该算法从高频词中筛选出主题词,根据主题词共现情况自动产生类别,其他结果依据满足与类别主题词表的匹配频数的文档数进行聚类。实验结果与STC和LINGO算法相比,搜索质量有所提高。
-
关键词
搜索结果聚类
词间语义相关度
文档相似度
主题词
-
Keywords
search results clustering
semantic relevance between words
document similarity
topic word
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名文本信息隐藏的统计检测算法
被引量:6
- 3
-
-
作者
陈志立
黄刘生
余振山
李凌君
杨威
-
机构
中国科学技术大学计算机科学与技术系
安徽省计算与通讯软件重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2008年第12期2199-2201,共3页
-
基金
国家自然基金项目(60773032
60703071)资助
+1 种基金
高校博士点基金(20060358014)
江苏省自然科学基金(BK2007060)项目的资助
-
文摘
文本信息隐藏(TIH)是把隐秘信息嵌入文本载体中的技术,探讨其逆向攻击手段对于信息安全(IS)领域有着重要的意义.本文提出一种基于词间相关度统计特性的文本信息隐藏检测算法,并利用该算法对文本信息隐藏系统NICETEXT做了检测实验,取得了很好的效果.在对115个正常的文本段和212个由NICETEXT生成的文本段进行检测的实验中,成功地检测出106个正常的文本段和209个由NICETEXT生成的文本段.其中仅有9个正常文本段和3个生成文本段发生了误判,检测正确率高达96.3%.
-
关键词
信息隐藏
检测
词间相关度
N窗互信息
-
Keywords
information hiding
detecting
correlations between words
N-window mutual information
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名保护私有信息的文本信息隐藏检测算法
被引量:2
- 4
-
-
作者
朱友文
黄刘生
李栋
杨威
-
机构
中国科学技术大学计算机学院国家高新计算中心(合肥)
俄亥俄州立大学计算机科学与工程系
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2011年第2期278-283,共6页
-
基金
国家自然科学基金重大研究计划(90818005)
国家自然科学基金(60903217
+1 种基金
60773032)
中国博士后科学基金(20090450701)资助课题
-
文摘
文本信息隐藏检测算法可以区分正常文本和含有隐藏信息的生成文本,如何安全地实现多方合作的文本信息隐藏检测是个尚未解决的重要问题。为此,该文提出了基于同态加密系统的保护私有信息的文本信息隐藏检测算法。该算法安全地实现了文本信息隐藏的两方合作检测过程。合作执行该算法,检测算法的参数持有者和待测样本持有者可以使后者安全地得到待测样本的检测判定结果,并且在合作的过程中,双方的私有信息都不会泄漏。分析显示在多次合作的情况下,算法仍然是安全的;该算法的通信复杂度和计算复杂度都是O(m 2),这里m是其所使用的常用词词典中词语个数。实验结果证实了新算法的运行效率。
-
关键词
信息隐藏
保护私有信息
词间相关度
N窗互信息
-
Keywords
Information hiding
Privacy-preserving
Correlations between words
N-window mutual information
-
分类号
TP309.2
[自动化与计算机技术—计算机系统结构]
-
-
题名基于二级向量描述的搜索引擎个性化服务模型
被引量:5
- 5
-
-
作者
徐静秋
朱征宇
谭明红
任翔
-
机构
重庆大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2007年第11期89-93,共5页
-
基金
高等学校博士学科点专项科研基金资助课题(20030611016)
重庆大学骨干教师计划基金项目(2003A33)
-
文摘
本文介绍了一种搜索引擎个性化服务模型。用二级向量进行文本特征提取和用户兴趣建模,关键词向量能快速定位用户的兴趣领域,而扩展词向量能准确反映用户在该领域上的兴趣偏好。当用户提交关键词时,本系统根据学习到的用户兴趣描述模型计算词间相关度,自动增加几个个性化扩展词提交给搜索引擎,实现不同用户键入相同关键词能返回不同信息的目的。实验结果充分表明本系统应用于搜索引擎个性化服务领域的有效性和实用性。
-
关键词
搜索引擎
个性化
二级向量描述
词间相关度
-
Keywords
Search engine,Personalization,Double vector description,Tterm-term associations
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
-
-
题名一种个性化查询扩展方法
被引量:3
- 6
-
-
作者
于春雷
朱征宇
何杰
董曙佳
-
机构
重庆大学计算机学院
-
出处
《计算机工程与应用》
CSCD
2012年第2期119-123,129,共6页
-
基金
国家科技支撑计划课题(No.2007BAH08B04)
-
文摘
针对当前主流web搜索引擎存在信息检索个性化效果差和信息检索的精确率低等缺点,通过对已有方法的技术改进,介绍了一种基于用户历史兴趣网页和历史查询词相结合的个性化查询扩展方法。当用户在搜索引擎上输入查询词时,能根据学习到的当前用户兴趣模型动态判定用户潜在兴趣和计算词间相关度,并将恰当的扩展查询词组提交给搜索引擎,从而实现不同用户输入同一查询词能返回不同检索结果的目的。实验验证了算法的有效性,检索精确率也比原方法有明显提高。
-
关键词
历史兴趣网页
历史查询词
个性化查询扩展
词间相关度
搜索引擎
-
Keywords
historical interested web pages
historical query terms
personalized query expansion
term-term associations
search engine
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-