-
题名中文文本过滤的信息分流机制
被引量:16
- 1
-
-
作者
林鸿飞
李业丽
姚天顺
-
机构
东北大学计算机科学系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2000年第4期470-476,共7页
-
基金
国家自然科学基金项目!(项目编号 69675 0 19)
国家教委博士点基金
-
文摘
在文本过滤中信息分流是提高过滤效率的强有力的手段 ,为此 ,提出了一种新的中文文本过滤的信息分流机制 .其基本思想是在概念扩充基础上 ,将不同用户的信息需求组织为树状结构 ,使其共同的部分成为共享分支 ,依据提出的侧面相似度和侧面匹配率来实现文本与模板的定量匹配 ,减弱传统的布尔模型对文本与模板匹配的严格限制 ,也弥补向量空间模型单纯数量化的不足 ,更加全面地反映用户的信息需求 .试验表明该机制能够明显地提高过滤效率 .
-
关键词
文本过滤
概念扩充
信息分流
判定树
信息处理
-
Keywords
text filtering, vector space model, concept expansion, user profiles, information diffluence, decision tree
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于主题树模型的Web主题检索算法
- 2
-
-
作者
杨创新
彭宏
杨沛
-
机构
广东商学院网络中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2004年第16期184-187,226,共5页
-
文摘
面向主题的Web检索是当前的一个研究热点。而常规的关键词检索方式的主要缺点是不能准确地表达用户的查询意图。为此,文章在概念语义空间的基础上构建了一个新的主题树模型,并提出了一种基于主题树模型的主题扩展算法,可应用于主题检索;同时,提出了主题偏移度和切题度等概念,用于动态跟踪用户的检索过程以进行查询反馈。实验表明,主题树模型及相关的检索算法,能对主题检索进行有效地扩展,减少用户检索过程中产生的主题漂移,提高检索的速度和查准率。
-
关键词
主题树
概念语义空间
信息检索
-
Keywords
topic-specific tree,concept-semantic space,information search
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名以词为本的编码方案的探讨
- 3
-
-
作者
程元斌
-
机构
江汉大学数学与计算机科学学院
-
出处
《江汉大学学报(自然科学版)》
2013年第2期47-52,共6页
-
文摘
语言是人进行思维的主要工具,词是语言处理的基本单位。在计算机信息处理中,目前是按字设计编码。随着计算机信息处理技术的发展,这种完全按字编码的不足也日益显示出来。从信息处理的基本需求以及词的基本特性出发,提出字词综合考虑且以词为本的统一编码方案。该方案以现行的主要编码标准UTF-16为基础,维持现有的字编码,增加词编码;词编码以包括一定语义信息及语义关系的概念空间树进行逻辑组织,以适应聚类检索及语种间代码转换的原则进行空间组织。最后指出了需要进一步深入研究的几个疑难问题。
-
关键词
词编码
UTF-16
聚类检索
概念空间树
自然语言处理
-
Keywords
words encoding
UTF-16
cluster retrieval
concept space tree
natural languageprocessing
-
分类号
TP391.11
[自动化与计算机技术—计算机应用技术]
-