-
题名基于倒排索引的文本相似搜索
被引量:4
- 1
-
-
作者
杨建武
陈晓鸥
-
机构
北京大学计算机研究所
-
出处
《计算机工程》
CAS
CSCD
北大核心
2005年第5期1-3,共3页
-
文摘
根据文本向量的维分布的稀疏性,提出了基于倒排索引的文本相似搜索算法。该算法通过倒排索引进行维过滤,快速获得尽量小的目标集的超集。实验表明,在海量文本环境下,该方法虽略微损失准确度,但其速度远远高于传统基于多维索引的算法。
-
关键词
相似搜索
倒排索引
多维索引
文本相似搜索
-
Keywords
Similaritysearch
Inverted-index
Multi-dimension index
Similaritysearch for text
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名相似文本的快速搜索
被引量:1
- 2
-
-
作者
燕继坤
郑辉
席建民
-
机构
西南电子电信技术研究所国家重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2004年第15期22-23,71,共3页
-
基金
国防预研基金资助项目
-
文摘
相似文本的快速搜索是大规模文本处理需要解决的基本问题。从两方面改进了Udi的相似文本搜索方法,通过Hash把集合映射成ID,从而得到更快的集合比较算法,重新定义了相似关系,能够减少误判,同时对有固定格式的文本也有更好的效果。
-
关键词
大规模文本处理
相似文本搜索
复制检测
-
Keywords
Large scale text processing
Similar texts searching
Copy detection
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-
-
题名国外生物医学文献获取的技术工具:述评与启示
被引量:2
- 3
-
-
作者
胡玉宁
朱学芳
-
机构
南京大学信息管理学院
-
出处
《图书馆建设》
CSSCI
北大核心
2018年第5期84-89,共6页
-
文摘
大数据时代生物医学文献资源呈现海量增长和交叉聚合的特点,精准靶向检索、挖掘潜隐关联和全面知识发现成为生物医学文献获取的"新常态"。技术工具的科学运用能够有效改进生物医学文献获取的质效,国外相关技术工具在文本相似性搜索、语义搜索、查询支持、相关性排序、结果聚类等方面的功能和应用,为我国业界从信息用户、信息服务主体角度优化和提升生物医学文献获取等工作提供了成功经验。
-
关键词
生物医学文献检索
生物信息学
信息检索
文本相似性搜索
-
Keywords
Biomedical literature retrieval
Bioinformatics
Information retrieval
Text similarity retrieval
-
分类号
G252
[文化科学—图书馆学]
G255
[文化科学—图书馆学]
-