-
题名基于RDF句子的语义网文档搜索
被引量:4
- 1
-
-
作者
吴鸿汉
瞿裕忠
李慧颖
-
机构
东南大学计算机科学与工程学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2010年第2期255-263,共9页
-
基金
国家自然科学基金项目(60773106)
江苏省自然科学基金项目(BK2008290)~~
-
文摘
语义网文档搜索是发现语义网数据的重要手段.针对传统信息检索方法的不足,提出基于RDF句子的文档词向量构建方法.首先,文档被看作RDF句子的集合,从而在文档分析和索引时能够保留基于RDF句子的结构信息.其次,引入资源的权威描述的定义,能够跨越文档边界搜索到语义网中互连的数据.此外,扩展了传统的倒排索引结构,使得系统能够提取出更加便于阅读和理解的片段.在大规模真实数据集上的实验表明,该方法可以显著地提高文档检索的效率,在可用性上具有明显的提升.
-
关键词
语义网
搜索引擎
语义网文档搜索
RDF句子
片段提取
-
Keywords
semantic Web
search engine
RDF document search
RDF sentence
snippet generation
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名多格式文档搜索引擎索引系统设计与实现
被引量:1
- 2
-
-
作者
方跃胜
董辉
姚宏亮
-
机构
安徽水利水电职业技术学院电子系
亳州职业技术学院信息工程系
合肥工业大学计算机与信息学院
-
出处
《长江大学学报(自科版)(上旬)》
CAS
2012年第7期111-113,8,共3页
-
基金
国家自然科学基金资助项目(60705015)
-
文摘
随着Internet和计算机的迅猛发展,搜索引擎应需而生,越来越多的企业利用计算机处理运营过程中产生的大量电子文档。如何从这些网络和多格式文档资源中迅速、方便而准确地检索出企业用户所需的信息已成为越来越重要的问题。索引系统是搜索引擎的核心,为提高系统的查全率和查准率,设计了一种适用于文档检索的数据库存储的索引结构并建立索引库来降低索引组织的复杂度,通过布尔逻辑和向量空间的组合模型实现对检索结果排序,以返回最优文档列表。该系统在Windows环境下采用PHP开发组件实现,能够提高检索文档的查全率和查准率。
-
关键词
文档搜索引擎
索引同步
检索模型
-
Keywords
document search engine
inverted index
index synchronization
retrieval model
PHP
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名文档搜索引擎的解决方案及其检索功能比较分析
被引量:1
- 3
-
-
作者
孙良红
张玉祥
-
机构
山东中医药大学图书馆
-
出处
《图书馆界》
2013年第5期82-85,共4页
-
文摘
总结了文档搜索引擎发展过程中存在的两种主要解决方案,并分析这两种解决方案在检索功能上的差异,最后提出了文档搜索引擎的发展前景。
-
关键词
文档搜索引擎
信息检索
检索功能
-
分类号
G252.7
[文化科学—图书馆学]
-
-
题名稀疏向量匹配技术在智能信息快速搜索中的运用评价
- 4
-
-
作者
胡若云
刘鹏
张燕
金家红
赵天成
-
机构
国网浙江电力有限公司
杭州联汇科技股份有限公司
浙江大学滨江研究院
-
出处
《粘接》
CAS
2024年第5期177-180,共4页
-
文摘
针对传统的电网领域搜索系统通常依赖关键词,存在查准率和召回率低的问题,无法为用户提供高效智能的信息检索体验。提出了一种基于稀疏向量匹配和机器阅读理解的电力文件智能搜索问答算法。通过对于电力文档中的文字内容进行向量化编码,建立语义索引,针对用户搜索的问题进行编码和机器阅读理解,实现自然语言问答式的智能搜索。结合稀疏向量匹配的快速检索召回能力和机器阅读理解的精准回答特性,同时提高了搜索系统的查准率和召回率,有效提高了用户的搜索体验和信息获取效率。实验结果表明该方法准确率和召回率均有较大提升。
-
关键词
文档搜索
语义搜索
稀疏向量
机器阅读理解
智能问答
-
Keywords
document search
semantic search
sparse embedding
machine reading comprehension
intelligent question answering
-
分类号
TM711
[电气工程—电力系统及自动化]
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Simhash的海量相似文档快速搜索优化方法
被引量:7
- 5
-
-
作者
张广庆
葛唯益
贺成龙
-
机构
信息系统工程重点实验室
-
出处
《指挥信息系统与技术》
2015年第2期61-65,共5页
-
基金
软件新技术与产业化协同创新中心部分资助项目
-
文摘
相似文档搜索指检索与给定查询文档相似的文档,在大数据处理中具有广泛的应用,如近似网页检测、新闻报道聚合以及抄袭检测等。为实现海量相似文档的快速搜索,可采用Simhash指纹方法将文档映射成二进制指纹,以海明距离表达文档相似度,并通过指纹分段建立索引提高计算效率。针对传统方法在指纹分段过程中大量冗余计算影响到计算效率的问题,提出了基于顺序匹配的候选集筛选方法,以减少指纹相似性计算量和网络带宽消耗,实现快速搜索。试验表明,该方法具有较好的性能和可扩展性。
-
关键词
Simhash方法
相似文档搜索
顺序匹配
-
Keywords
Simhash method
similar document search
sequence match
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名主机内文档自动搜索技术研究
- 6
-
-
作者
张令通
罗森林
陈燕颖
-
机构
云南大理学院工程学院
北京理工大学信息安全与对抗技术实验室
-
出处
《科技通报》
北大核心
2014年第3期108-112,125,共6页
-
基金
国家242计划项目(2005C48)
云南省教育厅科学研究基金项目(2012Y154)
-
文摘
为降低进行文档搜索时对系统资源的占用,提出了一种实现对主机内文档进行快速高效搜索的方法,采用基于宽度优先非递归搜索算法实现对主机内文档的遍历搜索;采用基于改进的BF算法和改进的KMP算法分别进行文档名和文档关键词匹配;采用降低线程优先级和定时暂停程序的方法控制搜索效率;采用压缩存储的方法对搜索结果进行处理。设计并实现了原型系统,测试结果表明,系统具有较高的准确率和召回率,且对主机内存、CPU、硬盘等资源占用少,降低了在进行文档搜索时对计算机其他进程的影响。
-
关键词
文档搜索
宽度优先搜索
非递归算法
BF算法
KMP算法
-
Keywords
document search
BFS
non-recursive algorithm
BF algorithm
KMP algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名利用VBA编程搜索包含指定内容的Word文档
- 7
-
-
作者
王守银
-
机构
武警指挥学院
-
出处
《电脑编程技巧与维护》
2016年第16期10-11,共2页
-
文摘
介绍了在Word中利用VBA编程实现已知文档内容文件的查找方法。
-
关键词
文档搜索
指定
内容
文档
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名Windows文档搜索全攻略
- 8
-
-
作者
冯小燕
-
机构
北方交通大学计算机科学与技术系
-
出处
《微电脑世界》
2001年第19期119-120,共2页
-
文摘
如今电脑的硬盘容量越来越大了,使得我们常常会忘记某个文件到底放在哪里,文件丢失的现象经常发生。Windows系统自带一个文档搜索功能(Windows 9X中叫“查找”功能,Windows 2000/Me中叫“搜索”功能),但很少有人能真正充分利用该功能。在本文中您将会学到很多实用的文档搜索技巧。
-
关键词
WINDOWS操作系统
文档搜索
桌面软件
-
分类号
TP316.7
[自动化与计算机技术—计算机软件与理论]
TP317
[自动化与计算机技术—计算机软件与理论]
-
-
题名一个可视化语义文档数据库系统
- 9
-
-
作者
罗雪春
张雯
-
机构
辽宁大学
-
出处
《情报科学》
CSSCI
北大核心
2002年第7期749-752,763,共5页
-
文摘
随着 Web网应用技术的迅猛发展 ,诸如数字化图书馆的出现 ,用户能从网上搜寻、下载令其感兴趣的文档。于是 ,如何管理和浏览在网上下载的文档便成了颇具挑战性的研究课题之一。本文将阐明可视化语义文档数据库系统的概念 。
-
关键词
文档数据库
WEB
语义文档
文档聚类
可视化文档搜索
可视性语义
文档浏览器
-
Keywords
Files database Words meaning files Files catalogue Visible files index
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名一个K-均值文档聚类的改进算法
- 10
-
-
作者
吴景岚
刘燕
朱文兴
-
机构
闽江学院计算机科学系
福州大学计算机科学与技术系
-
出处
《闽江学院学报》
2004年第2期48-52,共5页
-
基金
福建省自然科学基金[A0310013]
-
文摘
k均值算法是一个常用的局部搜索算法,它的主要缺陷是容易陷入局部极小,并且该局部极小解与全局最优解往往有很大的偏差。本文提出一个基于K-均值的迭代局部搜索文档聚类算法。该算法以k均值算法所得到的解作为初始解,从该初始解开始作局部搜索,在搜索过程中接受部分劣解。当解无法改进时,算法对所得到的局部极小解做适当强度的扰动后进行下一次的迭代,以跳出局部极小,从而拓展了搜索的范围。实验结果表明该算法对文档数据集聚类的正确性达99%以上。
-
关键词
K-均值
迭代局部搜索文档聚类算法
局部极小解
全局最优解
数据库
-
Keywords
K-means Algorithm
Document Clustering
Iterated Local Search
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名办公好帮手 文档轻松搜
- 11
-
-
作者
陈裕
-
出处
《计算机应用文摘》
2003年第19期73-73,共1页
-
文摘
平时在办公室里,笔者负责管理所有文档。有一次,发生了一件事,领导让我把2002年下半年的工作总结调出来,打印一份给他,急等着用!
-
关键词
计算机
办公文档搜索程序
RTF格式
通配符
-
分类号
TP311.56
[自动化与计算机技术—计算机软件与理论]
-
-
题名智慧档案服务在核电设计行业的应用研究
- 12
-
-
作者
龚莉燕
-
机构
深圳中广核工程设计有限公司
-
出处
《办公室业务》
2018年第16期141-142,共2页
-
文摘
文件档案部门作为核电设计行业单位的核心业务支撑部门,通过对智慧档案的理论和技术的研究,借助档案服务平台进一步提升文档服务水平,提高核电工程档案的归档、利用和管理效率,从而更好地服务于工程项目。当前,在保障档案管理质量和安全的双重前提下,以先进的信息技术为基础,通过数字档案资源利用、智慧档案馆管理等多维度的服务手段,进一步完善工程文档管理的业务支持特性,提升专业设计人员的使用体验。
-
关键词
智慧档案
档案信息化
文档服务
数字档案利用
文档智能搜索引擎
-
分类号
G273.5
[文化科学—档案学]
-