-
题名基于图的特征词权重算法及其在文档排序中的应用
被引量:1
- 1
-
-
作者
黄云
洪佳明
颜一鸣
-
机构
吉首大学软件学院
中山大学信息科学与技术学院
-
出处
《计算机系统应用》
2012年第6期216-218,194,共4页
-
基金
湖南省教育厅自然科学基金(06C658)
-
文摘
信息检索的核心工作包括文档的分类和排序等操作,如何对文档中的特征词权重进行有效度量是其中的一项关键技术。利用词的共现等关系为每个文档建立文本图,基于邻接词间重要性相互影响的思路,结合文档中特征词的词频特性,迭代计算每个词的权重,进一步结合文本图的密度等全局特性,对信息检索的结果进行排序。实验证实,算法在标准数据集上具有良好的效果。
-
关键词
文本图
共现关系
文档排序
特征词权重
-
Keywords
text graph
co-occurrence relation
document ranking
term weight
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于文档相似度的检索结果重排序方法
被引量:9
- 2
-
-
作者
周博
岑荣伟
刘奕群
张敏
金奕江
马少平
-
机构
智能技术与系统国家重点实验室清华大学计算机科学与技术系
-
出处
《中文信息学报》
CSCD
北大核心
2010年第3期19-23,36,共6页
-
基金
国家自然科学基金资助项目(60736044
60903107)
+2 种基金
高等学校博士学科点专项科研基金资助项目(20090002120005)
973国家重点基础研究资助项目(2004CB318108)
863计划高科技资助项目(2006AA01Z141)
-
文摘
对相关反馈问题的研究已有近30年的历史,相关反馈也被证明可以大程度稳定地提升检索系统的性能。当前网络环境下相关反馈的应用以及用户提供反馈信息的方式已经发生了明显的变化,因此相关反馈研究又一次引起了研究界的注意。该文提出了一种基于文档相似度的搜索结果重排序方法,该方法同时利用了反馈信息中的相关文档与不相关文档。在大规模网络信息检索标准实验数据上的实验结果表明:该方法不仅可以稳定地提高系统的检索性能,并且相较于经典的查询扩展方法有着明显的优势。
-
关键词
计算机应用
中文信息处理
相关反馈
文档重排序
信息检索
-
Keywords
computer application
Chinese information processing
relevance feedback
document re-ranking
search engine
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名数学公式信息检索系统
- 3
-
-
作者
侯勇
朱俊杰
-
机构
蚌埠学院计算机与信息工程学院
-
出处
《池州学院学报》
2023年第6期5-10,共6页
-
基金
安徽省高校优秀人才培养项目(gxyq2018107)
安徽省教育厅重点项目(KJ2020A0744)
蚌埠学院高层次人才启动项目(BBXY2018KYQD07)。
-
文摘
设计并实现了数学公式信息检索系统MFIRS,该系统的体系结构主要包括输入规范化、统一化数学公式、编码数学公式、抽取文本信息、抽取数学公式依存图、索引数学公式、检索与排名等模块。提出了一种基于表示型MathML的数学公式相似性索引方法。使用了大约7.9×10^(5)个arXiv文档和大约1.5×10^(8)个数学公式创建了Mathreteval数据集,并在此数据集上,对系统的可扩展性进行了验证。该系统前端采用web界面,允许用户在检索时,用纯文本和数学公式组成的复杂查询,数学公式可采用TEX语言或MathML编写。用TEX语言查询时,能够即时将其转换为表示型MathML树,再进行索引。此MFIRS是一种具有数学感知特点的数学公式信息检索系统,能够使用子公式相似性检索,并实现了对邻近数学公式的索引。
-
关键词
数学公式
索引
检索
数学内容表示
文档排序
检索系统
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名搜索引擎原理剖析及其技术发展
被引量:16
- 4
-
-
作者
余艳
-
机构
北京大学信息管理系
-
出处
《图书馆学刊》
2004年第1期58-60,共3页
-
文摘
搜索引擎是一个集多种技术于一体的综合性系统。文章对搜索引擎的工作原理进行剖析,对搜索引擎的各个组成部分所涉及的主流技术进行了详尽的阐述。元搜索引擎作为一种新型的搜索引擎,文中对此进行了分析和比较。在了解搜索的原理,搜索引擎的技术所依赖的理论模型,以及在此领域已有的研究成果的基础上,展望了未来搜索引擎的发展趋势。
-
关键词
元搜索引擎
ROBOT
搜索策略
文档排序
Google
HITS
迭代算法
META
-
分类号
G354.2
[文化科学—情报学]
TP393.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于推理网络的文本检索模型
- 5
-
-
作者
刘树安
于大鹏
-
机构
东北大学信息科学与工程学院
-
出处
《控制与决策》
EI
CSCD
北大核心
2001年第B11期805-807,817,共4页
-
文摘
在研究现有文本信息检索技术的基础上 ,设计了基于推理网络的文本检索模型。提出一种改进的推理算法 ,以实现从文档观察事件到索引词出现事件的推理 ,使新模型可以更全面地利用文本数据信息。
-
关键词
文本信息检索
推理网络
文本检索模型
文档排序
-
Keywords
text information retrieval
information retrieval model, inference network
-
分类号
G354.47
[文化科学—情报学]
-
-
题名基于全文检索引擎的信息检索技术的应用研究
被引量:8
- 6
-
-
作者
励子闰
余青松
陈胜东
-
机构
华东师范大学信息学院计算中心
-
出处
《计算机与数字工程》
2008年第9期81-85,共5页
-
文摘
利用基于JAVA的全文检索引擎Lucene软件包实现了一个电子文档全文检索,并对文本建立索引的4种不同的分词方式进行了讨论及适当地改进。为了提高搜索结果的准确度,在原有文档相关度排序算法的基础上,采用了基于用户行为的二次检索方式。在提高用户体验度方面,采用了Ajax异步通信技术,在用户输入查询条件时,实时地从数据库中提取相关关键词,给与用户提示,供用户选择。
-
关键词
搜索引擎
LUCENE
中文分词
文档排序
AJAX
-
Keywords
search engine, Lucene, chinese word separating, document sorting,Ajax
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名基于文档重排列的中文信息检索系统(英文)
- 7
-
-
作者
陈禹
史晓东
-
机构
厦门大学计算机科学系
-
出处
《心智与计算》
2007年第4期448-457,共10页
-
文摘
对于文本信息检索,用户都希望从被检索出来的前N篇文章中得到更多的相关信息。本文介绍一个基于文档重排列的中文信息检索系统。为了通过重排列初检索文本来提高检索结果的精确率,该系统按照初检索结果中前100个排列文档中的关键词的分布对结果中的所有1000个文档进行重排列。实验中使用NTCIR-3正式的中文测试数据作为测试集,结果表明,该系统对中文文本检索精确率的提高取得一定的效果。
-
关键词
中文信息系统
文档重排序
扩展查询
-
Keywords
Chinese Information Retrieval
Document Re-ranking
Query Expansion
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-