期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
基于事件框架的事件相关文档的智能检索研究 被引量:30
1
作者 吴平博 陈群秀 马亮 《中文信息学报》 CSCD 北大核心 2003年第6期25-30,59,共7页
在事件相关文档的检索中 ,事件主题的迁移和分化与相似事件的干扰是影响系统性能的两个主要因素。本文提出了一种基于事件框架知识和事件主体信息的检索方法。该方法对事件相关评价函数进行了的改进 :首先 ,从事件语料中提炼出事件的框... 在事件相关文档的检索中 ,事件主题的迁移和分化与相似事件的干扰是影响系统性能的两个主要因素。本文提出了一种基于事件框架知识和事件主体信息的检索方法。该方法对事件相关评价函数进行了的改进 :首先 ,从事件语料中提炼出事件的框架知识、从事件文档中挖掘出表达事件主体的信息 ,然后将这些知识和信息进行向量化 ,最后利用向量化的结果对相关度评价函数进行优化。实验结果表明该方法是有效的 ,明显提高了事件相关文档的检索性能。 展开更多
关键词 计算机应用 中文信息处理 智能检索 事件相关文档 事件框架 事件主体
下载PDF
相关文档探测方法在科技查新中的应用研究 被引量:1
2
作者 曹燕 何晓敏 +2 位作者 陈亮 毛一雷 孙洁 《中国科技资源导刊》 2020年第1期54-61,共8页
当前科技查新工作的特点是高人力、低效率、难复制,查新结果的质量受查新人员业务水平和领域背景知识影响较大,纯粹依靠人工进行查新检索和对检索结果相关性判别无论是从效率还是准确率方面均无法适应科技创新对科技查新工作的新要求。... 当前科技查新工作的特点是高人力、低效率、难复制,查新结果的质量受查新人员业务水平和领域背景知识影响较大,纯粹依靠人工进行查新检索和对检索结果相关性判别无论是从效率还是准确率方面均无法适应科技创新对科技查新工作的新要求。在大数据时代,计算机技术和人工智能的介入可以在一定程度上提高查新的效率和质量。首先提出适用于科技查新业务的相关文档探测方法,将可用信息从文本相似度拓展到词汇、主题和语义维度,来捕捉查新点和科学技术要点与相关文档的关联关系,进而抽取相关特征并将其集成到条件随机场中进行相关文档探测。然后以全国科技查新事实型数据库为数据基础开展实验。实验表明,本文所提出的相关文档探测方法取得了较好的效果,有助于从数据科学和人工智能的角度来理解科技查新的业务和数据,为科技查新的自动化、智能化提供相应参考。 展开更多
关键词 科技查新 相关文档探测 条件随机场 特征选取 文本相似度 共现词汇
下载PDF
基于互信息最大化的文档相关性模型
3
作者 陆敏锋 张启飞 +1 位作者 卢成浪 吴菁 《计算机工程与设计》 北大核心 2024年第9期2712-2718,共7页
针对传统的文档相关性识别方法在训练过程中文档信息提取不充分的问题,提出一种互信息最大化框架下的深度学习方法。涉及一个无监督学习过程,使用全局和局部互信息学习文档表示,最大化神经网络的输入表示和输出表示之间的互信息,提取更... 针对传统的文档相关性识别方法在训练过程中文档信息提取不充分的问题,提出一种互信息最大化框架下的深度学习方法。涉及一个无监督学习过程,使用全局和局部互信息学习文档表示,最大化神经网络的输入表示和输出表示之间的互信息,提取更为丰富的文档内容和结构信息,优化模型预测结果。经过在多项任务上的评估,实验结果表明了该方法的可行性和有效性,与一些传统的方法相比,其在准确度上有相当或更好的表现。 展开更多
关键词 互信息 文档表示 文档相关 最大化 无监督学习 残差网络 全局特征
下载PDF
基于话题相关的文档集的无向基本要素网络的连通性探讨 被引量:2
4
作者 杨华 姬东鸿 陈波 《中文信息学报》 CSCD 北大核心 2015年第4期103-110,共8页
基于数量有限的文档,该文构建以基本要素中的head和modifier为节点的无向网络UBEN,调查了话题相关文档的UBEN的连通性,指出了话题相关的文档的UBEN具有的特性。讨论停用词对UBEN连通性的影响,比较了相关文档集和随机文档集的UBEN的联通... 基于数量有限的文档,该文构建以基本要素中的head和modifier为节点的无向网络UBEN,调查了话题相关文档的UBEN的连通性,指出了话题相关的文档的UBEN具有的特性。讨论停用词对UBEN连通性的影响,比较了相关文档集和随机文档集的UBEN的联通特性的差异,指出了连通性在一定程度上是文档之间内容相关导致的融合结果。结论对多文档自动文摘和信息检索等任务有一定的意义。 展开更多
关键词 话题相关文档 自动文摘 复杂网络 连通性 信息融合
下载PDF
基于术语间本体关联度的文档相关度研究 被引量:4
5
作者 吴树芳 刘畅 徐建民 《现代情报》 CSSCI 2014年第9期56-59,176,共5页
提出了一种基于术语间本体关联度的文档相关度计算方法,该方法利用树状本体结构计算术语间基于本体的关联关系,通过术语组间的本体关联度得到两组词语的本体关联关系,最后结合文档标引词的权重计算两个文档的相关度。新方法从本体的角... 提出了一种基于术语间本体关联度的文档相关度计算方法,该方法利用树状本体结构计算术语间基于本体的关联关系,通过术语组间的本体关联度得到两组词语的本体关联关系,最后结合文档标引词的权重计算两个文档的相关度。新方法从本体的角度将语义信息融入传统向量空间模型,提高了文档相关度计算的准确性。实验选取计算机领域本体作为实验数据,对新方法和传统方法进行综合对比评测,实验结果验证了新方法的有效性和合理性。 展开更多
关键词 本体 术语关系 文档相关
下载PDF
一种基于主题的概率文档相关模型 被引量:3
6
作者 贾西平 彭宏 +1 位作者 郑启伦 石时需 《计算机科学》 CSCD 北大核心 2008年第10期178-180,218,共4页
现有文档关系分析模型难以从主题层次上判别文档相关性。为此,提出了一个基于主题的概率文档相关模型(TPDC)。TPDC借助Latent Dirichlet Allocation模型学习文档的主题结构;在计算出主题后验概率和主题相似度的基础上推导出文档后验概率... 现有文档关系分析模型难以从主题层次上判别文档相关性。为此,提出了一个基于主题的概率文档相关模型(TPDC)。TPDC借助Latent Dirichlet Allocation模型学习文档的主题结构;在计算出主题后验概率和主题相似度的基础上推导出文档后验概率;基于文档后验概率构建文档相关性分析模型。实验结果证明,TPDC模型在文档检索精度和文档压缩程度两方面优于向量空间模型,因而更能胜任实际应用中的文档检索任务。 展开更多
关键词 主题 主题相似性 文档相关 文本挖掘
下载PDF
基于文档相关度计算的网页预测模型 被引量:3
7
作者 朱鲲鹏 魏芳 《计算机应用与软件》 CSCD 北大核心 2012年第2期109-112,189,共5页
基于网络日志挖掘的网页预测系统可以有效地分析用户未来的网络访问请求,从而达到智能推荐、改善网络性能等目的。针对目前的预测模型缺乏有效的语义处理的问题,将词语语义信息和统计语言模型相结合,提出一种基于文档相关度计算的网页... 基于网络日志挖掘的网页预测系统可以有效地分析用户未来的网络访问请求,从而达到智能推荐、改善网络性能等目的。针对目前的预测模型缺乏有效的语义处理的问题,将词语语义信息和统计语言模型相结合,提出一种基于文档相关度计算的网页统计预测模型。通过词频信息和知网(HowNet)中词的概念计算模型计算网页文档间的主题相关度,再将该语义信息与统计模型计算的条件概率值相结合,以此作为预测的依据。实验表明,该技术使预测模型的性能获得了较大的提高。 展开更多
关键词 网页预测 统计语言模型 日志挖掘 文档相关
下载PDF
基于词汇集聚的文档相关性计算 被引量:3
8
作者 赵玉茗 徐志明 +1 位作者 王晓龙 朱鲲鹏 《电子与信息学报》 EI CSCD 北大核心 2008年第10期2512-2515,共4页
该文提出了一种基于词汇集聚的文档相关性计算方法。该方法以知网为知识库,依靠词汇集聚,将文档中存在语义关联的词语连接成链,计算各条词汇链权重,以词汇链为元素对文档进行形式化表示,最终利用文档的此种形式化表示进行相关匹配计算... 该文提出了一种基于词汇集聚的文档相关性计算方法。该方法以知网为知识库,依靠词汇集聚,将文档中存在语义关联的词语连接成链,计算各条词汇链权重,以词汇链为元素对文档进行形式化表示,最终利用文档的此种形式化表示进行相关匹配计算。该文在中图法分类的语料上,开展了文档相关性计算的实验,准确率达到了85.4%。实验结果表明,该方法在一定程度上描述了文档的语义信息,将文档间的相关比较从字符或词层面的直接比较提升到近似概念层次的比较,是一种计算文档间相关性的有效方法。 展开更多
关键词 词汇集聚 文档相关 向量空间模型
下载PDF
一种计算结构化文档相关度的方法
9
作者 赵嫣 马军 李森 《计算机研究与发展》 EI CSCD 北大核心 2007年第z2期350-355,共6页
讨论了如何精确计算结构化文档相关度的理论模型和算法.首先分析了基于语义内容的文档相关度和基于文档特征的文档相似度之间的区别,提出利用树同构思想测量文档语义相关性.在计算过程中,通过为结点赋予不同权重反映匹配结点的位置重要... 讨论了如何精确计算结构化文档相关度的理论模型和算法.首先分析了基于语义内容的文档相关度和基于文档特征的文档相似度之间的区别,提出利用树同构思想测量文档语义相关性.在计算过程中,通过为结点赋予不同权重反映匹配结点的位置重要性,对于未匹配结点则首次提出利用影响因子针对不同情况做适当区分,最后给出文档相关度计算公式.实验证明,此方法能够很好地区分信息检索中的模糊或者相近的请求及文档. 展开更多
关键词 XML 文档相关 结构相似度
下载PDF
财务文档分词及文档相关性分析 被引量:1
10
作者 殷伟 《电脑知识与技术》 2013年第3期1718-1719,1722,共3页
搜集财务专业语料库,利用中科院的分词工具对专业语料库进行分词,计算分词的准确率和召回率,并将结果保存在文件中。计算文档中给定词的词频和反文档频率,并对专业词汇加权,提高专业词汇的重要性,利用数学模型进行文档的相似度匹配。设... 搜集财务专业语料库,利用中科院的分词工具对专业语料库进行分词,计算分词的准确率和召回率,并将结果保存在文件中。计算文档中给定词的词频和反文档频率,并对专业词汇加权,提高专业词汇的重要性,利用数学模型进行文档的相似度匹配。设置阈值,若两篇文档的相似度大于指定阈值,即认定两篇文档相似,进而生成一个矩阵,求解矩阵的连通性,得到该本聚类的结果,并进行文章的相关性分析。该文有利于财务分析人员根据已分类好的财务文档,了解企业过去,评价企业现状,作出对企业有长远影响的决策。 展开更多
关键词 准确率和召回率 财务文档相似度匹配 财务文档相关性分析
下载PDF
自然多值相关性判定下的文献相关性与情报检索效用评价 被引量:2
11
作者 都小健 《情报科学》 1986年第5期30-43,24,共15页
本文对文献相关性的属性和对其处理的历史局限性进行了讨论。作者从文献相关性的多值模糊性出发,改变了“用户二值相关性判定”的传统基本假设,在用户多值相关性判定的思想指导下,以模糊集合论取代普通集合论,对相关性概念给予了新的数... 本文对文献相关性的属性和对其处理的历史局限性进行了讨论。作者从文献相关性的多值模糊性出发,改变了“用户二值相关性判定”的传统基本假设,在用户多值相关性判定的思想指导下,以模糊集合论取代普通集合论,对相关性概念给予了新的数学描述,以此为基础,对建立在二值相关性基础上的传统检索效用评价理论(特别是评价指标)进行了较为系统的修改和扩充,建立了一个新的适用于自然多值相关性判定的广义检索效用评价理论,并对其实用性和优越性进行了实例验证。 展开更多
关键词 相关性判定 文档相关 文献相关 评价指标 情报检索理论 效用 多值相关 情报科学 普通集合论 二值
下载PDF
开放域问答技术研究进展 被引量:17
12
作者 张志昌 张宇 +1 位作者 刘挺 李生 《电子学报》 EI CAS CSCD 北大核心 2009年第5期1058-1069,共12页
问答技术是信息检索和自然语言理解中的研究热点.本文对开放域问答技术在近年来的研究进展进行了总结.针对不同类型的问题,比较了问答系统中问题分析、文档和句段检索、答案抽取各个部分不同实现方法的特点,讨论了这些技术中存在的不足... 问答技术是信息检索和自然语言理解中的研究热点.本文对开放域问答技术在近年来的研究进展进行了总结.针对不同类型的问题,比较了问答系统中问题分析、文档和句段检索、答案抽取各个部分不同实现方法的特点,讨论了这些技术中存在的不足.最后,对问答技术未来的研究趋势进行了分析与展望. 展开更多
关键词 开放域问答 问题分析 相关文档检索 句段检索 答案抽取
下载PDF
基于语义扩展的复合贝叶斯网络检索模型 被引量:9
13
作者 白彦霞 程杰 莫德举 《控制工程》 CSCD 北大核心 2019年第3期602-607,共6页
用户查询与文档之间语义相似或相关,但是词法不匹配是影响信息检索性能的重要原因之一。挖掘术语间的同义词关系,实现查询术语的语义扩展,同时归并简单贝叶斯网络检索模型的检索结果,构造一个复合的贝叶斯网络检索模型。给出复合模型的... 用户查询与文档之间语义相似或相关,但是词法不匹配是影响信息检索性能的重要原因之一。挖掘术语间的同义词关系,实现查询术语的语义扩展,同时归并简单贝叶斯网络检索模型的检索结果,构造一个复合的贝叶斯网络检索模型。给出复合模型的网络拓扑、检索流程以及相应的检索算法。实验结果表明该模型可以在实现语义检索的基础上,进一步优化检索性能。 展开更多
关键词 用户查询 查询术语 相关文档 贝叶斯网络 归并 同义词 信息检索
下载PDF
基于事件的新闻报道分析技术研究进展 被引量:3
14
作者 雷震 吴玲达 +1 位作者 刘宇弛 李卓 《计算机应用研究》 CSCD 北大核心 2007年第5期13-16,共4页
首先给出基于事件的新闻报道分析技术相关概念的定义,并提出一个基于事件的新闻报道分析技术框架;然后从四个方面介绍了基于事件的新闻报道分析中的关键技术,包括事件探测、事件追踪、事件相关文档摘要和事件RSU检索。对一些关键技术进... 首先给出基于事件的新闻报道分析技术相关概念的定义,并提出一个基于事件的新闻报道分析技术框架;然后从四个方面介绍了基于事件的新闻报道分析中的关键技术,包括事件探测、事件追踪、事件相关文档摘要和事件RSU检索。对一些关键技术进行了分类和评价,剖析其优势及不足,通过对各种方法的分析和比较,提出了一些改进的方法和建议。最后展望了未来基于事件的新闻报道分析技术的发展方向。 展开更多
关键词 事件探测 事件追踪 事件相关文档摘要 事件相关故事单元检索
下载PDF
基于内容与结构语义相融合的XML检索结果聚类 被引量:5
15
作者 钟敏娟 《情报学报》 CSSCI 北大核心 2012年第5期515-525,共11页
检索结果聚类是提高检索性能的一种有效手段.其中,如何衡量文档间的相似性是影响聚类质量的关键因素.针对XML文档的内容和结构双重特性,提出了内容与结构语义相融合的扩展向量空间模型,并分析了影响相似性度量的各种特征,进而提出了内... 检索结果聚类是提高检索性能的一种有效手段.其中,如何衡量文档间的相似性是影响聚类质量的关键因素.针对XML文档的内容和结构双重特性,提出了内容与结构语义相融合的扩展向量空间模型,并分析了影响相似性度量的各种特征,进而提出了内容与结构语义相融合的XML语义相似性度量方法.同时,针对IEEE数据集无法提供每篇文档的类别信息,本文从相关文档的分布情况引入了相关簇率和相关文档分布率的概念来进行聚类质量评价.数据集IEEE CS上的实验表明,与同类相似性度量方法和传统方法相比,本文所提方法具有可行性和更好的聚类效果. 展开更多
关键词 XML聚类 标签权重 节点层次 相关簇率 相关文档分布率
下载PDF
基于网络用户行为的搜索引擎系统SISI 被引量:1
16
作者 郭岩 《计算机工程》 CAS CSCD 北大核心 2004年第16期9-11,13,共4页
提出了一种基于网络用户行为的搜索引擎SISI(Similar Interest,Similar access on Internet)。SISI的查询输入是一个Web文档的URL。SISI的检索模型是使用统计的方法基于网络日志中用户对文档的访问频率挖掘相关文档,充分利用了用户在相... 提出了一种基于网络用户行为的搜索引擎SISI(Similar Interest,Similar access on Internet)。SISI的查询输入是一个Web文档的URL。SISI的检索模型是使用统计的方法基于网络日志中用户对文档的访问频率挖掘相关文档,充分利用了用户在相关文档判定上的潜在意识。模型的假设基础是一组兴趣相似的人访问的文档有可能相关。与传统的搜索引擎相比较,搜索引擎SISI具有系统初始化时间代价小、空间代价小等优点。同时SISI的检索优势在于可以查找那些没有显式相似内容的相关文档,尤其是在检索处理时避开了文档的类型,将文本文档和多媒体文档一视同仁。 展开更多
关键词 相关文档 WEB挖掘 网络用户行为 搜索引擎
下载PDF
信息检索与文本挖掘 被引量:2
17
作者 吴健 杜林 《中国经济和信息化》 1999年第43期35-38,共2页
从50年代以来一直使用的是传统的信息检索系统,随着互联网络和计算机的日益普及,基于网络环境下的信息检索系统以它的显著优势引起人们关注并成为新一代研究的课题。而文本挖掘的出现正是为本文信息的整理、分析、挖掘提供了更有效的... 从50年代以来一直使用的是传统的信息检索系统,随着互联网络和计算机的日益普及,基于网络环境下的信息检索系统以它的显著优势引起人们关注并成为新一代研究的课题。而文本挖掘的出现正是为本文信息的整理、分析、挖掘提供了更有效的手段。 展开更多
关键词 文本挖掘 文档数据库 信息检索系统 相关文档 查询精度 查询结果 自然语言处理 召回率 自动文摘 布尔模型
下载PDF
一种基于n-gram短语的文本聚类方法研究
18
作者 孙桂煌 《现代计算机》 2011年第14期9-11,16,共4页
由于文本自身特点使得传统的文档表示模型VSM不能很好地反映文本信息.也让传统数据挖掘聚类算法得不到很好的性能表现。针对传统文本聚类方法中文本表示模型VSM和聚类算法的不足,提出一种基于n—gram短语的文本聚类方法,该方法利用n-... 由于文本自身特点使得传统的文档表示模型VSM不能很好地反映文本信息.也让传统数据挖掘聚类算法得不到很好的性能表现。针对传统文本聚类方法中文本表示模型VSM和聚类算法的不足,提出一种基于n—gram短语的文本聚类方法,该方法利用n-gram短语构建短语文档相关模型,将其转换成相关文档模型,在相关文档模型基础上进行文档聚类。实验结果显示,此方法是一种能获得较好聚类结果的有效方法。 展开更多
关键词 文本聚类 n-gram短语 向量空间模型 相关文档模型
下载PDF
信息检索中的聚类分析技术 被引量:9
19
作者 刘远超 王晓龙 +1 位作者 刘秉权 钟彬彬 《电子与信息学报》 EI CSCD 北大核心 2006年第4期606-609,共4页
信息检索/搜索引擎技术的快速发展使得信息的查全率有较大提高,而查准率以及人们获取信息的效率改善却不明显。文本聚类和多文档关键词的自动生成技术将有助于解决这一问题。其基本思想是对检索到的部分文档进行聚类处理,并对每类文档... 信息检索/搜索引擎技术的快速发展使得信息的查全率有较大提高,而查准率以及人们获取信息的效率改善却不明显。文本聚类和多文档关键词的自动生成技术将有助于解决这一问题。其基本思想是对检索到的部分文档进行聚类处理,并对每类文档自动生成关键词,从而帮助用户判断各个类别的文档和检索需求是否相关。该文提出文档相关度和类别相关度的概念,并利用词频信息以及知网(HOWNET)中词的概念计算模型计算类别相关度, 将其作为聚类合并的依据。信息获取的仿真实验表明文档检索效率有较大提高。 展开更多
关键词 文档聚类 关键词抽取 知网 文档相关
下载PDF
基于日志挖掘的检索推荐系统 被引量:3
20
作者 朱鲲鹏 刘文涵 +1 位作者 王晓龙 刘远超 《沈阳建筑大学学报(自然科学版)》 CAS 北大核心 2009年第2期366-370,共5页
目的为了有效地预测用户在信息检索过程中可能点击的检索结果,从而进行网页的智能推荐.方法采取网络日志挖掘的技术,通过词频信息和知网(HowNet)中词的概念计算模型计算网页文档间的主题相关度,再将该语义信息与统计模型计算的条件概率... 目的为了有效地预测用户在信息检索过程中可能点击的检索结果,从而进行网页的智能推荐.方法采取网络日志挖掘的技术,通过词频信息和知网(HowNet)中词的概念计算模型计算网页文档间的主题相关度,再将该语义信息与统计模型计算的条件概率值相结合,以此作为网页推荐的依据.结果提出了一种检索推荐统计模型,并构建了相应的原型系统,实验表明该方法显著提高了推荐系统的准确率.结论这项技术有效地提高了推荐结果与用户信息需求的相关程度,使推荐系统的性能获得了较大地提高,可以很好的应用于信息检索的智能推荐服务领域. 展开更多
关键词 网页推荐 信息检索 日志挖掘 文档相关
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部