期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
自动关键词抽取研究综述 被引量:89
1
作者 赵京胜 朱巧明 +1 位作者 周国栋 张丽 《软件学报》 EI CSCD 北大核心 2017年第9期2431-2449,共19页
自动关键词抽取是从文本或文本集合中自动抽取主题性或重要性的词或短语,是文本检索、文本摘要等许多文本挖掘任务的基础性和必要性的工作.探讨了关键词和自动关键词抽取的内涵,从语言学、认知科学、复杂性科学、心理学和社会科学等多... 自动关键词抽取是从文本或文本集合中自动抽取主题性或重要性的词或短语,是文本检索、文本摘要等许多文本挖掘任务的基础性和必要性的工作.探讨了关键词和自动关键词抽取的内涵,从语言学、认知科学、复杂性科学、心理学和社会科学等多个方面研究了自动关键词抽取的理论基础.从宏观、中观和微观角度,回顾和分析了自动关键词抽取的发展、技术和方法.针对目前广泛应用的自动关键词抽取方法,包括统计法、基于主题的方法、基于网络图的方法等,总结了其关键技术和研究进展.对自动关键词抽取的评价方式进行了分析,对自动关键词抽取面临的挑战和研究趋势进行了预测. 展开更多
关键词 自动关键词抽取 机器学习 统计 主题 语言网络图
下载PDF
基于文本摘要的无监督关键词抽取方法
2
作者 尤泽顺 周喜 +2 位作者 董瑞 张洋宁 杨奉毅 《计算机工程与设计》 北大核心 2024年第9期2779-2784,共6页
为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基... 为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基于嵌入的方法选择关键词时忽略候选词之间的关联,针对该问题,在SDERank的改进版SDERank+中,PageRank算法被用于提取候选词之间的共现权重作为相似度分数的修正。实验结果表明,在4个广泛使用的数据集上SDERank和SDERank+比之前最好的模型MDERank的F1分数平均高出2.2%和3.29%。 展开更多
关键词 自动关键词抽取 文本摘要 长文档建模 文档主题分析 语义处理 权重优化 向量相似性
下载PDF
适用于隐含主题抽取的K最近邻关键词自动抽取 被引量:4
3
作者 张庆国 章成志 +1 位作者 薛德军 张君玉 《情报学报》 CSSCI 北大核心 2009年第2期163-168,共6页
众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现。本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法。现有的关键词抽取技术仅仅是对正文词汇的抽取,不能抽取隐含主题。隐含主... 众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现。本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法。现有的关键词抽取技术仅仅是对正文词汇的抽取,不能抽取隐含主题。隐含主题的抽取是关键词自动抽取技术的难点,但是该方法可以有效抽取隐含主题。该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K最近邻方法构建新文献的关键词候选集;最后,根据关键词本身的特点对候选关键词做了有效的后处理。实验表明,该方法不仅可以提高关键词抽取的准确率和召回率,还可以有效抽取文章的隐含主题。 展开更多
关键词 关键词自动抽取 K最近邻 隐含主题 向量空间模型
下载PDF
基于字同现频率的关键词自动抽取 被引量:4
4
作者 都云程 周伟 +1 位作者 韩艳铧 吕学强 《北京信息科技大学学报(自然科学版)》 2011年第6期35-38,共4页
为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设... 为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设计了关键词抽取的对比实验,验证该算法的有效性。实验结果表明该算法在准确率和召回率上具有优势。 展开更多
关键词 关键词自动抽取 字同现 TF/IDF 信息量
下载PDF
面向Web文本关键词自动抽取的DON模型研究
5
作者 彭浩 蔡美玲 +1 位作者 王瑞龙 余炳锐 《计算机工程与应用》 CSCD 2012年第31期115-119,共5页
Web网页中往往包含许多主题噪声,准确地自动抽取关键词成为技术难点。提出了一个文本对象网络模型DON,给出了对象节点的中心度概念和基于中心度的影响因子传播规则,并据此自动聚集DON中的主题社区(topic society),从而提高了模型的抗噪... Web网页中往往包含许多主题噪声,准确地自动抽取关键词成为技术难点。提出了一个文本对象网络模型DON,给出了对象节点的中心度概念和基于中心度的影响因子传播规则,并据此自动聚集DON中的主题社区(topic society),从而提高了模型的抗噪能力。提出一个基于DON的网页关键词自动抽取算法KEYDON(Keywords Extraction Algorithm Based on DON)。实验结果表明,与基于DocView模型的相应算法相比,KEYDON的准确率提高了近20%,这说明DON模型具有较强的抑制主题噪声能力。 展开更多
关键词 文本对象网络 DON 中心度 影响因子 关键词自动抽取 网页
下载PDF
面向导航型网页关键词自动抽取的视觉模型与算法
6
作者 彭浩 蔡美玲 +2 位作者 陈继锋 刘炽 余炳锐 《计算机应用》 CSCD 北大核心 2012年第8期2360-2363,2368,共5页
导航型网页中往往包含了大量的噪声信息,为自动提取网页中的关键词带来了较大的困难。为此,提出一个新的网页表示模型PIX-PAGE和导航型网页关键词自动抽取算法P-KEA。PIX-PAGE模型利用提出的区域合并算法,将一张网页分割为适当粒度的区... 导航型网页中往往包含了大量的噪声信息,为自动提取网页中的关键词带来了较大的困难。为此,提出一个新的网页表示模型PIX-PAGE和导航型网页关键词自动抽取算法P-KEA。PIX-PAGE模型利用提出的区域合并算法,将一张网页分割为适当粒度的区域;然后,依据人类视觉特点,对各区域进行视觉"奇异性"量化,同时利用奇异性传递规则进一步强化关键词相关区域的视觉"奇异性"。P-KEA根据PIX-PAGE模型模型的视觉量化结果,能够较准确地找到视觉突出区域中的关键词。实验结果表明,与基于DocView模型的算法DVM相比,P-KEA的准确率平均提高了20.9%。 展开更多
关键词 区域合并 视觉量化 网页表示模型 关键词自动抽取
下载PDF
海量数据集上基于特征组合的关键词自动抽取 被引量:17
7
作者 张庆国 薛德军 +1 位作者 张振海 张君玉 《情报学报》 CSSCI 北大核心 2006年第5期587-593,共7页
关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇。小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及。本文利用现有... 关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇。小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及。本文利用现有的信息检索技术,对海量数据集上自动抽取关键词问题进行了研究,给出了一个基于特征组合的关键词自动抽取方法。该方法构造了一个大规模的关键词词典;基于TF×IDF值和其他特征,提出了更有效的关键词权重计算方法;根据关键词本身的特点,对候选关键词进行了后处理,使得抽取的关键词更符合读者的要求。本文的后续实验表明,该方法同基于Bayes和KNN等的机器学习方法相比,性能相当。使用自动评价和人工评价两种方法对抽取的关键词进行了评估。专业编辑对抽取结果的人工评价显示,约95%的自动抽取的关键词可以被专业编辑或者读者接受。 展开更多
关键词 关键词自动抽取 特征组合 海量数据集 TF×IDF
下载PDF
可应用于互联网的自学习中文关键词抽取算法 被引量:8
8
作者 于琨 糜仲春 蔡庆生 《中国科学技术大学学报》 CAS CSCD 北大核心 2002年第3期381-384,共4页
论文提出了一种自学习中文关键词抽取算法 ,该算法可以辅助实现互联网上的智能信息获取 ,从而有效解决互联网信息爆炸问题 .该算法现已用于课题组开发的互联网信息智能获取工具中 ,实验表明该算法的查全率与查准率较高 ,在互联网信息智... 论文提出了一种自学习中文关键词抽取算法 ,该算法可以辅助实现互联网上的智能信息获取 ,从而有效解决互联网信息爆炸问题 .该算法现已用于课题组开发的互联网信息智能获取工具中 ,实验表明该算法的查全率与查准率较高 ,在互联网信息智能获取中具有广阔的应用前景 . 展开更多
关键词 自学习关键词自动抽取算法 互联网 信息智能获取 中文信息处理 查全率 查准率
下载PDF
其它计算机理论与技术
9
《电子科技文摘》 2001年第4期106-107,共2页
Y2000-62515 01066132000年第9届模糊系统国际会议录,卷2=2000 theninth IEEE international conference on fuzzy systems,Vol.2 of 2[会,英]/The IEEE Neural Networks Coun-cil.—IEEE,2000.—1080P.(EC)本会议录共分2卷,本书为第2卷... Y2000-62515 01066132000年第9届模糊系统国际会议录,卷2=2000 theninth IEEE international conference on fuzzy systems,Vol.2 of 2[会,英]/The IEEE Neural Networks Coun-cil.—IEEE,2000.—1080P.(EC)本会议录共分2卷,本书为第2卷,收集了于2000年5月7~10日在德克萨斯州 San Antonio 召开的模糊系统会议上发表的100篇论文,内容涉及模糊控制,模糊逻辑,神经模糊模型与控制,智能计算,模糊查询及关键词自动抽取,可能性理论,Takagi-Sugeno模糊系统生成,学习系统与寻优计算,信号处理与通信,数据库与专家系统。 展开更多
关键词 模糊系统 神经网络系统 计算机研究 国际会议 关键词自动抽取 模糊控制 模糊逻辑 模糊模型 专家系统 可能性理论
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部