期刊文献+
共找到150篇文章
< 1 2 8 >
每页显示 20 50 100
一种无需手工标注的半监督学习关键词抽取方法
1
作者 蔡茂东 沈国华 黄志球 《小型微型计算机系统》 CSCD 北大核心 2024年第1期69-74,共6页
关键词的自动抽取技术是为了满足信息时代人们对特定领域知识快速便捷获取的需求.它也是机器翻译、信息检索、知识图谱构建等应用场景中的关键基础问题和研究热点.监督学习方法的效果是建立在有现成的大量的带有准确标注的高质量的数据... 关键词的自动抽取技术是为了满足信息时代人们对特定领域知识快速便捷获取的需求.它也是机器翻译、信息检索、知识图谱构建等应用场景中的关键基础问题和研究热点.监督学习方法的效果是建立在有现成的大量的带有准确标注的高质量的数据集的前提上的,无法在低资源环境下快速运用.本文提出了一种考虑词频、词长以及词大小写特征的无监督算法以及结合了该无监督算法的自扩展迭代的半监督学习关键词抽取方法.半监督学习方法在同样无需手工标注关键词的前提下,相比无监督算法具有更高的F1值. 展开更多
关键词 半监督学习 无监督算法 自扩展迭代 低资源环境 关键词抽取
下载PDF
基于舆情新闻的中文关键词抽取综述 被引量:1
2
作者 杨文忠 丁甜甜 +1 位作者 康鹏 卜文秀 《计算机工程》 CAS CSCD 北大核心 2023年第3期1-17,共17页
基于舆情事件的关键词抽取算法作为舆情监测的基础技术之一,其目的是在不同的舆情事件中抽取出人们关注的核心词汇,从而快速了解新闻内容。随着深度学习的发展,传统的无监督关键词抽取技术和有监督算法中的分类模型已经逐渐被基于深度... 基于舆情事件的关键词抽取算法作为舆情监测的基础技术之一,其目的是在不同的舆情事件中抽取出人们关注的核心词汇,从而快速了解新闻内容。随着深度学习的发展,传统的无监督关键词抽取技术和有监督算法中的分类模型已经逐渐被基于深度学习的序列标注模型所替代。梳理无监督关键词抽取的限制性、分类模型在关键词抽取中的优势与不足、以及现有的深度学习对关键词抽取技术发展的帮助,重点分析整体关键词抽取技术的发展中卷积神经网络、循环神经网络等深度学习的关键词抽取方法,并归纳现有方法的优缺点与发展趋势。此外,深度学习虽然在关键词抽取领域发挥了重要的作用,但其自身也存在着依赖大规模带标签样本、训练时间长与复杂度高等缺陷,需要在未来发展中进行解决。为确保分析过程的真实性,利用6个舆情新闻数据集和2个小型数据集进行实验复现,实验结果与文中理论分析一致。在此基础上,对关键词抽取技术及其所面临的困难和挑战进行梳理和分析,并针对现存问题对该领域的发展前景加以展望。 展开更多
关键词 舆情监测 关键词抽取 核心词汇 深度学习 自然语言处理
下载PDF
基于关键词抽取和提示学习的生成式文本摘要生成方法
3
作者 庞春艳 郑虹 《长春工业大学学报》 2023年第5期461-467,共7页
针对现有的预训练模型难以进行微调以及生成式摘要算法容易产生未登录词的问题提出一种基于关键词抽取和提示学习的摘要方法。首先添加提示学习(Prompt Learning)通过向输入增加提示信息,将下游任务改成文本生成任务,通过对输入文本进... 针对现有的预训练模型难以进行微调以及生成式摘要算法容易产生未登录词的问题提出一种基于关键词抽取和提示学习的摘要方法。首先添加提示学习(Prompt Learning)通过向输入增加提示信息,将下游任务改成文本生成任务,通过对输入文本进行改造,构造人工模板,随之对改造后的输入文本进行关键词提取,并将提取后的关键词与改造后的输入文本拼接,从而构造新的输入,接着引入关键词提取算法TF-IDF加强生成模型对关键词的关注,在CNN/DM数据集上的实验表明,该模型能够有效提高生成文本摘要的质量,使Rouge-1、Rouge-2、Rouge-L值得到了提高。 展开更多
关键词 预训练模型 生成式文本摘要 关键词抽取 提示学习
下载PDF
Tag-TextRank:一种基于Tag的网页关键词抽取方法 被引量:56
4
作者 李鹏 王斌 +2 位作者 石志伟 崔雅超 李恒训 《计算机研究与发展》 EI CSCD 北大核心 2012年第11期2344-2351,共8页
关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值.利用一种近年来受到广泛关注的新的信息源——社会化标签(tag)——来提高网页关键词抽取的质量.通过对Tag数据进行统计分析,发现用户往往对多个在话题... 关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值.利用一种近年来受到广泛关注的新的信息源——社会化标签(tag)——来提高网页关键词抽取的质量.通过对Tag数据进行统计分析,发现用户往往对多个在话题上相关的网页使用同样的标签词,一个特定的文档可以通过其标注信息找到相关文档.在此基础上,提出了利用Tag进行关键词抽取的框架,并给出了一种具体的实现方法Tag-TextRank.该方法在TextRank基础上,通过目标文档中的每个Tag引入相关文档来估计词项图的边权重并计算得到词项的重要度,最后将不同Tag下的词项权重计算结果进行融合.在公开语料上的实验表明,Tag-TextRank在各项评价指标上均优于经典的关键词抽取方法TextRank,并具有很好的推广性. 展开更多
关键词 社会化标注 标签 关键词抽取 网页关键词抽取 TextRank
下载PDF
自动关键词抽取研究综述 被引量:86
5
作者 赵京胜 朱巧明 +1 位作者 周国栋 张丽 《软件学报》 EI CSCD 北大核心 2017年第9期2431-2449,共19页
自动关键词抽取是从文本或文本集合中自动抽取主题性或重要性的词或短语,是文本检索、文本摘要等许多文本挖掘任务的基础性和必要性的工作.探讨了关键词和自动关键词抽取的内涵,从语言学、认知科学、复杂性科学、心理学和社会科学等多... 自动关键词抽取是从文本或文本集合中自动抽取主题性或重要性的词或短语,是文本检索、文本摘要等许多文本挖掘任务的基础性和必要性的工作.探讨了关键词和自动关键词抽取的内涵,从语言学、认知科学、复杂性科学、心理学和社会科学等多个方面研究了自动关键词抽取的理论基础.从宏观、中观和微观角度,回顾和分析了自动关键词抽取的发展、技术和方法.针对目前广泛应用的自动关键词抽取方法,包括统计法、基于主题的方法、基于网络图的方法等,总结了其关键技术和研究进展.对自动关键词抽取的评价方式进行了分析,对自动关键词抽取面临的挑战和研究趋势进行了预测. 展开更多
关键词 自动关键词抽取 机器学习 统计 主题 语言网络图
下载PDF
基于主题特征的关键词抽取 被引量:30
6
作者 刘俊 邹东升 +1 位作者 邢欣来 李英豪 《计算机应用研究》 CSCD 北大核心 2012年第11期4224-4227,共4页
为了使抽取出的关键词更能反映文档主题,提出了一种新的词的主题特征(topic feature,TF)计算方法,该方法利用主题模型中词和主题的分布情况计算词的主题特征。并将该特征与关键词抽取中的常用特征结合,用装袋决策树方法构造一个关键词... 为了使抽取出的关键词更能反映文档主题,提出了一种新的词的主题特征(topic feature,TF)计算方法,该方法利用主题模型中词和主题的分布情况计算词的主题特征。并将该特征与关键词抽取中的常用特征结合,用装袋决策树方法构造一个关键词抽取模型。实验结果表明提出的主题特征可以提升关键词抽取的效果,同时验证了装袋决策树在关键词抽取中的适用性。 展开更多
关键词 关键词抽取 主题特征 主题模型 装袋决策树
下载PDF
一种基于LDA模型的关键词抽取方法 被引量:15
7
作者 朱泽德 李淼 +2 位作者 张健 曾伟辉 曾新华 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第6期2142-2148,共7页
为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信... 为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信息排序和选择相邻词汇形成候选关键短语,再使用相似性排除隐含主题一致的冗余短语。此外,从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试,实验在1 040篇中文摘要及5 408个关键词构成的测试集上展开。结果表明,算法有效地提高文档关键词抽取的准确率与召回率。 展开更多
关键词 信息抽取 关键词抽取 LDA模型 主题相似性
下载PDF
融合多特征的TextRank关键词抽取方法 被引量:31
8
作者 李航 唐超兰 +1 位作者 杨贤 沈婉婷 《情报杂志》 CSSCI 北大核心 2017年第8期183-187,共5页
[目的/意义]关键词提取在自然语言处理领域有着广泛的应用,如何快速准确地实现关键词的提取已经成为文本处理的关键问题。目前关键词提取方法非常多,但准确率仍有待提升。为此,提出一种结合单一文档内部结构信息、词语对于单文档和文档... [目的/意义]关键词提取在自然语言处理领域有着广泛的应用,如何快速准确地实现关键词的提取已经成为文本处理的关键问题。目前关键词提取方法非常多,但准确率仍有待提升。为此,提出一种结合单一文档内部结构信息、词语对于单文档和文档集整体的重要性的关键词抽取方法。[方法/过程]首先,根据词语的平均信息熵特征计算词语对文档集整体的重要性,利用词语的词性、位置特征计算词语对单文档中的重要性。然后,通过神经网络训练的方式优化三个特征的权重分配实现特征的融合。最后,利用三个特征计算得到词语的综合权值来改进TextRank模型词汇节点的初始权重以及概率转移矩阵,再通过迭代法实现关键词的抽取。[结果 /结论]该研究方法结合了文档集整体信息和单文档自身信息,其关键词提取的准确率较传统TextRank方法、TFIDF-TextRank方法有了明显的提高。 展开更多
关键词 TextRank算法 关键词抽取 神经网络 平均信息熵
下载PDF
一种基于词汇链的关键词抽取方法 被引量:88
9
作者 索红光 刘玉树 曹淑英 《中文信息学报》 CSCD 北大核心 2006年第6期25-30,共6页
关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇... 关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇链的算法。通过计算词义相似度首先构建词汇链,然后结合词频与区域特征进行关键词选择。该方法考虑了词汇之间的语义信息,能够改善关键词标引的性能。实验结果表明,与单纯的词频、区域方法相比,召回率提高了7.78%,准确率提高了9.33%。 展开更多
关键词 计算机应用 中文信息处理 关键词标引 关键词抽取 词汇链 词义相似度 知网
下载PDF
基于语义联系的新闻网页关键词抽取 被引量:10
10
作者 谢飞 吴信东 +2 位作者 胡学钢 李星华 江兆中 《广西师范大学学报(自然科学版)》 CAS 北大核心 2009年第1期145-148,共4页
提出一种基于语义联系的新闻网页关键词抽取方法,不仅考虑了词语在知识库《知网》中的语义相似度,还考虑词语在具体上下文中的相关性,用词汇链将词语语义联系表示成图形式,在此基础上抽取出新闻网页关键词。对从网易网站选取120篇有核... 提出一种基于语义联系的新闻网页关键词抽取方法,不仅考虑了词语在知识库《知网》中的语义相似度,还考虑词语在具体上下文中的相关性,用词汇链将词语语义联系表示成图形式,在此基础上抽取出新闻网页关键词。对从网易网站选取120篇有核心提示的新闻网页进行测试,实验结果表明,所提出的方法比基于词频的关键词抽取方法和基于《知网》语义相似度构建词汇链的关键词抽取方法,在准确率和召回率上有很大的提高,当抽取关键词个数为3时,比基于词频方法的准确率和召回率分别提高了27.77%和21.38%。 展开更多
关键词 关键词抽取 词汇链 语义联系
下载PDF
关键词抽取方法的研究 被引量:41
11
作者 郑家恒 卢娇丽 《计算机工程》 EI CAS CSCD 北大核心 2005年第18期194-196,共3页
考虑了词频和位置两个因素,并采用非线性函数和“成对比较法”相结合的方法来计算候选词的权重,最终改进了候选词权值的计算,提高了关键词抽取的精度。
关键词 非线性函数 成对比较法 关键词抽取
下载PDF
一种基于TFIDF方法的中文关键词抽取算法 被引量:65
12
作者 徐文海 温有奎 《情报理论与实践》 CSSCI 北大核心 2008年第2期298-302,共5页
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法。该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词。通过自编软件进行... 本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法。该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词。通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著。 展开更多
关键词 关键词抽取 向量空间模型 算法
下载PDF
基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例 被引量:29
13
作者 钱爱兵 江岚 《情报理论与实践》 CSSCI 北大核心 2008年第6期945-950,共6页
结合新闻网页的内容特征对中文网页关键词的构成特点进行阐述;对经典的TF-IDF加权公式进行改进,构建一个综合考虑多种影响因素的候选关键词评分加权公式;对SharpICTCLAS分词进行改进,增加位置标注;选择评分较高的词作为候选关键词,利用... 结合新闻网页的内容特征对中文网页关键词的构成特点进行阐述;对经典的TF-IDF加权公式进行改进,构建一个综合考虑多种影响因素的候选关键词评分加权公式;对SharpICTCLAS分词进行改进,增加位置标注;选择评分较高的词作为候选关键词,利用词的位置标注进行关键词抽取优化操作,将"切碎"的候选关键词进行组配,形成正式抽取的关键词。实验结果表明:该方法明显优于基准方法,能够抽取到令人满意的关键词。 展开更多
关键词 词频 逆文档频率 新闻网页 关键词抽取
下载PDF
专利文献中关键词抽取方法的改进 被引量:5
14
作者 刘峰 吴瑞红 +1 位作者 徐川 吕学强 《情报杂志》 CSSCI 北大核心 2014年第12期36-40,共5页
专利关键词是对专利文献的高度概括,正确提取专利文献中的关键词对于专利文献的分类、标引、聚类等具有重要意义。结合专利文献的特点,在目前已有方法的基础上,提出了专利文献中领域公共词提取方法、词素加权方法以及并列结构惩罚的方法... 专利关键词是对专利文献的高度概括,正确提取专利文献中的关键词对于专利文献的分类、标引、聚类等具有重要意义。结合专利文献的特点,在目前已有方法的基础上,提出了专利文献中领域公共词提取方法、词素加权方法以及并列结构惩罚的方法,将其应用到专利文献关键词抽取中。在过滤公共词的基础上,综合运用词在文献中出现的位置、词频、词素和并列结构计算词对文献主题的影响度,抽取专利文献中的关键词。实验结果表明,在抽取关键词个数为5-9个时,所提方法优于局部加权TF-IDF方法,验证了所提方法的有效性。 展开更多
关键词 专利文献 专利关键词 关键词抽取 公共词
下载PDF
基于带权语言网络的网页关键词抽取 被引量:5
15
作者 任克强 赵光甫 张国萍 《计算机工程与应用》 CSCD 北大核心 2008年第8期155-157,共3页
论述了网页文档带权语言网络的建立过程,给出了结合介数指标与紧密度指标的词语综合中心度度量方法,实验表明采用该方法的关键词抽取结果能够很好地符合网页主题。
关键词 网页 语言网络 关键词抽取 中心度
下载PDF
基于多特征的中文关键词抽取方法 被引量:6
16
作者 杨颖 戴彬 《计算机应用与软件》 CSCD 北大核心 2014年第11期109-112,共4页
关键词抽取是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础。在分析传统中文关键词抽取方法不足的基础上,提出一种基于多特征的中文关键词提取方法。该方法在抽取中文关键词过程中,从词频、关联度、词性以及位置等多种特... 关键词抽取是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础。在分析传统中文关键词抽取方法不足的基础上,提出一种基于多特征的中文关键词提取方法。该方法在抽取中文关键词过程中,从词频、关联度、词性以及位置等多种特征来全面考查关键词,有效地避免了传统关键词提取方法产生的偏差。实验结果表明,与传统方法相比,该方法在不同测试集上关键词提取的平均召回率均得到明显提升。 展开更多
关键词 关键词抽取 词频 关联度 文本聚类
下载PDF
基于改进TextRank的关键词抽取算法 被引量:14
17
作者 张莉婧 李业丽 +2 位作者 曾庆涛 雷嘉丽 杨鹏 《北京印刷学院学报》 2016年第4期51-55,共5页
为了解决TextRank算法的初始权值问题,提高关键词的抽取质量,在TextRank算法的基础上,引入了G1赋权法对TF-IDF算法的词语位置、词语长度和词性等3个属性赋予不同的权重,设计并实现了综合权重法的关键词抽取算法——TextRank-CM算法。将T... 为了解决TextRank算法的初始权值问题,提高关键词的抽取质量,在TextRank算法的基础上,引入了G1赋权法对TF-IDF算法的词语位置、词语长度和词性等3个属性赋予不同的权重,设计并实现了综合权重法的关键词抽取算法——TextRank-CM算法。将TextRank-CM算法、TextRank+TF-IDF算法和TextRank算法分别应用于中文关键词的抽取,结果表明:TextRank-CM算法在中文关键词抽取中的准确率和召回率明显优于另两种算法。 展开更多
关键词 TextRank-CM算法 TextRank算法 G1赋权法 关键词抽取
下载PDF
一种从医学文本中实现自动关键词抽取和筛选的技术方法 被引量:3
18
作者 殷蜀梅 张智雄 吴振新 《现代图书情报技术》 CSSCI 北大核心 2008年第8期31-36,共6页
鉴于重要关键词对于文本有着重要的强文本表示功能,关键词抽取和筛选在信息检索、信息抽取和知识挖掘等领域中有着重要的作用。在调研当前关键词抽取的方法后,结合医学领域已有的叙词表和工具以及BM25F加权词频公式提出基于医学文本的... 鉴于重要关键词对于文本有着重要的强文本表示功能,关键词抽取和筛选在信息检索、信息抽取和知识挖掘等领域中有着重要的作用。在调研当前关键词抽取的方法后,结合医学领域已有的叙词表和工具以及BM25F加权词频公式提出基于医学文本的重要关键词抽取和筛选的技术方法。该方法主要解决两个关键问题:关键词的识别和抽取、关键词重要性的衡量和筛选。以2001-2007年骨关节炎领域的文献集合为数据来源,对该技术方法进行实践尝试,并验证其实际有效性,为知识挖掘中的重要关键词抽取提供一个行之有效的途径。 展开更多
关键词 关键词抽取 关键词筛选 BM25F MMTx文本挖掘 医学数据挖掘
下载PDF
改进的关键词抽取方法研究 被引量:4
19
作者 邓箴 包宏 《计算机工程与设计》 CSCD 北大核心 2009年第20期4677-4680,4769,共5页
在关键词抽取方法研究中,提出了多步骤的,针对任意领域的文本关键词抽取方法。该方法采用多元文法进行候选关键词抽取,提出了基于语言学特征的扩展tf/idf关键词的加权计算方法,以及能够抽取未登录词的关键词的方法和对关键词抽取进行优... 在关键词抽取方法研究中,提出了多步骤的,针对任意领域的文本关键词抽取方法。该方法采用多元文法进行候选关键词抽取,提出了基于语言学特征的扩展tf/idf关键词的加权计算方法,以及能够抽取未登录词的关键词的方法和对关键词抽取进行优化的策略。首次提出了用支持向量机对最后的抽取结果进行优化。实验结果表明,该方法与单纯的tf/idf算法相比,具有更高的查准率和查全率。 展开更多
关键词 关键词抽取语言学特征 特征拟合 多元文法 支持向量机
下载PDF
基于语义扩展模型的中文网页关键词抽取 被引量:4
20
作者 汪洋 帅建梅 《计算机工程》 CAS CSCD 2012年第22期163-166,共4页
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方... 提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。 展开更多
关键词 中文网页关键词抽取 语义扩展模型 邻接变化数 聚类算法 n—gram语言模型
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部