期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
基于词性自动机的关键短语抽取方法
1
作者 王凌霄 王弋波 朱礼军 《中国科技资源导刊》 2023年第5期31-40,64,共11页
关键短语抽取是一种识别目标文本中具有特殊价值的关键词组合的自然语言处理任务场景,对科技文献情报挖掘具有重要的实践价值。由于缺少足够的标注数据、知识库、预训练模型,针对前沿细分学科颠覆性内容的关键短语抽取还存在着许多挑战... 关键短语抽取是一种识别目标文本中具有特殊价值的关键词组合的自然语言处理任务场景,对科技文献情报挖掘具有重要的实践价值。由于缺少足够的标注数据、知识库、预训练模型,针对前沿细分学科颠覆性内容的关键短语抽取还存在着许多挑战。将有限状态自动机概念引入关键短语抽取任务中,把关键短语的词性标注组合模式抽象为一系列有限状态自动机文法。这种基于词性自动机的无监督关键短语提取算法,能够在不依赖标注数据和高性能计算设备的条件下,通过高度自定义的词性组合模式,抽取不定长度的细分领域关键短语。这种算法具备运行速度快、环境依赖低、匹配模式多、提取效果好等特点。使用SemEval-2017数据集和智能新药发现领域的文献摘要作为测试数据,将研究所提出的算法和几种广泛应用的关键短语抽取算法进行对比。对比结果显示:这种算法在所有关键词中的准确率达到30.8%,召回率达到34.1%,F1值达到32.4%;在关键短语中的准确率达到30.8%,召回率达到52.0%,F1值达到38.7%。召回率指标与F1指标相比关键词抽取开源算法库有显著提升。 展开更多
关键词 命名实体识别 关键词抽取 关键短语抽取 有限状态自动机 词性标注
下载PDF
基于知识图谱的中文关键短语提取算法 被引量:1
2
作者 徐远威 李劲华 《计算机应用与软件》 北大核心 2023年第6期250-256,265,共8页
针对传统的中文关键短语算法没有充分考虑到语义关系、涵盖信息量少和准确率低等问题,提出一种基于知识图谱来提取关键短语的算法。该算法运用知识图谱的语义网络结构来挖掘文本中两个词之间的潜在关系,通过赋予边权值具体量化潜在关系... 针对传统的中文关键短语算法没有充分考虑到语义关系、涵盖信息量少和准确率低等问题,提出一种基于知识图谱来提取关键短语的算法。该算法运用知识图谱的语义网络结构来挖掘文本中两个词之间的潜在关系,通过赋予边权值具体量化潜在关系,构建集成近邻传播(Affinity Propagation,AP)聚类和图的中心性算法来提取关键短语的框架。实验表明,与多种传统关键短语提取算法相比,该算法在准确率、召回率和F1值上有较明显的提升。 展开更多
关键词 关键短语提取 知识图谱 近邻传播聚类 中心性算法
下载PDF
基于关键短语抽取与答案过滤的问答对生成
3
作者 郭峥嵘 郭躬德 王晖 《计算机系统应用》 2023年第6期293-300,共8页
高质量的问答对有助于从文章中获取知识,提高问答系统性能,促进机器阅读理解,在人类活动和人工智能领域中都起着较为重要的作用.当前主要问答对生成方法依靠提供文章中的候选答案,根据答案生成特定的问题.然而一些候选答案可能会生成无... 高质量的问答对有助于从文章中获取知识,提高问答系统性能,促进机器阅读理解,在人类活动和人工智能领域中都起着较为重要的作用.当前主要问答对生成方法依靠提供文章中的候选答案,根据答案生成特定的问题.然而一些候选答案可能会生成无法从文章中回答的问题,或是生成问题的答案不再是候选答案,造成问答对相关性差,影响问答对的质量.针对此问题,本文提出了一个基于关键短语抽取与过滤生成问答对的方法.该方法能够在输入文本中自动抽取适合生成问题的关键短语作为候选答案,再根据候选答案在问题生成器和答案生成器中生成问答对,并通过对比候选答案与生成答案的相似度过滤相关性低的问答对,最终输出保证质量的问答对.本方法在SQUAD1.1和NewsQA数据集上进行了实验验证,并人工检验了生成的问答对的质量,结果表明该方法可以有效提高生成的问答对的质量. 展开更多
关键词 问答对 候选答案 关键短语抽取 T5模型 相似度过滤
下载PDF
融合位置特征的关键短语集合抽取模型
4
作者 于子健 孙海春 李欣 《智能计算机与应用》 2023年第2期20-28,共9页
关键短语抽取任务是文本知识抽取任务的基础性工作,存在关键短语抽取边界不清晰、抽取结果重复率较高等问题,导致抽取结果准确性不佳。本文针对关键短语出现在文章中的位置特征建模,基于Transfomer编码器-解码器结构,结合位置特征与预... 关键短语抽取任务是文本知识抽取任务的基础性工作,存在关键短语抽取边界不清晰、抽取结果重复率较高等问题,导致抽取结果准确性不佳。本文针对关键短语出现在文章中的位置特征建模,基于Transfomer编码器-解码器结构,结合位置特征与预训练模型对关键短语进行预测,提出一种端到端的关键短语预测模型;在模型训练过程中,采用了基于匈牙利算法对预测值与真实值进行序列对应的交叉熵损失函数,使关键短语预测过程,排除序列生成方法中预定排序的影响,并以集合的方式抽取关键短语。分别在Inspec、SemEval2017、KP20k数据集进行了实验验证,与现有方法相比较,本文模型F1值均有所提升,有助于提升文本信息的关键短语抽取效果。 展开更多
关键词 关键短语抽取 位置特征 知识抽取 编码器-解码器 预训练模型
下载PDF
基于词汇链的关键短语抽取方法的研究 被引量:14
5
作者 刘铭 王晓龙 刘远超 《计算机学报》 EI CSCD 北大核心 2010年第7期1246-1255,共10页
文中提出一种基于词汇链的关键短语抽取算法,算法首先通过构造多条词汇链来表达文章的多条叙事线索,并从多条词汇链中抽取富含主题信息的强链代表文章着重叙述的信息,然后从强链中选取能够从不同侧面充分表达强链所述信息的短语作为文... 文中提出一种基于词汇链的关键短语抽取算法,算法首先通过构造多条词汇链来表达文章的多条叙事线索,并从多条词汇链中抽取富含主题信息的强链代表文章着重叙述的信息,然后从强链中选取能够从不同侧面充分表达强链所述信息的短语作为文章的关键短语.实验表明该算法抽取的关键短语能够更全面地覆盖文章的主题信息.算法消除了多个关键短语表达同一主题信息的冗余性,同时可以根据文章主题的分布动态确定输出的关键短语的数量,其效果明显优于采用统计信息进行关键词抽取的方法. 展开更多
关键词 词汇链 知网 中心词聚类 关键短语 词义获取
下载PDF
基于加权复杂网络的中文文档关键短语抽取 被引量:5
6
作者 林煜熙 梁颖红 +2 位作者 韩艳 张永刚 姚建民 《微电子学与计算机》 CSCD 北大核心 2009年第10期65-68,73,共5页
提出了基于加权复杂网络的中文文档关键短语抽取方法.在识别完整短语后,将单个文档构建成一个语义复杂网络,同时加以共现信息对网络予以权重.之后进行网络分离,计算主体网络节点的加权点度中心度,同时提出基于边界节点的介数,解决了介... 提出了基于加权复杂网络的中文文档关键短语抽取方法.在识别完整短语后,将单个文档构建成一个语义复杂网络,同时加以共现信息对网络予以权重.之后进行网络分离,计算主体网络节点的加权点度中心度,同时提出基于边界节点的介数,解决了介数计算量大的问题.最后结合加权点度中心度和基于边界节点的介数抽取出关键短语,表现出良好的抽取效果,对利用复杂网络抽取关键短语有很好的指导作用. 展开更多
关键词 关键短语抽取 加权复杂网络 网络分离 加权点度中心度 边界节点 介数
下载PDF
基于统计的中文关键短语自动抽取 被引量:4
7
作者 张永刚 梁颖红 +1 位作者 颜振祥 姚建民 《江南大学学报(自然科学版)》 CAS 2010年第1期26-29,共4页
用统计的方法从单文本中自动抽取关键短语。在实验中验证了频度、首位置作为特征的有效性。用各种方法过滤非法词串,综合短语位置和统计特征对候选短语进行权重计算,并依据关键短语分布规律选择关键短语。另外,通过分析关键短语分布特点... 用统计的方法从单文本中自动抽取关键短语。在实验中验证了频度、首位置作为特征的有效性。用各种方法过滤非法词串,综合短语位置和统计特征对候选短语进行权重计算,并依据关键短语分布规律选择关键短语。另外,通过分析关键短语分布特点为N元短语在过滤、按比例选择方面提供了依据。获得了比较好的实验结果:TOP5精确率21.80%,召回率28.27%,F-measure 25%;TOP10精确率17.10%,召回率44.50%,F-measure 30.80%。 展开更多
关键词 关键短语抽取 文本特征 互信息 N元短语
下载PDF
基于关键短语的文本分类研究 被引量:14
8
作者 刘华 《中文信息学报》 CSCD 北大核心 2007年第4期34-41,共8页
文本分类的进一步改进除了算法方面,应该还立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,提高特征项的完整独立程度。关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的内容特征(如主题类别)鲜明地表示... 文本分类的进一步改进除了算法方面,应该还立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,提高特征项的完整独立程度。关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的内容特征(如主题类别)鲜明地表示出来。关键短语具有结构稳定、语义完整和较强统计意义的特点,能克服向量空间模型和贝叶斯假设的缺点,更适合作为文本表示的特征,有利于提高文本分类的效果。本文从语言学、认知心理学和言语习得、计算语言学等方面寻求关键短语优势的理论依据,对关键短语进行了界定,通过抽取网页上专家标引的关键词获得关键短语。在约3万篇测试集上(共15个大类,244个小类),与以词为特征的文本分类相比,以关键短语为特征的文本分类的大类微平均提高了3.1%,小类微平均提高了15%。 展开更多
关键词 计算机应用 中文信息处理 文本分类 关键短语 文本表示 特征项
下载PDF
融合统计学和TextRank的生物医学文献关键短语抽取 被引量:6
9
作者 魏赟 孙先朋 《计算机应用与软件》 2017年第6期27-30,共4页
关键短语的抽取在文本聚类、分类、检索等方面有着重要的作用。利用经典的TF-IDF算法来提高文本关键短语抽取的质量。通过对TF-IDF算法的研究,发现TF-IDF可以综合利用单个文本信息和文本集合信息抽取文本关键词。在此基础上,提出一种综... 关键短语的抽取在文本聚类、分类、检索等方面有着重要的作用。利用经典的TF-IDF算法来提高文本关键短语抽取的质量。通过对TF-IDF算法的研究,发现TF-IDF可以综合利用单个文本信息和文本集合信息抽取文本关键词。在此基础上,提出一种综合TF-IDF、TextRank、统计学知识抽取关键短语的方法和利用候选关键短语逆向文档频率排序的方法。该方法在TextRank基础上,通过TF-IDF引入词的文本集合信息计算词之间权重得到词的得分。然后利用统计学知识从上一步选出词组成的短语筛选出候选关键短语。最后利用逆向文档频率的思想对候选关键短语排序。实验证明,该模型相比于经典TextRank模型准确率提高了2%,召回率提高了4.5%,F-measure提高了3.4%。 展开更多
关键词 TextRank 关键短语抽取 TF-IDF 逆向文档频率
下载PDF
中文关键短语自动提取方法研究 被引量:3
10
作者 荣垂田 李银银 王琰 《计算机科学与探索》 CSCD 北大核心 2019年第9期1481-1492,共12页
SegPhrase算法是当前提取关键短语最新的技术,其提取关键短语的结果比传统方法具有更高的准确率和召回率。但是SegPhrase算法在关键短语的提取和质量评估方面还存在一些缺陷。为了提高关键短语提取的质量,实现对中文关键短语的有效提取,... SegPhrase算法是当前提取关键短语最新的技术,其提取关键短语的结果比传统方法具有更高的准确率和召回率。但是SegPhrase算法在关键短语的提取和质量评估方面还存在一些缺陷。为了提高关键短语提取的质量,实现对中文关键短语的有效提取,对SegPhrase算法进行了改进。在短语产生阶段,通过利用词串之间的互信息特征保留部分低频但关键的短语;在短语质量评估阶段,通过赋予不同特征不同的权重来对短语进行综合评估,选择更符合实际应用语境的短语。最后,为了验证提取的关键短语的质量,将提取的关键短语应用于文档主题分析。通过实验证明,改进的SegPhrase算法比原方法具有更高的召回率和准确率,该方法提取的关键短语的主题分析比基于关键词的主题分析更能够清晰准确地表达文档主题信息。 展开更多
关键词 关键短语提取 文本特征 互信息 主题分析
下载PDF
关键短语抽取研究现状
11
作者 李珊珊 周耘立 《现代计算机(中旬刊)》 2017年第1期39-41,共3页
在这个信息爆炸的社会,如何从大量的文本快速浏览读取重要信息,已经变得越来重要。关键短语抽取就是从文本中自动抽取文本中重要的并且能够代表文章主题的短语。关键短语可以帮助读者快速并且准确地了解文本信息内容。关键短语抽取方法... 在这个信息爆炸的社会,如何从大量的文本快速浏览读取重要信息,已经变得越来重要。关键短语抽取就是从文本中自动抽取文本中重要的并且能够代表文章主题的短语。关键短语可以帮助读者快速并且准确地了解文本信息内容。关键短语抽取方法可以分为无监督方法和有监督方法两种,下面分别对关键短语抽取的两种方法进行介绍。 展开更多
关键词 关键短语抽取 候选关键短语 有监督方法 无监督方法
下载PDF
一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现 被引量:6
12
作者 郎冬冬 刘晨晨 +2 位作者 冯旭鹏 刘利军 黄青松 《计算机应用与软件》 北大核心 2018年第3期54-60,共7页
为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词... 为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词语共现关系构建无向加权词图;引入节点词汇主题影响力因素根据词语主题相关性来修改节点间的随机跳转概率,在词图的基础上运用TextRank算法获取候选关键词排序;再利用bootstraping算法的思想迭代生成表意性更强的关键短语。实验表明,该方法可有效提取出表意性强且涵盖文本主题信息的关键短语。 展开更多
关键词 关键短语抽取 LDA模型 主题挖掘 TextRank 主题影响力
下载PDF
基于决策树的关键短语抽取 被引量:3
13
作者 刘玲玲 梁颖红 +2 位作者 张永刚 韩艳 姚建民 《江南大学学报(自然科学版)》 CAS 2010年第1期71-74,共4页
针对关键短语抽取工作可以转化为某种分类问题,利用决策树构造分类器解决关键短语的抽取。统计分析表明,将文档中词的词频因子、首位置和词性作为决策树分类特征,并考虑词在文档中出现的位置信息,对词的特征值进行一定的调整,采用Baggin... 针对关键短语抽取工作可以转化为某种分类问题,利用决策树构造分类器解决关键短语的抽取。统计分析表明,将文档中词的词频因子、首位置和词性作为决策树分类特征,并考虑词在文档中出现的位置信息,对词的特征值进行一定的调整,采用Bagging重采样技术进一步提高了决策树的抽取性能,使其完全匹配和部分匹配的F_检测率分别达到21.50%和54.49%。 展开更多
关键词 关键短语 抽取 特征 决策树
下载PDF
基于Kert的中文主题关键短语提取算法 被引量:5
14
作者 刘晨晖 张德生 胡钢 《计算机应用》 CSCD 北大核心 2019年第A01期245-249,共5页
针对Kert算法在中文主题关键短语提取结果精确率低、短语歧义性强和主题刻画能力弱等问题,提出一种基于Kert改进后的中文主题关键短语提取算法。该方法首先引入L统计量重构原分词算法,使得原分词算法具备一定的新词识别能力以减少分词... 针对Kert算法在中文主题关键短语提取结果精确率低、短语歧义性强和主题刻画能力弱等问题,提出一种基于Kert改进后的中文主题关键短语提取算法。该方法首先引入L统计量重构原分词算法,使得原分词算法具备一定的新词识别能力以减少分词后的词语歧义性,然后使用顺序合并代替Kert中的频繁模式增长(FP-Growth)解决候选关键短语集合中短语语序颠倒的问题,最后在此基础上加入改进后的约束排序算法后提出更加有效的中文主题关键短语提取算法。通过与多组近年比较经典的主题关键短语提取算法的对比实验表明:改进算法在提取的精确率、召回率、F值指标的量化结果中有5到20不等的百分点提升。该方法在理论上含有更为严谨的中文短语提取思路,并在实际的文本集主题关键短语提取工作中拥有更为良好的应用价值。 展开更多
关键词 数据挖掘 文本挖掘 中文分词 短语排序 主题关键短语
下载PDF
结合统计特征和图模型的半监督式中文关键短语抽取方法 被引量:2
15
作者 谢海华 陈雪飞 +2 位作者 都仪敏 吕肖庆 汤帜 《中文信息学报》 CSCD 北大核心 2022年第4期57-65,共9页
关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型... 关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型,该模型采用预训练语言模型来表征短语及文章,以减少算法对大量标注训练数据的依赖;进而提出图模型描述候选短语间的相似性空间并迭代计算各短语的重要度;同时结合了多项统计特征来进一步提高短语评估的准确率。对比实验表明,该文提出的方法在中文关键短语抽取方面比基线方法具有明显的提升效果。 展开更多
关键词 中文关键短语抽取 半监督式方法 图模型 统计特征
下载PDF
基于TAKE的中文关键短语提取算法研究 被引量:1
16
作者 刘晨晖 张德生 胡钢 《计算机工程与应用》 CSCD 北大核心 2020年第10期115-121,共7页
针对传统的中文关键短语提取算法所提取关键短语准确率低、歧义性强和涵盖信息量少等问题,在英文关键短语提取算法TAKE(Totally Automated Keyword Extraction)的启发下,加入基于多领域特异性的新词识别技术,并改进了原有算法的文本分... 针对传统的中文关键短语提取算法所提取关键短语准确率低、歧义性强和涵盖信息量少等问题,在英文关键短语提取算法TAKE(Totally Automated Keyword Extraction)的启发下,加入基于多领域特异性的新词识别技术,并改进了原有算法的文本分词、词语过滤和特征计算方法,提出了一种改进的TAKE算法,并应用于中文文本关键短语挖掘中。与多种传统关键短语提取算法的对比实验结果表明,该算法提取的精确率、召回率和F值指标的量化结果相比于传统算法有比较明显的提升。 展开更多
关键词 文本挖掘 分词 词语过滤 特征计算 关键短语提取
下载PDF
EntropyRank:基于主题熵的关键短语提取算法 被引量:1
17
作者 尹红 陈雁 李平 《中文信息学报》 CSCD 北大核心 2019年第11期107-114,共8页
关键短语提取是自然语言处理领域的一个重要子任务,其目的是自动识别出文本中的重要短语,现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点,该文提出一种基于主题... 关键短语提取是自然语言处理领域的一个重要子任务,其目的是自动识别出文本中的重要短语,现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点,该文提出一种基于主题熵的关键短语提取算法。该算法利用隐含狄利克雷分布训练文档和词的主题分布,并结合两个主题分布来表示特定文档下的词主题分布,然后计算词主题分布的信息熵即主题熵来表示词语自身影响力,最后在词共现网络上使用随机游走方法计算每个候选短语的得分。在6个公开数据集上的实验结果表明,与现有的无监督关键短语提取算法相比,该算法在F1指标上能提高2.61%~6.98%。 展开更多
关键词 关键短语提取 随机游走 主题模型 词语影响力
下载PDF
利用整数线性规划自动抽取多样性关键短语 被引量:2
18
作者 李珊珊 陈黎 +2 位作者 唐裕婷 王艺霖 于中华 《计算机科学》 CSCD 北大核心 2019年第B06期56-59,70,共5页
关键短语是文本信息的精简概括,能够代表文本的主题和核心观点。而关键短语的自动抽取更是自然语言处理和信息检索的重要任务之一。针对目前无监督方法自动抽取关键短语存在过度生成候选短语语义的问题,提出了一种将整数线性规划和短语... 关键短语是文本信息的精简概括,能够代表文本的主题和核心观点。而关键短语的自动抽取更是自然语言处理和信息检索的重要任务之一。针对目前无监督方法自动抽取关键短语存在过度生成候选短语语义的问题,提出了一种将整数线性规划和短语语义相似度相结合的自动抽取算法。通过惩罚语义相似度高的候选短语实现目标函数的最大化,以此形成多样性的关键短语。实验利用TextRank和TFIDF算法在两种不同的语料集中分别产生候选短语,并利用提出的优化算法对候选短语的权值得分进行优化。最后将所提算法产生的优化结果与现有多个算法的结果进行了比较。实验结果表明,通过加入相似性度量的惩罚能够有效解决语义过度问题,并获取更多样的关键短语,其优化结果的P,R和F值均高于其他算法。 展开更多
关键词 关键短语自动抽取 整数线性规划 语义过度生成 多样性
下载PDF
基于决策树的关键短语抽取的研究 被引量:1
19
作者 严春风 《电脑知识与技术(过刊)》 2009年第7X期5512-5512,5519,共2页
关键词提取可以作为所有文本自动处理的基础与核心技术。较多文档都不具有关键词,同时手工标引费力费时且主观性较强,因此关键词自动标引是一项值得研究的技术。
关键词 关键短语抽取 决策树 算法
下载PDF
自动关键短语抽取综述 被引量:1
20
作者 姚尧 《现代计算机》 2015年第3期13-14,18,共3页
自动关键短语抽取是知识抽取和信息检索等信息技术的关键步骤,当前已经被广泛研究多年,但是和许多自然语言处理任务的性能相比,现有抽取算法的性能依然很低下。对自动关键短语抽取方法进行综述,并对其未来研究发展进行展望,为进一步自... 自动关键短语抽取是知识抽取和信息检索等信息技术的关键步骤,当前已经被广泛研究多年,但是和许多自然语言处理任务的性能相比,现有抽取算法的性能依然很低下。对自动关键短语抽取方法进行综述,并对其未来研究发展进行展望,为进一步自动抽取高质量的关键短语提供良好借鉴。 展开更多
关键词 自动关键短语抽取 自然语言处理 抽取算法 性能
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部