期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于知识图谱的中文关键短语提取算法 被引量:1
1
作者 徐远威 李劲华 《计算机应用与软件》 北大核心 2023年第6期250-256,265,共8页
针对传统的中文关键短语算法没有充分考虑到语义关系、涵盖信息量少和准确率低等问题,提出一种基于知识图谱来提取关键短语的算法。该算法运用知识图谱的语义网络结构来挖掘文本中两个词之间的潜在关系,通过赋予边权值具体量化潜在关系... 针对传统的中文关键短语算法没有充分考虑到语义关系、涵盖信息量少和准确率低等问题,提出一种基于知识图谱来提取关键短语的算法。该算法运用知识图谱的语义网络结构来挖掘文本中两个词之间的潜在关系,通过赋予边权值具体量化潜在关系,构建集成近邻传播(Affinity Propagation,AP)聚类和图的中心性算法来提取关键短语的框架。实验表明,与多种传统关键短语提取算法相比,该算法在准确率、召回率和F1值上有较明显的提升。 展开更多
关键词 关键短语提取 知识图谱 近邻传播聚类 中心性算法
下载PDF
基于TAKE的中文关键短语提取算法研究 被引量:1
2
作者 刘晨晖 张德生 胡钢 《计算机工程与应用》 CSCD 北大核心 2020年第10期115-121,共7页
针对传统的中文关键短语提取算法所提取关键短语准确率低、歧义性强和涵盖信息量少等问题,在英文关键短语提取算法TAKE(Totally Automated Keyword Extraction)的启发下,加入基于多领域特异性的新词识别技术,并改进了原有算法的文本分... 针对传统的中文关键短语提取算法所提取关键短语准确率低、歧义性强和涵盖信息量少等问题,在英文关键短语提取算法TAKE(Totally Automated Keyword Extraction)的启发下,加入基于多领域特异性的新词识别技术,并改进了原有算法的文本分词、词语过滤和特征计算方法,提出了一种改进的TAKE算法,并应用于中文文本关键短语挖掘中。与多种传统关键短语提取算法的对比实验结果表明,该算法提取的精确率、召回率和F值指标的量化结果相比于传统算法有比较明显的提升。 展开更多
关键词 文本挖掘 分词 词语过滤 特征计算 关键短语提取
下载PDF
EntropyRank:基于主题熵的关键短语提取算法 被引量:1
3
作者 尹红 陈雁 李平 《中文信息学报》 CSCD 北大核心 2019年第11期107-114,共8页
关键短语提取是自然语言处理领域的一个重要子任务,其目的是自动识别出文本中的重要短语,现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点,该文提出一种基于主题... 关键短语提取是自然语言处理领域的一个重要子任务,其目的是自动识别出文本中的重要短语,现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点,该文提出一种基于主题熵的关键短语提取算法。该算法利用隐含狄利克雷分布训练文档和词的主题分布,并结合两个主题分布来表示特定文档下的词主题分布,然后计算词主题分布的信息熵即主题熵来表示词语自身影响力,最后在词共现网络上使用随机游走方法计算每个候选短语的得分。在6个公开数据集上的实验结果表明,与现有的无监督关键短语提取算法相比,该算法在F1指标上能提高2.61%~6.98%。 展开更多
关键词 关键短语提取 随机游走 主题模型 词语影响力
下载PDF
中文关键短语自动提取方法研究 被引量:3
4
作者 荣垂田 李银银 王琰 《计算机科学与探索》 CSCD 北大核心 2019年第9期1481-1492,共12页
SegPhrase算法是当前提取关键短语最新的技术,其提取关键短语的结果比传统方法具有更高的准确率和召回率。但是SegPhrase算法在关键短语的提取和质量评估方面还存在一些缺陷。为了提高关键短语提取的质量,实现对中文关键短语的有效提取,... SegPhrase算法是当前提取关键短语最新的技术,其提取关键短语的结果比传统方法具有更高的准确率和召回率。但是SegPhrase算法在关键短语的提取和质量评估方面还存在一些缺陷。为了提高关键短语提取的质量,实现对中文关键短语的有效提取,对SegPhrase算法进行了改进。在短语产生阶段,通过利用词串之间的互信息特征保留部分低频但关键的短语;在短语质量评估阶段,通过赋予不同特征不同的权重来对短语进行综合评估,选择更符合实际应用语境的短语。最后,为了验证提取的关键短语的质量,将提取的关键短语应用于文档主题分析。通过实验证明,改进的SegPhrase算法比原方法具有更高的召回率和准确率,该方法提取的关键短语的主题分析比基于关键词的主题分析更能够清晰准确地表达文档主题信息。 展开更多
关键词 关键短语提取 文本特征 互信息 主题分析
下载PDF
图关键词提取中的短语评分方法 被引量:1
5
作者 苏超 张宇翔 《计算机工程与设计》 北大核心 2020年第11期3175-3180,共6页
基于图的关键词提取中,关键短语提取阶段候选短语的评分方法易受单词的评分结果与短语长度的影响,为此提出一种结合短语频率信息与位置信息的评分方法。使用候选短语内含单词评分之和的平均值消除短语长度的影响,利用候选短语出现的次... 基于图的关键词提取中,关键短语提取阶段候选短语的评分方法易受单词的评分结果与短语长度的影响,为此提出一种结合短语频率信息与位置信息的评分方法。使用候选短语内含单词评分之和的平均值消除短语长度的影响,利用候选短语出现的次数与位置计算频率权重和位置权重,增强候选短语的最终得分。实验结果表明,提出方法在KDD、WWW、SIGIR数据集上的各项评估指标相对于传统的方法有明显的提升,验证了模型的有效性。 展开更多
关键词 提取 关键短语提取 候选短语评分 频率信息 位置信息
下载PDF
基于短语级情感分析的不良信息检测方法 被引量:7
6
作者 明弋洋 刘晓洁 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第6期1042-1048,共7页
针对基于关键词字符匹配和粗粒度情感分析方法的传统不良信息检测方法准确率低的问题,提出一种基于短语级情感分析的不良信息检测方法.该方法制定语法规则来提取敏感词所在短语,结合二次分类的情感词典,通过分析短语的情感倾向来判断表... 针对基于关键词字符匹配和粗粒度情感分析方法的传统不良信息检测方法准确率低的问题,提出一种基于短语级情感分析的不良信息检测方法.该方法制定语法规则来提取敏感词所在短语,结合二次分类的情感词典,通过分析短语的情感倾向来判断表达者对敏感关键词的情感倾向,从而判定内容的敏感性.本文方法克服了字符串匹配方法的缺点,如:传统的字符串匹配方法忽视敏感词上下文,从而导致大量误报的缺点,及粗粒度情感分析方法由于无法准确定位情感对象,只能以文本整体情感倾向代表表达者主观情感,导致不能精准分析与敏感词相关的情感倾向及敏感性.实验表明,本文方法与传统方法相比,准确率有较大的提升. 展开更多
关键词 不良信息 语法规则 短语提取 情感词典 情感分析
下载PDF
信息检索中主题式词典的构建方法 被引量:5
7
作者 许静芳 李星 李粤 《计算机工程》 EI CAS CSCD 北大核心 2005年第21期143-145,共3页
提出了一种基于用户查询日志的主题式词典的构建方法,用于中文信息检索中分词。利用互信息从用户查询日志中提取短语并与通用词典相结合构建主题式词典。该词典能提高信息检索的准确率和效率,并有助于解决未登录词问题。
关键词 主题式词典 信息检索 中文分词 短语提取
下载PDF
改进的模板驱动的神经机器翻译
8
作者 詹聪 李盛乐 《微电子学与计算机》 北大核心 2019年第5期29-32,37,共5页
为解决神经机器翻译对语料的数量、规模要求较高,在语料不充足的情形下对结构复杂的长句翻译效果不佳的问题,本文对模板驱动的神经机器翻译进行了改进,在句子级模板的基础上增加了亚句子级的子块模板,提出了一种将句子进行压缩后与句子... 为解决神经机器翻译对语料的数量、规模要求较高,在语料不充足的情形下对结构复杂的长句翻译效果不佳的问题,本文对模板驱动的神经机器翻译进行了改进,在句子级模板的基础上增加了亚句子级的子块模板,提出了一种将句子进行压缩后与句子级模板匹配,以压缩后的句子单词为中心词提取名词短语和动词短语与子块模板进行匹配的方法.实验结果表明,本文提出的方法能有效改善机器翻译质量. 展开更多
关键词 神经机器翻译 子块模板 短语提取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部