期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于词跨度的中文文本关键词自动提取方法 被引量:6
1
作者 谢晋 《现代物业(中旬刊)》 2012年第4期108-111,共4页
针对中文文本关键词提取方法中普遍存在的噪声干扰问题,本文提出一种基于词跨度的关键词自动提取方法。该方法通过在传统的关键词权重计算方法中,加入词跨因子,利用词跨度来过滤高频噪声数据,以达到降低噪声干扰的效果。整个关键词提取... 针对中文文本关键词提取方法中普遍存在的噪声干扰问题,本文提出一种基于词跨度的关键词自动提取方法。该方法通过在传统的关键词权重计算方法中,加入词跨因子,利用词跨度来过滤高频噪声数据,以达到降低噪声干扰的效果。整个关键词提取过程通过分词计算、停用词过滤、特征统计和权重计算,选出若干个能够表达文章主旨的关键词。复旦大学语料库的实验结果表明,该方法提高了关键词提取的精度,并且具备良好的稳定性。 展开更多
关键词 词跨度 关键提取 噪声干扰 权重计算
下载PDF
基于改进TF-IDF算法的情报关键词提取方法 被引量:63
2
作者 张瑾 《情报杂志》 CSSCI 北大核心 2014年第4期153-155,共3页
传统的TF-IDF完全基于词频,忽略了词语的其它特征项对关键词的影响。本文提出基于TF-IDF、词位置和词跨度的关键词自动提取的方法。该方法通过在传统的TF-IDF关键词权重计算方法中,加入位置权值及词跨度权值,避免单纯采用TF-IDF算法产... 传统的TF-IDF完全基于词频,忽略了词语的其它特征项对关键词的影响。本文提出基于TF-IDF、词位置和词跨度的关键词自动提取的方法。该方法通过在传统的TF-IDF关键词权重计算方法中,加入位置权值及词跨度权值,避免单纯采用TF-IDF算法产生的偏差。实验结果表明,该方法在情报关键词提取中有广泛的应用价值,其准确率、召回率及F1值与传统方法相比有明显提升。 展开更多
关键词 提取 位置权值 词跨度
下载PDF
关键词提取算法TextRank影响因素的研究 被引量:8
3
作者 牛永洁 姜宁 《电子设计工程》 2020年第12期1-5,共5页
关键词提取算法TextRank的影响因素包含词语的覆盖度、词语的位置、词频、词长、词跨度等5个因素。使用采集的南方周末1525篇新闻为数据源,对这些因素进行了交叉验证,得出以下3个结论:1)关键词提取过程中全局因素大于局部因素。2)词语... 关键词提取算法TextRank的影响因素包含词语的覆盖度、词语的位置、词频、词长、词跨度等5个因素。使用采集的南方周末1525篇新闻为数据源,对这些因素进行了交叉验证,得出以下3个结论:1)关键词提取过程中全局因素大于局部因素。2)词语覆盖度、词长、词频、词跨度、词语位置影响权重逐渐增大。3)词语覆盖度和词长的影响权重基本等效,词跨度和词频影响权重基本等效。这些结论具有一定的指导意义,避免了后续研究者的盲目性也减少了后续研究的工作量。 展开更多
关键词 TextRank 语位置 词跨度
下载PDF
融合多因素的TFIDF关键词提取算法研究 被引量:26
4
作者 牛永洁 田成龙 《计算机技术与发展》 2019年第7期80-83,共4页
为了能更加准确、快速地提取文本中的关键词,首先需要对待提取的文本进行数据清洗,去掉其中的噪声数据,接着对文本进行分词操作,在去掉停用词的基础上,综合考虑词语的位置、词性、词语关联性、词长和词跨度等因素,将这些因素与经典的TF... 为了能更加准确、快速地提取文本中的关键词,首先需要对待提取的文本进行数据清洗,去掉其中的噪声数据,接着对文本进行分词操作,在去掉停用词的基础上,综合考虑词语的位置、词性、词语关联性、词长和词跨度等因素,将这些因素与经典的TFIDF关键词提取算法相结合,采用不同权重的方法得到最终的词语权重,按照词语权重从大到小取得前5个词作为文本的关键词。以本校图书馆提供的8045篇《红色中华》新闻为源数据,从准确度、召回率及F1值三个指标对文中算法、经典的TFIDF算法和专家标注进行对比,发现文中算法在三个指标上均优于经典的TFIDF算法,与专家标注比较接近。 展开更多
关键词 TFIDF算法 位置 语关联 词跨度
下载PDF
基于Python的改进关键词提取算法的实现 被引量:8
5
作者 牛永洁 《电子设计工程》 2019年第13期11-15,共5页
关键词提取是自然语言研究领域的基础和关键点,在很多领域都有广泛的应用。以本校图书馆提供的8045篇《红色中华》新闻为源数据,首先对数据进行数据清理,去除其中的噪声数据,然后对每篇新闻进行数据结构解析,在解析的基础上计算了词语的... 关键词提取是自然语言研究领域的基础和关键点,在很多领域都有广泛的应用。以本校图书馆提供的8045篇《红色中华》新闻为源数据,首先对数据进行数据清理,去除其中的噪声数据,然后对每篇新闻进行数据结构解析,在解析的基础上计算了词语的TFIDF权重、词位置权重、词性权重、词长权重和词跨度权重,综合考虑这些权重计算出词语的综合权重,以综合权重最大的前8个词语作为新闻的关键词。从准确度、召回率及F1值3个指标对改进算法、经典的TFIDF算法和专家标注进行对比,发现改进算法在3个指标上均优于经典的TFIDF算法,与专家标注比较接近,值得推广应用。 展开更多
关键词 TFIDF 词跨度 位置
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部