-
题名基于词跨度的中文文本关键词自动提取方法
被引量:6
- 1
-
-
作者
谢晋
-
机构
浙江工业大学经贸管理学院
-
出处
《现代物业(中旬刊)》
2012年第4期108-111,共4页
-
文摘
针对中文文本关键词提取方法中普遍存在的噪声干扰问题,本文提出一种基于词跨度的关键词自动提取方法。该方法通过在传统的关键词权重计算方法中,加入词跨因子,利用词跨度来过滤高频噪声数据,以达到降低噪声干扰的效果。整个关键词提取过程通过分词计算、停用词过滤、特征统计和权重计算,选出若干个能够表达文章主旨的关键词。复旦大学语料库的实验结果表明,该方法提高了关键词提取的精度,并且具备良好的稳定性。
-
关键词
词跨度
关键词提取
噪声干扰
权重计算
-
Keywords
Word span
Keyword extraction
Noise interference
Weight calculation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于改进TF-IDF算法的情报关键词提取方法
被引量:63
- 2
-
-
作者
张瑾
-
机构
郑州轻工业学院
-
出处
《情报杂志》
CSSCI
北大核心
2014年第4期153-155,共3页
-
文摘
传统的TF-IDF完全基于词频,忽略了词语的其它特征项对关键词的影响。本文提出基于TF-IDF、词位置和词跨度的关键词自动提取的方法。该方法通过在传统的TF-IDF关键词权重计算方法中,加入位置权值及词跨度权值,避免单纯采用TF-IDF算法产生的偏差。实验结果表明,该方法在情报关键词提取中有广泛的应用价值,其准确率、召回率及F1值与传统方法相比有明显提升。
-
关键词
提取
位置权值
词跨度值
-
Keywords
TF-IDF
extraction
TF-IDF
word position weight value
word span value
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名关键词提取算法TextRank影响因素的研究
被引量:8
- 3
-
-
作者
牛永洁
姜宁
-
机构
延安大学数学与计算机学院
-
出处
《电子设计工程》
2020年第12期1-5,共5页
-
基金
国家社会科学基金项目(18BTQ042)
延安大学继续教育教学改革研究专项(YDJY2016-11)
延安大学青年项目(YDQ2017-08)。
-
文摘
关键词提取算法TextRank的影响因素包含词语的覆盖度、词语的位置、词频、词长、词跨度等5个因素。使用采集的南方周末1525篇新闻为数据源,对这些因素进行了交叉验证,得出以下3个结论:1)关键词提取过程中全局因素大于局部因素。2)词语覆盖度、词长、词频、词跨度、词语位置影响权重逐渐增大。3)词语覆盖度和词长的影响权重基本等效,词跨度和词频影响权重基本等效。这些结论具有一定的指导意义,避免了后续研究者的盲目性也减少了后续研究的工作量。
-
关键词
TextRank
词语位置
词长
词频
词跨度
-
Keywords
TextRank
word position
word length
word frequency
word span
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名融合多因素的TFIDF关键词提取算法研究
被引量:26
- 4
-
-
作者
牛永洁
田成龙
-
机构
延安大学数学与计算机学院
-
出处
《计算机技术与发展》
2019年第7期80-83,共4页
-
基金
国家社会科学基金项目(18BTQ042)
国家级大学生创新创业训练计划项目(201710719024)
-
文摘
为了能更加准确、快速地提取文本中的关键词,首先需要对待提取的文本进行数据清洗,去掉其中的噪声数据,接着对文本进行分词操作,在去掉停用词的基础上,综合考虑词语的位置、词性、词语关联性、词长和词跨度等因素,将这些因素与经典的TFIDF关键词提取算法相结合,采用不同权重的方法得到最终的词语权重,按照词语权重从大到小取得前5个词作为文本的关键词。以本校图书馆提供的8045篇《红色中华》新闻为源数据,从准确度、召回率及F1值三个指标对文中算法、经典的TFIDF算法和专家标注进行对比,发现文中算法在三个指标上均优于经典的TFIDF算法,与专家标注比较接近。
-
关键词
TFIDF算法
词位置
词性
词语关联
词长
词跨度
-
Keywords
TFIDF
word position
part of speech
word correlation
word length
word span
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于Python的改进关键词提取算法的实现
被引量:8
- 5
-
-
作者
牛永洁
-
机构
延安大学数学与计算机学院
-
出处
《电子设计工程》
2019年第13期11-15,共5页
-
基金
国家社会科学基金项目(18BTQ042)
延安大学继续教育教学改革研究专项(YDJY2016-11)
-
文摘
关键词提取是自然语言研究领域的基础和关键点,在很多领域都有广泛的应用。以本校图书馆提供的8045篇《红色中华》新闻为源数据,首先对数据进行数据清理,去除其中的噪声数据,然后对每篇新闻进行数据结构解析,在解析的基础上计算了词语的TFIDF权重、词位置权重、词性权重、词长权重和词跨度权重,综合考虑这些权重计算出词语的综合权重,以综合权重最大的前8个词语作为新闻的关键词。从准确度、召回率及F1值3个指标对改进算法、经典的TFIDF算法和专家标注进行对比,发现改进算法在3个指标上均优于经典的TFIDF算法,与专家标注比较接近,值得推广应用。
-
关键词
TFIDF
词性
词跨度
词长
词位置
-
Keywords
TFIDF
part of speech
word span
word length
word position
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-