期刊文献+
共找到254篇文章
< 1 2 13 >
每页显示 20 50 100
词表的自动丰富——从元数据中提取关键词及其定位 被引量:40
1
作者 王军 《中文信息学报》 CSCD 北大核心 2005年第6期36-43,共8页
词表和分类法是传统纸质文献环境下最重要的知识组织工具。它的更新和维护一直依靠手工进行。这限制了它在数字图书馆和网络信息环境下的应用。本文介绍了一项基于统计的、从元数据的标题中抽取关键词并定位在词表中的方法。定位的依据... 词表和分类法是传统纸质文献环境下最重要的知识组织工具。它的更新和维护一直依靠手工进行。这限制了它在数字图书馆和网络信息环境下的应用。本文介绍了一项基于统计的、从元数据的标题中抽取关键词并定位在词表中的方法。定位的依据是抽取出的关键词所对应的标引词集的收敛性质。标引词是用于标引文献主题的、来自于词表的受控词汇,即主题词。在《中国分类主题词表》和北京大学图书馆提供的5千余条计算机科技领域的书目数据上所进行实验证明了文中所述的方法是可行的、有效的。这一方法可以直接用来实现基于已标引语料库的自动编目和元数据自动生成。 展开更多
关键词 计算机应用 中文信息处理 词表 元数据 关键词提取
下载PDF
关键词提取算法研究综述
2
作者 崔洪振 张龙豪 +1 位作者 彭云峰 邬雯 《中文信息学报》 CSCD 北大核心 2024年第2期1-14,24,共15页
关键词在医疗、教育、金融、农业及工业制造等领域得到快速发展与广泛应用,得益于其表征海量文本信息的主旨和核心内容。关键词提取成为开启领域研究的必要前置条件,是自然语言处理、知识图谱、系统对话等的关键基础研究热点问题。关键... 关键词在医疗、教育、金融、农业及工业制造等领域得到快速发展与广泛应用,得益于其表征海量文本信息的主旨和核心内容。关键词提取成为开启领域研究的必要前置条件,是自然语言处理、知识图谱、系统对话等的关键基础研究热点问题。关键词提取技术和算法成为快速准确获取有效文本信息的关键所在,因而广大研究者对该领域进行了积极探索和应用。该文从现有关键词提取算法的主流流程出发,分析关键词提取过程;结合深度学习和传统机器学习在关键词提取中的应用特点,梳理并详细描述了现有关键词提取方法的计算特征及应用案例;针对提取流程,结合提取特征、典型文献、模型算法、方法描述等,分别分析了有监督提取、无监督提取和半监督提取方法的研究进程、算法机制、优势、局限性及应用场景;通过关键词提取的不同方法和案例给出关键词提取得分解析和评价策略;展望了关键词提取的半监督方法应用前景,以及在特征融合、领域知识及图谱构建中的研究方向和可能面临的挑战。 展开更多
关键词 关键词提取 特征 有监督提取方法
下载PDF
一种基于数据增强的科技文献关键词提取模型
3
作者 程芮 张海军 《情报杂志》 北大核心 2024年第1期135-141,120,共8页
[研究目的]科技文献关键词提取研究具有重要价值,目前研究中关键词提取方法存在较大误差且只能提取文本中的关键词,难以根据深层语义信息提炼出更符合文本核心主旨的词语。本研究针对关键词提取对上下文隐含语义挖掘不足导致的局限性和... [研究目的]科技文献关键词提取研究具有重要价值,目前研究中关键词提取方法存在较大误差且只能提取文本中的关键词,难以根据深层语义信息提炼出更符合文本核心主旨的词语。本研究针对关键词提取对上下文隐含语义挖掘不足导致的局限性和重点信息关注不足问题开展研究。[研究方法]提出一种基于数据增强的关键词提取模型(GPT-2 BiLSTM Mul-Attention,GPBA),通过语言模型进行数据增强,并结合BiLSTM+Mul-Attention提取模型进行多特征语义信息融合理解。[研究结论]实验结果表明,基于数据增强的关键词提取模型GPBA总体表现优于其他基线模型,并且能更精确地凝练和提取文本中的关键词。 展开更多
关键词 科技文献 关键词提取模型 数据增强 语义信息 评估指标
下载PDF
TRIZ视域下关键词提取与设计学知识谱系构建研究
4
作者 闫胜昝 李轶南 《包装工程》 CAS 北大核心 2024年第10期270-280,共11页
目的旨在通过分析TRIZ在中国设计创新研究中的关键词和知识图谱,深入探讨TRIZ理论在中国设计学领域的应用潜力。方法搜集并筛选CNKI数据库中TRIZ理论视域下设计学相关文献作为数据源,运用CiteSpace软件进行文献科学计量可视化分析,统计... 目的旨在通过分析TRIZ在中国设计创新研究中的关键词和知识图谱,深入探讨TRIZ理论在中国设计学领域的应用潜力。方法搜集并筛选CNKI数据库中TRIZ理论视域下设计学相关文献作为数据源,运用CiteSpace软件进行文献科学计量可视化分析,统计年度发文量以了解当前研究现状。通过关键词共现和聚类的方法,提取了TRIZ设计领域的关键词,并构建了设计知识图谱,以预测研究脉络的发展方向和未来趋势。结果研究表明,国内TRIZ设计研究应着重关注四个重要方面,并在TRIZ设计视域下提出了推进创新的三个关键方向。结论为推动TRIZ理论在设计创新中的发展,建议加强对设计研究理论体系和核心工具的研究,积极发展集成方法和创新理论,促使TRIZ理论更好地走向企业设计实践,同时,鼓励关注智能产品的全生命周期发展。为TRIZ理论视域下的设计创新研究提供了一定的参考和启示。 展开更多
关键词 TRIZ 创新设计 关键词提取 知识谱系构建 文献计量法
下载PDF
基于LDA和TF-IDF的关键词提取算法研究 被引量:1
5
作者 苏婧琼 苏艳琼 《长江信息通信》 2024年第1期78-80,共3页
在自然语言处理领域,对于海量的文本文件,让用户在最短的时间找到到自己感兴趣的文档,最关键的工作是要每篇文档的关键词提取出来。而不管是针对一篇长文章或是一篇短文章,通常能够直接通过这几个关键字去窥探出整篇文章背后的主题思想... 在自然语言处理领域,对于海量的文本文件,让用户在最短的时间找到到自己感兴趣的文档,最关键的工作是要每篇文档的关键词提取出来。而不管是针对一篇长文章或是一篇短文章,通常能够直接通过这几个关键字去窥探出整篇文章背后的主题思想。文章分别介绍了LDA主题模型和TFIDF算法在关键词提取中的应用,并进行了对比,结果表明在关键词提取方面都可以取得较好的效果。 展开更多
关键词 LDA主题模型 TFIDF算法 关键词提取
下载PDF
基于关键词和Transformer的文本摘要生成研究
6
作者 金彦亮 臧庆福 +2 位作者 高塬 冯湫燕 高至锋 《工业控制计算机》 2024年第4期89-91,共3页
生成技术在生成摘要时忽略了关键词的作用,导致生成的摘要难以聚焦关键信息。为此,提出一种以Transformer模型为基础结构,融合关键词和卷积神经网络的文本摘要生成方法,实现以关键词为引导的摘要生成。实验在CSDS数据集上进行,结果表明... 生成技术在生成摘要时忽略了关键词的作用,导致生成的摘要难以聚焦关键信息。为此,提出一种以Transformer模型为基础结构,融合关键词和卷积神经网络的文本摘要生成方法,实现以关键词为引导的摘要生成。实验在CSDS数据集上进行,结果表明该方法在ROUGE指标上均有提升,验证了其有效性。 展开更多
关键词 文本摘要 关键词提取 卷积神经网络 TRANSFORMER
下载PDF
基于BERT和LightGBM的文本关键词提取方法 被引量:4
7
作者 何传鹏 尹玲 +4 位作者 黄勃 王明胜 郭茹燕 张帅 巨家骥 《电子科技》 2023年第3期7-13,共7页
传统的文本关键词提取方法忽略了上下文语义信息,不能解决一词多义问题,提取效果并不理想。基于LDA和BERT模型,文中提出LDA-BERT-LightG BM(LB-LightG BM)模型。该方法选择LDA主题模型获得每个评论的主题及其词分布,根据阈值筛选出候选... 传统的文本关键词提取方法忽略了上下文语义信息,不能解决一词多义问题,提取效果并不理想。基于LDA和BERT模型,文中提出LDA-BERT-LightG BM(LB-LightG BM)模型。该方法选择LDA主题模型获得每个评论的主题及其词分布,根据阈值筛选出候选关键词,将筛选出来的词和原评论文本拼接在一起输入到BERT模型中,进行词向量训练,得到包含文本主题词向量,从而将文本关键词提取问题通过LightG BM算法转化为二分类问题。通过实验对比了textrank算法、LDA算法、LightG BM算法及文中提出的LB-LightG BM模型对文本关键词提取的准确率P、召回率R以及F1。结果表明,当Top N取3~6时,F1的平均值比最优方法提升3.5%,该方法的抽取效果整体上优于实验中所选取的对比方法,能够更准确地发现文本关键词。 展开更多
关键词 主题模型 词向量 BERT LightGBM 候选关键词 关键词提取 文本主题 关键词
下载PDF
基于图神经网络的专利关键词提取算法研究 被引量:1
8
作者 王玉叶 王玙 《情报理论与实践》 北大核心 2023年第5期202-208,共7页
[目的/意义]专利关键词提取是专利挖掘任务中非常重要的前置子任务,基于图模型的关键词提取是目前最有效的算法。传统图模型只考虑了单词的局部上下文信息,为了捕获单词的全局信息,提出一种基于图神经网络的专利关键词提取算法,结合词... [目的/意义]专利关键词提取是专利挖掘任务中非常重要的前置子任务,基于图模型的关键词提取是目前最有效的算法。传统图模型只考虑了单词的局部上下文信息,为了捕获单词的全局信息,提出一种基于图神经网络的专利关键词提取算法,结合词向量与图模型实现专利关键词的提取。[方法/过程]首先,用专利数据集构建异构网络,以专利分类号为标签,训练图神经网络模型,使得同一主题下的单词具有相似的向量表示,获取包含主题信息的词向量;然后,根据专利摘要在滑动窗口内的单词共现关系和词向量相似度,构建融合了单词主题信息的文本图,利用词向量中的主题信息捕获单词的全局联系;最后,在文本图上使用PageRank算法,获取关键节点,构成专利的关键词。[结果/结论]与基线方法相比,该算法在提取专利关键词时,能够检测到新颖性与准确性更高的关键词。 展开更多
关键词 关键词提取 图神经网络 专利 词向量 PAGERANK
下载PDF
基于TF-IDF和TextRank结合的中文文本关键词提取方法——以体育新闻为例 被引量:2
9
作者 兰晓芳 刘卓 +1 位作者 许志豪 肖毅 《软件工程》 2023年第8期6-10,共5页
利用文本挖掘技术进行体育热点分析,可以为体育领域的发展提供更多有用的信息。文中提出了一种基于TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)和TextRank(文本排序)的中文文本关键词提取方法,该方法首先采用... 利用文本挖掘技术进行体育热点分析,可以为体育领域的发展提供更多有用的信息。文中提出了一种基于TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)和TextRank(文本排序)的中文文本关键词提取方法,该方法首先采用分词、去除停用词等对文本进行预处理;其次使用TF-IDF算法计算每个词的重要性并进行归一化处理,同时使用TextRank算法权衡单词之间的关系并计算每个单词的得分以进行归一化处理;最后将TF-IDF值和TextRank得分进行加权和得到每个词的综合权重值,最终获得权重值最高的N个关键词。应用TF-IDF和TextRank结合的方法在F1值上选择5个关键词时取得了更好的结果,相较于只使用TF-IDF方法或TextRank方法,其关键词提取准确率分别提高约40%和32%。该方法有效提高了关键词提取的准确性和提取效率。 展开更多
关键词 TF-IDF TextRank 体育新闻 关键词提取
下载PDF
融合关键词提取与远程监督的文物信息资源实体关系抽取方法研究
10
作者 彭博 童兆莉 《现代情报》 2023年第2期30-41,共12页
[目的/意义]“文博热”的到来在互联网中催生了大量与文物有关的信息资源,其中大多数以非结构化数据的形式存在,如何从中抽取实体关系是进行信息资源深度利用、传播文物知识、弘扬中华优秀传统文化的基础。[方法/过程]文章提出了一种利... [目的/意义]“文博热”的到来在互联网中催生了大量与文物有关的信息资源,其中大多数以非结构化数据的形式存在,如何从中抽取实体关系是进行信息资源深度利用、传播文物知识、弘扬中华优秀传统文化的基础。[方法/过程]文章提出了一种利用关键词抽取算法获取信息资源中与文物主题有关的关键词作为外部知识库检索词,使用SPARQL检索获取实体关系并根据语义进行对齐后,利用远程监督自动进行信息资源实体关系抽取的方法。[结果/结论]在与其他方法的对比试验中,该方法在多个关键词阈值下取得了较好的效果,融合了多种关键词抽取方法在获取信息资源内容上的优势与特点,有效解决了远程监督关系抽取带来的噪音以及关系长尾问题,是一种面向网络信息资源自动进行实体关系抽取的可行方法。 展开更多
关键词 关键词提取 远程监督 文本聚类 文本分类 实体关系抽取
下载PDF
基于多算法多因素融合的关键词提取方法 被引量:1
11
作者 柴新茹 余宏杰 《枣庄学院学报》 2023年第2期55-61,77,共8页
为进一步提升关键词提取准确率,提出基于多算法多特征融合的中文文本关键词提取方法。对现有的TF-IDF算法和TextRank算法进行融合,同时融合词频、词长、词语位置、词性这四种影响因素进行加权。通过试验获取权重公式的相对最优权重系数... 为进一步提升关键词提取准确率,提出基于多算法多特征融合的中文文本关键词提取方法。对现有的TF-IDF算法和TextRank算法进行融合,同时融合词频、词长、词语位置、词性这四种影响因素进行加权。通过试验获取权重公式的相对最优权重系数,对改进后两种算法分别提取出权重值由高到低的前K个候选关键词,最终采取投票法筛选出结果。从准确率P、召回率R、准确率和召回率的加权调和平均值F值三个指标对文中融合改进算法(Fusion-T算法)、经典的TF-IDF算法和TextRank算法进行对比。试验结果表明:算法改进后,P、R、F值分别提高了:6.18%、4.97%、5.99%。 展开更多
关键词 中文信息处理 关键词提取 TF-IDF TextRank 位置加权
下载PDF
基于关键词提取的大学生就业岗位匹配度分析
12
作者 於雯 《无线互联科技》 2023年第21期124-128,共5页
2023年,我国应届高校毕业生预计有1158万人,伴随着疫情以及国内外各项影响因素,各行业的竞争压力不断增大,应届毕业生的就业压力也不断攀升,根据智联招聘发布的《2023大学生就业力调研报告》,截至2023年4月中旬,只有50.4%的应届毕业生... 2023年,我国应届高校毕业生预计有1158万人,伴随着疫情以及国内外各项影响因素,各行业的竞争压力不断增大,应届毕业生的就业压力也不断攀升,根据智联招聘发布的《2023大学生就业力调研报告》,截至2023年4月中旬,只有50.4%的应届毕业生求职成功。文章基于词频-逆文档频率(TF-IDF)算法对招聘岗位关键词进行提取,并结合所学课程技能,进行大学生就业岗位的匹配度分析,可以对应届毕业生就业提供更加明确的就业方向指导,帮助大学生了解自身的就业技能情况和本专业的求职要求,提高大学生的求职就业概率,也对大学课程设置提供有价值的参考建议。 展开更多
关键词 就业率 TF-IDF 大学生 数据分析 关键词提取
下载PDF
基于词频统计的文本关键词提取方法 被引量:76
13
作者 罗燕 赵书良 +2 位作者 李晓超 韩玉辉 丁亚飞 《计算机应用》 CSCD 北大核心 2016年第3期718-725,共8页
针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大... 针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。 展开更多
关键词 词频统计 齐普夫定律 同频词 关键词提取 TF-IDF算法
下载PDF
基于组合词和同义词集的关键词提取算法 被引量:18
14
作者 蒋昌金 彭宏 +2 位作者 陈建超 马千里 严桂夺 《计算机应用研究》 CSCD 北大核心 2010年第8期2853-2856,共4页
为了提高关键词的提取准确率,在对现有关键词抽取方法进行研究的基础之上,针对影响关键词提取准确率的分词技术、同义词现象等难点,提出了一种基于组合词和同义词集的关键词提取算法。该算法首先利用组合词识别算法极大地改进分词效果,... 为了提高关键词的提取准确率,在对现有关键词抽取方法进行研究的基础之上,针对影响关键词提取准确率的分词技术、同义词现象等难点,提出了一种基于组合词和同义词集的关键词提取算法。该算法首先利用组合词识别算法极大地改进分词效果,能识别网页上绝大多数的新词、未登录词,为提高关键词自动抽取准确率奠定了坚实的基础;同时利用构造的同义词集,合并同义词的词频,避免了同义词在输出结果中同现;利用综合评分公式,充分考虑候选关键词的位置、长度、词性等特性。实验数据表明,该方法有较高的提取准确率。 展开更多
关键词 组合词 同义词集 中文网页 关键词提取
下载PDF
基于语义的关键词提取算法 被引量:39
15
作者 方俊 郭雷 王晓东 《计算机科学》 CSCD 北大核心 2008年第6期148-151,共4页
关键词1提供了文档内容的概要信息,它们被使用在很多数据挖掘的应用中。在目前的关键词提取算法中,我们发现词汇层面(代表意思的词)和概念层面(意思本身)的差别导致了关键字提取的不准确,比如不同语法的词可能有着相同的意思,而相同语... 关键词1提供了文档内容的概要信息,它们被使用在很多数据挖掘的应用中。在目前的关键词提取算法中,我们发现词汇层面(代表意思的词)和概念层面(意思本身)的差别导致了关键字提取的不准确,比如不同语法的词可能有着相同的意思,而相同语法的词在不同的上下文有着不同的意思。为了解决这个问题,这篇文章提出使用词义代替词并且通过考虑关键候选词的语义信息来提高关键词提取算法性能的方法。与现有的关键词提取方法不同,该方法首先通过使用消歧算法,通过上下文得到候选词的词义;然后在后面的词合并、特征提取和评估的步骤中,候选词义之间的语义相关度被用来提高算法的性能。在评估算法时,我们采用一种更为有效的基于语义的评估方法与著名的Kea系统作比较。在不同领域间的实验中可以发现,当考虑语义信息后,关键词提取算法的性能能够得到很大的提高。在同领域的实验中,我们的算法的性能与Kea++算法的相近。我们的算法没有领域的限制性,因此具有更好的应用前景。 展开更多
关键词 关键词提取 语义相关度 消歧
下载PDF
关键词自动提取方法的研究与改进 被引量:22
16
作者 黄磊 伍雁鹏 朱群峰 《计算机科学》 CSCD 北大核心 2014年第6期204-207,共4页
关键词提取技术是信息检索和文本分类领域的基础与关键技术之一。首先分析了TFIDF算法中存在的不足,即IDF(Inverse Document Frequency)权值中没有考虑特征词在类内以及类别间的分布情况。因此,原有的TFIDF方法会出现有些不能代表文档... 关键词提取技术是信息检索和文本分类领域的基础与关键技术之一。首先分析了TFIDF算法中存在的不足,即IDF(Inverse Document Frequency)权值中没有考虑特征词在类内以及类别间的分布情况。因此,原有的TFIDF方法会出现有些不能代表文档主题的低频词的IDF值很高,而有些能够代表文档主题的高频词的IDF值却很低的情况,这会导致关键词提取不准确。通过增加一个新的权值,即类内离散度DI(Distribution Information)来增加关键的特征词条的权重,提出了一种新的算法DI-TFIDF。实验中使用的是搜狗语料库,选择其中的体育、教育和军事3类文档各1000篇作为实验的语料库,分别用基于传统TFIDF方法和基于DI-TFIDF方法提取关键词。实验结果表明,所提出的DI-TFIDF方法提取关键词的准确度要高于传统的TFIDF算法。 展开更多
关键词 关键词提取 特征权重 TFIDF DI-TFIDF
下载PDF
基于同义词链的中文关键词提取算法 被引量:13
17
作者 张颖颖 谢强 丁秋林 《计算机工程》 CAS CSCD 北大核心 2010年第19期93-95,共3页
针对传统中文关键词提取对语义和同义词的不重视而导致的精确度和召回率低的问题,提出基于同义词链的中文关键词提取算法。利用上下文窗口和消歧算法解决词语在上下文中的语义问题,利用文档中的同义词构建同义词链,简化候选词的选取。... 针对传统中文关键词提取对语义和同义词的不重视而导致的精确度和召回率低的问题,提出基于同义词链的中文关键词提取算法。利用上下文窗口和消歧算法解决词语在上下文中的语义问题,利用文档中的同义词构建同义词链,简化候选词的选取。根据同义词链的特征,得到相应的权重计算公式,对候选词进行过滤。实验结果表明,该算法在同义词较多的文档中精确度和召回率有较大的提高,平均性能也有明显改善。 展开更多
关键词 关键词提取 同义词链 语义 消歧
下载PDF
基于语义的中文文本关键词提取算法 被引量:48
18
作者 王立霞 淮晓永 《计算机工程》 CAS CSCD 2012年第1期1-4,共4页
为克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点,提出一种基于语义的中文文本关键词提取(SKE)算法。将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。实验结果表明,与基... 为克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点,提出一种基于语义的中文文本关键词提取(SKE)算法。将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。实验结果表明,与基于统计特征的关键词提取算法相比,SKE算法提取的关键词能体现文档的主题,更符合人们的感知逻辑,且算法性能较优。 展开更多
关键词 提取算法相比 SKE算法提取关键词能体现文档的主题 更符合人们的感知逻辑 且算法性能较优.关键词:关键词提取 语义相似度 词语语义相似度网络 居间度 中文文本
下载PDF
基于新的关键词提取方法的快速文本分类系统 被引量:17
19
作者 罗杰 陈力 +1 位作者 夏德麟 王凯 《计算机应用研究》 CSCD 北大核心 2006年第4期32-34,共3页
关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法(FS),并利用TFIDF算法来筛选出关键词以... 关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法(FS),并利用TFIDF算法来筛选出关键词以完成将W eb文档进行快速有效分类的目的。实验表明,该方法在不影响分类准确率的情况下,分类的速度明显提高。 展开更多
关键词 计算机应用 中文信息处理 关键词提取 WEB文档分类
下载PDF
中文文本同频词统计规律及在关键词提取中的应用 被引量:4
20
作者 李晓超 赵书良 +2 位作者 罗燕 陈敏 柳萌萌 《计算机应用研究》 CSCD 北大核心 2016年第4期1007-1012,共6页
通过大量实验对中文文本中同频词的统计规律进行了研究,利用齐普夫定律推导出了适合中文文本的同频词数的数学表达式,能更准确地表示出不同长度的文本中各频次的同频词数;借助同频词数的数学表达式,重新确立了中文文本中高频词和低频词... 通过大量实验对中文文本中同频词的统计规律进行了研究,利用齐普夫定律推导出了适合中文文本的同频词数的数学表达式,能更准确地表示出不同长度的文本中各频次的同频词数;借助同频词数的数学表达式,重新确立了中文文本中高频词和低频词的界分公式,并通过实验验证了该公式能够更好地界分高频词和低频词。将提出的统计规律应用于中文文本关键词提取,有效提高了关键词提取效率,在文本长度不小于3 010词的前提下,频次为1和频次为2的词不必参与TF-IDF值的计算,可将计算效率提高2~7倍,且没有造成关键词丢失。解决了学术界关心的如何处理中文低频词的问题,对关键词提取中如何处理低频词提供了可操作标准。 展开更多
关键词 同频词 齐普夫定律 布茨定律 关键词提取 TF-IDF算法
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部