期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于上下文统计反馈的中文特征词抽取方法
1
作者 苏志响 邵志清 《情报探索》 2006年第12期60-61,64,共3页
在介绍经典统计量互信息和t-测试的基础上,提出一种基于上下文统计反馈模型的特征词自动抽取方法,使之更好地满足对大规模中文文本进行处理的需求。实验表明,在无需词典和语料库的前提下,该方法能够快速、准确地对大规模中文文本进行特... 在介绍经典统计量互信息和t-测试的基础上,提出一种基于上下文统计反馈模型的特征词自动抽取方法,使之更好地满足对大规模中文文本进行处理的需求。实验表明,在无需词典和语料库的前提下,该方法能够快速、准确地对大规模中文文本进行特征词抽取。 展开更多
关键词 中文特征词自动抽取 文本分类 互信息 测试 t-测试
下载PDF
一个面向文本分类的中文特征词自动抽取方法 被引量:4
2
作者 付德宇 代成琴 《计算机工程与应用》 CSCD 北大核心 2006年第15期165-167,共3页
文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点,设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法,并通过实验与传统的词典分词法进行了比较,结果表明,这种方法对于中高频词条的识别率接近于词典... 文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点,设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法,并通过实验与传统的词典分词法进行了比较,结果表明,这种方法对于中高频词条的识别率接近于词典分词法,而分词速度则远远高于词典分词法,能够满足对大规模开放域文本进行快速特征词自动抽取的需求。 展开更多
关键词 中文特征词自动抽取 文本分类 汉字结合模式
下载PDF
基于TextRank的网评产品特征提取方法 被引量:3
3
作者 何金金 郭振波 王开西 《青岛大学学报(自然科学版)》 CAS 2018年第1期109-114,共6页
针对经典TF-IDF算法在在文档特征词提取中因忽略了词之间连接关系而导致提取准确率较低的问题,提出一种基于word2vec加权的TextRank词图构建方法。首先通过爬虫获取网络产品评论语料,并进行分词、词性标注以及名词提取等预处理;其次利用... 针对经典TF-IDF算法在在文档特征词提取中因忽略了词之间连接关系而导致提取准确率较低的问题,提出一种基于word2vec加权的TextRank词图构建方法。首先通过爬虫获取网络产品评论语料,并进行分词、词性标注以及名词提取等预处理;其次利用word2vec形成词元与词元之间的相似度矩阵;最后将word2vec中获取到的词元之间的相似度作为词语影响力权值,对经典TextRank产品特征提取方法进行改进。实验数据表明,与传统的TextRank产品特征提取方法相比,改进后的方法查准率提高了5%,查全率提高了2.9%,在实际工程中能够有效的提高产品特征提取的准确率。 展开更多
关键词 评论 特征词抽取 TF-IDF Word2vec TextRank
下载PDF
基于词聚类的热点话题检测算法 被引量:27
4
作者 龙志祎 程葳 《计算机工程与设计》 CSCD 北大核心 2011年第6期2214-2216,F0003,共4页
对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了热点话题召回率和... 对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了热点话题召回率和话题类纯度评测,实验结果表明,采用基于词聚类的算法进行热点话题检测,热点话题的平均召回率达到83.8%,话题类的平均类纯度达到94.4%,检测出的热点话题类别易于理解。 展开更多
关键词 互信息 词聚类 热点话题发现 特征词抽取 词汇语义相似度
下载PDF
基于不同内容层面的特定领域研究主题差异分析研究 被引量:7
5
作者 赵磊 章成志 《农业图书情报学报》 2021年第5期14-27,共14页
[目的/意义]旨在探究不同内容层面:标题和摘要、引文内容、全文内容中的主题是否存在差异,以分析标题和摘要中的主题内容是否可以揭示全文的研究内容,以及引文内容对其施引文献内容的作用,为基于文献的标题和摘要来分析全文的研究内容... [目的/意义]旨在探究不同内容层面:标题和摘要、引文内容、全文内容中的主题是否存在差异,以分析标题和摘要中的主题内容是否可以揭示全文的研究内容,以及引文内容对其施引文献内容的作用,为基于文献的标题和摘要来分析全文的研究内容提供理论支持。[方法/过程]使用新冠领域的中文期刊论文进行实证研究,从文献的标题和摘要、引文内容、全文内容中抽取特征词,使用聚类算法对特征词进行聚类,然后采用人工判读的方式识别研究主题,并进行对比研究,分析三者之间的主题差异。[结果/结论]研究结果表明:研究主题在文献的标题和摘要、引文内容、全文内容中存在差异;与标题和摘要相比,全文中富含更多的主题内容,但二者的主题内容差异较小,可以使用标题和摘要中的主题内容来表征全文的研究内容;引文内容与其施引文献内容的主题相关,二者可以进行内容互补。 展开更多
关键词 新冠肺炎 特征词抽取 词聚类 主题分析 主题模型
下载PDF
基于NodeRank算法的产品特征提取研究 被引量:5
6
作者 周立欣 林杰 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第4期90-98,共9页
【目的】基于自然语言处理技术和复杂网络相关理论,提出新的产品特征识别方法,提高产品特征的抽取效果。【方法】构建产品特征–情感词对的二分加权网络,从网络视角更加清晰、直观地描述产品特征词和情感词之间的关系。然后提出NodeRan... 【目的】基于自然语言处理技术和复杂网络相关理论,提出新的产品特征识别方法,提高产品特征的抽取效果。【方法】构建产品特征–情感词对的二分加权网络,从网络视角更加清晰、直观地描述产品特征词和情感词之间的关系。然后提出NodeRank算法对产品特征词进行重要性排序,提高特征词提取的准确率。【结果】通过对京东商城中真实评论数据的仿真实验,结果表明NodeRank算法产品特征提取的准确率、召回率和F-score都高于HAC、TF-IDF和TextRank等基准算法。【局限】NodeRank算法的计算复杂度偏高,需要进一步优化。【结论】NodeRank算法是一种准确有效的特征提取方法,能够为产品特征提取、产品营销等商业活动提供支持。 展开更多
关键词 特征词抽取 二分网络 NodeRank算法 重要性排序
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部