期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于改进PMI和最小邻接熵结合策略的未登录词识别 被引量:4
1
作者 徐豪杰 吴新丽 +1 位作者 杨文珍 潘志庚 《计算机系统应用》 2020年第6期181-188,共8页
中文分词是中文自然语言处理的重要任务,其目前存在的一个重大瓶颈是未登录词识别问题.该文提出一种非监督的基于改进PMI和最小邻接熵结合策略的未登录词识别方法.滤除文本中无关识别的标点符号和特殊字符后,此方法先运用改进PMI算法识... 中文分词是中文自然语言处理的重要任务,其目前存在的一个重大瓶颈是未登录词识别问题.该文提出一种非监督的基于改进PMI和最小邻接熵结合策略的未登录词识别方法.滤除文本中无关识别的标点符号和特殊字符后,此方法先运用改进PMI算法识别出文本中凝聚程度较强的字符串,并通过停用词词表和核心词库的筛选过滤,得到候选未登录词;然后,计算候选未登录词的最小邻接熵,并依据词频-最小邻接熵判定阈值,确定出文本中的未登录词.通过理论及实验分析,此方法对不同的文本,在不需要长时间学习训练调整参数的情况下,即可生成个性化的未登录词词典,应用于中文分词系统后,其分词正确率、召回率分别达到81.49%、80.30%. 展开更多
关键词 中文分词 未登录词识别 改进pmi算法 邻接熵
下载PDF
基于PMI与BTM的船舶事故原因文本挖掘 被引量:4
2
作者 于卫红 付飘云 +1 位作者 任月 王庆武 《交通信息与安全》 CSCD 北大核心 2021年第1期35-44,共10页
为了实现从海量的船舶事故调查报告中自动提取出水上交通安全知识,提出了从词语和主题2个层面对船舶事故调查报告进行语义挖掘的方法,并以100份船舶自沉事故调查报告为语料进行具体挖掘。在词语层面,使用PMI算法从事故原因文本中挖掘频... 为了实现从海量的船舶事故调查报告中自动提取出水上交通安全知识,提出了从词语和主题2个层面对船舶事故调查报告进行语义挖掘的方法,并以100份船舶自沉事故调查报告为语料进行具体挖掘。在词语层面,使用PMI算法从事故原因文本中挖掘频繁共现的词语模式,通过文本特征词的共现揭示事故致因要素间的关联。在主题层面,使用BTM算法对事故原因文本进行主题建模,通过主题对数似然、主题一致性评估建模结果的优劣。通过主题建模,对表征自沉事故原因的特征词进行聚类,并根据主题在文档集合中的分布初步量化出每种原因的发生概率。根据使用500组新数据集对主题模型预测能力的测试,所构建的主题模型能够100%识别出领域无关的词并自动忽略;对于语料库中85.6%的词语,所构建的主题模型能够明确地将其归属于代表某一原因的主题;另14.4%的词主题边界不明显,难以将其单独以较大的可能性明确归属到某一主题下。 展开更多
关键词 交通安全 船舶事故调查报告 文本挖掘 主题模型 词共现 pmi算法 BTM算法
下载PDF
基于互信息改进算法的新词发现对中文分词系统改进 被引量:45
3
作者 杜丽萍 李晓戈 +2 位作者 于根 刘春丽 刘睿 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第1期35-40,共6页
提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度,可以根据需要指定)。基于257MB的百度贴吧语料实验,当PMIk方法的... 提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度,可以根据需要指定)。基于257MB的百度贴吧语料实验,当PMIk方法的参数为10时,结果精度达到97.39%,比PMI方法提高28.79%,实验结果表明,该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典,加载到汉语词法分析系统ICTCLAS中,基于10 KB的百度贴吧语料实验,比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%,3.73%和5.91%。实验表明,通过进行新词发现能有效改善分词系统对网络文本的处理效果。 展开更多
关键词 新词识别 未登录词 互信息 pmi改进算法 中文分词
下载PDF
基于改进BIRCH聚类算法的评价对象挖掘 被引量:2
4
作者 王梦遥 王晓晔 +1 位作者 洪睿琪 柴晓瑞 《软件》 2019年第11期9-12,61,共5页
本文对于意见挖掘领域中的评价对象的修剪和聚类问题,提出使用K-means聚类算法和BIRCH聚类算法相结合的方式来进行评价对象的修剪和聚类。利用BIRCH算法类别聚类的功能对评价对象进行聚类,并删除包含较少数据的簇来实现修剪评价对象;再... 本文对于意见挖掘领域中的评价对象的修剪和聚类问题,提出使用K-means聚类算法和BIRCH聚类算法相结合的方式来进行评价对象的修剪和聚类。利用BIRCH算法类别聚类的功能对评价对象进行聚类,并删除包含较少数据的簇来实现修剪评价对象;再通过对于剩下的簇使用K-means聚类算法来获得最优评价对象。这种修剪聚类方法与以往的基于PMI算法修剪然后基于K-means聚类算法相比,减少了评价对象修剪时对语料库的依赖,最终聚类的结果更加精准,而且BIRCH算法采用一次扫描数据库的策略,可以有效提高速度。 展开更多
关键词 名词词组模式 BIRCH聚类算法 K-MEANS聚类算法 pmi算法
下载PDF
基于PMI和TOPSIS法的产品评价分析——以Amazon平台某微波炉产品为例
5
作者 王越 支鑫荣 +1 位作者 赵萌 童新安 《黑龙江科学》 2021年第6期19-22,共4页
对亚马逊平台某微波炉产品的销售数据与英文评论进行分析,从而得出该产品的优秀系列名称。重点是利用PMI算法进行英文评论文本的情感倾向程度识别,根据文本情感的倾向程度,将其分为五个等级,从而实现对文本数据的量化,再将不同的客户群... 对亚马逊平台某微波炉产品的销售数据与英文评论进行分析,从而得出该产品的优秀系列名称。重点是利用PMI算法进行英文评论文本的情感倾向程度识别,根据文本情感的倾向程度,将其分为五个等级,从而实现对文本数据的量化,再将不同的客户群体分为三类,对三类客户的数据集通过TOPSIS法得出各个产品价值评估结果与该微波炉产品的优秀系列名称。 展开更多
关键词 评论文本 pmi算法 综合评价
下载PDF
中文文本情感词典构建方法 被引量:37
6
作者 阳爱民 林江豪 周咏梅 《计算机科学与探索》 CSCD 2013年第11期1033-1039,共7页
互联网海量文本的情感分析是当前的一个研究热点。介绍了一种中文文本情感词典构建方法,该方法选用若干个情感种子词,利用搜索引擎返回的共现数,通过改进的PMI(pointwise mutual information)算法计算情感词的情感权值。将构建的情感词... 互联网海量文本的情感分析是当前的一个研究热点。介绍了一种中文文本情感词典构建方法,该方法选用若干个情感种子词,利用搜索引擎返回的共现数,通过改进的PMI(pointwise mutual information)算法计算情感词的情感权值。将构建的情感词典应用到文本情感分类实验中,在不同的语料环境下,对比基于情感词典和朴素贝叶斯分类器下的文本情感分类效果,实验结果表明,构建的情感词典,可有效用于情感特征选择和直接用于情感分类,并且分类性能稳定。 展开更多
关键词 情感词典 情感分类 pmi算法 朴素贝叶斯
下载PDF
基于改进特征提取及聚类的网络评论挖掘研究 被引量:4
7
作者 李昌兵 庞崇鹏 +1 位作者 凌永亮 王强 《现代情报》 CSSCI 2018年第2期68-74,共7页
[目的/意义]针对信息过载条件下中文网络产品评论中特征提取性能低以及特征聚类中初始中心点的选取问题。[方法/过程]本研究提出采用基于权重的改进Apriori算法产生候选产品特征集合,再根据独立支持度、频繁项名词非特征规则及基于网络... [目的/意义]针对信息过载条件下中文网络产品评论中特征提取性能低以及特征聚类中初始中心点的选取问题。[方法/过程]本研究提出采用基于权重的改进Apriori算法产生候选产品特征集合,再根据独立支持度、频繁项名词非特征规则及基于网络搜索引擎的PMI算法对候选产品特征集合进行过滤。并以基于HowNet的语义相似度和特征观点共现作为衡量产品特征之间关联程度的特征,提出一种改进K-means聚类算法对产品特征进行聚类。[结果/结论]实验结果表明,在特征提取阶段,查准率为69%,查全率为92.64%,综合值达到79.07%。在特征聚类阶段,本文提出的改进K-means算法相对传统算法具有更优的挖掘性能。 展开更多
关键词 APRIORI算法 特征提取 pmi算法 K-MEANS算法 语义相似度
下载PDF
网购农产品评论中的消费者情感标签抽取方法研究 被引量:1
8
作者 李良强 李开明 +2 位作者 白梨霏 曹云忠 吴亮 《电子科技大学学报(社科版)》 2018年第4期1-7,共7页
以电子商务平台中的网购农产品在线评论为对象,研究抽取消费者在其评论文本中表达出的情感标签方法。首先对网购农产品评论进行分词和词性标注,其次采用TF-IDF特征抽取方法对评价对象和评价词进行关键词过滤再利用PMI计算出各个关联词... 以电子商务平台中的网购农产品在线评论为对象,研究抽取消费者在其评论文本中表达出的情感标签方法。首先对网购农产品评论进行分词和词性标注,其次采用TF-IDF特征抽取方法对评价对象和评价词进行关键词过滤再利用PMI计算出各个关联词的共现性,根据用户评分建立规则判断情感词倾向性,从而最终获得情感标签集合。利用网络抓取的网购农产品评论语料作为测试数据对情感标签集进行测试,获得较高的抽取准确率和召回率,表明这种方法可以有效地抽取农产品评论中的消费者情感,具有较好的领域适应性。 展开更多
关键词 情感标签 在线用户评论 农产品 TF-IDF算法 pmi算法
下载PDF
基于图小波网络模型的文本分类研究
9
作者 马诚 贾凯莉 +2 位作者 李云红 高子明 候嘉乐 《电子设计工程》 2022年第11期17-21,共5页
针对文本分类中获取文本复杂特征困难、分类准确率低等问题,建立基于图小波网络文本分类模型。根据语料词库共现信息及词与文档的关系构建文本图,使用改进TF-IDF算法、PMI算法计算词与文档之间和词与词之间文本图的权重;建立基于图小波... 针对文本分类中获取文本复杂特征困难、分类准确率低等问题,建立基于图小波网络文本分类模型。根据语料词库共现信息及词与文档的关系构建文本图,使用改进TF-IDF算法、PMI算法计算词与文档之间和词与词之间文本图的权重;建立基于图小波文本分类模型,将构建的文本图输入到GWNN模型中。经R8、R52及Ohsumed英文语料库测试结果表明,文本分类准确率分别达到98.09%、93.91%及69.3%,验证了基于图小波网络模型的有效性,也为文本分类提供了一种有效的方法。 展开更多
关键词 pmi算法 改进TF-IDF算法 图小波网络 文本分类
下载PDF
中文领域情感词典自适应学习方法 被引量:11
10
作者 叶霞 曹军博 +2 位作者 许飞翔 郭鸿燕 尹列东 《计算机工程与设计》 北大核心 2020年第8期2231-2237,共7页
针对领域情感词典的局限性,提出一种中文领域情感词典自适应学习方法。从中文基础情感词典中选取少量种子词,采用基于CBOW模型和基于句法规则两种抽取方法,对领域语料库进行候选情感词的抽取,通过改进的SO_PMI算法对得到的候选情感词进... 针对领域情感词典的局限性,提出一种中文领域情感词典自适应学习方法。从中文基础情感词典中选取少量种子词,采用基于CBOW模型和基于句法规则两种抽取方法,对领域语料库进行候选情感词的抽取,通过改进的SO_PMI算法对得到的候选情感词进行情感极性判定,形成领域正负情感词典。实验结果表明,该方法能够自适应生成领域情感词典,情感词识别准确率较高,该模型在中文情感分析应用中取得了较好的效果。 展开更多
关键词 情感分析 领域情感词典 情感极性 CBOW连续词袋模型 pmi算法
下载PDF
基于情感字典与连词结合的中文文本情感分类 被引量:17
11
作者 刘玉娇 琚生根 +1 位作者 伍少梅 苏翀 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第1期57-62,共6页
本文首先利用基础情感词典以及基准词对所需研究领域的评论文本进行分析,以此获得特定领域具有感情倾向的特征词语.而后利用基准词以及获得的特征词语对评论进行分析,对于有感情词的句子,采用计算感情值来判别其感情倾向以及感情程度,... 本文首先利用基础情感词典以及基准词对所需研究领域的评论文本进行分析,以此获得特定领域具有感情倾向的特征词语.而后利用基准词以及获得的特征词语对评论进行分析,对于有感情词的句子,采用计算感情值来判别其感情倾向以及感情程度,对于无感情词的句子,采用连词的方法来进行感情的判别.实验结果表明,该方法能够对不同领域的评论得到较好的感情分类效果. 展开更多
关键词 中文文本情感 基准词 SO—pmi算法 情感字典 共现
原文传递
基于中文股票博客的情感分类 被引量:5
12
作者 李亚珍 李晓戈 于根 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2015年第2期163-168,共6页
根据新浪财经股票博客的特点,使用点互信息(PMI)方法构建了股票情感词典,在所构建的股票情感词典和现有的台湾大学情感词典基础上,结合经典贝叶斯方法对新浪财经博客的情感分析进行研究,并且在中文分词、自然语言处理(NLP)技术的基础上... 根据新浪财经股票博客的特点,使用点互信息(PMI)方法构建了股票情感词典,在所构建的股票情感词典和现有的台湾大学情感词典基础上,结合经典贝叶斯方法对新浪财经博客的情感分析进行研究,并且在中文分词、自然语言处理(NLP)技术的基础上研究文本句法结构对股票博客文本情感分类结果的影响.实验结果表明:考虑文本中的句法细节以后,如词语搭配、否定词和连词等,使用PMI股票情感词典+贝叶斯方法,宏平均准确率从60.19%提高到80.50%,宏平均召回率从原来的59.35%提高到78.70%,宏平均F1值也由59.77%达到了79.60%. 展开更多
关键词 情感词典 pmi算法 自然语言处理
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部