期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于分类的微博新情感词抽取方法和特征分析 被引量:19
1
作者 刘德喜 聂建云 +5 位作者 万常选 刘喜平 廖述梅 廖国琼 钟敏娟 江腾蛟 《计算机学报》 EI CSCD 北大核心 2018年第7期1574-1597,共24页
情感或情绪分析在舆情分析、商品评论分析、商品推荐等领域应用广泛,而文本中的情感或情绪分析通常以情感词典为基础.人工情感词典虽然准确但构建代价大、难以及时更新,很难适应微博这类新情感词快速更迭的数据.微博平台为新情感词的发... 情感或情绪分析在舆情分析、商品评论分析、商品推荐等领域应用广泛,而文本中的情感或情绪分析通常以情感词典为基础.人工情感词典虽然准确但构建代价大、难以及时更新,很难适应微博这类新情感词快速更迭的数据.微博平台为新情感词的发布和传播提供了便捷的途径,是新情感词的重要来源.考虑到已有规模较大的人工情感词典及大量包含新情感词的微博数据,在统计、分析、对比中、英两种语言微博中情感词分布差异的基础上,提出了与特定语言无关的基于分类思想的微博新情感词抽取方法cNSEm.cNSEm根据微博数据集和情感词典自动构建训练数据、训练分类器并判别候选词的情感极性,最后采用投票机制确定候选词的情感极性.通过大量而细致的实验,分析了cNSEm在中、英文两种语言的微博数据上的表现、六类特征的作用和用法以及抽取的新情感词对微博情感分类任务的帮助作用.实验结果表明,cNSEm比经典的基于共现和极性传播的方法要好,特别是当考虑中文微博数据集中的名词类情感词时.对cNSEm抽取的新情感词进行了直接和间接两种方法评测,前者利用人工情感词典作参照,后者考察抽取的新情感词对情感分类的帮助作用,从评测指标上看,cNSEm抽取的新情感词与人工情感词典的质量相当,并且cNSEm能适应有较大差异的中、英两个语种. 展开更多
关键词 微博 新情感词抽取 cNSEm方法 特征分析
下载PDF
融合规则与统计的微博新词发现方法 被引量:15
2
作者 周霜霜 徐金安 +1 位作者 陈钰枫 张玉洁 《计算机应用》 CSCD 北大核心 2017年第4期1044-1050,共7页
结合微博新词的构词规则自由度大和极其复杂的特点,针对传统的C/NC-value方法抽取的结果新词边界的识别准确率不高,以及低频微博新词无法正确识别的问题,提出了一种融合人工启发式规则、C/NC-value改进算法和条件随机场(CRF)模型的微博... 结合微博新词的构词规则自由度大和极其复杂的特点,针对传统的C/NC-value方法抽取的结果新词边界的识别准确率不高,以及低频微博新词无法正确识别的问题,提出了一种融合人工启发式规则、C/NC-value改进算法和条件随机场(CRF)模型的微博新词抽取方法。一方面,人工启发式规则是指对微博新词的分类和归纳总结,并从微博新词构词的词性(POS)、字符类别和表意符号等角度设计的微博新词的构词规则;另一方面,改进的C/NC-value方法通过引入词频、邻接熵和互信息等统计量来重构NC-value目标函数,并使用CRF模型训练和识别新词,最终达到提高新词边界识别准确率和低频新词识别精度的目的。实验结果显示,与传统方法相比,所提出的方法能有效地提高微博新词识别的F值。 展开更多
关键词 微博新词 构词规则 统计量特征 C/NC-value方法 条件随机场模型
下载PDF
基于词共现图的中文微博新闻话题识别 被引量:31
3
作者 赵文清 侯小可 《智能系统学报》 北大核心 2012年第5期444-449,共6页
针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和词频增加率2个因素抽取微博数... 针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和词频增加率2个因素抽取微博数据中的主题词.然后根据主题词间的共现度构建词共现图,把词共现图中每个不连通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题.最后在微博数据集上进行实验,实现了对微博中新闻话题的识别,验证了该方法的有效性. 展开更多
关键词 微博 新闻话题 新闻话题识别 主题词 词共现图
下载PDF
面向网络语言基于微博语料的新词发现方法 被引量:11
4
作者 雷一鸣 刘勇 霍华 《计算机工程与设计》 北大核心 2017年第3期789-794,共6页
为对微博语料中的中文新词进行有效的识别发现,针对微博语料的文本特性,提出一种基于词语互信息模型和外部统计量的新词发现方法。采用互信息统计模型基于候选词内部最小搭配单元向右邻元扩展统计的方法,建立候选词集;针对统计特性、语... 为对微博语料中的中文新词进行有效的识别发现,针对微博语料的文本特性,提出一种基于词语互信息模型和外部统计量的新词发现方法。采用互信息统计模型基于候选词内部最小搭配单元向右邻元扩展统计的方法,建立候选词集;针对统计特性、语料特征,进行低频筛选,引入外部统计量的概念进行过滤。该统计方法解决了基于互信息统计模型用于新词发现时只能统计两组成元素的局限性,规避了影响新词发现研究准确性能的N元重叠问题,过滤方法对于包含大量短语句的微博语料用着良好作用,通过实例与对比验证了该方法的有效性。 展开更多
关键词 新词发现 微博语料 互信息 词内部耦合度 外部统计量
下载PDF
微博语料分词及标注方法初探 被引量:1
5
作者 于清 阿里甫.库尔班 《新疆大学学报(自然科学版)》 CAS 2013年第1期81-86,共6页
本文将清华大学中文分词和词性标注系统应用于部分微博语料数据,检测系统对微博新词识别能力及对识别错误进行了分类总结,并对识别率低的新词制定了标注规范.通过人工校对获得新的训练语料数据集,提高系统对微博文本的处理能力,为建立... 本文将清华大学中文分词和词性标注系统应用于部分微博语料数据,检测系统对微博新词识别能力及对识别错误进行了分类总结,并对识别率低的新词制定了标注规范.通过人工校对获得新的训练语料数据集,提高系统对微博文本的处理能力,为建立微博专用语料库做前期准备工作. 展开更多
关键词 分词 标注系统 专有名词 新词 微博语料库
下载PDF
基于领域划分的微博用户影响力分析 被引量:7
6
作者 刘金龙 吴斌 +1 位作者 陈震 沈崇玮 《计算机科学》 CSCD 北大核心 2015年第5期42-46,66,共6页
近年来微博作为一种新兴的社交网络逐渐被广大用户使用。微博信息简短、更新迅速、包含信息量大,给微博用户获取信息带来了诸多不便,因此,利用影响力分析的手段找到具有较大影响力的微博用户具有重大意义。微博内容较传统的媒体信息具... 近年来微博作为一种新兴的社交网络逐渐被广大用户使用。微博信息简短、更新迅速、包含信息量大,给微博用户获取信息带来了诸多不便,因此,利用影响力分析的手段找到具有较大影响力的微博用户具有重大意义。微博内容较传统的媒体信息具有较强的时效性和权威性,同时微博用语也极其不规范,这给微博用户影响力的分析带来了极大的困难。首先对获取的微博用户信息进行领域的划分,采用基于微博内容和用户关注的方式将用户归类到其所属的领域。其中,采用新词发现以及特征扩展的方法来提高划分结果的准确性。然后,对各个领域的用户进行影响力分析,提出3种影响力传播模型,用户最终的影响力大小根据3种模型的结果进行加权计算。最后对实验结果进行分析、比较,证明了计算用户影响力的方法能取得较优的结果。 展开更多
关键词 新浪微博 领域划分 影响力 文本分析 新词发现
下载PDF
Skip-Gram模型融合词向量投影的微博新词发现 被引量:3
7
作者 于洁 《计算机系统应用》 2016年第7期130-136,共7页
随着微博等社交网络的普及,新词源源不断涌现,分词系统经常将新词错误切分为单字.新词发现已经成为中文自然语言处理领域的研究热点.现有新词识别方法依赖大规模语料统计数据,对低频新词识别能力差.本文提出一种扩展Skip-gram模型和词... 随着微博等社交网络的普及,新词源源不断涌现,分词系统经常将新词错误切分为单字.新词发现已经成为中文自然语言处理领域的研究热点.现有新词识别方法依赖大规模语料统计数据,对低频新词识别能力差.本文提出一种扩展Skip-gram模型和词向量投影方法,将两者结合后能缓解自然语言处理中常见的数据稀疏问题,有效识别低频新词,进而提高分词系统的准确率和召回率. 展开更多
关键词 skip-gram SOM 词向量 微博 新词发现
下载PDF
基于互信息和邻接熵的新词发现算法 被引量:29
8
作者 刘伟童 刘培玉 +1 位作者 刘文锋 李娜娜 《计算机应用研究》 CSCD 北大核心 2019年第5期1293-1296,共4页
如何快速高效地识别新词是自然语言处理中一项非常重要的任务。针对当前新词发现存在的问题,提出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语与其右邻接字的互信息来逐字扩展,得到候选新词;并通过计算邻... 如何快速高效地识别新词是自然语言处理中一项非常重要的任务。针对当前新词发现存在的问题,提出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语与其右邻接字的互信息来逐字扩展,得到候选新词;并通过计算邻接熵、删除候选新词的首尾停用词和过滤旧词语等方法来过滤候选新词,最终得到新词集。解决了因切词错误导致部分新词无法识别以及通过n-gram方法导致大量重复词串和垃圾词串识别为新词的问题。最后通过实验验证了该算法的有效性。 展开更多
关键词 新词发现 互信息 邻接熵 微博语料
下载PDF
基于频繁词集聚类的微博新话题快速发现 被引量:7
9
作者 徐雅斌 李卓 +1 位作者 吕非非 武装 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2014年第S1期276-282,共7页
新话题发现是进行舆情分析的基础和前提,新话题发现的一个关键环节是进行关键词的聚类分析.目前,大量的新话题来源于微博,但是将传统的聚类算法用于微博新话题发现时,会产生特征向量的高维性和稀疏性问题,使得聚类结果非常不准确,而且... 新话题发现是进行舆情分析的基础和前提,新话题发现的一个关键环节是进行关键词的聚类分析.目前,大量的新话题来源于微博,但是将传统的聚类算法用于微博新话题发现时,会产生特征向量的高维性和稀疏性问题,使得聚类结果非常不准确,而且收敛时间难以控制,进而影响舆情分析的可靠性和实时性.鉴此,本文提出了频繁词集聚类FWSC(frequent words sets clustering)方法.实验结果表明,我们提出的方法能够快速有效地发现新话题. 展开更多
关键词 频繁词集聚类算法 微博 新话题 HADOOP MAPREDUCE
原文传递
消费者产品评论与微博口碑对新产品销售的动态对比影响研究 被引量:8
10
作者 袁海霞 高剑波 祝裕卿 《软科学》 CSSCI 北大核心 2018年第6期129-133,共5页
以京东某品牌手机为研究对象,采用动态线性模型,结合新产品扩散理论,对消费者产品评论和微博口碑在新产品扩散过程中的动态对比影响进行了研究。结果发现:在新产品扩散的过程中,微博口碑数量对新产品销量的影响呈右偏的倒“U”形关系,... 以京东某品牌手机为研究对象,采用动态线性模型,结合新产品扩散理论,对消费者产品评论和微博口碑在新产品扩散过程中的动态对比影响进行了研究。结果发现:在新产品扩散的过程中,微博口碑数量对新产品销量的影响呈右偏的倒“U”形关系,而效价无显著影响;对于消费者产品评论,随着新产品的扩散,数量对产品销量的影响逐渐增强,达到一定程度后迅速减弱又逐渐增强并趋于稳定,效价的影响呈右偏的倒“U”形关系。 展开更多
关键词 消费者产品评论 微博口碑 新产品销售 动态线性模型
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部