期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于种子词的微博表情符情感倾向判定方法 被引量:5
1
作者 王伟 周咏梅 +3 位作者 阳爱民 林江豪 陈昱宏 曾文俊 《数据采集与处理》 CSCD 北大核心 2017年第1期198-204,共7页
情感倾向明显的表情符,容易通过人工进行标注。但是对于情感倾向不明显的表情符,多人手工的标注结果往往难以达成一致。因此,提出一种利用种子词自动判定表情符情感倾向的方法。该方法利用少量种子表情符自动标注情感倾向比较明显的表情... 情感倾向明显的表情符,容易通过人工进行标注。但是对于情感倾向不明显的表情符,多人手工的标注结果往往难以达成一致。因此,提出一种利用种子词自动判定表情符情感倾向的方法。该方法利用少量种子表情符自动标注情感倾向比较明显的表情符,生成表情符标注集;对于情感倾向不明显的表情符,利用种子情感词和已得到的表情符标注集构建模型,实现其情感倾向的自动判定。实验结果表明,本文方法在微博表情符情感倾向的自动判定上有很好的效果。 展开更多
关键词 情感分类 机器学习 微博表情符 种子词 自动标注
下载PDF
基于种子词汇的话题标签抽取研究 被引量:7
2
作者 寇宛秋 李芳 《中文信息学报》 CSCD 北大核心 2013年第5期114-121,143,共9页
传统话题模型用词项概率分布表示话题,在可解释性上存在很大的不足。该文在Latent Dirichlet Allocation(LDA)的结果上提出了一种基于种子词汇的话题标签抽取方法。首先根据提出的权重计算公式抽取每个话题的种子词,然后,采用bootstrapp... 传统话题模型用词项概率分布表示话题,在可解释性上存在很大的不足。该文在Latent Dirichlet Allocation(LDA)的结果上提出了一种基于种子词汇的话题标签抽取方法。首先根据提出的权重计算公式抽取每个话题的种子词,然后,采用bootstrapping思想,迭代产生包含种子词汇的关键短语集合,最后根据短语的完整性和泛化度选择话题标签。该文对两会报告话题和新闻事件话题进行实验,通过结果展示和人工评测,该方法抽取的话题标签能够较准确地表达话题的语义信息。 展开更多
关键词 话题标签 种子词抽取 bootstrapping算法
下载PDF
基于种子词和数据集的垃圾弹幕屏蔽词典的自动构建 被引量:3
3
作者 汪舸 吴方君 《计算机工程与科学》 CSCD 北大核心 2020年第7期1302-1308,共7页
随着弹幕视频的流行,弹幕已经成为了互联网时代青年互动交流的一种形式,但随着弹幕数量的增多,如何屏蔽垃圾弹幕成为一个问题。在各类视频网站提出的关键词屏蔽法的基础上,提出了分别基于种子词和数据集的2类屏蔽词典自动构建方法。第1... 随着弹幕视频的流行,弹幕已经成为了互联网时代青年互动交流的一种形式,但随着弹幕数量的增多,如何屏蔽垃圾弹幕成为一个问题。在各类视频网站提出的关键词屏蔽法的基础上,提出了分别基于种子词和数据集的2类屏蔽词典自动构建方法。第1类方法主要采用Google的自然语言处理工具word2vec和PMI,寻找与种子词相似性较大或共现次数较多的词添加到屏蔽词典中去;第2类方法主要采用TF-IDF、LDA主题模型和信息增益IG的方法,从垃圾弹幕数据集中提取关键词来构建屏蔽词典。最后,对所构建的屏蔽词典进行评测,实验结果表明,词典规模在400~500时,弹幕屏蔽效果最好。同时,还考察了LDA主题数和数据集规模等因素对弹幕屏蔽效果的影响。 展开更多
关键词 弹幕 关键屏蔽 屏蔽 种子词
下载PDF
中文基础情感词词典构建方法研究 被引量:81
4
作者 柳位平 朱艳辉 +2 位作者 栗春亮 向华政 文志强 《计算机应用》 CSCD 北大核心 2009年第10期2875-2877,共3页
词语的情感倾向判别是文章语义情感倾向研究的基础工作。利用中文情感词建立一个基础情感词典,为专一领域情感词识别提供一个核心子集,能够有效地在语料库中识别及扩展情感词集,并提高分类效果。在中文词语相似度计算方法的基础上,提出... 词语的情感倾向判别是文章语义情感倾向研究的基础工作。利用中文情感词建立一个基础情感词典,为专一领域情感词识别提供一个核心子集,能够有效地在语料库中识别及扩展情感词集,并提高分类效果。在中文词语相似度计算方法的基础上,提出了一种中文情感词语的情感权值的计算方法,并以HOWNET情感词语集为基准,构建了中文基础情感词典。利用该词典结合TF-IDF特征权值计算方法,对中文文本情感倾向进行判别,实验结果表明,该方法取得了不错的分类效果。 展开更多
关键词 基础情感 倾向性分析 情感权值 种子词
下载PDF
基于Web数据的特定领域双语词典抽取 被引量:11
5
作者 张永臣 孙乐 +4 位作者 李飞 李文波 西野文人 于浩 方高林 《中文信息学报》 CSCD 北大核心 2006年第2期16-23,共8页
双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语... 双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语料中抽取双语词典的过程,最后通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。 展开更多
关键词 计算机应用 中文信息处理 双语 间关系矩阵 非平行语料 种子词
下载PDF
一种基于词聚类的中文文本主题抽取方法 被引量:17
6
作者 陈炯 张永奎 《计算机应用》 CSCD 北大核心 2005年第4期754-756,共3页
提出了一种基于词聚类的中文文本主题抽取方法,该方法利用相关度对词的共现进行分 析,建立词之间的语义关联,并生成代表某一主题概念的用种子词表示的词类。对于给定文档,先进 行特征词抽取,再借助词类生成该文档的主题因子,最后按... 提出了一种基于词聚类的中文文本主题抽取方法,该方法利用相关度对词的共现进行分 析,建立词之间的语义关联,并生成代表某一主题概念的用种子词表示的词类。对于给定文档,先进 行特征词抽取,再借助词类生成该文档的主题因子,最后按权重输出主题因子,作为文本的主题。实 验结果表明,该方法具有较高的抽准率。 展开更多
关键词 主题抽取 聚类 种子词 主题因子 信息论 同现 CHI统计
下载PDF
一种基于词聚类的文本特征描述方法 被引量:4
7
作者 陈炯 张永奎 《计算机系统应用》 2011年第2期211-215,共5页
针对文本挖掘中存在的特征空间高维性问题,提出了一种基于词聚类的文本特征描述方法,旨在通过机器学习的方法挖掘词汇之间的语义关联,动态构造特定领域的概念词典,借助构造的概念来描述文本的特征,该方法不借助主题词典,先从训练语料中... 针对文本挖掘中存在的特征空间高维性问题,提出了一种基于词聚类的文本特征描述方法,旨在通过机器学习的方法挖掘词汇之间的语义关联,动态构造特定领域的概念词典,借助构造的概念来描述文本的特征,该方法不借助主题词典,先从训练语料中对词的共现情况进行分析,用词聚类(word clustering)生成由种子词(seed words)表示的代表某一主题概念的词类,然后用种子词作为文本的特征项。实验表明,该方法不仅压缩了特征空间的维数,也克服了HowNet中概念信息的局限性,提高了文本分类的精确度。 展开更多
关键词 文本特征描述 共现 聚类 种子词
下载PDF
词语感情色彩极性判断与强度测量方法研究
8
作者 李淑云 王世昌 杨振兰 《现代语文》 2022年第6期70-77,共8页
感情色彩是词义的重要组成部分,目前对感情色彩极性的判断和强度的测量多采用内省法,尚未形成客观有效的标准。从语境、语义韵、构形、计算等四个角度,对感情色彩极性与强度的判断、测量方法进行研究,并以典型的感情色彩种子词来验证方... 感情色彩是词义的重要组成部分,目前对感情色彩极性的判断和强度的测量多采用内省法,尚未形成客观有效的标准。从语境、语义韵、构形、计算等四个角度,对感情色彩极性与强度的判断、测量方法进行研究,并以典型的感情色彩种子词来验证方法的可行性。希望能够探索出较为科学客观的方法,以规避内省法所产生的主观性偏误。 展开更多
关键词 感情色彩极性 感情色彩强度 种子词 语义韵
下载PDF
基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究 被引量:1
9
作者 吴树芳 杨强 +1 位作者 侯晓舟 尹萌 《情报杂志》 北大核心 2023年第11期119-125,共7页
[研究目的]引导式主题模型可以引导生成有倾向性的敏感主题,提高网络敏感信息识别性能,对维护国家安全和社会稳定具有重要意义。[研究方法]针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确,从而导致识别性能欠佳的问题,提... [研究目的]引导式主题模型可以引导生成有倾向性的敏感主题,提高网络敏感信息识别性能,对维护国家安全和社会稳定具有重要意义。[研究方法]针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确,从而导致识别性能欠佳的问题,提出基于SSI-GuidedLDA模型的引导式网络敏感信息识别方法。首先,从多源网络资源中爬取敏感种子词,并基于词向量模型Word2Vec获得种子词的敏感语义相关词,构建更为完备、准确的敏感特征。其次,将构建的敏感特征融入引导式主题模型,得到改进后的模型SSI-GuidedLDA。最后,基于SSI-GuidedLDA模型获得待识别信息的主题分布,通过主题分布概率判断其是否为网络敏感信息。[研究结论]在新浪微博数据集上的实验结果显示,与已有方法相比,提出的方法在准确率、召回率和F 1值上均有一定提高。 展开更多
关键词 敏感语义(SSI) 敏感种子词 敏感信息识别 引导式主题模型 GuidedLDA Word2Vec
下载PDF
基于情感信息预处理和Bi-GRU的虚假评论识别模型 被引量:2
10
作者 张玉莹 朱广丽 +2 位作者 张友强 孙争艳 张顺香 《广西科学》 CAS 北大核心 2023年第1期169-176,共8页
虚假评论识别在电子商务、社交媒体等领域具有重要的应用价值。尽管现有虚假评论识别模型融合了文本的情感信息,但在预训练过程中忽视了对情感信息的提取,导致准确率不高。针对此问题,本文提出一种基于情感信息预处理和双向门控循环单元... 虚假评论识别在电子商务、社交媒体等领域具有重要的应用价值。尽管现有虚假评论识别模型融合了文本的情感信息,但在预训练过程中忽视了对情感信息的提取,导致准确率不高。针对此问题,本文提出一种基于情感信息预处理和双向门控循环单元(Bidirectional Gated Recurrent Unit,Bi-GRU)的虚假评论识别模型(FR-SG),用于提高虚假评论识别的准确率。首先,通过Albert模型获取文本的语义向量;然后,使用词频逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)和K均值(K-means++)聚类的方法从评论中挖掘情感种子词,基于种子词对文本中的属性词和情感词进行掩码(mask);接着,使用面向情感的目标优化函数,将情感信息嵌入到语义表示中,生成情感向量;最后,将这两组向量的拼接结果输入虚假评论识别网络中,得到文本的分类结果。实验结果表明,相较于Bi-GRU+Attention模型,FR SG提高了虚假评论识别的准确率。 展开更多
关键词 虚假评论识别 情感信息预处理 情感种子词 Bi-GRU 目标优化函数
下载PDF
基于Boot Strapping的中文实体关系自动生成 被引量:3
11
作者 张素香 李蕾 +1 位作者 秦颖 钟义信 《微电子学与计算机》 CSCD 北大核心 2006年第12期15-18,共4页
针对中文信息抽取系统中建立提取事件模板的难点问题,基于Bootstrapping思想,提出一种简单、可行的实体关系自动生成方法,利用由种子词和种子模板组成的知识库建立学习器,采用标量聚类的方法,通过种子模板抽取更多的与种子词相似语义关... 针对中文信息抽取系统中建立提取事件模板的难点问题,基于Bootstrapping思想,提出一种简单、可行的实体关系自动生成方法,利用由种子词和种子模板组成的知识库建立学习器,采用标量聚类的方法,通过种子模板抽取更多的与种子词相似语义关系的特征词。在此基础上,利用最近邻居的原则,进而生成更多的抽取模板。丰富了知识库,为分析二元实体关系奠定基础,使得生成复杂的消息模板成为可能,同时极大地减轻手工建立模板的复杂度,有利于系统进行移植。 展开更多
关键词 BOOT Strapping 种子词 种子模板 标量聚类
下载PDF
在线评论文本特征表示方法研究 被引量:1
12
作者 王倩倩 陈康 《金陵科技学院学报(社会科学版)》 2019年第1期56-60,共5页
随着新兴技术与新的商业交易模式不断涌现,网络交易激增,网络交易评论也呈现出爆发式增长态势。针对大数据环境下网络评论文本空间高维的现象,提出借助商品标题和商品描述进行二重筛选的网络评论文本特征表示方法。该方法借助种子词而... 随着新兴技术与新的商业交易模式不断涌现,网络交易激增,网络交易评论也呈现出爆发式增长态势。针对大数据环境下网络评论文本空间高维的现象,提出借助商品标题和商品描述进行二重筛选的网络评论文本特征表示方法。该方法借助种子词而不是主题词典描述文本特征,降低了文档维度,减少了迭代次数,提高了在线评论文本分类的速度;同时,在文本映射时经过直接映射和间接映射二重筛选,减少了文本分类的疏漏,提高了文本分类的精度。 展开更多
关键词 文本表示 种子词 聚类 文本分类 降维 在线评论 文本特征
下载PDF
半监督自训练的方面提取 被引量:7
13
作者 曲昭伟 吴春叶 王晓茹 《智能系统学报》 CSCD 北大核心 2019年第4期635-641,共7页
方面提取是观点挖掘和情感分析任务中的关键一步,随着社交网络的发展,用户越来越倾向于根据评论信息来帮助进行决策,并且用户也更加关注评论的细粒度的信息,因此,从海量的网络评论数据中快速挖掘方面信息对于用户快速决策具有重要意义... 方面提取是观点挖掘和情感分析任务中的关键一步,随着社交网络的发展,用户越来越倾向于根据评论信息来帮助进行决策,并且用户也更加关注评论的细粒度的信息,因此,从海量的网络评论数据中快速挖掘方面信息对于用户快速决策具有重要意义。大部分基于主题模型和聚类的方法在方面提取的一致性上效果并不好,传统的监督学习的方法效果虽然表现很好,但是需要大量的标注文本作为训练数据,标注文本需要消耗大量的人力成本。基于以上问题,本文提出一种基于半监督自训练的方面提取方法,充分利用现存的大量未标签的数据价值,在未标签数据集上通过词向量模型寻找方面种子词的相似词,对每个方面建立与数据集最相关的方面表示词集合,本文方法避免了大量的文本标注,充分利用未标签数据的价值,并且本文方法在中文和英文数据集上都表现出了理想的效果。 展开更多
关键词 方面提取 向量 半监督 自训练 未标签数据 观点挖掘 种子词 相似
下载PDF
基于LOTClass模型的弱监督中文短文本分类算法
14
作者 刘硕 王庚润 任玉媛 《信息工程大学学报》 2021年第5期613-620,共8页
基于全监督学习的文本分类算法需要使用大量的标签数据,而文本数据的标注任务耗时耗力且标注难度较大。针对上述问题,提出了一种基于LOTClass模型的弱监督中文短文本分类算法。首先,使用少量的标签数据构建类别种子词表;其次,使用类别... 基于全监督学习的文本分类算法需要使用大量的标签数据,而文本数据的标注任务耗时耗力且标注难度较大。针对上述问题,提出了一种基于LOTClass模型的弱监督中文短文本分类算法。首先,使用少量的标签数据构建类别种子词表;其次,使用类别种子词表指导训练中文伪标签生成模型,并使用该模型生成大量伪标签数据;最后,利用优质伪标签数据训练一个中文短文本分类模型。在THUCNews新闻标题数据集和论文标题数据集上进行实验,结果表明,该算法在仅使用少量标签数据的情况下,其性能优于主流的半监督分类算法,同时不逊于一般的全监督分类算法,为无标签数据分类任务提供了一种较好的解决方案。 展开更多
关键词 弱监督学习 中文文本 短文本分类 预训练模型 种子词
下载PDF
面向中文图书评论的情感词典构建方法研究 被引量:23
15
作者 郭顺利 张向先 《现代图书情报技术》 CSSCI 2016年第2期67-74,共8页
【目的】探讨中文图书评论情感词典构建方法,以便进行用户图书评论的情感分析。【方法】参照相关研究将用户情感分为7类,对采集到的语料库进行分词,结合基础情感词典得到中文图书评论的情感词集,选取各类情感种子词;利用改进的SO-PMI算... 【目的】探讨中文图书评论情感词典构建方法,以便进行用户图书评论的情感分析。【方法】参照相关研究将用户情感分为7类,对采集到的语料库进行分词,结合基础情感词典得到中文图书评论的情感词集,选取各类情感种子词;利用改进的SO-PMI算法和同义词词林扩展方法判别词语的情感类别;以实际的图书评论作为语料进行实验验证。【结果】提出一种中文图书评论的情感词典构建方法,其平均准确率、平均召回率及F1的均值分别为0.90、0.83和0.85。【局限】语料库小,样本范围具有一定的局限性。【结论】实验结果表明本文方法具有较高的有效性和可靠性,能够有效地进行用户图书评论的情感分析。 展开更多
关键词 中文图书评论 情感 种子词 情感分类 SO-PMI算法
原文传递
基于LDA及标签传播的实体集合扩展 被引量:1
16
作者 马宇峰 阮彤 《山东大学学报(理学版)》 CAS CSCD 北大核心 2015年第3期20-27,共8页
实体集合扩展是指给定某类别下若干示例作为种子,扩展得到属于该类别下的更多实体。传统的实体集合扩展方法主要考虑实体之间的共现关系,根据它们之间的相似程度进行迭代式的扩展,但这会导致语义偏转问题的出现,准确率较差。对此,提出... 实体集合扩展是指给定某类别下若干示例作为种子,扩展得到属于该类别下的更多实体。传统的实体集合扩展方法主要考虑实体之间的共现关系,根据它们之间的相似程度进行迭代式的扩展,但这会导致语义偏转问题的出现,准确率较差。对此,提出了先根据LDA(latent dirichlet allocation)主题模型获得种子词集合语义信息,再通过标签传播来进行实体集合扩展的方法。该方法通过考虑实体列表整体蕴含的语义信息,避免了单个词可能带来的歧义问题;利用LDA模型,挖掘实体列表的上下文主题,丰富实体扩展过程中的语义信息,解决语义偏转问题。在实际数据集上取得了良好的检测效果,证明了本文方法的有效性。 展开更多
关键词 实体集合扩展 主题模型 标签传播 种子词 LDA
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部