情感分类是用于判断数据的情感极性,广泛用于商品评论、微博话题等数据。标记信息的昂贵使得传统的情感分类方法难以对不同领域的数据进行有效的分类。为此,跨领域情感分类问题引起广泛关注。已有的跨领域情感分类方法大多以共现为基础...情感分类是用于判断数据的情感极性,广泛用于商品评论、微博话题等数据。标记信息的昂贵使得传统的情感分类方法难以对不同领域的数据进行有效的分类。为此,跨领域情感分类问题引起广泛关注。已有的跨领域情感分类方法大多以共现为基础提取词汇特征和句法特征,而忽略了词语间的语义关系。基于此,提出了基于word2vec的跨领域情感分类方法 WEEF(cross-domain classification based on word embedding extension feature),选取高质量的领域共现特征作为桥梁,并以这些特征作为种子,基于词向量的相似度计算,将领域专有特征扩充到这些种子中,形成特征簇,从而减小领域间的差异。在SRAA和Amazon产品评论数据集上的实验结果表明了方法的有效性,尤其在数据量较大时。展开更多
情感分析已经成为当今自然语言处理领域的热点问题。对于文本的自动化、半监督式的情感分析研究具有广泛的理论和实用价值。基于情感词典的情感倾向分析方法是文本情感分析的一种重要手段。然而,中文词汇在不同领域中的情感倾向不尽相同...情感分析已经成为当今自然语言处理领域的热点问题。对于文本的自动化、半监督式的情感分析研究具有广泛的理论和实用价值。基于情感词典的情感倾向分析方法是文本情感分析的一种重要手段。然而,中文词汇在不同领域中的情感倾向不尽相同,一词多义现象明显。同时,不同领域中的情感词也具有专业性、领域性的特点。针对这些问题,本文提出一种基于词向量相似度的半监督情感极性判断算法(Sentiment orientation from word vector,SO-WV),并依据该算法设计出一种跨领域的中文情感词典构建方法。实验证明,本文所设计的情感词典构建方法能有效地对情感词情感倾向进行判断。算法不仅在不同领域的情感词典建立上具有良好的可移植性,同时还具有专业性、领域性的特点。展开更多
文摘情感分类是用于判断数据的情感极性,广泛用于商品评论、微博话题等数据。标记信息的昂贵使得传统的情感分类方法难以对不同领域的数据进行有效的分类。为此,跨领域情感分类问题引起广泛关注。已有的跨领域情感分类方法大多以共现为基础提取词汇特征和句法特征,而忽略了词语间的语义关系。基于此,提出了基于word2vec的跨领域情感分类方法 WEEF(cross-domain classification based on word embedding extension feature),选取高质量的领域共现特征作为桥梁,并以这些特征作为种子,基于词向量的相似度计算,将领域专有特征扩充到这些种子中,形成特征簇,从而减小领域间的差异。在SRAA和Amazon产品评论数据集上的实验结果表明了方法的有效性,尤其在数据量较大时。
文摘情感分析已经成为当今自然语言处理领域的热点问题。对于文本的自动化、半监督式的情感分析研究具有广泛的理论和实用价值。基于情感词典的情感倾向分析方法是文本情感分析的一种重要手段。然而,中文词汇在不同领域中的情感倾向不尽相同,一词多义现象明显。同时,不同领域中的情感词也具有专业性、领域性的特点。针对这些问题,本文提出一种基于词向量相似度的半监督情感极性判断算法(Sentiment orientation from word vector,SO-WV),并依据该算法设计出一种跨领域的中文情感词典构建方法。实验证明,本文所设计的情感词典构建方法能有效地对情感词情感倾向进行判断。算法不仅在不同领域的情感词典建立上具有良好的可移植性,同时还具有专业性、领域性的特点。
文摘针对现有恶意域名检测方法检测时间开销大、对新出现或新变种的恶意域名检测精度不高的问题,提出一种基于无监督自适应模糊聚类的多家族恶意域名细粒度检测方法。该方法首先利用词向量映射网络(Bidirectional Encoder Representation from Transformers,BERT)将域名字符串映射为词向量矩阵;然后,利用深度自编码网络的编解码模块实现域名字符串向量矩阵的特征提取;最后,引入一种自适应模糊聚类算法实现多家族恶意域名和合法域名在隐空间中的特征聚类。通过在多个家族恶意域名和常见域名数据集上进行测试,实验结果表明所提出算法可以在二分类任务中实现97.71%的准确率,在8个家族的细粒度多分类任务上可以实现96.25%的准确率。综合检测性能优于当前主流的恶意域名检测算法。同时,所提出域名具有较低的时间开销,这为实时过滤恶意域名、预防恶意域名的入侵攻击提供了一种新的手段。