-
题名基于词典和弱标注信息的电影评论情感分析
被引量:19
- 1
-
-
作者
樊振
过弋
张振豪
韩美琪
-
机构
华东理工大学信息科学与工程学院
石河子大学信息科学与技术学院
-
出处
《计算机应用》
CSCD
北大核心
2018年第11期3084-3088,共5页
-
基金
国家自然科学基金资助项目(61462073)
上海市科学技术委员会科研计划项目(17DZ1101003
18511106602)~~
-
文摘
针对评论文本情感分析研究中数据标注费时费力的问题,提出了一种新的数据自动标注方法。首先,通过基于情感词典的方法计算出评论文本的情感倾向;其次,利用用户评分的弱标注信息和基于词典方法的情感倾向对评论文本自动标注;最后,利用支持向量机(SVM)对评论文本进行情感分类。所提出的数据自动标注方法在两种类型数据集情感分类准确率上分别达到了77.2%和77.8%,相对于单一的利用用户评分对数据标注的方法,分别提高了1.7个百分点和2.1个百分点。实验结果表明,提出的数据自动标注方法在电影评论情感分析中能提高分类效果。
-
关键词
电影评论
情感词典
弱标注信息
支持向量机
情感分类
-
Keywords
movie review
sentiment dictionary
weak tagging information
Support Vector Machine(SVM)
sentiment classification
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于弱标注数据的汉语分词领域移植
被引量:2
- 2
-
-
作者
朱运
李正华
黄德朋
张民
-
机构
苏州大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2019年第9期1-8,共8页
-
基金
国家自然科学基金(61525205,61876116)
-
文摘
近年来,基于神经网络的分词模型在封闭领域文本上取得了很高的性能。然而,在领域移植场景下,即测试数据与训练数据的领域差异较大时,分词的性能会显著下降。该文尝试利用自动获取的弱标注数据来提升领域移植场景下的分词性能。首先,对目前性能最好的BiLSTM-CRF分词模型进行扩展,引入适用于弱标注数据的损失函数;进而提出一种简单有效的数据筛选方法,从海量弱标注数据中筛选和目前领域更相关的数据;最后,该文发现数据预处理和在神经网络中引入传统特征均可以有效提高分词性能。在SIGHAN Bakeoff 2010和ZhuXian标注测试集上的实验结果表明,该文所提方法可有效提升汉语分词领域移植性能,平均F值提高了3.6%。
-
关键词
汉语分词
领域移植
弱标注数据
-
Keywords
Chinese word segmentation
domain adaptation
partially annotated data
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于超像素图割的多类别弱标注强化算法
被引量:3
- 3
-
-
作者
林佳丽
刘秉瀚
-
机构
福州大学数学与计算机科学学院
-
出处
《计算机工程与设计》
北大核心
2019年第7期1971-1977,共7页
-
基金
国家自然科学基金项目(61473330)
-
文摘
为解决基于深度学习的图像语义分割逐像素制作语义标签训练集耗时耗力的问题,提出一种便捷的基于超像素图割的多类别弱标注强化算法。在弱标注框内自适应提取超像素,采用交互式涂鸦结合超像素扩充前景背景采样点;根据框内采样点对高斯混合模型参数进行初始化;迭代更新参数,使用最小割算法对像素点进行分类,实现像素级强标注。实验结果表明,在保证标注精度的前提下,该方法较传统人工与Grabcut算法在标注上具有较大效率优势,对服装图像重新标注并作为全卷积网络训练集,达到与原始数据集相近的分割精度。
-
关键词
图像语义分割
超像素图割
弱标注强化
多类别
全卷积网络
-
Keywords
image semantic segmentation
superpixel graph cut
weak labeling enhancement
multiple categories
fully convolutional networks
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名弱标注环境下基于CNN的汉语句群自动切分
- 4
-
-
作者
魏天珂
吕学强
周强
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
清华信息科学与技术国家实验室(筹)清华大学信息技术研究院语音与语言技术中心
-
出处
《小型微型计算机系统》
CSCD
北大核心
2018年第11期2441-2446,共6页
-
基金
国家重点基础研究发展基金项目(2013CB329304)资助
国家自然科学基金项目(61433018
+5 种基金
61373075
61411130162
61671070)资助
北京成像技术高精尖创新中心项目(BAICIT-2016003)资助
国家社会科学基金重大项目(15ZDB017)资助
国家语委重点项目(ZDI135-53)资助
-
文摘
句群在汉语语篇中占据重要的地位,实现句群的自动切分可以有效地提升机器翻译以及机器阅读理解的准确率.为了实现汉语句群的自动切分,本文利用卷积神经网络以及注意力机制对语篇句对进行分类,并结合句群主题特征来提升句群边界识别的准确率,利用大规模弱标注段落数据集解决句群语料短缺的难题.数据表明,该方法能够有效地进行句群边界的自动识别,实现句群的自动切分.
-
关键词
弱标注
卷积神经网络
句群切分
句群主题
-
Keywords
weakly labeled
CNN
sentence group segmentation
sentence group theme
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名数据恶劣条件下的辐射源个体识别方法综述
- 5
-
-
作者
闫文君
段可欣
凌青
李春雷
黄丽
-
机构
海军航空大学
[
[
海军指挥学院
-
出处
《海军航空大学学报》
2024年第5期523-534,共12页
-
基金
国家自然科学基金面上项目(62371465)
电磁空间安全全国重点实验室开放基金。
-
文摘
文章分析对比了数据恶劣条件下的辐射源个体识别方法。总结了包括不平衡、错误标签、小样本和弱标注4种情况下的个体识别方法,探讨了辐射源特征提取方法的优点和局限性,对方法中作为技术关键和难点的特征提取方法进行了概括,并指出深度学习在深度特征提取上的优势,以及在辐射源个体识别领域所具有的广泛应用前景,以期对各种情况下的辐射源个体识别方法做出较为全面的补充。
-
关键词
辐射源个体识别
不平衡识别
小样本识别
错误标签
弱标注
深度学习
-
Keywords
individual identification for radiation sources
imbalance identification
small sample identification
mislabeing
weak labeling
deep learning
-
分类号
TN95
[电子电信—信号与信息处理]
TN974
[电子电信—信号与信息处理]
-