面向bilibili短视频评论数据的情感分析,旨在挖掘视频观看者对短视频的看法,使视频作者也可以快速得到自己想要的评价,进而对后续作品做出改进。针对短视频评论更新快、词汇新颖、评论过长、一词多义等因素造成的短视频评论情感分析准...面向bilibili短视频评论数据的情感分析,旨在挖掘视频观看者对短视频的看法,使视频作者也可以快速得到自己想要的评价,进而对后续作品做出改进。针对短视频评论更新快、词汇新颖、评论过长、一词多义等因素造成的短视频评论情感分析准确率低的问题,文章构建了bilibili短视频评论数据集,并提出了ELMO(Embedding From Language Model)用以构建动态词向量解决一词多义及新词的问题,通过构建TextCNN和Reformer双通道神经网络结构来提取局部、全局特征。由于Reformer采用了局部敏感哈希的特殊注意力机制,更能联系全局特征,之后将两者得到的结果拼接送入分类器得出情感分析的结果,并将得出的结果与多个深度学习模型进行对比。展开更多
网络欺凌检测是网络空间信息内容安全的重要研究内容,也关乎青少年在线安全.针对目前网络欺凌检测方案存在的训练样本少、难以处理多义词、分类性能不太理想等问题,提出一种ELMo-TextCNN检测模型.该模型首先采用迁移学习思想,利用预训练...网络欺凌检测是网络空间信息内容安全的重要研究内容,也关乎青少年在线安全.针对目前网络欺凌检测方案存在的训练样本少、难以处理多义词、分类性能不太理想等问题,提出一种ELMo-TextCNN检测模型.该模型首先采用迁移学习思想,利用预训练的ELMo(embeddings from language models)生成动态词向量,不仅解决了网络欺凌样本规模小的问题,而且由于ELMo采用了双向长短期记忆(bi-directional long short-term memory,BiLSTM)网络结构,会根据上下文推断每个词对应的词向量,能够根据语境理解多义词.该模型再通过擅长处理短文本数据的TextCNN(text convolutional neural network)提取文本特征,最后经过全连接层输出分类结果.实验结果证明,提出的ELMo-TextCNN检测方法能够处理一词多义,并获得更好的分类检测效果.展开更多
目前情感分析模型通常使用word2vec、GloVe等方法生成静态词向量,并且传统的卷积或循环深度模型无法完整地关注上下文,提取特征不充分,影响情感判断。针对上述问题,提出基于ELMo(embedding from language model)和双向自注意力网络(bidi...目前情感分析模型通常使用word2vec、GloVe等方法生成静态词向量,并且传统的卷积或循环深度模型无法完整地关注上下文,提取特征不充分,影响情感判断。针对上述问题,提出基于ELMo(embedding from language model)和双向自注意力网络(bidirectional self-attention network,Bi-SAN)的中文文本情感分析模型。首先通过ELMo语言模型训练得到融合词语本身和上下文信息的词向量,解决了一词多义的问题;同时使用预训练的skip-gram算法代替随机初始化的ELMo模型的嵌入层,提高模型的收敛速度;之后使用Bi-SAN提取特征,由于自注意力机制,Bi-SAN可以完整地关注每个词的上下文,提取特征更为全面。同现有的多个情感分析模型对比,该模型在酒店评论数据集上和NLPCC2014 task2中文数据集取得了更高的F 1值,验证了模型的有效性。展开更多
挖掘电商评论文本中的电商事件对分析用户购物行为和商品场景分类有重要帮助。该文给出电商事件的定义,将电商事件识别问题转换为序列标注问题,构建了一个基于电商评论文本的电商事件标注数据。该文首先在基于字符的BiLSTM-CRF神经网络...挖掘电商评论文本中的电商事件对分析用户购物行为和商品场景分类有重要帮助。该文给出电商事件的定义,将电商事件识别问题转换为序列标注问题,构建了一个基于电商评论文本的电商事件标注数据。该文首先在基于字符的BiLSTM-CRF神经网络模型上进行扩展,加入语言模型词向量(Embeddings from Language Models,ELMo)来提高识别性能。进而考虑中文字形特征,包括五笔和笔画特征。提出两种引入字形特征的新模型,即在预训练语言模型中结合事件的字形信息进行建模。实验结果表明融入字形特征的ELMo可以进一步提高模型性能。最后,该文分别使用新闻和电商领域两份大规模无标注数据训练语言模型。结果表明,电商领域语料对系统的帮助更大。展开更多
组织机构名识别是命名实体识别的核心任务之一,也是最困难的任务。近年来,预训练模型在中文自然语言处理领域得到广泛应用,预训练的词嵌入模型在中文命名实体识别上取得了非常好的效果,但是在组织机构名识别上还有很大的提升空间。针对...组织机构名识别是命名实体识别的核心任务之一,也是最困难的任务。近年来,预训练模型在中文自然语言处理领域得到广泛应用,预训练的词嵌入模型在中文命名实体识别上取得了非常好的效果,但是在组织机构名识别上还有很大的提升空间。针对这一问题,改进ELMO(embedding from language models)预训练模型,结合双向LSTM神经网络模型和条件随机场模型,去识别组织机构名。对于ELMO的改进,主要通过筛选高频机构词,然后将高频机构词加入中文字典,通过ELMO模型训练生成机构词向量和普通字向量。字向量不用考虑未登录词的问题,机构词向量引入了先验知识,结合起来可以使得生成的字词向量能够更好地表征组织机构名。实验结果表明,预训练模型的数据集相对较小时,该方法比字向量嵌入的方法有更好的效果,F1值提高了1.3%。展开更多
文摘面向bilibili短视频评论数据的情感分析,旨在挖掘视频观看者对短视频的看法,使视频作者也可以快速得到自己想要的评价,进而对后续作品做出改进。针对短视频评论更新快、词汇新颖、评论过长、一词多义等因素造成的短视频评论情感分析准确率低的问题,文章构建了bilibili短视频评论数据集,并提出了ELMO(Embedding From Language Model)用以构建动态词向量解决一词多义及新词的问题,通过构建TextCNN和Reformer双通道神经网络结构来提取局部、全局特征。由于Reformer采用了局部敏感哈希的特殊注意力机制,更能联系全局特征,之后将两者得到的结果拼接送入分类器得出情感分析的结果,并将得出的结果与多个深度学习模型进行对比。
文摘网络欺凌检测是网络空间信息内容安全的重要研究内容,也关乎青少年在线安全.针对目前网络欺凌检测方案存在的训练样本少、难以处理多义词、分类性能不太理想等问题,提出一种ELMo-TextCNN检测模型.该模型首先采用迁移学习思想,利用预训练的ELMo(embeddings from language models)生成动态词向量,不仅解决了网络欺凌样本规模小的问题,而且由于ELMo采用了双向长短期记忆(bi-directional long short-term memory,BiLSTM)网络结构,会根据上下文推断每个词对应的词向量,能够根据语境理解多义词.该模型再通过擅长处理短文本数据的TextCNN(text convolutional neural network)提取文本特征,最后经过全连接层输出分类结果.实验结果证明,提出的ELMo-TextCNN检测方法能够处理一词多义,并获得更好的分类检测效果.
文摘目前情感分析模型通常使用word2vec、GloVe等方法生成静态词向量,并且传统的卷积或循环深度模型无法完整地关注上下文,提取特征不充分,影响情感判断。针对上述问题,提出基于ELMo(embedding from language model)和双向自注意力网络(bidirectional self-attention network,Bi-SAN)的中文文本情感分析模型。首先通过ELMo语言模型训练得到融合词语本身和上下文信息的词向量,解决了一词多义的问题;同时使用预训练的skip-gram算法代替随机初始化的ELMo模型的嵌入层,提高模型的收敛速度;之后使用Bi-SAN提取特征,由于自注意力机制,Bi-SAN可以完整地关注每个词的上下文,提取特征更为全面。同现有的多个情感分析模型对比,该模型在酒店评论数据集上和NLPCC2014 task2中文数据集取得了更高的F 1值,验证了模型的有效性。
文摘挖掘电商评论文本中的电商事件对分析用户购物行为和商品场景分类有重要帮助。该文给出电商事件的定义,将电商事件识别问题转换为序列标注问题,构建了一个基于电商评论文本的电商事件标注数据。该文首先在基于字符的BiLSTM-CRF神经网络模型上进行扩展,加入语言模型词向量(Embeddings from Language Models,ELMo)来提高识别性能。进而考虑中文字形特征,包括五笔和笔画特征。提出两种引入字形特征的新模型,即在预训练语言模型中结合事件的字形信息进行建模。实验结果表明融入字形特征的ELMo可以进一步提高模型性能。最后,该文分别使用新闻和电商领域两份大规模无标注数据训练语言模型。结果表明,电商领域语料对系统的帮助更大。
文摘背景胃癌(gastric cancer,GC)是严重危害人体健康的恶性肿瘤,其发病率和死亡率分别占中国恶性肿瘤的第2位和第1位,早期诊断困难,因此,寻找GC诊断的新标志物对于提高GC的早期发现率及改善患者预后至关重要.目前,吞噬细胞运动蛋白1(engulfment and cellmotility 1,ELMO1)基因甲基化在GC中诊断价值研究鲜有报道.目的探讨ELMO1基因甲基化与GC的关系,旨在为GC早期诊断提供新思路.方法选取海南省肿瘤医院内镜中心2017-01/2018-08诊治的慢性非萎缩性胃炎20例、慢性萎缩性胃炎20例、GC37例(早期GC15例,进展期GC22例),胃镜检查同时收集胃液及活组织检查收集病理组织标本.通过甲基化特异聚合酶链反应检测三组患者ELMO1基因甲基化水平,并进行组间对比分析,并分析ELMO1基因甲基化与GC的发生、分期及转移的关系.结果ELMO1基因甲基化率在病理组织DNA中依次为慢性浅表性胃炎组0%,慢性萎缩性胃炎20%,GC组93.3%,差异显著(P<0.01);在胃液DNA中依次为:慢性浅表性胃炎组0%,慢性萎缩性胃炎组12.3%,GC组76.7%,差异显著(P<0.05).癌旁组织DNA中ELMO1基因甲基化率为96.7%,与GC组比较差异不显著(P>0.05);早期GC与进展期GC患者胃液中ELMO1基因甲基化率分别为73.3%、80.0%,两者组织中ELMO1基因甲基化率分别为86.7%、100%,两者在胃液及组织中比较均无显著差异(P>0.05).结论GC患者病理组织及胃液DNA中ELMO1基因启动子区均呈高甲基化状态,并有较高的一致性,并且在早期GC中即明显升高,ELMO1基因甲基化可作为GC早期诊断的分子靶标,并且胃液可用于ELMO1基因甲基化检测的良好临床标本.
文摘组织机构名识别是命名实体识别的核心任务之一,也是最困难的任务。近年来,预训练模型在中文自然语言处理领域得到广泛应用,预训练的词嵌入模型在中文命名实体识别上取得了非常好的效果,但是在组织机构名识别上还有很大的提升空间。针对这一问题,改进ELMO(embedding from language models)预训练模型,结合双向LSTM神经网络模型和条件随机场模型,去识别组织机构名。对于ELMO的改进,主要通过筛选高频机构词,然后将高频机构词加入中文字典,通过ELMO模型训练生成机构词向量和普通字向量。字向量不用考虑未登录词的问题,机构词向量引入了先验知识,结合起来可以使得生成的字词向量能够更好地表征组织机构名。实验结果表明,预训练模型的数据集相对较小时,该方法比字向量嵌入的方法有更好的效果,F1值提高了1.3%。