期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
面向非任务型对话系统的人工标注中文数据集 被引量:6
1
作者 李菁 张海松 宋彦 《中文信息学报》 CSCD 北大核心 2019年第3期17-24,共8页
该文针对非任务导向型对话的回复质量构建了一个大规模的人工标注中文数据集,该数据集包含了从社交媒体收集到的超过27 000个对话问题以及超过82 000个对话问题的回复①。为了产生高质量的标注数据,邀请了专业人员根据对话回复的相关性... 该文针对非任务导向型对话的回复质量构建了一个大规模的人工标注中文数据集,该数据集包含了从社交媒体收集到的超过27 000个对话问题以及超过82 000个对话问题的回复①。为了产生高质量的标注数据,邀请了专业人员根据对话回复的相关性、连贯性、信息性、趣味性,以及是否潜在地具有让对话继续延续的特性进行标注,在标注中定义了一个五级评分方法,分别是:极差的、较差的、一般的、较好的、极好的。为了测试标注产生的数据集是否具有有效性和实用性,以对话回复选择为任务,在标注数据集上测试了多种无监督和有监督模型。实验结果表明,该数据集对于提升对话回复选择的质量有显著效果。 展开更多
关键词 对话系统 人工标注 中文数据集
下载PDF
多目标情感分类中文数据集构建及分析研究 被引量:2
2
作者 刘鹏远 田永胜 +1 位作者 杜成玉 邱立坤 《中文信息学报》 CSCD 北大核心 2021年第6期30-38,共9页
目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致。但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中... 目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致。但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中,多个目标情感倾向分布并不均衡,多个目标情感一致的句子占较大比例。数据集本身的缺陷限制了模型针对多个目标进行情感分类的提升空间。针对以上问题,该文构建了一个针对多目标情感分类的中文数据集,人工标注了6339个评价目标,共2071条数据。该数据集具备以下特点:①评价目标个数分布平衡;②情感正负极性分布平衡;③多目标情感倾向分布平衡。随后,该文利用多个目标情感分类的主流模型在该数据集上进行了实验与比较分析。结果表明,现有主流模型尚不能对存在多个目标且目标情感倾向性不一致实例中的目标进行很好的分类,尤其是目标的情感倾向为中性时。因此多目标情感分类任务具有一定的难度与挑战性。 展开更多
关键词 目标级情感分类 中文数据集 多目标
下载PDF
NKCorpus:利用海量网络数据构建大型高质量中文数据集 被引量:2
3
作者 李东闻 钟震宇 +3 位作者 申峻宇 王昊天 孙羽菲 张玉志 《数据与计算发展前沿》 CSCD 2022年第3期30-45,共16页
【目的】大规模、高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架。【方法】利用语言提取、文本清洗、数据去重等多种方法对原始数据进行... 【目的】大规模、高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架。【方法】利用语言提取、文本清洗、数据去重等多种方法对原始数据进行处理获取数据集,并利用并行技术对数据处理框架的效率进行优化。【结果】提出了一个流程完善且高效的可以利用海量网络数据构建大型高质量中文数据集的框架NKCorpus,并且利用NKCorpus构建了约700GB的可直接用于中文预训练语言模型的训练工作的高质量中文数据集。【结论】NKCorpus已能够基本满足当前对于大规模、高质量中文数据集的高效构建需求。 展开更多
关键词 自然语言处理 中文数据集 数据构建
下载PDF
融合交叉注意力的突发事件多模态中文反讽识别模型
4
作者 胡文彬 陈龙 +2 位作者 黄贤波 陈晨 仲兆满 《智能系统学报》 CSCD 北大核心 2024年第2期392-400,共9页
网民在社交媒体参与突发事件讨论时,时常会采用反讽修辞方式表达对事件的看法,此举导致情感分析的难度增加,且已有中文反讽识别对社交媒体中网民发布的多模态评论研究较少,有必要对图文多模态中文反讽识别进行深入研究。运用交叉注意力... 网民在社交媒体参与突发事件讨论时,时常会采用反讽修辞方式表达对事件的看法,此举导致情感分析的难度增加,且已有中文反讽识别对社交媒体中网民发布的多模态评论研究较少,有必要对图文多模态中文反讽识别进行深入研究。运用交叉注意力机制捕捉模态间的不一致性表达,提出融合交叉注意力的多模态中文反讽识别模型(fuse cross attention model,FCAM)。在模型中,首先运用TextCNN(text convolutional neural networks)和ResNet(deep residual network)分别提取中文文本浅层特征和图像特征,再运用交叉注意力机制分别得到文本层和图像层的注意力特征,按照残差方式分别实现文本浅层特征和文本层注意力特征的连接、图像特征和图像层注意力特征的连接,使用注意力机制融合2个特征表示,经过分类层得到反讽分类结果。基于某一地区新冠疫情期间相关话题的微博评论数据,构建出突发公共卫生事件多模态中文反讽数据集,在该数据集上试验验证,相较于基准模型,FCAM具有一定的优越性。 展开更多
关键词 突发事件 社交媒体 多模态评论 中文反讽识别 中文反讽数据 交叉注意力机制 注意力机制 情感分析
下载PDF
面向电力业务对话系统的意图识别数据集 被引量:14
5
作者 廖胜兰 殷实 +3 位作者 陈小平 张波 欧阳昱 张衡 《计算机应用》 CSCD 北大核心 2020年第9期2549-2554,共6页
针对供电营业厅客服机器人的智能对话系统,构建了一个较大规模的电力业务用户意图数据集。该数据集包括了9577条用户问询语句及其标注类别。首先对从供电营业厅采集到的真实语音数据进行清洗、处理和过滤。为了使数据能够驱动意图分类... 针对供电营业厅客服机器人的智能对话系统,构建了一个较大规模的电力业务用户意图数据集。该数据集包括了9577条用户问询语句及其标注类别。首先对从供电营业厅采集到的真实语音数据进行清洗、处理和过滤。为了使数据能够驱动意图分类相关的深度学习模型的研究,专业人员根据电力业务背景知识对数据进行高质量的标注和扩充。标注中根据电力业务定义了35种业务类别标签。为了测试该数据集的实用性和有效性,采用了多个意图分类经典模型进行实验,并将得到的意图分类模型嵌入到对话系统中。经典的文本分类模型循环卷积神经网络(Text-RCNN)在该数据集上可得到87.1%的准确率。实验结果表明该数据集可以有效驱动电力业务相关对话系统的研究,提升用户的满意度。 展开更多
关键词 意图识别 文本分类 中文数据集 对话系统 服务机器人 电力业务
下载PDF
面向中文APP用户评论数据的软件需求挖掘方法 被引量:6
6
作者 王莹 郑丽伟 +1 位作者 张禹尧 张晓妘 《计算机科学》 CSCD 北大核心 2020年第12期56-64,共9页
从APP用户反馈数据中挖掘用户需求是APP迭代更新和需求获取的一种重要方式,用户在APP应用市场中发表对APP不同维度的评价,其中蕴含着用户对APP软件的改善需求。但是,目前用户反馈数据存在数量大、质量良莠不齐的状况,如何从海量的用户... 从APP用户反馈数据中挖掘用户需求是APP迭代更新和需求获取的一种重要方式,用户在APP应用市场中发表对APP不同维度的评价,其中蕴含着用户对APP软件的改善需求。但是,目前用户反馈数据存在数量大、质量良莠不齐的状况,如何从海量的用户评论数据中省时省力地挖掘出有价值的需求,具有重要的研究与现实意义。文中着眼于APP开发问题,选取360手机助手中的APP用户评论数据,旨在挖掘蕴含于用户评论数据中的软件需求。首先,从功能性需求与非功能性需求两个维度出发,将APP用户评论数据中蕴含的软件需求划分为功能待添加、功能待改进、性能、可用性、可靠性5个需求类别;其次,对用户评论进行数据采集、标注,构建APP评论需求挖掘数据集;最后,利用构建好的数据集进行模型训练与交叉验证,探究主流深度学习方法相较于统计机器学习模型在该任务上的表现。实验表明,采用的深度学习模型TextCNN,TextRNN和Transformer相比传统的统计机器学习模型在此任务上更具优势。 展开更多
关键词 APP用户评论 软件需求挖掘 机器学习 中文数据集
下载PDF
面向电力营业厅等服务型场所的情感分析数据集 被引量:2
7
作者 张波 李晨光 +5 位作者 张迪 吕斌 周开保 张靖 朱启明 陈小平 《计算机应用》 CSCD 北大核心 2022年第S01期37-42,共6页
针对当前电力营业厅等服务型场所缺乏领域特有的情感分析数据集这一问题,构建了一个可应用于电力营业厅等服务型场所的情感分析数据集。该数据集可对用户话语进行情感极性分类,并可对用户情感来源进行归因分类。数据集共包含2080条数据... 针对当前电力营业厅等服务型场所缺乏领域特有的情感分析数据集这一问题,构建了一个可应用于电力营业厅等服务型场所的情感分析数据集。该数据集可对用户话语进行情感极性分类,并可对用户情感来源进行归因分类。数据集共包含2080条数据,首先从电力系统营业厅客户的交互、反馈中收集原始语音、文本数据,然后对这些数据进行清洗、脱敏和增广,最后进行情感极性分类和情感指向分类两类文本分类任务的标签标注和校对。在得到的数据集上使用多种特征提取方法和分类器模型进行多次交叉验证实验,其中基于BERT作为编码器的神经网络分类器模型最高可在数据集两类任务上取得95.31%和92.07%的准确率,充分验证了所提出的情感分析数据集的有效性和实用性。实验结果表明该数据集可用于对话系统的实际应用及相关领域的情感分析中,帮助营业厅等服务类场所更有针对性地提升服务质量和用户体验。 展开更多
关键词 自然语言处理 情感分析 文本分类 中文数据集 对话系统 服务机器人
下载PDF
基于中文自然语言的SQL生成综述 被引量:1
8
作者 郑耀东 李旭峰 +1 位作者 陈和平 贺桂娇 《计算机系统应用》 2023年第12期32-42,共11页
自然语言转为SQL(NL2SQL)的研究有较高的应用价值,随着深度学习技术的成熟,越来越多的研究者开始将深度学习技术应用于NL2SQL任务中.本文梳理了英文和中文领域NL2SQL的研究现状,总结按年份发布的数据集和模型,对比当前4大中文NL2SQL数... 自然语言转为SQL(NL2SQL)的研究有较高的应用价值,随着深度学习技术的成熟,越来越多的研究者开始将深度学习技术应用于NL2SQL任务中.本文梳理了英文和中文领域NL2SQL的研究现状,总结按年份发布的数据集和模型,对比当前4大中文NL2SQL数据集的特点,阐述了当前基于深度学习的NL2SQL任务的基本框架以及针对中文领域的单表简单问题和跨表复杂问题所适用的典型模型,介绍了一般常用的模型评测方法,并提出未来研究方向的展望. 展开更多
关键词 NL2SQL 深度学习 中文数据集 自然语言处理
下载PDF
谣言判别器的设计与实现
9
作者 杨佳瑶 杨越 +3 位作者 薛雨蒙 王鑫淼 杨香云 乔秀明 《智能计算机与应用》 2024年第4期76-82,共7页
在互联网时代,信息传播的速度和范围都得到了极大的提升,使得各种信息能够在极短的时间内迅速扩散至广泛的受众,然而这也带来了一些挑战,谣言的传播是其中之一,自动谣言判别可以大大降低谣言传播率。本文构建了中文谣言数据集,设计实现... 在互联网时代,信息传播的速度和范围都得到了极大的提升,使得各种信息能够在极短的时间内迅速扩散至广泛的受众,然而这也带来了一些挑战,谣言的传播是其中之一,自动谣言判别可以大大降低谣言传播率。本文构建了中文谣言数据集,设计实现了谣言自动检测的小程序:用户输入一段言论,小程序的前端页面将数据传送至后端,基于卷积神经网络的模型进行自然语言处理,模型采用深度学习算法对该言论进行语义建模和分类,最终得出这段话是谣言的概率并返回给用户。 展开更多
关键词 中文谣言数据 卷积神经网络 谣言判别
下载PDF
基于多角度信息交互的文本语义匹配模型 被引量:2
10
作者 翁兆琦 张琳 《计算机工程》 CAS CSCD 北大核心 2021年第10期97-102,共6页
现有的文本语义匹配方法大多基于简单的注意力机制进行交互,较少考虑文本自身结构信息和文本之间原始信息的的交互。针对2个中文文本的语义匹配问题,构建一个多角度信息交互的文本匹配模型MAII。分别从颗粒、局部、全局3个角度计算2个... 现有的文本语义匹配方法大多基于简单的注意力机制进行交互,较少考虑文本自身结构信息和文本之间原始信息的的交互。针对2个中文文本的语义匹配问题,构建一个多角度信息交互的文本匹配模型MAII。分别从颗粒、局部、全局3个角度计算2个文本深层次的语义交互矩阵,同时考虑语序信息之间和结构信息之间的交互以及文本内部的依赖关系,从而得到含有丰富信息的语义向量,并通过语义推理计算出两文本之间的语义匹配度。实验结果表明,相比在英文数据集上表现良好的DSSM、ESIM和DIIN模型,MAII模型在CCKS 2018问句匹配大赛的中文数据集上达到77.77%的准确率,表现出更好的匹配性能。 展开更多
关键词 信息交互 语义匹配 注意力机制 深度神经网络 中文数据集
下载PDF
基于深度学习的在线字临摹分析系统设计 被引量:2
11
作者 张承强 张永爱 顾兴权 《信息技术与网络安全》 2020年第2期40-44,56,共6页
为方便和快速地进行字体临摹分析,该系统将纸面手写字与名人真迹字进行相似度比较,使用残差网络ResNet50模型和新的字相似度算法对手写字进行高精度识别并与名人真迹字快速地进行相似度计算。将自制的名人书法字数据集和普通中文数据集... 为方便和快速地进行字体临摹分析,该系统将纸面手写字与名人真迹字进行相似度比较,使用残差网络ResNet50模型和新的字相似度算法对手写字进行高精度识别并与名人真迹字快速地进行相似度计算。将自制的名人书法字数据集和普通中文数据集合在一起训练ResNet50模型,最后结合Web网站和Android开发了一个实时在线手写字与各名人书法字进行相似度比较的系统。Android端主要用来上传纸面手写字照片和展示处理的结果,搭建的Web网站用来对图片进行识别和相似度的计算与分析。 展开更多
关键词 ResNet50模型 字相似度算法 中文数据集 在线比较系统
下载PDF
基于文本行匹配的跨图文本阅读方法
12
作者 戴禹 许林峰 《计算机科学》 CSCD 北大核心 2022年第9期139-145,共7页
通过摄像头阅读文本可帮助计算机理解文本内容。然而,由于摄像头视野的局限性和中文文本识别的复杂性,计算机有时很难通过摄像头从单张文本图像获取完整的文本内容,因此定义了跨图文本阅读任务,旨在从一对具有重叠区域的文本图像中获取... 通过摄像头阅读文本可帮助计算机理解文本内容。然而,由于摄像头视野的局限性和中文文本识别的复杂性,计算机有时很难通过摄像头从单张文本图像获取完整的文本内容,因此定义了跨图文本阅读任务,旨在从一对具有重叠区域的文本图像中获取完整的文本内容。针对跨图文本阅读任务,提出了基于文本行匹配的跨图文本阅读方法。首先采用文本检测网络来裁剪文本行,然后设计了基于多头自注意力机制的文本行匹配网络来预测文本行的匹配关系,最后提出了基于编辑的文本阅读网络,以去除重叠文本并读取文本内容。为了训练和评估跨图文本阅读方法,构造了跨图中文文本阅读数据集(Cross-image Chinese Text Reading Dataset, CCTR)。在CCTR数据集上进行实验,结果表明,相比像素级拼接和识别方法,所提方法能够得到更高的阅读性能,验证了其优越性。 展开更多
关键词 跨图文本阅读 跨图中文文本阅读数据 文本行匹配 基于编辑的文本阅读 注意力机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部