期刊文献+
共找到61篇文章
< 1 2 4 >
每页显示 20 50 100
面向合同信息抽取的动态多任务学习方法
1
作者 王浩畅 郑冠彧 赵铁军 《软件学报》 EI CSCD 北大核心 2024年第7期3377-3391,共15页
对于合同文本中要素和条款两类信息的准确提取,可以有效提升合同的审查效率,为贸易各方提供便利化服务.然而当前的合同信息抽取方法一般训练单任务模型对要素和条款分别进行抽取,并没有深挖合同文本的特征,忽略了不同任务间的关联性.因... 对于合同文本中要素和条款两类信息的准确提取,可以有效提升合同的审查效率,为贸易各方提供便利化服务.然而当前的合同信息抽取方法一般训练单任务模型对要素和条款分别进行抽取,并没有深挖合同文本的特征,忽略了不同任务间的关联性.因此,采用深度神经网络结构对要素抽取和条款抽取两个任务间的相关性进行研究,并提出多任务学习方法.所提方法首先将上述两种任务进行融合,构建一种应用于合同信息抽取的基本多任务学习模型;然后对其进行优化,利用Attention机制进一步挖掘其相关性,形成基于Attention机制的动态多任务学习模型;最后针对篇章级合同文本中复杂的语义环境,在前两者的基础上提出一种融合词汇知识的动态多任务学习模型.实验结果表明,所提方法可以充分捕捉任务间的共享特征,不仅取得了比单任务模型更好的信息抽取结果,而且能够有效解决合同文本中要素与条款间实体嵌套的问题,实现合同要素与条款的信息联合抽取.此外,为了验证该方法的鲁棒性,在多个领域的公开数据集上进行实验,结果表明该方法的效果均优于基线方法. 展开更多
关键词 多任务学习 合同文本 信息联合抽取 注意力机制 实体嵌套
下载PDF
联合句法与位置信息的方面情感三元组抽取
2
作者 王浩畅 黄嘉婷 赵铁军 《计算机工程与设计》 北大核心 2024年第10期3096-3102,共7页
为提高方面级情感三元组抽取任务的准确率,提出一种联合依存句法关系和位置偏移信息的抽取模型。在模型上下文编码中添加句法关系,结合图卷积网络捕获结构和结点属性信息,增强三元组要素之间的交互能力;在多任务学习部分加入相对位置偏... 为提高方面级情感三元组抽取任务的准确率,提出一种联合依存句法关系和位置偏移信息的抽取模型。在模型上下文编码中添加句法关系,结合图卷积网络捕获结构和结点属性信息,增强三元组要素之间的交互能力;在多任务学习部分加入相对位置偏移信息,充分挖掘方面-观点词对的关系,提高三元组要素抽取的精度。在4个基准英文数据集上的实验结果表明,该方法效果显著且优于其它基线模型。 展开更多
关键词 方面级情感分析 三元组抽取 多任务学习 图卷积网络 依存句法 双向长短时记忆网络 深度学习
下载PDF
面向买卖合同的词汇增强细粒度实体识别
3
作者 王浩畅 郑冠彧 赵铁军 《中文信息学报》 CSCD 北大核心 2024年第2期87-98,共12页
对于合同文本中当事人信息、合同基本信息、合同条款等细粒度实体的正确提取,可以有效提升合同的审查效率,为智能合同管理赋能。然而现有的实体识别方法,难以解决合同文本中实体类型复杂和合同实体细化的问题。因此,该文提出一种新的基... 对于合同文本中当事人信息、合同基本信息、合同条款等细粒度实体的正确提取,可以有效提升合同的审查效率,为智能合同管理赋能。然而现有的实体识别方法,难以解决合同文本中实体类型复杂和合同实体细化的问题。因此,该文提出一种新的基于词汇增强的细粒度实体识别模型BLBC-CFER,该方法通过对预训练语言模型提供的字级增强、字加词嵌入提供的词级增强以及词汇集合结构提供的词级增强进行融合并嵌入到模型输入中,然后采用深度神经网络获取最优标记序列。该文在自行构建的买卖合同细粒度实体语料集和两个不同领域的公开数据集上进行实验。实验结果表明,该方法不仅可以有效地完成合同文本的细粒度实体识别任务,而且具有较好的鲁棒性,效果优于基线模型。 展开更多
关键词 词汇增强 细粒度实体识别 序列标注 合同领域
下载PDF
基于学习风格的个性化自适应资源推荐算法研究
4
作者 王浩畅 王辉 +2 位作者 潘俊辉 Marius.Petrescu 张强 《计算机与数字工程》 2024年第1期94-98,共5页
个性化自适应资源推荐是以学习者为中心、以人工智能和大数据技术为基础,模拟人类思维进行学习资源推荐的过程。论文在分析学习者和资源学习风格的基础上,分别构建学习者模型和资源模型,运用基于学习风格过滤推荐算法、协同过滤推荐算... 个性化自适应资源推荐是以学习者为中心、以人工智能和大数据技术为基础,模拟人类思维进行学习资源推荐的过程。论文在分析学习者和资源学习风格的基础上,分别构建学习者模型和资源模型,运用基于学习风格过滤推荐算法、协同过滤推荐算法、关联规则推荐算法,展开个性化自适应资源推荐研究。研究结果表明,以学习风格为基础的混合式自适应推荐的结果,更贴合学习者的个性化学习需求。 展开更多
关键词 学习风格 自适应学习 个性化推荐
下载PDF
融合词汇边界信息的合同实体识别方法
5
作者 王浩畅 和婷婷 郑冠彧 《计算机工程与设计》 北大核心 2024年第6期1757-1763,共7页
针对合同中实体表达形式复杂多变、识别粒度细的特点,及合同文本中实体较长问题,提出一种融合词汇边界信息的合同实体识别方法。利用预训练语言模型动态生成语义向量作为模型输入;运用相对位置编码对Transformer结构进行改进,使其在编... 针对合同中实体表达形式复杂多变、识别粒度细的特点,及合同文本中实体较长问题,提出一种融合词汇边界信息的合同实体识别方法。利用预训练语言模型动态生成语义向量作为模型输入;运用相对位置编码对Transformer结构进行改进,使其在编码过程中融合词汇信息,进一步丰富语义特征;通过条件随机场(CRF)结构进行解码,得到输入序列的标签预测。实验结果表明,该方法可以有效确定合同文本中的实体边界,具有良好的泛化性能。 展开更多
关键词 实体识别 合同文本 预训练语言模型 相对位置编码 转换器结构 词汇边界信息 条件随机场
下载PDF
融合情感词典与深度学习的文本情感分析研究
6
作者 王浩畅 王宇坤 Marius Gabriel Petrescu 《计算机与数字工程》 2024年第2期451-455,共5页
文本情感分析是自然语言处理领域内的重点研究方向。当前Word2vec词向量结合神经网络的深度学习模型在中文文本情感分析研究中取得了不错的成绩。然而仅使用词向量模型作为文本表示进行模型学习时,会丢失当前词的情感信息。故论文提出... 文本情感分析是自然语言处理领域内的重点研究方向。当前Word2vec词向量结合神经网络的深度学习模型在中文文本情感分析研究中取得了不错的成绩。然而仅使用词向量模型作为文本表示进行模型学习时,会丢失当前词的情感信息。故论文提出一种基于情感词典结合双向长短期记忆网络和注意力机制的文本情感分析模型SABLSTM。该模型在酒店数据集上的分类准确率是93.17%,比仅结合了注意力机制的双向长短期记忆网络模型的准确率提升了1.56%。由此可见,以情感词典作为先验知识进行模型训练,可以提升中文文本情感分析任务的效果。 展开更多
关键词 情感分析 情感词典 注意力机制 双向长短期记忆网络
下载PDF
基于保险条款文本的知识图谱构建研究
7
作者 王浩畅 宗杨 《计算机与数字工程》 2024年第9期2759-2763,2836,共6页
为了方便人们在投保时能够更快速地对比不同产品的优缺点,论文提出一种基于保险产品条款文本的知识图谱构建方法。首先结合保险领域专家对保险产品设计相关的研究,分析条款中的要素并构建Schema层,接着将保险条款文件作为数据基础,使用B... 为了方便人们在投保时能够更快速地对比不同产品的优缺点,论文提出一种基于保险产品条款文本的知识图谱构建方法。首先结合保险领域专家对保险产品设计相关的研究,分析条款中的要素并构建Schema层,接着将保险条款文件作为数据基础,使用BERT-BiLSTM-CRF模型抽取出其中的保险公司、保险产品、保险保障等实体,按照Schema中定义的实体关系和实体属性构造关系和属性的提取模板,最后将抽取出来的保险三元组存储至图数据库Neo4j中构成知识图谱。该方法能够快速有效地将条款文本转换为结构化的知识图谱,有利于推动保险领域智能化升级。 展开更多
关键词 保险 知识图谱 命名实体识别 Neo4j
下载PDF
基于Bert的合同文本实体识别
8
作者 王浩畅 许亚琼 《计算机与数字工程》 2024年第9期2697-2701,2758,共6页
智慧合同发展的基础性任务就是对合同实体要素进行命名实体识别研究。论文通过人工订制标注规则,构建了包括合同名称、包装条款、验收条款、违约条款等23类实体的合同数据集;对于构建好的合同数据集,采用Bert-BiLSTM-CRF神经网络模型进... 智慧合同发展的基础性任务就是对合同实体要素进行命名实体识别研究。论文通过人工订制标注规则,构建了包括合同名称、包装条款、验收条款、违约条款等23类实体的合同数据集;对于构建好的合同数据集,采用Bert-BiLSTM-CRF神经网络模型进行训练,通过对比23个合同要素的识别结果,以及与经典的神经网络模型进行对比实验结果表明,论文所用模型能够更加有效地应用于合同文本实体识别的任务。 展开更多
关键词 合同文本 命名实体识别 Bert
下载PDF
结合注意力机制和Mengzi模型的短文本分类
9
作者 陈雪松 李衡 王浩畅 《计算机与现代化》 2024年第9期101-106,120,共7页
如何使用短文本分类技术挖掘有用的文本信息,是当前热门的研究方向之一。为了解决短文本特征信息稀疏和特征信息难以提取的问题,提出一种Mengzi-ADCBU短文本分类模型,该模型利用Mengzi预训练模型将输入的文本信息转化为相应的文本表示,... 如何使用短文本分类技术挖掘有用的文本信息,是当前热门的研究方向之一。为了解决短文本特征信息稀疏和特征信息难以提取的问题,提出一种Mengzi-ADCBU短文本分类模型,该模型利用Mengzi预训练模型将输入的文本信息转化为相应的文本表示,再将获得的文本向量分别输入改进的深度金字塔卷积神经网络和融合了多头注意力机制的双向门控单元中提取文本特征信息,将两者提取到的特征信息进行融合之后,输送给全连接层和Softmax函数完成短文本分类。在公开的短文本数据集THUCNews和SougouCS上分别进行多组模型对比实验,实验结果表明本文提出的MengziADCBU模型在短文本分类的准确率、精确度、召回率和F1值等评价指标上都比现在的主流模型性能更优,具有较好的短文本分类能力。 展开更多
关键词 短文本 多头注意力 深度金字塔卷积神经网络 双向门控单元
下载PDF
基于CRF的中文语法错误诊断系统的实现与应用
10
作者 李斌 王浩畅 《计算机科学》 CSCD 北大核心 2024年第S01期1129-1134,共6页
随着中国国际影响力的提高和汉语国际地位的提升,将中文作为第二语言学习的外国人数量逐年增加,中文已成为世界上最为流行的语言之一。基于此,中文语法错误诊断的研究备受关注。首先,从中文语法错误诊断的定义出发,总结目前的研究现状... 随着中国国际影响力的提高和汉语国际地位的提升,将中文作为第二语言学习的外国人数量逐年增加,中文已成为世界上最为流行的语言之一。基于此,中文语法错误诊断的研究备受关注。首先,从中文语法错误诊断的定义出发,总结目前的研究现状。其次,通过对各种中文语法错误诊断方法的分析,构建了基于条件随机场的中文语法错误诊断系统,探究中文语法自动检错系统及其具体应用流程,以帮助中文学习者提高学习效率。在CGED2016数据集上的实验结果表明,该系统在检测层和识别层上的性能较好,在位置层上还需要改进。 展开更多
关键词 中文语法错误诊断 序列标注 条件随机场 自然语言处理
下载PDF
生物医学文本挖掘技术的研究与进展 被引量:23
11
作者 王浩畅 赵铁军 《中文信息学报》 CSCD 北大核心 2008年第3期89-98,共10页
生物医学研究是二十一世纪最受关注的研究领域之一,该领域发表了巨量的研究论文,已经达到年平均60万篇以上。如何在规模巨大的研究文献中有效地获取相关知识,是该领域研究者所面临的挑战。作为生物信息学分支之一的生物医学文本挖掘技... 生物医学研究是二十一世纪最受关注的研究领域之一,该领域发表了巨量的研究论文,已经达到年平均60万篇以上。如何在规模巨大的研究文献中有效地获取相关知识,是该领域研究者所面临的挑战。作为生物信息学分支之一的生物医学文本挖掘技术就是一项高效自动地获取相关知识的新探索,近年来取得了较大进展。这篇综述介绍了生物医学文本挖掘的主要研究方法和成果,即基于机器学习方法的生物医学命名实体识别、缩写词和同义词的识别、命名实体关系抽取,以及相关资源建设、相关评测会议和学术会议等。此外还简要介绍了国内研究现状,最后对该领域近期发展作了展望。 展开更多
关键词 计算机应用 中文信息处理 生物信息学 文本挖掘 信息抽取 机器学习
下载PDF
面向生物医学命名实体识别的多Agent元学习框架 被引量:6
12
作者 王浩畅 李钰 赵铁军 《计算机学报》 EI CSCD 北大核心 2010年第7期1256-1262,共7页
生物医学命名实体识别是生物医学数据挖掘的基本任务.文中提出了一种将多Agent系统和元学习方法相结合的多Agent元学习框架,应用于生物医学命名实体识别.基层多个学习Agent分别识别不同类型的生物医学命名实体,并通过相关学习Agent之间... 生物医学命名实体识别是生物医学数据挖掘的基本任务.文中提出了一种将多Agent系统和元学习方法相结合的多Agent元学习框架,应用于生物医学命名实体识别.基层多个学习Agent分别识别不同类型的生物医学命名实体,并通过相关学习Agent之间的通信来交换有益信息以调节个体Agent的行为提高其学习性能,元层Agent综合决策基层学习Agent的学习结果以获得最终的识别结果.元层Agent和基层学习Agent通过局部特征选择法选择适合不同实体类别的敏感特征集合提高了总体识别性能尤其是小类别识别的性能.文中提出的方法有效改善了传统的单一学习模型和全局特征选择方法不能兼顾各类别命名实体识别性能的不足.实验结果表明,文中提出的全新方法在生物医学命名实体识别上取得了优越的性能,在JNLPBA2004测试语料上获得了77.5%的F测度值. 展开更多
关键词 命名实体识别 多Agent元学习框架 元层Agent 基层学习Agent 局部特征选择
下载PDF
基于SVM的生物医学命名实体的识别 被引量:18
13
作者 王浩畅 赵铁军 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2006年第B07期570-574,共5页
命名实体识别是生物医学数据挖掘的基本任务.文章使用了基于支持向量机的方法对生物医学文本中的命名实体进行了识别,系统中结合了丰富的特征集,包括局部特征,全文特征和外部资源特征,对不同的特征和不同的特征组合对系统的贡献进... 命名实体识别是生物医学数据挖掘的基本任务.文章使用了基于支持向量机的方法对生物医学文本中的命名实体进行了识别,系统中结合了丰富的特征集,包括局部特征,全文特征和外部资源特征,对不同的特征和不同的特征组合对系统的贡献进行了评测和实验.为了进一步提高系统的性能,还引入了缩写词识别模块和过滤器模块.实验结果表明,该方法对生物医学文本中命名实体的识别取得到了较好的结果. 展开更多
关键词 命名实体识别 SVM 特征选择 缩写词
下载PDF
聊天机器人系统研究进展 被引量:25
14
作者 王浩畅 李斌 《计算机应用与软件》 北大核心 2018年第12期1-6,89,共7页
聊天机器人是自然语言处理和人工智能领域中的一个重要研究方向。近年来,聊天机器人系统的研究受到了广泛关注。综合运用各种人工智能技术,对推动人机对话的发展有重要意义。梳理近些年的研究,从研究背景及其意义,延伸到当前国内外对相... 聊天机器人是自然语言处理和人工智能领域中的一个重要研究方向。近年来,聊天机器人系统的研究受到了广泛关注。综合运用各种人工智能技术,对推动人机对话的发展有重要意义。梳理近些年的研究,从研究背景及其意义,延伸到当前国内外对相关技术的研究现状。同时在聊天机器人的分类、系统框架、构建方法、技术评测等几个方面做详细的介绍。总结现有研究中存在的不足并对未来的发展趋势进行展望。 展开更多
关键词 聊天机器人 自然语言处理 模板匹配 检索匹配 深度学习
下载PDF
基于元学习策略的分类器融合方法及应用 被引量:3
15
作者 王浩畅 赵铁军 +1 位作者 郑德权 于浩 《通信学报》 EI CSCD 北大核心 2007年第10期7-13,共7页
提出了基于元学习策略的分类器融合的新模型,使用了两类元学习策略将4种分类算法即Generalized Winnow算法、支持向量机算法、条件随机域算法和最大熵算法进行融合,并根据具体领域的应用任务和分类器特点选择了有效特征信息,在面向生物... 提出了基于元学习策略的分类器融合的新模型,使用了两类元学习策略将4种分类算法即Generalized Winnow算法、支持向量机算法、条件随机域算法和最大熵算法进行融合,并根据具体领域的应用任务和分类器特点选择了有效特征信息,在面向生物医学文本命名实体识别的应用中取得了较高识别精度。实验结果表明基于元学习策略的分类器融合方法明显优于单分类器方法,并且也优于基于判别规则的分类器融合方法。 展开更多
关键词 元学习 分类器融合 叠加归纳 级联归纳 命名实体识别
下载PDF
藏医药抽取式机器阅读理解数据集研究
16
作者 旦增罗布 拉巴次仁 +1 位作者 王浩畅 小次仁 《西藏科技》 2024年第9期73-80,共8页
藏文机器阅读理解领域尚处于起步阶段,构建一份高质量的语料库成为推动该领域发展的当务之急。本研究采用众包方式,对藏医经典著作《四部医典》中的藏医植物药材与名词解释部分进行精细标注。结合藏文掩码数据扩充策略,有效扩充了数据... 藏文机器阅读理解领域尚处于起步阶段,构建一份高质量的语料库成为推动该领域发展的当务之急。本研究采用众包方式,对藏医经典著作《四部医典》中的藏医植物药材与名词解释部分进行精细标注。结合藏文掩码数据扩充策略,有效扩充了数据集的规模,最终整理出13k条有效问答对。基于该数据集,通过优化传统的注意力机制,提出了一个高效的藏文机器阅读理解模型。文章的研究不仅对于推动藏文信息处理技术的深入发展具有重要意义,更有助于提升机器对藏文文本的理解能力,从而为藏文化的传承和保护提供有力支持。 展开更多
关键词 藏文机器阅读理解 四部医典 藏文语料库 注意力机制
下载PDF
生物医学文本中命名实体识别的智能化方法 被引量:2
17
作者 王浩畅 赵铁军 +1 位作者 刘延力 于浩 《北京邮电大学学报》 EI CAS CSCD 北大核心 2006年第z2期54-58,共5页
介绍了使用机器学习方法进行生物医学文本命名实体识别的技术,包括Generalized Winnow算法、支持向量机方法和条件随机域模型.根据学习算法的特点,识别过程中使用了丰富的特征集,包括局部特征、全文特征及外部资源特征.各种类型特征的... 介绍了使用机器学习方法进行生物医学文本命名实体识别的技术,包括Generalized Winnow算法、支持向量机方法和条件随机域模型.根据学习算法的特点,识别过程中使用了丰富的特征集,包括局部特征、全文特征及外部资源特征.各种类型特征的优化组合、识别结果的后处理,包括缩写词识别、嵌套词识别及边界校正等都提升了命名实体识别系统的性能.实验结果表明,通过上述策略的应用,系统取得了很好的识别结果. 展开更多
关键词 命名实体识别 特征选择 支持向量机 条件随机域
下载PDF
生物文本中蛋白质名称的识别 被引量:2
18
作者 王浩畅 赵铁军 于浩 《计算机应用研究》 CSCD 北大核心 2007年第1期100-102,共3页
随着基因和蛋白质序列的发布和分子生物学研究的发展,其相关的数据呈指数级增长,因此如何从海量的相关文献中直接获取生物学家研究领域的相关信息变得迫在眉睫,识别生物文献中的命名实体如蛋白质、基因、脱氧核糖核酸名称等成为生物信... 随着基因和蛋白质序列的发布和分子生物学研究的发展,其相关的数据呈指数级增长,因此如何从海量的相关文献中直接获取生物学家研究领域的相关信息变得迫在眉睫,识别生物文献中的命名实体如蛋白质、基因、脱氧核糖核酸名称等成为生物信息学中信息抽取的最基本任务。介绍了国际同类研究中生物命名实体识别的各种方法,重点介绍了蛋白质名称识别的相关方法、所用资源、实验结果及与国际同类研究的比较结果。 展开更多
关键词 生物信息 命名实体识别 机器学习 特征选择
下载PDF
基于ELMO的低资源神经机器翻译 被引量:3
19
作者 王浩畅 孙孟冉 赵铁军 《计算机与现代化》 2021年第7期38-42,共5页
低资源神经机器翻译的研究难点是缺乏大量的平行语料来给模型进行训练。随着预训练模型的发展,并且在各大自然语言处理任务中均取得很大的提升,本文提出一种融合ELMO预训练模型的神经机器翻译模型来解决低资源神经机器翻译问题。本文模... 低资源神经机器翻译的研究难点是缺乏大量的平行语料来给模型进行训练。随着预训练模型的发展,并且在各大自然语言处理任务中均取得很大的提升,本文提出一种融合ELMO预训练模型的神经机器翻译模型来解决低资源神经机器翻译问题。本文模型在土耳其语-英语低资源翻译任务上相比于反向翻译提升超过0.7个BLEU,在罗马尼亚语-英语翻译任务上提升超过0.8个BLEU。此外,在模拟的中-英、法-英、德-英、西-英这4组低资源翻译任务上相比于传统神经机器翻译模型分别提升2.3、3.2、2.6、3.2个BLEU。实验表明使用融合ELMO的模型来解决低资源神经机器翻译问题是有效的。 展开更多
关键词 低资源 平行语料 预训练模型 神经机器 翻译模型
下载PDF
基于ERNIE-RCNN模型的中文短文本分类 被引量:4
20
作者 王浩畅 孙铭泽 《计算机技术与发展》 2022年第6期28-33,共6页
由于中文短文本存在特征词少、规范性差、数据规模量大等难点,ERNIE预训练模型占用内存大,进行短文本分类时会造成向量空间稀疏、文本预训练不准确、时间复杂度高等问题。针对以上短文本分类存在的问题,提出基于ERNIE-RCNN模型的中文短... 由于中文短文本存在特征词少、规范性差、数据规模量大等难点,ERNIE预训练模型占用内存大,进行短文本分类时会造成向量空间稀疏、文本预训练不准确、时间复杂度高等问题。针对以上短文本分类存在的问题,提出基于ERNIE-RCNN模型的中文短文本分类。模型运用ERNIE模型作为词向量,对实体和词语义单元掩码,后连接Transformer的编码层,对ERNIE层输出的词嵌入向量进行编码,优化模型过拟合问题,增强泛化能力,RCNN模型对ERNIE输入的词向量进行特征提取,卷积层利用大小不同的卷积核提取大小不同的特征值,池化层进行映射处理,最后通过softmax进行分类。将该模型与七种深度学习文本分类模型在中文新闻数据集上进行训练实验,得到了模型在准确率、精准率、召回率、F1值、迭代次数、运行时间上的对比结果,表明ERNIE-RCNN模型能够很好地提取文本中的特征信息,减少了训练时间,有效解决了中文短文本分类的难点,具有很好的分类效果。 展开更多
关键词 中文短文本分类 ERNIE模型 ERNIE-RCNN模型 词向量 特征提取 深度学习
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部