期刊文献+
共找到96篇文章
< 1 2 5 >
每页显示 20 50 100
面向小样本命名实体识别的实体语义优先提示学习方法
1
作者 何丽 曾骁勇 +2 位作者 刘杰 段建勇 王昊 《计算机应用研究》 CSCD 北大核心 2024年第12期3622-3627,共6页
近些年来,提示学习在小样本命名实体识别任务上得到了广泛应用。然而,命名实体识别仍然是一个令牌级的标记任务,在通过提示模板调动预训练知识时,很容易忽略新实体类型的语义信息。为此,提出了一个语义优先的提示学习方法。具体来说,首... 近些年来,提示学习在小样本命名实体识别任务上得到了广泛应用。然而,命名实体识别仍然是一个令牌级的标记任务,在通过提示模板调动预训练知识时,很容易忽略新实体类型的语义信息。为此,提出了一个语义优先的提示学习方法。具体来说,首先检测少量示例中实体类型蕴涵的语义信息,然后将实体语义信息和询问实体位置的提示模板输入模型中,利用模型中的非自回归解码器并行预测来提取实体;此外,为了确保语义信息与实体类型的关联性,使用对比学习的方法来训练一个分类器,以去除与实体类型无关的语义信息;最后在两个常用的公共基准数据集上评估了所提方法,实验结果证明了该方法的有效性。 展开更多
关键词 小样本命名实体识别 提示学习 语义信息 对比学习
下载PDF
基于双仿射注意力的迭代式开放域信息抽取
2
作者 李欣 邵靖淇 +2 位作者 王昊 何丽 段建勇 《计算机应用研究》 CSCD 北大核心 2024年第7期2046-2051,共6页
当前的开放域信息抽取(OpenIE)方法无法同时兼顾抽取结果的紧凑性和模型的性能,导致其抽取结果不能更好地被应用到下游任务中。为此,提出一个基于双仿射注意力进行表格填充及迭代抽取的模型。首先,该模型通过双仿射注意力学习单词之间... 当前的开放域信息抽取(OpenIE)方法无法同时兼顾抽取结果的紧凑性和模型的性能,导致其抽取结果不能更好地被应用到下游任务中。为此,提出一个基于双仿射注意力进行表格填充及迭代抽取的模型。首先,该模型通过双仿射注意力学习单词之间的方向信息、捕获单词对之间的相互作用,随后对二维表格进行填充,使句子中的成分相互共享并识别紧凑成分;其次,使用多头注意力机制将谓词和参数的表示应用于上下文的嵌入中,使谓词和参数的提取相互依赖,更好地链接关系成分和参数成分;最后,对于含有多个关系成分的句子,使用迭代抽取的方式在无须重新编码的情况下捕获每次提取之间固有的依赖关系。在公开数据集CaRB和Wire57上的实验表明,该方法比基线方法实现了更高的精度和召回率,F_(1)值提升了至少1.4%和3.2%,同时产生了更短、语义更丰富的提取。 展开更多
关键词 开放域信息抽取 双仿射注意力 紧凑性 多头注意力 迭代抽取
下载PDF
一种多种群二进制算术优化算法及其应用
3
作者 王若宾 耿芳东 +2 位作者 王佳伟 徐琳 段建勇 《计算机应用研究》 CSCD 北大核心 2024年第12期3664-3670,共7页
针对算术优化算法(AOA)无法对离散二进制型问题进行优化的局限,提出一种使用sigmoid函数变体实现的离散二进制算术优化算法(BAOA_S),解决了原始算法无法用于离散二进制变量优化的问题。进一步提出一种基于突变策略实现的多种群二进制算... 针对算术优化算法(AOA)无法对离散二进制型问题进行优化的局限,提出一种使用sigmoid函数变体实现的离散二进制算术优化算法(BAOA_S),解决了原始算法无法用于离散二进制变量优化的问题。进一步提出一种基于突变策略实现的多种群二进制算术优化算法(multi-swarm binary arithmetic optimization algorithms,MS-BAOA)。该算法将原始种群划分为多个子种群,子种群间通过通信策略进行交流,并使用突变策略进一步增强种群多样性,克服了BAOA_S无法跳出局部最优解的缺陷。基于CEC2013基准函数将MS-BAOA与BAOA_S、二进制粒子群算法(binary particle swarm optimization algorithm,BPSO)、二进制灰狼优化算法(binary gray wolf optimizer,BGWO)、二进制鱼群迁徙算法(binary fish migration optimization algorithm,BFMO)以及二进制均衡优化器(binary equilibrium optimizer,BiEO)进行了对比,实验结果显示MS-BAOA总体上优于对比算法。将MS-BAOA应用于配电网故障区段定位中,实验结果显示该算法能够对配电网单点故障以及多点故障实现快速精准定位,进一步验证了该算法的实用性。 展开更多
关键词 算术优化算法 离散二进制 多种群 配电网 故障定位
下载PDF
基于句法语义的网络舆论情感倾向性评价技术研究 被引量:14
4
作者 段建勇 谢宇超 张梅 《情报杂志》 CSSCI 北大核心 2012年第1期147-150,共4页
提出一个基于句法语义的情感倾向性评测算法。首先构建特定领域的情感语料库,然后提取情感知识库,为后续情感分析提供必要的基本数据。算法以句子为基本单位进行处理,运用基于扩展句法树的语言处理模型,从单句到篇章计算文本情感倾向。... 提出一个基于句法语义的情感倾向性评测算法。首先构建特定领域的情感语料库,然后提取情感知识库,为后续情感分析提供必要的基本数据。算法以句子为基本单位进行处理,运用基于扩展句法树的语言处理模型,从单句到篇章计算文本情感倾向。实验证实该方法是有效的。 展开更多
关键词 网络舆情 情感评价 句法分析
下载PDF
基于多特征融合的关键词抽取 被引量:8
5
作者 段建勇 游世薪 +1 位作者 张梅 王昊 《计算机科学》 CSCD 北大核心 2020年第S02期73-77,共5页
随着互联网的发展,网页数据以及新媒体文本等数据日益增多,全文信息检索的效率已经不足以支撑海量数据的检索,因而关键词抽取技术广泛应用于搜索引擎(如百度搜索)和新媒体服务等领域(如新闻检索)。融合模型是一种使用BiLSTM-CRF结构并... 随着互联网的发展,网页数据以及新媒体文本等数据日益增多,全文信息检索的效率已经不足以支撑海量数据的检索,因而关键词抽取技术广泛应用于搜索引擎(如百度搜索)和新媒体服务等领域(如新闻检索)。融合模型是一种使用BiLSTM-CRF结构并融合多重手工特征的模型,可以更有效地完成关键词抽取任务。融合模型在词嵌入特征的基础上,融入了词性、词频、词长和词位置特征,多维度的特征信息可以更加全面地辅助模型提取到关键词的深层特征信息。融合模型将深度学习的广覆盖度、高学习能力等特点与手工特征的精确表达能力相结合,以进一步提高特征挖掘能力并缩短训练所需时间。此外,该模型使用了一种新的“LMRSN”标记方法,可以更有效地完成关键短语的抽取。实验结果表明,融合模型在与传统模型的对比中取得了62.08的F1分值,性能远高于传统模型。 展开更多
关键词 抽取 深度学习 特征融合 信息检索 长短期记忆网络
下载PDF
基于Transformer局部信息及语法增强架构的中文拼写纠错方法 被引量:12
6
作者 段建勇 袁阳 王昊 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2021年第1期61-67,共7页
针对中文拼写纠错,提出两种新的改进方法。其一,在Transformer注意力机制的基础上,添加高斯分布的偏置矩阵,用于提高模型对局部文本的关注程度,加强对错误文本中错误字词和周边文字的信息提取。其二,使用ON_LSTM模型,对错误文本表现出... 针对中文拼写纠错,提出两种新的改进方法。其一,在Transformer注意力机制的基础上,添加高斯分布的偏置矩阵,用于提高模型对局部文本的关注程度,加强对错误文本中错误字词和周边文字的信息提取。其二,使用ON_LSTM模型,对错误文本表现出的特殊语法结构特征进行语法信息提取。实验结果表明,所提出的两种方法均能有效提高准确率和召回率,并且,将两种方法融合后的模型取得最高F1值。 展开更多
关键词 拼写纠错 Transformer模型 局部信息 语法增强
下载PDF
基于句间信息的图注意力卷积网络的文档级关系抽取 被引量:2
7
作者 段建勇 杨潇 +2 位作者 王昊 何丽 李欣 《计算机科学》 CSCD 北大核心 2023年第S01期181-186,共6页
为解决现有模型对文档的结构信息挖掘不足的问题,提出一种基于句间信息的图注意力卷积网络模型。该模型改进了一种文档级编码器,该编码器使用了一种新的注意力机制--句间注意力机制,使得句子的最终表示更加关注前一个句子和之前文档中... 为解决现有模型对文档的结构信息挖掘不足的问题,提出一种基于句间信息的图注意力卷积网络模型。该模型改进了一种文档级编码器,该编码器使用了一种新的注意力机制--句间注意力机制,使得句子的最终表示更加关注前一个句子和之前文档中的重要信息,更有利于挖掘文档的结构信息。实验结果表明,所提模型在DocRED数据集上的F 1评价指标达到56.3%,性能优于基线模型。在融入句间注意力机制时,由于模型需要对每一句话分别进行句间注意力操作,因此训练模型时需要消耗更多的内存和时间。基于句间信息的图注意力卷积网络模型可以有效地对文档中的相关信息进行聚合,并且增强对文档的结构信息的挖掘能力,从而使得模型在文档级关系抽取任务中效果得到提升。 展开更多
关键词 文档级关系抽取 注意力机制 文档级编码器 图卷积网络
下载PDF
基于位置嵌入和多级预测的中文嵌套命名实体识别 被引量:1
8
作者 段建勇 朱奕霏 +2 位作者 王昊 何丽 李欣 《计算机工程》 CAS CSCD 北大核心 2023年第12期71-77,共7页
针对传统中文嵌套命名实体识别模型通常存在实体边界难以准确定位及中文字符与词汇之间边界模糊的问题,构建一种基于位置嵌入和多级结果边界预测的嵌套命名实体识别模型。在嵌入层,将嵌套实体位置信息与文本位置信息同时编码后生成绝对... 针对传统中文嵌套命名实体识别模型通常存在实体边界难以准确定位及中文字符与词汇之间边界模糊的问题,构建一种基于位置嵌入和多级结果边界预测的嵌套命名实体识别模型。在嵌入层,将嵌套实体位置信息与文本位置信息同时编码后生成绝对位置序列,通过关注中文文本中自带的位置信息,进一步挖掘嵌套实体与字符之间的关系,并且增强了嵌套实体与原始文本之间的联系。在编码层,利用排除最优路径的隐藏矩阵实现嵌套实体的初步识别。在解码层,计算实体边界的偏移量,重新确定实体边界,从而提高中文嵌套实体识别准确率。实验结果表明,在医疗和日常两个领域的数据集上,该模型的准确率、召回率、F1值相比于基线模型中的最优值分别提高了0.34、1.06、0.80和11.90、0.78、6.23个百分点,具有较好的识别性能。 展开更多
关键词 嵌套命名实体识别 位置嵌入 边界预测单元 条件随机场 多级预测
下载PDF
知识驱动的事件双曲嵌入时序关系抽取方法研究 被引量:1
9
作者 段建勇 戴诗伟 +2 位作者 王昊 何丽 李欣 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第1期76-82,共7页
针对事件时间关系不对称的问题,采用将事件表示映射到双曲空间的方法,进行事件时序关系抽取。通过简单的运算,用预训练的词向量与外部知识构建事件的词嵌入表示。在公开发布的数据集上的实验结果表明,模型的F1值比基线模型普遍高2%,能... 针对事件时间关系不对称的问题,采用将事件表示映射到双曲空间的方法,进行事件时序关系抽取。通过简单的运算,用预训练的词向量与外部知识构建事件的词嵌入表示。在公开发布的数据集上的实验结果表明,模型的F1值比基线模型普遍高2%,能够提升事件时序关系抽取的效果。 展开更多
关键词 事件时序 关系抽取 双曲空间词嵌入
下载PDF
维基百科中查询分类知识挖掘方法研究 被引量:1
10
作者 段建勇 窦光辉 +1 位作者 张梅 谢宇超 《小型微型计算机系统》 CSCD 北大核心 2014年第7期1591-1595,共5页
查询分类需要建立查询意图的分类知识体系,每个查询类别中的分类知识规模相对比较大,因而不能保证每一个查询类别都能被覆盖.提出基于随机游走方式的查询分类知识挖掘方法,首先抽取维基百科中的全部词条与分类知识形成集合,并采用随机... 查询分类需要建立查询意图的分类知识体系,每个查询类别中的分类知识规模相对比较大,因而不能保证每一个查询类别都能被覆盖.提出基于随机游走方式的查询分类知识挖掘方法,首先抽取维基百科中的全部词条与分类知识形成集合,并采用随机游走方式遍历图中所有概念结点,得到每个结点的概率分布,并将其转化成分类权重,最终构建查询知识链接图.该方法借助维基百科能够解决数据稀疏问题.通过随机游走方式对未直接关联的查询进行相似度计算,提高查询分类的覆盖率.实验证实,该方法能够有效定位用户的查询领域. 展开更多
关键词 随机游走 查询分类 维基百科 信息抽取
下载PDF
维基百科中翻译对的模板挖掘方法研究 被引量:2
11
作者 段建勇 闫启伟 +1 位作者 张梅 胡熠 《中文信息学报》 CSCD 北大核心 2015年第2期190-198,共9页
双语翻译对在跨语言信息检索、机器翻译等领域有着重要的用途,尤其是专有名词、新词、俚语和术语等的翻译是影响其系统性能的关键因素,但是这些翻译对很难从现有的词典中获得。该文针对维基百科的领域覆盖率和结构特征,提出了一种从维... 双语翻译对在跨语言信息检索、机器翻译等领域有着重要的用途,尤其是专有名词、新词、俚语和术语等的翻译是影响其系统性能的关键因素,但是这些翻译对很难从现有的词典中获得。该文针对维基百科的领域覆盖率和结构特征,提出了一种从维基百科中自动获取高质量中英文翻译对的模板挖掘方法,不但能有效地挖掘出常见的模板,而且能够发现人工不容易察觉的复杂模板。主要方法包括三步:1)从语言工具栏中直接抽取翻译对,作为进一步挖掘的启发知识;2)在维基百科页面中采用PAT-Array结构挖掘中英翻译对模板;3)利用挖掘的模板在页面中自动挖掘其他中英文翻译对,并进行模板评估。实验结果表明,模板发现翻译对的正确率达90.4%。 展开更多
关键词 双语翻译对 维基百科 模板挖掘 信息抽取
下载PDF
限定领域的自动问答系统研究 被引量:3
12
作者 段建勇 李俊 +1 位作者 张梅 马礼 《北方工业大学学报》 2010年第1期23-27,共5页
目前,自然语言处理系统由于缺乏语义信息及知识理解和推理能力,因此存在很多缺陷,在自动问答领域中很难分清用户表达的真正意图,并给出用户满意的答案.本文就此给出基于句法语义的问句分析方法,采用本体构建技术构建答案库,在此基础上... 目前,自然语言处理系统由于缺乏语义信息及知识理解和推理能力,因此存在很多缺陷,在自动问答领域中很难分清用户表达的真正意图,并给出用户满意的答案.本文就此给出基于句法语义的问句分析方法,采用本体构建技术构建答案库,在此基础上进行领域知识语义推理,实现智能问答.本研究以黄山旅游为限定领域建立问答系统,试验结果表明多策略的方法是有效的. 展开更多
关键词 问答系统 本体构建 句法分析
下载PDF
面向网络评论的文本信息抽取方法研究 被引量:1
13
作者 段建勇 高会娟 张梅 《北方工业大学学报》 2015年第1期7-12,50,共7页
为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验... 为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验,结合正确率与召回率等指标验证了算法的有效性. 展开更多
关键词 网页提取 信息抽取 URL采集 模式匹配
下载PDF
156例尘肺病患者细菌检查结果分析 被引量:1
14
作者 段建勇 马国宣 《中国疗养医学》 2007年第11期681-682,共2页
尘肺病是严重危害人类健康的一种职业病,尘肺病患者长期遭受胸闷、气短、胸痛、咳嗽、咳痰等之痛,其合并症较多,尤其是支气管肺感染的发生率高达31.6%,是导致病人死亡的主要原因。大容量全肺灌洗fMassive Whole—Lung Lavage,WL... 尘肺病是严重危害人类健康的一种职业病,尘肺病患者长期遭受胸闷、气短、胸痛、咳嗽、咳痰等之痛,其合并症较多,尤其是支气管肺感染的发生率高达31.6%,是导致病人死亡的主要原因。大容量全肺灌洗fMassive Whole—Lung Lavage,WLL)是针对病人始终存在着的粉尘性及巨噬细胞性肺泡炎而采取的治疗措施,可以改善症状,延缓病变升级, 展开更多
关键词 肺病患者 检查结果分析 大容量全肺灌洗 细菌 支气管肺感染 人类健康 病人死亡 Lung
下载PDF
动态编码驱动型会话问答方法研究
15
作者 段建勇 周帅 +1 位作者 何丽 王昊 《小型微型计算机系统》 CSCD 北大核心 2023年第7期1412-1418,共7页
会话问答即多轮问答任务,是对话式人工智能的重要组成部分.如何对复杂的上下文信息进行高效特征提取,一直是会话问答任务的重大难题.现有的方法通常会对其经过多层LSTM处理,很容易产生冗余信息造成上下文偏差.为此,提出动态编码网络的方... 会话问答即多轮问答任务,是对话式人工智能的重要组成部分.如何对复杂的上下文信息进行高效特征提取,一直是会话问答任务的重大难题.现有的方法通常会对其经过多层LSTM处理,很容易产生冗余信息造成上下文偏差.为此,提出动态编码网络的方法,该方法基于Encoder-Decoder框架,但在编码过程融入了动态的方式,以更好地理解段落中的内容和会话历史信息.在动态编码层,编码机制迭代地读取对话历史信息,并且每次迭代的输出都将通过决策器P_(d)与之前的编码表示动态结合,舍弃不相关的信息,生成新的编码表示,随后被送往下一迭代程序中.最终,使模型预测答案的质量更高,整个对话更加流畅连贯.在最新发布的CoQA数据集的实验结果与各种基准和模型变体相比,证明了提出的方法是有效的. 展开更多
关键词 机器学习 自然语言处理 会话问答 动态编码
下载PDF
语义知识驱动的论文摘要关键词抽取方法
16
作者 段建勇 鲁朝阳 +2 位作者 王昊 李欣 何丽 《情报工程》 2022年第3期3-12,共10页
[目的/意义]关键词抽取技术可以帮助用户从海量文本中快速定位核心内容,对情报收集工作有着重要意义。目前,关键词抽取主要依靠词频和共现关系,忽视了知识库对关键词抽取的指导作用。[方法/过程]本文提供了一种融合知识的关键词抽取方法... [目的/意义]关键词抽取技术可以帮助用户从海量文本中快速定位核心内容,对情报收集工作有着重要意义。目前,关键词抽取主要依靠词频和共现关系,忽视了知识库对关键词抽取的指导作用。[方法/过程]本文提供了一种融合知识的关键词抽取方法,首先基于义原和词林构建词汇知识图谱,其次结合词语的共现关系,生成新的概率转移矩阵,最后实现关键词抽取。[结果/结论]基于海量摘要数据集的实验表明,融合知识的关键词抽取方法,能有效提高现有关键词抽取方法的性能。 展开更多
关键词 关键词抽取 融合知识 义原 词林
下载PDF
半导体激光照射治疗慢性支气管炎、肺感染、慢性咽炎135例报告
17
作者 段建勇 常伟红 刘晓荣 《中国疗养医学》 2007年第12期744-745,共2页
尘肺病是严重危害人类健康的一种职业病,尘肺病患者长期遭受胸闷、气短、咳嗽、咳痰之痛苦,其合并症较多,尤其是慢性支气管炎、肺感染、慢性咽炎的发生率高达31.6%,是导致病人死亡的主要原因。自2007年3月开始,我们用半导体激光... 尘肺病是严重危害人类健康的一种职业病,尘肺病患者长期遭受胸闷、气短、咳嗽、咳痰之痛苦,其合并症较多,尤其是慢性支气管炎、肺感染、慢性咽炎的发生率高达31.6%,是导致病人死亡的主要原因。自2007年3月开始,我们用半导体激光照射治疗支气管炎、肺部感染、慢性咽炎疾病,共135例,现报告如下。 展开更多
关键词 半导体激光照射治疗 慢性支气管炎 慢性咽炎 肺感染 人类健康 肺病患者 病人死亡 肺部感染
下载PDF
大容量全肺灌洗(WLL)术前患者运动平板心电图测验74例报告
18
作者 段建勇 何晓明 肖新宇 《中国疗养医学》 2008年第1期59-60,共2页
心电图运动平板运动测验是临床上常用的早期发现轻型冠心病的重要手段,我们在为煤矿工人施行大容量双肺同期灌洗术前,对其中一部分患者进行了此检查,报告如下。
关键词 运动平板心电图 大容量全肺灌洗 术前患者 运动测验 煤矿工人 冠心病
下载PDF
结核菌快速培养在大容量肺灌洗中的应用
19
作者 段建勇 常伟红 《中国疗养医学》 2007年第10期629-630,共2页
结核病是由结核分枝杆菌引起的慢性传染性疾病,结核分枝杆菌培养是诊断结核病的金标准。肺结核是大容量肺灌洗术(WLL)的禁忌症,且肺结核为尘肺患者常见的合并症,采用液体培养基快速培养结核分枝杆菌为术前快速诊断和排除肺结核病... 结核病是由结核分枝杆菌引起的慢性传染性疾病,结核分枝杆菌培养是诊断结核病的金标准。肺结核是大容量肺灌洗术(WLL)的禁忌症,且肺结核为尘肺患者常见的合并症,采用液体培养基快速培养结核分枝杆菌为术前快速诊断和排除肺结核病可赢得宝贵时间。 展开更多
关键词 结核菌快速培养 大容量肺灌洗 结核分枝杆菌 慢性传染性疾病 肺结核病 快速诊断 液体培养基 肺灌洗术
下载PDF
IBATIS框架下文本抽取系统的研究
20
作者 段建勇 高会娟 《电子科学技术》 2015年第2期214-218,共5页
由于网络的快速发展,网络信息骤然增加,增大了文本的抽取难度。针对这种情况,提出IBATIS框架下基于HtmlParser技术的文本抽取模式,将HtmlParser高效的过滤器和访问者模式与实现业务逻辑、数据访问、页面展示相分离的IBATIS框架相融合,... 由于网络的快速发展,网络信息骤然增加,增大了文本的抽取难度。针对这种情况,提出IBATIS框架下基于HtmlParser技术的文本抽取模式,将HtmlParser高效的过滤器和访问者模式与实现业务逻辑、数据访问、页面展示相分离的IBATIS框架相融合,充分利用优势互补,用以对网络中的海量数据进行高效率的分析与提取。 展开更多
关键词 在线评论 HTMLPARSER 信息抽取 IBATIS 抽取模式
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部