期刊文献+
共找到377篇文章
< 1 2 19 >
每页显示 20 50 100
基于大语言模型的中医医案命名实体抽取研究 被引量:1
1
作者 李盼飞 杨小康 +1 位作者 白逸晨 李海燕 《中国中医药图书情报杂志》 2024年第2期108-113,共6页
人工智能时代赋予了海量中医医案更高的学术价值,但医案文本不规范、命名实体种类繁多,严重阻碍了医案的深入研究。本研究在回顾中医医案格式演变历程、分析医案结构要素、构建医案信息模型的基础上,研制了基于大语言模型医案实体抽取... 人工智能时代赋予了海量中医医案更高的学术价值,但医案文本不规范、命名实体种类繁多,严重阻碍了医案的深入研究。本研究在回顾中医医案格式演变历程、分析医案结构要素、构建医案信息模型的基础上,研制了基于大语言模型医案实体抽取的提示词,探索基于大语言模型的医案命名实体的自动化抽取过程,最终开发出医案文本结构化工具。本研究为中医医案结构化研究、大规模中医医案科学数据抽取探索了可行路径,为基于中医医案的人工智能研究提供数据基础。 展开更多
关键词 中医医案 大语言模型 命名实体抽取 医案信息模型 人工智能
下载PDF
基于Tri-training的社交媒体药物不良反应实体抽取
2
作者 何忠玻 严馨 +2 位作者 徐广义 张金鹏 邓忠莹 《计算机工程与应用》 CSCD 北大核心 2024年第3期177-186,共10页
社交媒体因其数据的实时性,对其充分利用可以弥补传统医疗文献药物不良反应中实体抽取的迟滞性问题,但社交媒体文本面临标注数据成本高、数据噪声大等问题,使得模型难以发挥良好的效果。针对社交媒体大量未标注语料存在标注成本高的问题... 社交媒体因其数据的实时性,对其充分利用可以弥补传统医疗文献药物不良反应中实体抽取的迟滞性问题,但社交媒体文本面临标注数据成本高、数据噪声大等问题,使得模型难以发挥良好的效果。针对社交媒体大量未标注语料存在标注成本高的问题,采用Tri-training半监督的方法进行社交媒体药物不良反应实体抽取,通过三个学习器Transformer+CRF、BiLSTM+CRF和IDCNN+CRF对未标注数据进行标注,再利用一致性评价函数迭代地扩展训练集,最后通过加权投票整合模型输出标签。针对社交媒体的文本不正式性(口语化严重、错别字等)问题,通过融合字与词两个粒度的向量作为整个模型嵌入层的输入,来提取更丰富的语义信息。实验结果表明,提出的模型在“好大夫在线”网站获取的数据集上取得了良好表现。 展开更多
关键词 中文社交媒体 药物不良反应 实体抽取 半监督学习 TRI-TRAINING
下载PDF
基于预训练模型的医药说明书实体抽取方法研究
3
作者 陈仲永 黄雍圣 +1 位作者 张旻 姜明 《计算机科学与探索》 CSCD 北大核心 2024年第7期1911-1922,共12页
药品说明书医疗实体抽取可为用药信息智能检索及构建医疗知识图谱提供基础数据,具有重要研究意义与应用价值。针对治疗不同种类疾病的药品说明书中的医疗实体存在着较大的差异从而导致模型训练需要标注大量样本的问题,采用“大模型+小... 药品说明书医疗实体抽取可为用药信息智能检索及构建医疗知识图谱提供基础数据,具有重要研究意义与应用价值。针对治疗不同种类疾病的药品说明书中的医疗实体存在着较大的差异从而导致模型训练需要标注大量样本的问题,采用“大模型+小模型”的设计思路,提出了一种基于预训练模型的部分标签命名实体识别模型,先采用通过少量样本微调的预训练语言模型抽取药品说明书中的部分实体,再利用基于Transformer的部分标签模型进一步优化实体提取结果。部分标签模型采用平面格结构对输入文本、已识别出的部分实体及实体标签进行编码,使用Transformer提取特征表示,最后通过条件随机场(CRF)预测实体标签。为了减少训练模型的标注数据,利用标注样本实体掩盖策略,提出一种样本数据增广方法对部分标签模型进行训练。实验验证了“大模型+小模型”在医疗实体抽取的可行性,结果表明精确率(precision,P)、召回率(recall,R)和F1分数分别为85.0%、86.1%、85.6%,比其他学习方法更具优势。 展开更多
关键词 命名实体识别 预训练模型 医疗实体抽取 TRANSFORMER
下载PDF
基于模型的机床故障案例命名实体抽取方法比较研究
4
作者 尹昱东 王保建 +2 位作者 李珂嘉 王紫平 张小丽 《计算机测量与控制》 2024年第6期27-34,共8页
机床出现的故障大多有先例,但故障案例分散,不同工厂又不数据共享且没有标准的数据库管理,以至于对于已有的相似故障,工厂仍需要按照未知故障进行停机维修;因此,急需一套标准服务平台能够集合大量故障案例,同时实现更新维护,增添新故障... 机床出现的故障大多有先例,但故障案例分散,不同工厂又不数据共享且没有标准的数据库管理,以至于对于已有的相似故障,工厂仍需要按照未知故障进行停机维修;因此,急需一套标准服务平台能够集合大量故障案例,同时实现更新维护,增添新故障,以供各工厂做故障参考,尽可能降低维修成本以及时间开销;通过将计算机领域较为流行的知识图谱运用到机床故障诊断领域,全面运用机床故障诊断案例知识,构建以故障现象、故障发生原因以及解决方案为核心的机床故障诊断网络,实现快速确认故障发生部位,提供合理的故障解决方案,提高制造业的生产效率;使用爬虫技术获取故障案例数据,采用BIO标注法完成样本标注,分别使用Bilstrm-crf、Vgg16以及Bert模型完成实体抽取任务,并对上述模型准确率从多个角度进行对比,将知识导入Neo4J图数据库并建立针对机床故障的知识图谱,最终实现知识图谱可视化。 展开更多
关键词 机床故障 知识图谱 Bert模型 Neo4j图数据库 命名实体抽取
下载PDF
EMSS:一种基于Span匹配的中文实体抽取方法
5
作者 游新冬 刘陌村 +1 位作者 韩君妹 吕学强 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2087-2093,共7页
基于Span(跨度)的实体抽取模型目前在英文数据集上取得了优异的效果,且已被证明跨度实体抽取比传统的序列标注实体抽取的效果更好.本文提出了一种基于跨度与拼接的中文命名实体抽取模型(EMSS),EMSS使用端到端的span抽取模型,文本经过BER... 基于Span(跨度)的实体抽取模型目前在英文数据集上取得了优异的效果,且已被证明跨度实体抽取比传统的序列标注实体抽取的效果更好.本文提出了一种基于跨度与拼接的中文命名实体抽取模型(EMSS),EMSS使用端到端的span抽取模型,文本经过BERT预训练模型进行字向量的编码,随后进入span抽取层枚举出所有可能的跨度,并加入跨度边界与跨度长度两种特征向量用于对跨度向量进行计算,最后进入跨度预测层进行实体标签的预测.同时提出了一种基于BIO格式的新标签标注方法,该标注方法不受模型与数据集领域限制,可以在不影响下游任务的情况下提高模型识别准确率.在Weibo、Resume、MSRA、OntoNotes4.0数据集上与当前主流的中文实体抽取模型进行对比实验.实验结果表明,提出的EMSS优于现有主流模型,均取得了7%左右的F1值提升.并将该方法应用到煤矿机电设备领域,解决煤矿机电设备领域的实体识别问题,在自制数据集上的实验证明本文的标注方法,不仅在中文实体上有效,而且对汉字、英文、数字结合的混合类型实体也有明显的效果. 展开更多
关键词 实体抽取 跨度 神经网络
下载PDF
基于术语词典的中医医案实体抽取研究
6
作者 张伦伦 任高 +1 位作者 邹北骥 刘青萍 《湖南中医药大学学报》 CAS 2024年第6期1110-1116,共7页
目的针对中医医案开展症状、病因病机、治法、用药、处方、取穴6类实体的抽取研究,为中医医案知识图谱构建和中医智能辅助诊疗提供基础。方法根据中医医案文本的特点,提出一个可以动态更新的术语词典方法用于分词,并在中医脑系疾病医案... 目的针对中医医案开展症状、病因病机、治法、用药、处方、取穴6类实体的抽取研究,为中医医案知识图谱构建和中医智能辅助诊疗提供基础。方法根据中医医案文本的特点,提出一个可以动态更新的术语词典方法用于分词,并在中医脑系疾病医案和ChineseBLUE/cEHRNER、ChineseBLUE/cMedQANER、CBLUE/CMeEE 3个公开数据集上验证该方法的有效性。结果使用术语词典的模型在准确率、精确率、召回率和F1值上均高于未使用术语词典的模型,在测试集和验证集上,F1值分别为92.07%和93.04%。结论融合动态更新的术语词典分词方法的模型,能够增强中医领域特定术语和新实体的识别能力,提高中医医案关键信息识别的准确率,推进中医药知识的传承与发展。 展开更多
关键词 中医医案 脑系疾病 术语词典 实体抽取 IDCNN-CRF模型
下载PDF
非遗档案实体抽取方法研究
7
作者 邵京京 《山西档案》 北大核心 2024年第4期134-136,共3页
非物质文化遗产的数字化保护是新时代文化传承的重要使命。其中,高效准确的实体抽取是非遗资源语义组织和智能应用的关键。针对现有非遗实体抽取研究存在的方法单一、领域适应性不足等问题,在系统梳理实体抽取技术的基础上,立足知识库... 非物质文化遗产的数字化保护是新时代文化传承的重要使命。其中,高效准确的实体抽取是非遗资源语义组织和智能应用的关键。针对现有非遗实体抽取研究存在的方法单一、领域适应性不足等问题,在系统梳理实体抽取技术的基础上,立足知识库构建需求,提出一种融合目标驱动、数据驱动、知识驱动的非遗实体抽取方法选择框架。该框架从类型定义、特点分析、路径选择等角度,为非遗实体抽取提供理论指引。该框架的提出既丰富了非遗数字人文的理论方法,也为提升非遗实体抽取的智能化水平提供了新思路,旨在推动非遗资源在数字化时代的深度开发与智慧利用。 展开更多
关键词 非物质文化遗产 档案 实体抽取 深度学习
下载PDF
面向工业实体抽取的联邦学习优化算法 被引量:1
8
作者 傅圣泽 《智能计算机与应用》 2024年第7期246-250,F0003,共6页
人工智能技术在工业、医疗和金融等领域得到了广泛应用,并取得了巨大的成功。工业实体抽取任务是实现工业领域数字化转型的关键一环,然而其实现往往需要大量的数据支持,而这些数据往往分布在各个机构或组织之间。各行各业都产生了海量... 人工智能技术在工业、医疗和金融等领域得到了广泛应用,并取得了巨大的成功。工业实体抽取任务是实现工业领域数字化转型的关键一环,然而其实现往往需要大量的数据支持,而这些数据往往分布在各个机构或组织之间。各行各业都产生了海量的有价值的数据,但是在实际的应用场景中,安全隐私、法律法规和行业竞争等多种因素往往导致各方的数据不能共享,从而形成所谓的“数据孤岛”。针对这一问题,联邦学习提供了一种解决方案,可以有效解决数据孤岛问题,但联邦学习目前仍然面临一些问题和挑战,其中最典型的问题就是数据异构问题。针对各行各业存在的数据孤岛问题以及联邦学习本身的数据异构问题,本文以工业领域实体抽取任务为对象研究联邦学习的异构问题,从本地优化的角度提出了一种基于本地修正的联邦学习算法FedAmend,改善该联邦学习框架在面对工业领域数据非独立同分布时的表现,并在某汽车集团的工业设备故障数据上验证了FedAmend的可行性。 展开更多
关键词 实体抽取 联邦学习 数据异构 本地优化
下载PDF
数据驱动的中文实体抽取方法综述
9
作者 肖蕾 陈镇家 《计算机工程与应用》 CSCD 北大核心 2024年第16期34-48,共15页
中文实体抽取(Chinese named entity recognition,CNER)是中文信息抽取任务中的关键一步,是问答系统、机器翻译和知识图谱等下游任务的基础,其方法主要分为知识驱动和数据驱动两大类。然而基于规则、词典与机器学习的传统知识驱动方法... 中文实体抽取(Chinese named entity recognition,CNER)是中文信息抽取任务中的关键一步,是问答系统、机器翻译和知识图谱等下游任务的基础,其方法主要分为知识驱动和数据驱动两大类。然而基于规则、词典与机器学习的传统知识驱动方法存在忽视上下文语义信息、计算成本高和低召回率的问题,限制了CNER技术的发展。介绍了CNER的定义和发展历程。详细整理了CNER任务的典型数据集、训练工具、序列标注方式和模型评价指标。对基于数据驱动的方法进行了总结,将数据驱动的方法划分为基于深度学习、预训练语言模型和中文实体关系联合抽取等方法,并分析了数据驱动方法在不同领域的实际应用场景。对CNER任务的未来研究方向进行了展望,为新方法的提出提供一定参考。 展开更多
关键词 中文实体抽取 数据驱动 深度学习 知识图谱
下载PDF
基于图匹配的Web实体抽取算法研究
10
作者 徐曜 《南阳师范学院学报》 CAS 2024年第3期60-65,共6页
现今Web中存在大量缺失、不一致及不精确的数据,而传统的搜索引擎只能根据关键词返回文档片段,无法直接获取目标实体。提出一种新的基于图匹配的实体抽取算法GMEE(Graph Matching Based Entity Extraction),首先将片段按词语分割,进行... 现今Web中存在大量缺失、不一致及不精确的数据,而传统的搜索引擎只能根据关键词返回文档片段,无法直接获取目标实体。提出一种新的基于图匹配的实体抽取算法GMEE(Graph Matching Based Entity Extraction),首先将片段按词语分割,进行实体的初步筛选;然后根据各实体之间的结构和语义关系建立“加权语义实体关联图”;最后利用“最大公共子图匹配”策略抽取目标实体。实验结果表明,提出的算法在不需要大量参数训练及传递的情况下,能够对抽取的实体集进行有效的精简,既保证了召回率、准确率,又提高了抽取过程的可解释性。 展开更多
关键词 图匹配 实体抽取 WEB 搜索引擎
下载PDF
D-EEM:一种基于DOM树的Deep Web实体抽取机制 被引量:17
11
作者 寇月 李冬 +2 位作者 申德荣 于戈 聂铁铮 《计算机研究与发展》 EI CSCD 北大核心 2010年第5期858-865,共8页
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DO... 随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势. 展开更多
关键词 实体抽取 DOM树 DEEPWEB 数据区域定位 实体区域定位
下载PDF
基于条件随机场的中医临床病历命名实体抽取 被引量:31
12
作者 刘凯 周雪忠 +1 位作者 于剑 张润顺 《计算机工程》 CAS CSCD 2014年第9期312-316,共5页
中医临床病历是中医重要的科研数据资源,但目前临床病历仍以文本为主要表达形式,对病历数据深入分析的前提是进行结构化信息抽取,而命名实体抽取是其基础性步骤。针对中医临床病历的命名实体,如症状、疾病和诱因等的抽取问题,通过手工... 中医临床病历是中医重要的科研数据资源,但目前临床病历仍以文本为主要表达形式,对病历数据深入分析的前提是进行结构化信息抽取,而命名实体抽取是其基础性步骤。针对中医临床病历的命名实体,如症状、疾病和诱因等的抽取问题,通过手工标注的413份病历数据(以中文字为特征)与4类特征模版,将条件随机场(CRF)、隐马尔科夫模型(HMM)和最大熵马尔科夫模型(MEMM)用于中医病历命名实体抽取的实验,并进行比较分析。结果表明,结合合适的特征模版,CRF命名实体抽取方法取得了较好的性能,F1值的症状达到0.80,疾病名称达到0.74,诱因0.74。与HMM和MEMM相比,CRF有最高的准确率和召回率,是一种较为适用的中医临床病历命名实体抽取方法。 展开更多
关键词 中医临床病历 命名实体抽取 语料库标注系统 条件随机场 特征模板
下载PDF
面向中医临床现病史文本的命名实体抽取方法研究 被引量:10
13
作者 袁玉虎 周雪忠 +1 位作者 张润顺 李晓东 《世界科学技术-中医药现代化》 CSCD 2017年第1期70-77,共8页
目的:中医临床病历作为重要的临床数据,以文本的形式记录了医生和患者交互的整个过程。目前,在大数据的背景下,针对临床病历所涵盖的主体问题信息如现病史的分析利用相关研究仍有所欠缺。因此,本文针对中医临床病历中的现病史部分展开... 目的:中医临床病历作为重要的临床数据,以文本的形式记录了医生和患者交互的整个过程。目前,在大数据的背景下,针对临床病历所涵盖的主体问题信息如现病史的分析利用相关研究仍有所欠缺。因此,本文针对中医临床病历中的现病史部分展开症状术语抽取方法研究,为临床病历的进一步使用奠定基础。方法:首先通过随机挑选与专家审核的方式获得了12 367份现病史数据,按照疾病种类分成了两组实验,其中糖尿病组包含了4 838份数据,脾胃病组7 529份数据,以及合并后的混合组12 367份数据。并整理出了一份涵盖22 996个词的症状术语字典。然后选取滑动窗口特征、词的前后缀特征、词典特征等5种特征模板,使用CRFs模型开展症状术语命名实体抽取实验。结果:在实验结果评价标准(准确率、召回率和F1值)上的表现:在开放测试上的评价结果为(0.83、0.8、0.82)、(0.9、0.9、0.89)和(0.88、0.87、0.87);在十重交叉验证上的评价结果为(0.83、0.82、0.83)、(0.95、0.95、0.95)和(0.93、0.92、0.92)。结论:CRFs模型作为一种优秀的序列标注算法,适用于现病史文本的症状术语命名实体抽取任务。 展开更多
关键词 中医临床病历 现病史 条件随机场 特征模板 命名实体抽取
下载PDF
基于键规则的XML实体抽取方法 被引量:11
14
作者 刘显敏 李建中 《计算机研究与发展》 EI CSCD 北大核心 2014年第1期64-75,共12页
XML上实体抽取问题的任务是要从XML数据中抽取出描述现实世界某个物理实体的数据实体.利用XML查询提供实体的表示方法,基于键规则中有关实体的语义信息,给出了求解XML上实体抽取问题的基于键规则的实体抽取(key-based entity extraction... XML上实体抽取问题的任务是要从XML数据中抽取出描述现实世界某个物理实体的数据实体.利用XML查询提供实体的表示方法,基于键规则中有关实体的语义信息,给出了求解XML上实体抽取问题的基于键规则的实体抽取(key-based entity extraction,KEE)方法.KEE方法利用查询松弛技术,自动地生成抽取实体的候选查询集合,基于相似性测度,从候选查询中选取适用于抽取实体的查询集合.作为KEE方法的一个具体实现,SharingEE算法利用标准化的查询松弛技术,减少了候选查询中的冗余,利用基于自动机的查询处理技术,在多个候选查询之间共享中间结果,从而减少计算开销.在真实和模拟数据上运行的实验验证了算法的效率和有效性.实验结果表明,KEE方法可以很好地解决实体抽取问题,并可以扩展到大规模数据上. 展开更多
关键词 XML数据 键规则 实体抽取 查询松弛 共享计算
下载PDF
基于图排序和最大信息增益的领域实体抽取方法 被引量:6
15
作者 张晓明 郑理欣 王会勇 《计算机工程》 CAS CSCD 北大核心 2022年第12期140-149,共10页
领域知识图谱在各行各业中都发挥着重要作用,领域实体的获取则是构建领域知识图谱的重要基础。数据标注、编写抽取规则等现有的实体抽取方法往往需要较多的人工参与工作。提出一种基于图排序的实体抽取方法和基于最大信息增益的实体扩... 领域知识图谱在各行各业中都发挥着重要作用,领域实体的获取则是构建领域知识图谱的重要基础。数据标注、编写抽取规则等现有的实体抽取方法往往需要较多的人工参与工作。提出一种基于图排序的实体抽取方法和基于最大信息增益的实体扩展方法来构建领域实体集,通过实体识别获得候选实体,基于维基百科的背景信息计算候选实体间的相关度构建实体图,并利用基于置信度传播的图排序算法筛选领域核心实体。在DBpedia中根据最大信息增益来平衡类与领域核心实体相关性及类的抽象程度两个因素以生成实体扩展的共性类。在此基础上,通过SKOS体系中的“Is subject of”关系获得共性类的实例实体,并根据基于字符串相似和结构相关度的方法对扩展实例实体进一步筛选,最终获得全面、准确的领域实体集。以数据结构课程为例构建该课程领域实体集,得到1115个实体。实验结果表明,在领域数据集上,领域实体抽取F1值达到0.67,能够在较少人工参与的条件下有效获得领域实体,有助于领域知识图谱的构建。 展开更多
关键词 实体抽取 实体扩展 图排序算法 最大信息增益 知识图谱
下载PDF
面向航空发动机故障知识图谱构建的实体抽取 被引量:6
16
作者 韩涛 黄海松 姚立国 《组合机床与自动化加工技术》 北大核心 2021年第10期69-73,78,共6页
针对航空发动机故障领域知识图谱构建过程中实体抽取的需要,构建了相关数据集,提出了一种融合字、词序列信息的Lattice Transformer-CRF实体抽取方法。该方法先是通过lattice结构,将字、词序列信息同时作为输入,通过Transformer模型进... 针对航空发动机故障领域知识图谱构建过程中实体抽取的需要,构建了相关数据集,提出了一种融合字、词序列信息的Lattice Transformer-CRF实体抽取方法。该方法先是通过lattice结构,将字、词序列信息同时作为输入,通过Transformer模型进行特征提取后,将信息输入到CRF模型中进行序列标注,从而得到最优解。实验结果表明:在方法有效性验证中,与其他方法对比,在公共数据集上,所提方法的精确率、召回率和F值均取得了较高的得分;在方法适用性验证中,所提方法F值达到了95.02%,表明该方法可解决领域文本实体的自动抽取问题,且相较于其他4种传统方法更为先进、鲁棒性更强。 展开更多
关键词 航空发动机 故障 实体抽取
下载PDF
基于标签迁移和深度学习的跨语言实体抽取研究 被引量:5
17
作者 余传明 黄婷婷 +1 位作者 林虹君 安璐 《现代情报》 CSSCI 2020年第12期3-16,35,共15页
[目的/意义]从跨语言视角探究如何更好地解决低资源语言的实体抽取问题。[方法/过程]以英语为源语言,西班牙语和荷兰语为目标语言,借助迁移学习和深度学习的思想,提出一种结合自学习和GRU-LSTM-CRF网络的无监督跨语言实体抽取方法。[结... [目的/意义]从跨语言视角探究如何更好地解决低资源语言的实体抽取问题。[方法/过程]以英语为源语言,西班牙语和荷兰语为目标语言,借助迁移学习和深度学习的思想,提出一种结合自学习和GRU-LSTM-CRF网络的无监督跨语言实体抽取方法。[结果/结论]与有监督的跨语言实体抽取方法相比,本文提出的无监督跨语言实体抽取方法可以取得更好的效果,在西班牙语上,F1值为0.6419,在荷兰语上,F1值为0.6557。利用跨语言知识在源语言和目标语言间建立桥梁,提升低资源语言实体抽取的效果。 展开更多
关键词 知识获取 实体抽取 跨语言 深度学习 标签映射
下载PDF
BERT模型结合实体向量的知识图谱实体抽取方法 被引量:3
18
作者 陈玮 张锐 尹钟 《小型微型计算机系统》 CSCD 北大核心 2022年第8期1577-1582,共6页
实体抽取是构建知识图谱的重要环节,大多数深度学习模型没有注意到上下文的语义信息和忽略了对于知识实体的处理,因此,实体抽取的准确性有待进一步提高.本文提出了一种BERT模型结合实体向量的知识图谱实体抽取方法.该方法采用基于全词M... 实体抽取是构建知识图谱的重要环节,大多数深度学习模型没有注意到上下文的语义信息和忽略了对于知识实体的处理,因此,实体抽取的准确性有待进一步提高.本文提出了一种BERT模型结合实体向量的知识图谱实体抽取方法.该方法采用基于全词Mask的BERT模型生成句子向量和具有上下文语义的词向量,再将词向量取平均值得到实体向量,通过注意力机制将句子向量与实体向量结合,最后,将结合后的新向量放入条件随机场进行序列标注,找到最优的标签以达到实体抽取的目的.实验结果表明,该方法在人民日报语料库进行实体抽取时,其准确率、召回率和F1值分别为93.01%,90.32%和91.65%.同时,该模型在CoNLL-2003语料库中的实体抽取也具有很好的效果. 展开更多
关键词 知识图谱 实体抽取 BERT 实体向量 注意力机制 条件随机场
下载PDF
基于改进BERT算法的专利实体抽取研究——以石墨烯为例 被引量:12
19
作者 李建 靖富营 刘军 《电子科技大学学报》 EI CAS CSCD 北大核心 2020年第6期883-890,共8页
实体关系抽取是判断专利新颖性的核心环节,传统的实体关系抽取都是采用串行方式来进行,有很大的局限性。该文利用两种改进的BERT算法研究了专利实体关系抽取的技术演化。一种是将中文特征和句法语义特征相结合的新算法——基于改进的BER... 实体关系抽取是判断专利新颖性的核心环节,传统的实体关系抽取都是采用串行方式来进行,有很大的局限性。该文利用两种改进的BERT算法研究了专利实体关系抽取的技术演化。一种是将中文特征和句法语义特征相结合的新算法——基于改进的BERT-BiLSTM-CRF命名实体识别算法;另一种是将注意力机制与句法语义特征相结合的新算法——基于注意力机制与语义结合的实体关系抽取算法。最后以石墨烯制备技术为例,利用数值实验说明改进的两种算法能够高效分析专利的内容,揭示石墨烯企业技术的动态演化过程。 展开更多
关键词 演化分析 实体抽取 石墨烯技术 专利
下载PDF
基于Senna-BiLSTM-CRF的测井实体抽取方法研究 被引量:3
20
作者 尚福华 金泉 曹茂俊 《计算机技术与发展》 2021年第12期180-186,共7页
实体抽取是构建知识图谱极为重要的过程,实体抽取的质量将直接决定构建的知识图谱的质量。为了更好地构建测井领域知识图谱,该文对测井命名实体抽取的方法进行研究。针对在测井领域知识图谱构建过程中尚无公开数据集可用的情况,收集了... 实体抽取是构建知识图谱极为重要的过程,实体抽取的质量将直接决定构建的知识图谱的质量。为了更好地构建测井领域知识图谱,该文对测井命名实体抽取的方法进行研究。针对在测井领域知识图谱构建过程中尚无公开数据集可用的情况,收集了部分测井领域相关的非结构化文本数据,并对其中的测井实体进行人工标注,构建了测井领域知识图谱命名实体抽取数据集。基于该数据集,提出使用Senna词向量-BiLSTM-CRF的方法对测井非结构文本数据中的命名实体进行抽取,降低数据标注的难度,提高训练效率。实验结果表明使用Senna词向量-BiLSTM-CRF的方法能够比较有效地完成对测井领域实体抽取的任务,该方法在构建的测井命名实体抽取数据集上的准确率达到了84.87%,召回率达到了81.62%,F1值达到了83.22%,优于对比的BiLSTM-CRF和词向量-BiLSTM-CRF。 展开更多
关键词 实体抽取 知识图谱 深度学习 词向量 测井
下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部