期刊文献+
共找到356篇文章
< 1 2 18 >
每页显示 20 50 100
生成式情报学术语自动抽取与多维关联知识挖掘研究
1
作者 胡昊天 邓三鸿 +4 位作者 孔玲 闫晓慧 杨文霞 王东波 沈思 《情报学报》 CSCD 北大核心 2024年第5期588-600,共13页
情报学术语承载了情报学科基础知识与核心概念。从概念维度梳理与分析情报学术语对推动学科发展、助力下游知识挖掘任务具有重要意义。面对数量快速增长的科技文献,自动术语抽取替代了人工筛选,但现有方法严重依赖大规模标注数据集,难... 情报学术语承载了情报学科基础知识与核心概念。从概念维度梳理与分析情报学术语对推动学科发展、助力下游知识挖掘任务具有重要意义。面对数量快速增长的科技文献,自动术语抽取替代了人工筛选,但现有方法严重依赖大规模标注数据集,难以迁移至低资源场景。本文设计了一种生成式情报学术语抽取方法(generative term extraction for information science,GTX-IS),将传统基于序列标注的抽取式任务转化为序列到序列的生成式任务。结合小样本学习策略与有监督微调,提升面向特定任务的文本生成能力,能够在低资源有标签数据集场景下较为精准地抽取情报学术语。对于抽取结果,本文进一步开展了情报学领域术语发现及多维知识挖掘。综合运用全文科学计量与信息计量方法,从术语自身、术语间关联、时间信息等维度,对术语的出现频次、生命周期、共现信息等进行统计分析与知识挖掘。采用社会网络分析方法,结合时间维度特征,从术语角度出发,完善期刊的动态简介,探究情报学研究热点、演变历程和未来发展趋势。本文方法在术语抽取实验中的表现超越了全部13种主流生成式和抽取式模型,展现出较强的小样本学习能力,为领域信息抽取提供了新的思路。 展开更多
关键词 情报学术语 术语自动抽取 文本生成 科学计量 热点分析
下载PDF
基于术语词典的中医医案实体抽取研究
2
作者 张伦伦 任高 +1 位作者 邹北骥 刘青萍 《湖南中医药大学学报》 CAS 2024年第6期1110-1116,共7页
目的针对中医医案开展症状、病因病机、治法、用药、处方、取穴6类实体的抽取研究,为中医医案知识图谱构建和中医智能辅助诊疗提供基础。方法根据中医医案文本的特点,提出一个可以动态更新的术语词典方法用于分词,并在中医脑系疾病医案... 目的针对中医医案开展症状、病因病机、治法、用药、处方、取穴6类实体的抽取研究,为中医医案知识图谱构建和中医智能辅助诊疗提供基础。方法根据中医医案文本的特点,提出一个可以动态更新的术语词典方法用于分词,并在中医脑系疾病医案和ChineseBLUE/cEHRNER、ChineseBLUE/cMedQANER、CBLUE/CMeEE 3个公开数据集上验证该方法的有效性。结果使用术语词典的模型在准确率、精确率、召回率和F1值上均高于未使用术语词典的模型,在测试集和验证集上,F1值分别为92.07%和93.04%。结论融合动态更新的术语词典分词方法的模型,能够增强中医领域特定术语和新实体的识别能力,提高中医医案关键信息识别的准确率,推进中医药知识的传承与发展。 展开更多
关键词 中医医案 脑系疾病 术语词典 实体抽取 IDCNN-CRF模型
下载PDF
临床实践指南实施性促进研究之七:基于本体的临床实践指南术语体系的对比与分析
3
作者 任相颖 王诗淳 +5 位作者 王永博 阎思宇 黄桥 李绪辉 朱彦 靳英辉 《医学新知》 CAS 2024年第1期64-72,共9页
目的 通过对临床实践指南已有的术语进行特征分析,学习常用的术语表达方法,为指南本体的研究和构建提供一定的参考。方法 系统检索了UMLS、SNOMED-CT、MeSH主题词表、OBI、schema.org、CMeSH主题词表、中医临床术语系统和中医药一体化... 目的 通过对临床实践指南已有的术语进行特征分析,学习常用的术语表达方法,为指南本体的研究和构建提供一定的参考。方法 系统检索了UMLS、SNOMED-CT、MeSH主题词表、OBI、schema.org、CMeSH主题词表、中医临床术语系统和中医药一体化语言系统,对指南相关术语进行识别与抽取,分析本体中指南相关术语的分类结构和映射关系。结果 检索得到“指南”“证据等级”和“推荐意见”的术语,分析了术语间的层次关系、概念表征和映射关系。结论 指南相关术语仍需进一步补全完善,规范化和完善的指南术语标准可以消除概念的不确定性,有利于指南的制订,并促进指南证据和推荐意见在不同国家和地区之间的分享与利用。 展开更多
关键词 临床实践指南 术语 本体
下载PDF
中文医学术语集在真实世界临床研究中的应用
4
作者 张睿 李蕾 +1 位作者 王丽 吕庆国 《中国数字医学》 2024年第8期86-95,共10页
目的:通过分析国内外医学术语集的应用进展,拓展中文临床术语集在中文电子病历环境下的科研应用场景及范围。方法:检索四川大学数字图书馆出版物,通过文献回顾进行分析归纳。结果:中文医学术语集对电子病历概念识别和数据挖掘具有重要作... 目的:通过分析国内外医学术语集的应用进展,拓展中文临床术语集在中文电子病历环境下的科研应用场景及范围。方法:检索四川大学数字图书馆出版物,通过文献回顾进行分析归纳。结果:中文医学术语集对电子病历概念识别和数据挖掘具有重要作用,有助于语义互操作。基于语义网及语义知识库,可以更深入地进行多种风险预测模型、语义相似度计算和推理性决策支持系统的研究。结论:中文医学术语集是基础性的信息化标准,可支撑多种临床智慧应用构建,建议纳入医学教育。 展开更多
关键词 中文医学术语 真实世界临床研究 数据挖掘 临床决策支持系统 本体
下载PDF
领域本体术语的抽取方法研究 被引量:8
5
作者 张雷瀚 吕学强 +1 位作者 李卓 徐丽萍 《情报学报》 CSSCI 北大核心 2014年第2期167-174,共8页
领域术语是本体构建的基本要素,自动获取高质量的领域术语是构建领域本体的基础。本文提出一种多策略融合的领域术语抽取方法。分析领域术语的语法结构及统计特征,构造术语抽取的逆向词性规则和领域专用停用词表;利用PATTree术语抽... 领域术语是本体构建的基本要素,自动获取高质量的领域术语是构建领域本体的基础。本文提出一种多策略融合的领域术语抽取方法。分析领域术语的语法结构及统计特征,构造术语抽取的逆向词性规则和领域专用停用词表;利用PATTree术语抽取模型和C-value方法获取候选术语;借鉴TF—IDF及参照语料对比思想,从单个文档和领域文档集两个层面计算术语领域度,并依据术语领域度的大小筛选得到领域术语。在经济类语料上的实验结果显示:领域术语的top-100、top-500和top-1500准确率分别达到了94.00%、85.20%和78.47%,与baseline相比,分别提高5%、4.8%和6.2%。 展开更多
关键词 本体构建 术语抽取 逆向词性规则 参照语料 术语领域度
下载PDF
中文领域本体学习中术语的自动抽取 被引量:14
6
作者 温春 王晓斌 石昭祥 《计算机应用研究》 CSCD 北大核心 2009年第7期2652-2655,共4页
提出一种领域术语自动抽取的混合策略,首先进行多字词候选术语抽取和分词,然后合并其结果,最后通过领域相关度和领域主题一致度抽取出最终领域术语。在多字词抽取和最终领域术语抽取阶段分别对现有方法进行了改进,降低了字符串分解的时... 提出一种领域术语自动抽取的混合策略,首先进行多字词候选术语抽取和分词,然后合并其结果,最后通过领域相关度和领域主题一致度抽取出最终领域术语。在多字词抽取和最终领域术语抽取阶段分别对现有方法进行了改进,降低了字符串分解的时间复杂度并提高了领域术语抽取的准确率和召回率。实验表明,术语抽取准确率为90.64%,优于现有的抽取方法。 展开更多
关键词 领域术语抽取 领域主题一致度 领域本体学习 多字词候选术语 字符串分解
下载PDF
基于本体的军事术语知识图谱构建方法 被引量:1
7
作者 黄伟春 肖刚 +1 位作者 杨健 袁皓 《指挥控制与仿真》 2023年第5期10-17,共8页
提出一种基于本体的军事术语知识图谱构建方法,用于获取军事术语数据中的语义信息并构建军事术语知识图谱。该方法在军事术语数据分析的基础上构建军事术语本体,采用基于规则的方法和基于预训练模型的方法抽取军事术语关系,并使用图数... 提出一种基于本体的军事术语知识图谱构建方法,用于获取军事术语数据中的语义信息并构建军事术语知识图谱。该方法在军事术语数据分析的基础上构建军事术语本体,采用基于规则的方法和基于预训练模型的方法抽取军事术语关系,并使用图数据库存储军事术语知识,可以构建出高质量的军事术语知识图谱,支持语义搜索、智能问答等智能化应用。 展开更多
关键词 军事术语 本体 知识图谱
下载PDF
面向本体学习的中文专利术语抽取研究 被引量:18
8
作者 王昊 王密平 苏新宁 《情报学报》 CSSCI 北大核心 2016年第6期573-585,共13页
本文提出了一个无或少训练语料环境下抽取中文专利术语的解决方案。以"钢铁冶金"领域专利文本为例,首先总结了该领域中文术语的基本特征,进而建立了基于字角色标注的机器学习术语识别模型,并通过循环迭代方式重复条件随机场... 本文提出了一个无或少训练语料环境下抽取中文专利术语的解决方案。以"钢铁冶金"领域专利文本为例,首先总结了该领域中文术语的基本特征,进而建立了基于字角色标注的机器学习术语识别模型,并通过循环迭代方式重复条件随机场的学习过程,最大限度避免因核心词汇库代替人工带来的标注不准确不充分问题;在此基础上,进一步依据合成规则构造新术语,并经过领域专家确认后添加至核心词汇库中。经过实验论证,基于字角色标注的基本术语抽取F1值高于94%,而基于合成规则的复杂术语抽取准确率也可达到75%。在7597件专利的题名和摘要文本中,最终可获得中文基本术语244672个,合成术语61536个,为领域本体的构建奠定了基础。 展开更多
关键词 中文专利术语 机器学习 条件随机场 字角色标注 循环迭代 合成规则 本体学习
下载PDF
基于多策略的领域本体术语抽取研究 被引量:16
9
作者 何琳 《情报学报》 CSSCI 北大核心 2012年第8期798-804,共7页
术语的抽取是领域本体构建的基础工作,决定了本体构建的质量。获取的术语除了要求有准确的短语识别率,还要求有较高的术语领域度。本文试图研究一种不依赖于背景语料的术语领域度筛选方法。本文的主要工作集中在两个方面:一是通过统... 术语的抽取是领域本体构建的基础工作,决定了本体构建的质量。获取的术语除了要求有准确的短语识别率,还要求有较高的术语领域度。本文试图研究一种不依赖于背景语料的术语领域度筛选方法。本文的主要工作集中在两个方面:一是通过统计和规则相结合的方法从领域语料中抽取候选术语(短语),二是提出了通过候选术语的分布度、活跃度以及主题度进行计算的多策略术语抽取方法,并通过实验进行了验证和分析。实验结果表明,在小规模航空航天领域语料库上进行验证性实验后发现,在不大量增加计算时间复杂度的情况下,能够有效提高领域术语抽取的质量,获得令人较满意的结果。 展开更多
关键词 术语抽取 多策略 术语分布度 术语活跃度 术语主题度
下载PDF
基于依存结构学习的中学数学术语鲁棒抽取
10
作者 罗凯威 罗文兵 +1 位作者 黄琪 王明文 《中文信息学报》 CSCD 北大核心 2023年第8期75-85,共11页
中学数学术语抽取方法未考虑句子的依存结构信息,导致对句子的语义理解能力有限。此外,由于依赖依存结构信息的术语抽取方法存在分词或依存结构错误,导致术语抽取准确性和完整性不佳。为解决上述问题,该文提出一种基于依存结构学习的中... 中学数学术语抽取方法未考虑句子的依存结构信息,导致对句子的语义理解能力有限。此外,由于依赖依存结构信息的术语抽取方法存在分词或依存结构错误,导致术语抽取准确性和完整性不佳。为解决上述问题,该文提出一种基于依存结构学习的中学数学术语鲁棒抽取模型。模型利用预训练模型得到文本向量语义表示,并借助带有去噪注意力机制层的图神经网络和双向循环神经网络分别捕获文本的依存结构信息和上下文信息,进一步采用注意力机制融合文本结构信息和上下文信息以实现在融入依存结构信息的同时缓解错误分词或依存结构的影响。模型在自建的中学数学术语数据集上抽取精度P和F1值分别达到了83.82%、82.51%,相较于基准模型分别提升了2.21%、1.22%,表明该文所提方法能够鲁棒融合依存结构信息,从而提升中学数学术语抽取的精确性和完整性。 展开更多
关键词 术语抽取 依存结构 图神经网络
下载PDF
基于术语部件的领域本体自动构建方法研究——以教育技术学领域本体构建为例 被引量:9
11
作者 魏顺平 《电化教育研究》 CSSCI 北大核心 2013年第5期62-67,共6页
知识工程研究已逐渐成为教育技术学研究的热点,其中构建领域本体是知识工程的一个重要方面。从已有的基于本体的应用研究来看,领域本体可以在资源聚合、学习资源个性化推荐、网站导航、平台开发等诸多方面发挥重要作用,而构建领域本体... 知识工程研究已逐渐成为教育技术学研究的热点,其中构建领域本体是知识工程的一个重要方面。从已有的基于本体的应用研究来看,领域本体可以在资源聚合、学习资源个性化推荐、网站导航、平台开发等诸多方面发挥重要作用,而构建领域本体是各种应用得以实现的前提。目前,构建领域本体是一项浩大的工程,需要大量领域专家的参与,常常是手工完成,建设周期长。面对一个知识迅速增长的时代,仅仅依靠领域专家来手工构建领域本体显然不能满足需求。本研究提出了一种基于术语部件的领域本体自动构建方法,该方法通过术语部件之间的关系来自动发现术语之间的属种关系和并列关系,并以《电化教育研究》期刊为例,通过分析该期刊数年期刊论文的题录信息,提取出1719个术语,并通过领域本体自动构建方法构建起一个初步的教育技术学领域本体。 展开更多
关键词 领域本体 教育技术学 知识工程 术语提取 术语部件
下载PDF
基于多策略的领域本体术语抽取研究 被引量:1
12
作者 何琳 《中国索引》 2013年第1期45-52,共8页
术语的抽取是领域本体构建的基础工作,决定了本体构建的质量。获取的术语除了要求有准确的短语识别率,还要求有较高的术语领域度。本文试图研究一种不依赖于背景语料的术语领域度筛选方法。本文的主要工作集中在两个方面:一是通过统... 术语的抽取是领域本体构建的基础工作,决定了本体构建的质量。获取的术语除了要求有准确的短语识别率,还要求有较高的术语领域度。本文试图研究一种不依赖于背景语料的术语领域度筛选方法。本文的主要工作集中在两个方面:一是通过统计和规则相结合的方法从领域语料中抽取候选术语(短语),二是提出了通过候选术语的分布度、活跃度以及主题度进行计算的多策略术语抽取方法,并通过实验进行了验证和分析。实验结果表明,在小规模航空航天领域语料库上进行验证性实验后发现,在不大量增加计算时间复杂度的情况下,能够有效提高领域术语抽取的质量,获得令人较满意的结果。 展开更多
关键词 术语抽取 多策略 术语分布度 术语活跃度 术语主题度
下载PDF
基于通用词与术语部件的专利术语抽取 被引量:14
13
作者 俞琰 赵乃瑄 《情报学报》 CSSCI CSCD 北大核心 2018年第7期742-752,共11页
针对目前专利术语抽取中不能有效地过滤一些高频非术语词串和无法正确抽取低频术语的问题,本文提出基于通用词与术语部件的专利术语抽取方法。该方法首先使用通用词作为切分符选取候选术语;再利用与候选术语有相同术语部件的相似候选术... 针对目前专利术语抽取中不能有效地过滤一些高频非术语词串和无法正确抽取低频术语的问题,本文提出基于通用词与术语部件的专利术语抽取方法。该方法首先使用通用词作为切分符选取候选术语;再利用与候选术语有相同术语部件的相似候选术语信息,评估候选术语成为术语的可能性。实验结果表明,与传统的方法相比,提出的方法能够有效地提高专利术语抽取的准确度。 展开更多
关键词 专利文献分析 术语抽取 通用词 术语部件
下载PDF
基于条件随机场的汽车领域术语抽取 被引量:17
14
作者 李丽双 党延忠 +1 位作者 张婧 李丹 《大连理工大学学报》 EI CAS CSCD 北大核心 2013年第2期267-272,共6页
中文领域术语抽取是中文信息处理领域的一项重要研究任务,在词典构建、领域本体构造等方面有重要的应用.采用条件随机场(conditional random fields,CRFs),从汽车知识网站上爬取网页,预处理后得到纯文本,然后分析汽车领域的术语组成特... 中文领域术语抽取是中文信息处理领域的一项重要研究任务,在词典构建、领域本体构造等方面有重要的应用.采用条件随机场(conditional random fields,CRFs),从汽车知识网站上爬取网页,预处理后得到纯文本,然后分析汽车领域的术语组成特点并制定相应的语料标注规则进行人工标注,对汽车领域进行了术语抽取.在使用词和词性特征的基础上增加了词典特征、领域词频和背景领域词频等特征,精确率、召回率和F-值分别达到84.61%、80.50%和82.50%.与其他方法比较说明所提出的汽车领域术语抽取方法是有效的. 展开更多
关键词 信息抽取 领域术语抽取 汽车领域术语 条件随机场
下载PDF
信息科学与技术领域术语部件描述 被引量:16
15
作者 吴云芳 穗志方 +2 位作者 邱利坤 宋作燕 胡俊峰 《语言文字应用》 CSSCI 北大核心 2003年第4期34-39,共6页
术语的自动发现需要有语言知识的支撑。本文建立了“术语部件”的概念 ,通过考察 30 0 0 0条信息科学与技术领域的术语 ,提出了术语部件描述的方法与策略。术语部件主要采用属性描述的方法 ,本文提出了信息科学与技术领域术语部件属性... 术语的自动发现需要有语言知识的支撑。本文建立了“术语部件”的概念 ,通过考察 30 0 0 0条信息科学与技术领域的术语 ,提出了术语部件描述的方法与策略。术语部件主要采用属性描述的方法 ,本文提出了信息科学与技术领域术语部件属性设计的大致方案。术语部件描述是一种表层的、术语内部构成的语言知识描述。 展开更多
关键词 术语部件 术语 自动发现 信息科学 技术领域 属性设计
下载PDF
基于互信息的中文术语抽取系统 被引量:36
16
作者 张锋 许云 +1 位作者 侯艳 樊孝忠 《计算机应用研究》 CSCD 北大核心 2005年第5期72-73,77,共3页
介绍了一个中文术语自动抽取系统,该系统首先基于互信息计算字串的内部结合强度,从而得到术语候选集;接着从术语候选集中去除基本词,并利用普通词语搭配前缀、后缀信息进一步过滤;最后对术语候选进行词法分析,利用术语的词性构成规则进... 介绍了一个中文术语自动抽取系统,该系统首先基于互信息计算字串的内部结合强度,从而得到术语候选集;接着从术语候选集中去除基本词,并利用普通词语搭配前缀、后缀信息进一步过滤;最后对术语候选进行词法分析,利用术语的词性构成规则进行判别,得到最终的术语抽取结果。实验结果表明,术语抽取正确率为72. 19%,召回率为77. 98%,F 测量为74. 97%。 展开更多
关键词 术语抽取 互信息 语料
下载PDF
专利技术术语的抽取方法 被引量:24
17
作者 韩红旗 朱东华 汪雪锋 《情报学报》 CSSCI 北大核心 2011年第12期1280-1285,共6页
针对专利中缺少技术关键词的问题,在对主要的术语抽取方法研究的基础上,引入C-value方法,修改了术语构词规则和术语度(termhood)计算公式,用PC-value值测量一个词语的术语度,提出了专利技术术语抽取的流程模型,实现了从专利中... 针对专利中缺少技术关键词的问题,在对主要的术语抽取方法研究的基础上,引入C-value方法,修改了术语构词规则和术语度(termhood)计算公式,用PC-value值测量一个词语的术语度,提出了专利技术术语抽取的流程模型,实现了从专利中抽取技术术语。该模型分为四个阶段:①分词和词性标注;②运用语言学规则取得可能术语列表;③计算词语的术语度值,取得候选术语列表;④领域专家评估并确定术语。实验结果证明,提出的方法能很好地抽取中文专利技术术语,在长术语的抽取和抽取精度上比C-value方法更具有优势。 展开更多
关键词 术语抽取 技术术语 术语 专利分析
下载PDF
平行语料库中双语术语词典的自动抽取 被引量:30
18
作者 孙乐 金友兵 +1 位作者 杜林 孙玉芳 《中文信息学报》 CSCD 北大核心 2000年第6期33-39,共7页
本文提出了一种从英汉平行语料库中自动抽取术语词典的算法。首先采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐 ,并对英文语料和中文语料分别进行词性标注和切分与词性标注。统计已对齐和标注的双语语料中的名词和名词... 本文提出了一种从英汉平行语料库中自动抽取术语词典的算法。首先采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐 ,并对英文语料和中文语料分别进行词性标注和切分与词性标注。统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集。然后对每个英文候选术语计算与其相关的中文翻译之间的翻译概率。最后通过设定随词频变化的阈值来选取中文翻译。 展开更多
关键词 术语抽取 翻译概率 英汉平行语料库 术语词典
下载PDF
汉语领域术语非分类关系抽取方法研究 被引量:11
19
作者 朱惠 王昊 +1 位作者 苏新宁 邓三鸿 《情报学报》 CSSCI CSCD 北大核心 2018年第12期1193-1203,共11页
本体是知识组织的有效方式,也是构建语义网的重要环节,而概念非分类关系又是本体的重要组成部分。由于术语是概念的外在表达,因此本文在深入分析当前国内外术语非分类关系抽取研究的基础上,引入共现分析、结构分析、模板构建、逻辑推理... 本体是知识组织的有效方式,也是构建语义网的重要环节,而概念非分类关系又是本体的重要组成部分。由于术语是概念的外在表达,因此本文在深入分析当前国内外术语非分类关系抽取研究的基础上,引入共现分析、结构分析、模板构建、逻辑推理等方法和技术构建了面向汉语领域非结构化文本的术语非分类关系抽取模型,分别从内容和结构两个不同的角度抽取术语非分类关系。论文提出了模型的主要运行流程以及各功能模块的主要组成部件,对主要组成部件的具体实现进行了探讨,并对相关方法的局限性进行了论述。本文的研究为术语非分类关系抽取提供了新的思路,丰富了知识发现方法,同时也能为实现可行有效的知识组织提供参考。 展开更多
关键词 汉语领域术语 非分类关系 本体 领域概念模型 术语空间结构
下载PDF
一种结合术语部件库的术语提取方法 被引量:17
20
作者 何燕 穗志方 +1 位作者 段慧明 俞士汶 《计算机工程与应用》 CSCD 北大核心 2006年第33期4-7,共4页
术语是知识体系的核心成员,术语提取技术是大规模本体工程自动或半自动构建、扩充的关键技术之一。文章首先介绍了现有的一些术语提取技术,并在此基础上探讨了一种结合术语部件库的术语提取方法,并对这种方法的优点和未来的工作进行了... 术语是知识体系的核心成员,术语提取技术是大规模本体工程自动或半自动构建、扩充的关键技术之一。文章首先介绍了现有的一些术语提取技术,并在此基础上探讨了一种结合术语部件库的术语提取方法,并对这种方法的优点和未来的工作进行了分析。 展开更多
关键词 术语自动提取技术 术语部件 本体
下载PDF
上一页 1 2 18 下一页 到第
使用帮助 返回顶部