期刊文献+
共找到49篇文章
< 1 2 3 >
每页显示 20 50 100
A new method for extracting domain terminology
1
作者 裴炳镇 陈笑蓉 +1 位作者 胡熠 陆汝占 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2009年第2期289-296,共8页
This article proposes a new general,highly efficient algorithm for extracting domain terminologies.This domain-independent algorithm with multi-layers of filters is a hybrid of statistic-oriented and rule-oriented met... This article proposes a new general,highly efficient algorithm for extracting domain terminologies.This domain-independent algorithm with multi-layers of filters is a hybrid of statistic-oriented and rule-oriented methods.Utilizing the features of domain terminologies and the characteristics that are unique to Chinese,this algorithm extracts domain terminologies by generating multi-word unit(MWU)candidates at first and then filtering the candidates through multi-strategies.Our test results show that this algorithm is feasible and effective. 展开更多
关键词 提取方法 提取算法 术语 过滤器 候选人 秘书长 混合式 多层次
下载PDF
基于SDL Multiterm的航空科技术语管理
2
作者 华道阳 胡妮 《中国科技术语》 2024年第2期43-48,共6页
航空科技术语具有高度的专业性、复杂性和规范性,而使用优秀的术语管理工具可确保航空科技术语得到有效管理,提高翻译的准确性和一致性。相比传统方法,目前基于翻译技术的现代术语管理方法更具效率且更为灵活。其中SDL Multiterm作为一... 航空科技术语具有高度的专业性、复杂性和规范性,而使用优秀的术语管理工具可确保航空科技术语得到有效管理,提高翻译的准确性和一致性。相比传统方法,目前基于翻译技术的现代术语管理方法更具效率且更为灵活。其中SDL Multiterm作为一款优秀的现代术语管理工具,在提升术语管理效率方面具有较为显著的效果。文章基于SDL Multiterm工具并结合实际操作案例探讨航空科技术语的管理,以期助力航空科技翻译工作,提高航空科技翻译的质量。 展开更多
关键词 SDL Multiterm 航空科技术语 术语提取 术语翻译 术语管理
下载PDF
基于术语词典的中医医案实体抽取研究
3
作者 张伦伦 任高 +1 位作者 邹北骥 刘青萍 《湖南中医药大学学报》 CAS 2024年第6期1110-1116,共7页
目的针对中医医案开展症状、病因病机、治法、用药、处方、取穴6类实体的抽取研究,为中医医案知识图谱构建和中医智能辅助诊疗提供基础。方法根据中医医案文本的特点,提出一个可以动态更新的术语词典方法用于分词,并在中医脑系疾病医案... 目的针对中医医案开展症状、病因病机、治法、用药、处方、取穴6类实体的抽取研究,为中医医案知识图谱构建和中医智能辅助诊疗提供基础。方法根据中医医案文本的特点,提出一个可以动态更新的术语词典方法用于分词,并在中医脑系疾病医案和ChineseBLUE/cEHRNER、ChineseBLUE/cMedQANER、CBLUE/CMeEE 3个公开数据集上验证该方法的有效性。结果使用术语词典的模型在准确率、精确率、召回率和F1值上均高于未使用术语词典的模型,在测试集和验证集上,F1值分别为92.07%和93.04%。结论融合动态更新的术语词典分词方法的模型,能够增强中医领域特定术语和新实体的识别能力,提高中医医案关键信息识别的准确率,推进中医药知识的传承与发展。 展开更多
关键词 中医医案 脑系疾病 术语词典 实体抽取 IDCNN-CRF模型
下载PDF
《黄帝内经·素问》汉法双语平行术语库的构建路径与方法
4
作者 田知灵 许明 《中国科技术语》 2024年第3期31-37,共7页
国家对于术语标准化的推动以及文化传播的需求促进了中医术语的翻译与研究,中医术语库的建设也因此走向快车道。但是基于古汉语的汉英、汉法等多语言术语库的建设尚不足,需要在不断摸索中逐渐完善。文章以《黄帝内经·素问》汉法双... 国家对于术语标准化的推动以及文化传播的需求促进了中医术语的翻译与研究,中医术语库的建设也因此走向快车道。但是基于古汉语的汉英、汉法等多语言术语库的建设尚不足,需要在不断摸索中逐渐完善。文章以《黄帝内经·素问》汉法双语语料为研究基础,重点探索借助术语自动提取工具构建双语平行术语库的路径与方法。依托memoQ及TBX术语管理系统设计了两种术语提取方案,探究了提取古汉语—法语双语平行术语过程中遇到的问题,并深入分析了由此构建的汉法平行术语库的术语特征和翻译方法,以期为双语术语库的建设提供新的借鉴与思路。 展开更多
关键词 《黄帝内经·素问》 双语平行术语库 术语自动提取
下载PDF
基于语料库的对外汉语教学领域术语提取
5
作者 卢一鑫 《中国科技术语》 2024年第1期11-18,共8页
文章介绍了自动提取对外汉语教学领域术语的方法。以对外汉语教学领域文本为目标文本,遵循主题取向、语料科学性、样本代表性、规模有限性等原则,建立专用语料库,并对其进行分词标注等加工;将统计学和语言学规则相结合,引用C-value方法... 文章介绍了自动提取对外汉语教学领域术语的方法。以对外汉语教学领域文本为目标文本,遵循主题取向、语料科学性、样本代表性、规模有限性等原则,建立专用语料库,并对其进行分词标注等加工;将统计学和语言学规则相结合,引用C-value方法计算术语度值,探索该领域内不同长度术语的发现、辨识及提取的“混合方法”(hybrid solution),最终建立对外汉语教学术语集,其中包含单词型术语238个,两词术语375个,三词术语121个和50个由4~6个单词组成的长术语。 展开更多
关键词 专用语料库 术语提取 对外汉语教学 对外汉语教学术语集 C-value算法
下载PDF
术语自动抽取方法研究综述 被引量:19
6
作者 袁劲松 张小明 李舟军 《计算机科学》 CSCD 北大核心 2015年第8期7-12,共6页
术语抽取是文本处理领域的一项基础性研究工作,好的术语自动抽取方法能够提高本体构建的质量和语义检索的精度。首先,对术语的定义、特性以及术语抽取效果的评价方法进行了概述。然后,在分析和总结近20年术语自动抽取相关文献的基础上,... 术语抽取是文本处理领域的一项基础性研究工作,好的术语自动抽取方法能够提高本体构建的质量和语义检索的精度。首先,对术语的定义、特性以及术语抽取效果的评价方法进行了概述。然后,在分析和总结近20年术语自动抽取相关文献的基础上,对术语自动抽取的各种方法进行了详细的综述。介绍了这些方法的研究进展,分析了其优缺点,并详细描述了部分经典算法。最后,对术语自动抽取未来研究的趋势进行了展望。 展开更多
关键词 术语抽取 文本处理 评价方法 自动抽取方法
下载PDF
领域本体术语的抽取方法研究 被引量:8
7
作者 张雷瀚 吕学强 +1 位作者 李卓 徐丽萍 《情报学报》 CSSCI 北大核心 2014年第2期167-174,共8页
领域术语是本体构建的基本要素,自动获取高质量的领域术语是构建领域本体的基础。本文提出一种多策略融合的领域术语抽取方法。分析领域术语的语法结构及统计特征,构造术语抽取的逆向词性规则和领域专用停用词表;利用PATTree术语抽... 领域术语是本体构建的基本要素,自动获取高质量的领域术语是构建领域本体的基础。本文提出一种多策略融合的领域术语抽取方法。分析领域术语的语法结构及统计特征,构造术语抽取的逆向词性规则和领域专用停用词表;利用PATTree术语抽取模型和C-value方法获取候选术语;借鉴TF—IDF及参照语料对比思想,从单个文档和领域文档集两个层面计算术语领域度,并依据术语领域度的大小筛选得到领域术语。在经济类语料上的实验结果显示:领域术语的top-100、top-500和top-1500准确率分别达到了94.00%、85.20%和78.47%,与baseline相比,分别提高5%、4.8%和6.2%。 展开更多
关键词 本体构建 术语抽取 逆向词性规则 参照语料 术语领域度
下载PDF
基于词频分布变化统计的术语抽取方法 被引量:27
8
作者 周浪 张亮 +1 位作者 冯冲 黄河燕 《计算机科学》 CSCD 北大核心 2009年第5期177-180,共4页
提出了一种规则与统计相结合的术语抽取方法,用于抽取包含多个词语的词组型术语。目前,绝大多数的统计方法都侧重于衡量术语的结构完整性,但这些方法并不能体现术语与专业相关的领域特征。通过对术语在各文档中的分布情况进行观察,提出... 提出了一种规则与统计相结合的术语抽取方法,用于抽取包含多个词语的词组型术语。目前,绝大多数的统计方法都侧重于衡量术语的结构完整性,但这些方法并不能体现术语与专业相关的领域特征。通过对术语在各文档中的分布情况进行观察,提出了一种利用术语在语料中词频分布变化程度的统计信息来检验术语的领域相关性的方法,同时结合机器学习方法获取的语言知识,从计算机领域的语料中抽取领域特征明显的词组型术语。实验证明,该方法对低频术语和高频普通词串有较强的分辨能力。 展开更多
关键词 术语抽取 机器学习 分布方差 知识获取 termhood unithood
下载PDF
基于CRFs的专利文献领域术语抽取方法 被引量:11
9
作者 王健 殷旭 +1 位作者 吕学强 徐丽萍 《计算机工程与设计》 北大核心 2019年第1期279-284,共6页
通过对新能源汽车领域中文专利文献中术语特点的分析,提出利用条件随机场模型,分别基于三词位、四词位和六词位的字序列标注进行术语抽取的方法。以字为切分粒度,避免在术语抽取过程中因分词原因导致术语识别错误问题,并探讨不同词位标... 通过对新能源汽车领域中文专利文献中术语特点的分析,提出利用条件随机场模型,分别基于三词位、四词位和六词位的字序列标注进行术语抽取的方法。以字为切分粒度,避免在术语抽取过程中因分词原因导致术语识别错误问题,并探讨不同词位标注集对术语抽取性能的影响。实验结果表明,基于六词位字标注的条件随机场模型术语抽取的性能最好,准确率、召回率和F值优于对比方法中基于词、词性、词长等信息作为特征的抽取方法,验证了所提方法的有效性。 展开更多
关键词 中文专利术语 术语抽取 条件随机场 序列标注 新能源汽车领域
下载PDF
深度学习技术在科技文献数据分析中的应用研究 被引量:4
10
作者 曾文 李辉 +2 位作者 徐红姣 李智杰 袁芳 《情报理论与实践》 CSSCI 北大核心 2018年第5期110-113,共4页
[目的/意义]为了解决从海量科技文献数据中进行有效数据分析的问题,学习高级的抽象特征,需要引入深度学习技术,科技术语可以表征科技概念,表达科技数据(非数值的科技数据)的核心内容,是科技数据情报分析的重要内容之一。[方法/过程]文... [目的/意义]为了解决从海量科技文献数据中进行有效数据分析的问题,学习高级的抽象特征,需要引入深度学习技术,科技术语可以表征科技概念,表达科技数据(非数值的科技数据)的核心内容,是科技数据情报分析的重要内容之一。[方法/过程]文章重点介绍基于深度学习技术的科技文献向量表示方法,探索深度学习技术在科技术语抽取中的可用性问题,并在真实有效的科技数据集上做出实验性的分析和结论。[结果/结论]实验结果表明:深度学习技术在科技文献的数据表示和科技术语抽取方面具有一定的可应用性。[局限]本文的实验数据有限,在数据量具备的情况下,效果会更理想。同时,本文对深度学习技术在科技文献数据分析工作中的应用和存在的主要问题进行了分析和阐述。 展开更多
关键词 深度学习 科技文献 术语抽取 向量空间模型 应用研究
下载PDF
基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究 被引量:49
11
作者 吴俊 程垚 +3 位作者 郝瀚 艾力亚尔·艾则孜 刘菲雪 苏亦坡 《情报学报》 CSSCI CSCD 北大核心 2020年第4期409-418,共10页
专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练... 专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练字嵌入向量,融合BiLSTM和CRF的中文专业术语抽取模型。以自建的1278条深度学习语料数据为实验对象,该模型对术语提取的F1值为92.96%,相对于传统的浅层机器学习模型(如左右熵与互信息算法、word2vec相似词算法等)和BiLSTM-CRF深度神经网络模型的性能有较为显著的提升。本文也给出了模型应用的具体流程,能够为中文专业术语库的构建提供实践指南。 展开更多
关键词 BERT BiLSTM CRF 专业术语抽取
下载PDF
一种从术语定义句中自动抽取知识单元的方法 被引量:6
12
作者 宋培彦 路青 刘宁静 《情报杂志》 CSSCI 北大核心 2014年第4期139-143,共5页
知识单元是对专业领域知识的细粒度表示,实现对知识的有序化、结构化描述。以术语定义句为语料,首先进行依存句法分析和语义角色的自动标注,获得知识单元的语义线索,然后制定抽取规则并设定权值,自动抽取出知识单元。实验结果表明,利用... 知识单元是对专业领域知识的细粒度表示,实现对知识的有序化、结构化描述。以术语定义句为语料,首先进行依存句法分析和语义角色的自动标注,获得知识单元的语义线索,然后制定抽取规则并设定权值,自动抽取出知识单元。实验结果表明,利用该方法进行知识单元的抽取F值为68.69%,效果良好,具有较好的领域适应性。该方法对于知识组织、术语库建设、知识挖掘等提供了有益的参考。 展开更多
关键词 术语 知识单元 知识组织 知识库 知识抽取
下载PDF
基于SVR模型的中文领域术语自动抽取研究——面向图书情报领域 被引量:6
13
作者 蒋婷 孙建军 《情报理论与实践》 CSSCI 北大核心 2016年第1期24-31,15,共9页
[目的/意义]术语是本体的重要组成部分,术语自动抽取是本体自动构建的基础,文章采用回归的方法对未登录词进行概率(某个数值(组合)对应的候选词集合中术语的概率)预测,获得该词可能为术语的概率。[方法/过程]文章结合语言学和统计方法,... [目的/意义]术语是本体的重要组成部分,术语自动抽取是本体自动构建的基础,文章采用回归的方法对未登录词进行概率(某个数值(组合)对应的候选词集合中术语的概率)预测,获得该词可能为术语的概率。[方法/过程]文章结合语言学和统计方法,通过构建术语库提取术语抽取模板来抽取候选术语,此外,通过引入回归的方法,将术语抽取问题转化为对词语成为术语的概率的预测问题。[结果/结论]提出的方法最后通过实验验证了其有效性。 展开更多
关键词 支持向量回归机 本体构建 本体学习 术语抽取
下载PDF
基于条件随机场的中医术语抽取方法及其应用探析 被引量:7
14
作者 孟洪宇 孟庆刚 《中华中医药学刊》 CAS 2014年第10期2334-2337,共4页
中医文献有种类繁多,数量庞大,记录随意,术语表达方式独特等的特点,为知识的获取带来困难。信息抽取技术可以利用计算机对文本信息进行针对性抽取,以结构化的形式将结果储存到数据库中,这种技术可以帮助医学研究者从海量信息中高效获取... 中医文献有种类繁多,数量庞大,记录随意,术语表达方式独特等的特点,为知识的获取带来困难。信息抽取技术可以利用计算机对文本信息进行针对性抽取,以结构化的形式将结果储存到数据库中,这种技术可以帮助医学研究者从海量信息中高效获取所需知识。命名实体识别是信息抽取准确与否的关键,对目前常用的几种识别方法进行分析,认为基于统计的方法更适用于中医文献的研究,并选定条件随机场算法,结合中医术语的特点,对该方法及步骤进行了详细阐述。同时,举例介绍了信息抽取技术在中医结构化电子病历及中医专业领域搜索引擎建立中的辅助作用,为其在中医领域的应用提供更广阔的参考思路。 展开更多
关键词 中医术语 信息抽取 条件随机场
下载PDF
中文专利文献术语抽取 被引量:10
15
作者 徐川 施水才 +1 位作者 房祥 吕学强 《计算机工程与设计》 CSCD 北大核心 2013年第6期2175-2179,共5页
为了有效解决专利文献中术语抽取问题,提出采用字符串之间的结合强度融合词性过滤法抽取术语的方法。根据专利文献中术语出现的特点,提出了字符串之间的边界结合度方法和字符串之间的串边结合度方法,度量了字符串间的结合强度。在此基... 为了有效解决专利文献中术语抽取问题,提出采用字符串之间的结合强度融合词性过滤法抽取术语的方法。根据专利文献中术语出现的特点,提出了字符串之间的边界结合度方法和字符串之间的串边结合度方法,度量了字符串间的结合强度。在此基础之上,根据术语内部结构中词性的组成特点,提出了术语双字词性过滤的方法,并与结合强度的计算方法进行融合。实验结果表明,该方法对中文专利术语抽取有很好的效果,平均正确率为80.24%,平均召回率为80.61%。 展开更多
关键词 术语 边界结合度 串边结合度 双字词性过滤法
下载PDF
采用术语定义模式和多特征的新术语及定义识别方法 被引量:12
16
作者 荀恩东 李晟 《计算机研究与发展》 EI CSCD 北大核心 2009年第1期62-69,共8页
新术语及其定义抽取是信息抽取的重要研究内容之一.研究结果表明,在科技文献中,一个新术语往往伴随其定义出现,通过考察,在真实文本中,术语定义存在显著的语言表述特征,从大规模真实语料库中,通过考察术语定义构成的语言学模式、定义中... 新术语及其定义抽取是信息抽取的重要研究内容之一.研究结果表明,在科技文献中,一个新术语往往伴随其定义出现,通过考察,在真实文本中,术语定义存在显著的语言表述特征,从大规模真实语料库中,通过考察术语定义构成的语言学模式、定义中词汇和术语周边的统计特征,提出了以术语定义的语言学模式(LPTD)作为待识别候选新术语集,同时考虑到有关新术语出现的上下文统计特征,用SVM分类器方法完成科技语料中新术语及其定义的识别.在大规模科技期刊上进行方法验证,开放性评测结果的精确率为90.5%、召回率达78.1%. 展开更多
关键词 信息抽取 术语定义模式 统计语言学模型 支持向量机 句子隶属度
下载PDF
基于多层术语度的一体化术语抽取研究 被引量:19
17
作者 章成志 《情报学报》 CSSCI 北大核心 2011年第3期275-285,共11页
以往的术语抽取研究大多将语言学方法和统计方法分别进行单独的处理,并且只考虑候选术语本身的术语度,而没有考虑候选术语所在句子的术语度对术语抽取性能的影响。本文将语言学方法与统计方法进行并行融合,综合考虑候选术语及其所在... 以往的术语抽取研究大多将语言学方法和统计方法分别进行单独的处理,并且只考虑候选术语本身的术语度,而没有考虑候选术语所在句子的术语度对术语抽取性能的影响。本文将语言学方法与统计方法进行并行融合,综合考虑候选术语及其所在语句的术语度,进行基于多层术语度的一体化术语抽取。该研究有两个特色:首先,采用条件随机场模型,能有效融合语言学方法和统计方法,实验结果表明了基于一体化策略的术语抽取方法的有效性;其次,通过语料库比较方法,提出基于多层术语度的术语抽取方法,该方法能抽取多字术语,实验结果表明了利用多层术语度进行术语抽取的有效性。 展开更多
关键词 术语抽取 多层术语度 一体化策略 条件随机场
下载PDF
基于多策略的领域本体术语抽取研究 被引量:16
18
作者 何琳 《情报学报》 CSSCI 北大核心 2012年第8期798-804,共7页
术语的抽取是领域本体构建的基础工作,决定了本体构建的质量。获取的术语除了要求有准确的短语识别率,还要求有较高的术语领域度。本文试图研究一种不依赖于背景语料的术语领域度筛选方法。本文的主要工作集中在两个方面:一是通过统... 术语的抽取是领域本体构建的基础工作,决定了本体构建的质量。获取的术语除了要求有准确的短语识别率,还要求有较高的术语领域度。本文试图研究一种不依赖于背景语料的术语领域度筛选方法。本文的主要工作集中在两个方面:一是通过统计和规则相结合的方法从领域语料中抽取候选术语(短语),二是提出了通过候选术语的分布度、活跃度以及主题度进行计算的多策略术语抽取方法,并通过实验进行了验证和分析。实验结果表明,在小规模航空航天领域语料库上进行验证性实验后发现,在不大量增加计算时间复杂度的情况下,能够有效提高领域术语抽取的质量,获得令人较满意的结果。 展开更多
关键词 术语抽取 多策略 术语分布度 术语活跃度 术语主题度
下载PDF
计算机辅助翻译技术的现状与发展趋势论析 被引量:18
19
作者 靳光洒 《沈阳工程学院学报(自然科学版)》 2010年第3期264-266,280,共4页
现代翻译中,翻译记忆、翻译服务器、审校工具等计算机辅助翻译技术能够提高译员的工作效率,促进翻译项目参与人员间协同工作.但是,计算机辅助翻译技术仍有较大的改进空间.作为人工翻译的辅助工具,计算机辅助翻译软件还需从翻译记忆的制... 现代翻译中,翻译记忆、翻译服务器、审校工具等计算机辅助翻译技术能够提高译员的工作效率,促进翻译项目参与人员间协同工作.但是,计算机辅助翻译技术仍有较大的改进空间.作为人工翻译的辅助工具,计算机辅助翻译软件还需从翻译记忆的制作与检索、术语提取、译文错误查找等方面,提高自动化、智能化水平,帮助译员完成机械、重复的工作. 展开更多
关键词 计算机辅助翻译 翻译记忆 术语提取 质量保证
下载PDF
基于语序位置特征的汉英术语对自动抽取研究 被引量:6
20
作者 张莉 刘昱显 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第4期707-713,共7页
双语的术语抽取和对齐在跨语言检索、构建双语词典和机器翻译等研究领域有着重要的作用.提出一种基于语序位置特征信息的汉英术语对自动对齐算法.该算法对双语术语抽取两步走策略中的术语对齐部分进行了改进,将基于短语的机器翻译中的... 双语的术语抽取和对齐在跨语言检索、构建双语词典和机器翻译等研究领域有着重要的作用.提出一种基于语序位置特征信息的汉英术语对自动对齐算法.该算法对双语术语抽取两步走策略中的术语对齐部分进行了改进,将基于短语的机器翻译中的语序位置特征融合进术语对齐算法中,通过对基准方法的对比,新方法显著提高了术语对齐的精确率,特别在术语翻译概率较低时提高更为明显,同时又避免了基于短语的机器翻译中计算效率低的缺陷. 展开更多
关键词 汉英术语抽取 汉英术语对齐 语序位置特征
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部