期刊文献+
共找到56篇文章
< 1 2 3 >
每页显示 20 50 100
一种基于预训练模型掩码Aspect术语的数据增强方法
1
作者 石晓瑞 《信息技术与信息化》 2024年第2期103-108,共6页
数据增强是解决低资源场景下数据稀缺问题的有效方案。然而,当应用于诸如方面术语提取(ATE)之类的词级别任务时,数据增强方法通常会遭受词标签不对齐的问题,从而导致效果不理想。对此提出了掩码方面语言建模(MALM)作为ATE的新型数据增... 数据增强是解决低资源场景下数据稀缺问题的有效方案。然而,当应用于诸如方面术语提取(ATE)之类的词级别任务时,数据增强方法通常会遭受词标签不对齐的问题,从而导致效果不理想。对此提出了掩码方面语言建模(MALM)作为ATE的新型数据增强框架。为了缓解标记、标签错位问题,将ATE标签显式注入到句子上下文中,由此经过微调的MALM能够显式地调整标签信息来预测掩码的方面标记。因此,MALM可帮助生成具有新方面的高质量增强数据,提供丰富的层面方面知识。此外,提出了一个两阶段的训练策略来整合这些合成数据。通过实验,证明了MALM在两个ATE数据集上的有效性,相比基线方法,所提出的MALM有显著的性能改进。 展开更多
关键词 数据增强 aspect术语提取 预训练模型 掩码方面语言建模 MALM方法
下载PDF
基于语料库的对外汉语教学领域术语提取
2
作者 卢一鑫 《中国科技术语》 2024年第1期11-18,共8页
文章介绍了自动提取对外汉语教学领域术语的方法。以对外汉语教学领域文本为目标文本,遵循主题取向、语料科学性、样本代表性、规模有限性等原则,建立专用语料库,并对其进行分词标注等加工;将统计学和语言学规则相结合,引用C-value方法... 文章介绍了自动提取对外汉语教学领域术语的方法。以对外汉语教学领域文本为目标文本,遵循主题取向、语料科学性、样本代表性、规模有限性等原则,建立专用语料库,并对其进行分词标注等加工;将统计学和语言学规则相结合,引用C-value方法计算术语度值,探索该领域内不同长度术语的发现、辨识及提取的“混合方法”(hybrid solution),最终建立对外汉语教学术语集,其中包含单词型术语238个,两词术语375个,三词术语121个和50个由4~6个单词组成的长术语。 展开更多
关键词 专用语料库 术语提取 对外汉语教学 对外汉语教学术语 C-value算法
下载PDF
基于多模态方面术语提取和方面级情感分类的统一框架 被引量:1
3
作者 周如 朱浩泽 +2 位作者 郭文雅 于胜龙 张莹 《计算机研究与发展》 EI CSCD 北大核心 2023年第12期2877-2889,共13页
通过方面术语提取和方面级情感分类任务提取句子中的方面-情感对,有助于Twitter,Facebook等社交媒体平台挖掘用户对不同方面的情感,对个性化推荐有重要的意义.在多模态领域,现有方法使用2个独立的模型分别完成2个子任务,方面术语提取提... 通过方面术语提取和方面级情感分类任务提取句子中的方面-情感对,有助于Twitter,Facebook等社交媒体平台挖掘用户对不同方面的情感,对个性化推荐有重要的意义.在多模态领域,现有方法使用2个独立的模型分别完成2个子任务,方面术语提取提取句子中包含的商品、重要人物等实体或实体的方面,方面级情感分类根据给定的方面术语预测用户的情感倾向.上述方法存在2个问题:(1)使用2个独立的模型丢失了2个任务之间在底层特征的延续性,无法建模句子潜在的语义关联;(2)方面级情感分类1次预测1个方面的情感,与方面术语提取同时提取多个方面的吞吐量不匹配,且2个模型串行执行使得提取方面-情感对的效率低.为解决这2个问题,提出基于多模态方面术语提取和方面级情感分类的统一框架UMAS.首先,建立共享特征模块,实现任务间潜在语义关联建模,并且共享表示层使得2个子任务只需关心各自上层的网络,降低了模型的复杂性;其次,模型利用序列标注同时输出句子中包含的多个方面及其对应的情感类别,提高了方面-情感对的提取效率.此外,在这2个子任务中同时引入词性:利用其中蕴含的语法信息提升方面术语提取的性能;通过词性获取观点词信息,提升方面级情感分类的性能.实验结果表明,该统一框架在Twitter2015,Restaurant2014这2个基准数据集上相比于多个基线模型具有优越的性能. 展开更多
关键词 方面术语提取(AE) 方面级情感分类(ALSC) 统一框架 共享特征表示 序列标注
下载PDF
基于SDL Multiterm的航空科技术语管理
4
作者 华道阳 胡妮 《中国科技术语》 2024年第2期43-48,共6页
航空科技术语具有高度的专业性、复杂性和规范性,而使用优秀的术语管理工具可确保航空科技术语得到有效管理,提高翻译的准确性和一致性。相比传统方法,目前基于翻译技术的现代术语管理方法更具效率且更为灵活。其中SDL Multiterm作为一... 航空科技术语具有高度的专业性、复杂性和规范性,而使用优秀的术语管理工具可确保航空科技术语得到有效管理,提高翻译的准确性和一致性。相比传统方法,目前基于翻译技术的现代术语管理方法更具效率且更为灵活。其中SDL Multiterm作为一款优秀的现代术语管理工具,在提升术语管理效率方面具有较为显著的效果。文章基于SDL Multiterm工具并结合实际操作案例探讨航空科技术语的管理,以期助力航空科技翻译工作,提高航空科技翻译的质量。 展开更多
关键词 SDL Multiterm 航空科技术语 术语提取 术语翻译 术语管理
下载PDF
《黄帝内经·素问》汉法双语平行术语库的构建路径与方法
5
作者 田知灵 许明 《中国科技术语》 2024年第3期31-37,共7页
国家对于术语标准化的推动以及文化传播的需求促进了中医术语的翻译与研究,中医术语库的建设也因此走向快车道。但是基于古汉语的汉英、汉法等多语言术语库的建设尚不足,需要在不断摸索中逐渐完善。文章以《黄帝内经·素问》汉法双... 国家对于术语标准化的推动以及文化传播的需求促进了中医术语的翻译与研究,中医术语库的建设也因此走向快车道。但是基于古汉语的汉英、汉法等多语言术语库的建设尚不足,需要在不断摸索中逐渐完善。文章以《黄帝内经·素问》汉法双语语料为研究基础,重点探索借助术语自动提取工具构建双语平行术语库的路径与方法。依托memoQ及TBX术语管理系统设计了两种术语提取方案,探究了提取古汉语—法语双语平行术语过程中遇到的问题,并深入分析了由此构建的汉法平行术语库的术语特征和翻译方法,以期为双语术语库的建设提供新的借鉴与思路。 展开更多
关键词 《黄帝内经·素问》 双语平行术语 术语自动提取
下载PDF
专业术语词汇表技术生成讨论——以医学领域论文(节选)为例
6
作者 王闫 《现代语言学》 2024年第8期530-535,共6页
专业术语提取技术可以为翻译工作者优化一定的工作流程。本文主要讨论两种专业术语词汇表生成技术,节选医学领域论文为文本,借助在线术语提取工具语帆术语宝和术语提取软件AntConc处理选取内容,根据这两项技术得到的成果进行对比分析。T... 专业术语提取技术可以为翻译工作者优化一定的工作流程。本文主要讨论两种专业术语词汇表生成技术,节选医学领域论文为文本,借助在线术语提取工具语帆术语宝和术语提取软件AntConc处理选取内容,根据这两项技术得到的成果进行对比分析。Terminology extraction technology enhances workflow efficiency for translators. This paper focuses on two techniques for generating specialized terminology glossaries using excerpts from medical papers. It utilizes the online terminology extraction tool LingoSail TermBox and the software AntConc for processing selected content, followed by a comparative analysis of their outcomes. 展开更多
关键词 术语 词汇表 术语提取 语帆术语
下载PDF
一种结合术语部件库的术语提取方法 被引量:17
7
作者 何燕 穗志方 +1 位作者 段慧明 俞士汶 《计算机工程与应用》 CSCD 北大核心 2006年第33期4-7,共4页
术语是知识体系的核心成员,术语提取技术是大规模本体工程自动或半自动构建、扩充的关键技术之一。文章首先介绍了现有的一些术语提取技术,并在此基础上探讨了一种结合术语部件库的术语提取方法,并对这种方法的优点和未来的工作进行了... 术语是知识体系的核心成员,术语提取技术是大规模本体工程自动或半自动构建、扩充的关键技术之一。文章首先介绍了现有的一些术语提取技术,并在此基础上探讨了一种结合术语部件库的术语提取方法,并对这种方法的优点和未来的工作进行了分析。 展开更多
关键词 术语自动提取技术 术语部件库 本体
下载PDF
中文病历文档术语提取和否定检出方法 被引量:9
8
作者 李昊旻 李莹 +1 位作者 段会龙 吕旭东 《中国生物医学工程学报》 CAS CSCD 北大核心 2008年第5期716-721,734,共7页
利用生物医学术语系统中的词汇和概念,为存有大量珍贵信息的非结构化临床文档建立有效的索引,以便进行信息挖掘和利用,国际上相关研究已经开展多年,而基于中文病历文档概念索引的研究尚属空白。本研究将现有的中文版的国际疾病分类(ICD... 利用生物医学术语系统中的词汇和概念,为存有大量珍贵信息的非结构化临床文档建立有效的索引,以便进行信息挖掘和利用,国际上相关研究已经开展多年,而基于中文病历文档概念索引的研究尚属空白。本研究将现有的中文版的国际疾病分类(ICD)集成到统一医学语言系统(UMLS)中,依据中文语言处理的特殊性,对中文电子病历文档进行统计分析,提出了一套中文病历文档术语提取和否定检出的方法,可用于建立中文病历文档的概念索引。术语提取阶段利用高灵敏的最大匹配法并结合通用分词技术来控制假阳性;而在概念否定意义检出部分,充分利用中文特点并基于现有中文处理技术提出了一种简化的子句模式匹配方法。选取了两组医疗文本数据集对算法进行了验证,术语提取算法的灵敏性分别为99.51%和100%,误检率分别为1.46%和1.66%。否定检出算法的阳性预测值均为100%,阴性预测值分别为100%和98.99%,除标点使用不规范等文书质量问题外,基本可以正确检出。 展开更多
关键词 医学语言处理 术语提取 否定检出
下载PDF
教育技术领域术语提取研究 被引量:7
9
作者 傅骞 魏顺平 +1 位作者 王斌 路秋丽 《现代教育技术》 CSSCI 2008年第5期60-65,共6页
近年来,在教育技术领域陆续开展了多项元研究工作,这些研究的一个共同特点就是人工建立一个分类体系,然后将研究样本纳入这些分类体系,这其实就是一个文本分类过程。目前,自然语言处理领域已有较为成熟的文本自动分类技术。但是已有的... 近年来,在教育技术领域陆续开展了多项元研究工作,这些研究的一个共同特点就是人工建立一个分类体系,然后将研究样本纳入这些分类体系,这其实就是一个文本分类过程。目前,自然语言处理领域已有较为成熟的文本自动分类技术。但是已有的研究中却没有采用该技术。这与当前缺乏教育技术领域术语词典也有关系。文章以远程教育领域为例,以《开放教育研究》杂志2002年至2006年五年的题录信息为样本,在总结教育技术领域部分术语构成规则的基础上,研制出一种规则和统计相结合的算法来提取术语。测试结果表明,本算法术语识别的准确率为66.7%,召回率为76.7%,与现有的一些术语提取算法结果相近,可以较好的帮助研究者完成术语提取工作,并为及时发现教育技术领域的新术语带来可能。 展开更多
关键词 术语提取 远程教育 自然语言处理 知识工程
下载PDF
基于术语提取的药品作用冲突自动检测模型 被引量:1
10
作者 张顺香 张世尧 王银 《安徽理工大学学报(自然科学版)》 CAS 2016年第5期46-53,共8页
药品作用冲突自动检测是快速发现多种药物之间不良反应关系的信息检索技术,其可有效减轻医师和患者巨大的认知负担。药品作用冲突识别的核心任务是以药品信息为基本语义单元,分析并建立药品之间的冲突知识规则,实现药品之间冲突作用的... 药品作用冲突自动检测是快速发现多种药物之间不良反应关系的信息检索技术,其可有效减轻医师和患者巨大的认知负担。药品作用冲突识别的核心任务是以药品信息为基本语义单元,分析并建立药品之间的冲突知识规则,实现药品之间冲突作用的深层次检测。提出的基于术语提取的药品作用冲突自动检测模型包括顺序递进的四个层次,即数据源的预处理、术语提取、药品冲突知识库的构建及药品作用冲突的自动检测。实验结果证明所提出的模型具有较高的准确度。 展开更多
关键词 药品作用冲突 术语提取 冲突知识库 自动检测
下载PDF
信息技术领域术语提取的初步研究 被引量:23
11
作者 王强军 李芸 张普 《术语标准化与信息技术》 2003年第1期32-33,37,共3页
本文介绍了对信息技术领域术语自动提取方法进行的一项实验,所采用的是“领域相减”的术语提取方法,即根据流通度理论,利用术语在不同领域中的不同流通度值进行术语提取,并对此项实验的结果作出了评价。
关键词 信息技术 术语提取 流通度 语言信息处理
下载PDF
术语定义提取研究 被引量:8
12
作者 张榕 宋柔 《术语标准化与信息技术》 2006年第1期29-32,共4页
本文的术语定义抽取,在分析术语定义的语言学特征,进行硬匹配的基础上,通过将术语定义用词与人民日报用词进行对比,给出了词语和句子的定义隶属度这一概念,并且与向量空间模型有效结合起来,提出了一种术语智能匹配算法。实验取得了较好... 本文的术语定义抽取,在分析术语定义的语言学特征,进行硬匹配的基础上,通过将术语定义用词与人民日报用词进行对比,给出了词语和句子的定义隶属度这一概念,并且与向量空间模型有效结合起来,提出了一种术语智能匹配算法。实验取得了较好的效果,有效地解决了术语定义的提取问题。 展开更多
关键词 术语 定义 提取 智能匹配
下载PDF
科技术语自动提取技术——现状与思考 被引量:6
13
作者 常宝宝 《中国科技术语》 2022年第1期3-13,共11页
文章简要介绍了自动术语提取任务的定义、主要方法和评价指标。针对传统的自动术语提取方法,以互信息、t值、tf-idf、C/NC-value为例介绍了单元度和术语度的概念;针对自动术语标注方法,主要介绍了基于序列标注的建模思想。从提取效果来... 文章简要介绍了自动术语提取任务的定义、主要方法和评价指标。针对传统的自动术语提取方法,以互信息、t值、tf-idf、C/NC-value为例介绍了单元度和术语度的概念;针对自动术语标注方法,主要介绍了基于序列标注的建模思想。从提取效果来看,现有自动术语提取技术距离期望仍有差距,文章也尝试给出了一些值得探索的方向。 展开更多
关键词 自动术语提取 自动术语标注 单元度 术语 机器学习
下载PDF
英语广告语篇中科技术语语义提取的实验研究 被引量:1
14
作者 徐伊宇 《华南理工大学学报(社会科学版)》 2008年第1期68-74,共7页
本文是以中国学生为研究对象,针对英语广告语篇中术语语义提取的认知方式进行了实验研究,旨在考察句层语境,词汇知识及认知需求等因素对科技产品术语语义提取的效应。实验结果表明,在一定语境中有助于理解术语语义的词汇与短语对广告语... 本文是以中国学生为研究对象,针对英语广告语篇中术语语义提取的认知方式进行了实验研究,旨在考察句层语境,词汇知识及认知需求等因素对科技产品术语语义提取的效应。实验结果表明,在一定语境中有助于理解术语语义的词汇与短语对广告语篇信息的理解可以产生积极的影响,而词汇知识水平和认知需求影响的主要是中性观点。这一结果说明,只有解释型的语言才有助于理解产品的信息并提高术语语义提取的程度和加强产品的购买意向。实验结果还显示,当语境中的语言意义模糊时,认知需求对态度形成产生一定的积极影响;但是,当语境中的语言意义有助于解释广告信息时,认知需求会抑制态度的形成。 展开更多
关键词 广告语篇 科技术语 语义提取 实验研究
下载PDF
电解加工知识本体中领域术语提取的研究与应用
15
作者 季峰 黄萍 Ali AbdullahiMoallim 《软件工程与应用》 2022年第6期1554-1560,共7页
为提高电解加工工艺知识本体中的概念提取的完整性,本文中构建了一种半自动化领域术语提取模型,该模型结合统计分析和数据挖掘的思想设计了N-Word算法,进行领域术语中词组的提取,3-Word构词性能最佳。为了提高领域术语的准确性,基于互信... 为提高电解加工工艺知识本体中的概念提取的完整性,本文中构建了一种半自动化领域术语提取模型,该模型结合统计分析和数据挖掘的思想设计了N-Word算法,进行领域术语中词组的提取,3-Word构词性能最佳。为了提高领域术语的准确性,基于互信息(MI)和绝对词频对领域术语过滤得到2137个术语,进一步对术语修正和同义词合并处理,最终得到标准化的领域概念1894个。此模型满足对电解加工领域术语的提取,提高术语的领域覆盖度,保证本体构建的准确性。 展开更多
关键词 领域术语 提取模型 N-Word算法 互信息 本体
下载PDF
基于注意力双层BiReGU模型的方面术语提取方法 被引量:2
16
作者 赵丽华 王春立 初钰凤 《计算机工程与应用》 CSCD 北大核心 2021年第22期160-165,共6页
方面术语提取是方面级情感分析中的一项重要任务,目的是从在线产品评论中提取关键的方面术语。针对方面术语提取问题,提出基于注意力机制的双层BiReGU模型。该模型在传统BiLSTM模型的基础上,引入双嵌入机制和ReGU(Residual Gated Unit)... 方面术语提取是方面级情感分析中的一项重要任务,目的是从在线产品评论中提取关键的方面术语。针对方面术语提取问题,提出基于注意力机制的双层BiReGU模型。该模型在传统BiLSTM模型的基础上,引入双嵌入机制和ReGU(Residual Gated Unit)作为辅助,以提高特征提取的能力。使用BiReGU学习文本特征表示,更好地捕捉词语间的长期依赖关系;在第一层BiReGU之后引入注意力机制,为文本中每个词语赋予不同的权重,得到融合特征后新的知识表示,再输入到第二层BiReGU中学习更加全局的文本特征表示,最后完成提取方面术语的任务。分别在SemEval 2014的Restaurant数据集和Laptop数据集做了相关的对比实验,实验结果证明了所提出方法的有效性。 展开更多
关键词 注意力机制 方面术语提取 BiReGU 方面级情感分析 深度学习
下载PDF
基于自注意力机制的科技术语自动提取技术研究 被引量:4
17
作者 赵颂歌 张浩 常宝宝 《中国科技术语》 2021年第2期20-26,共7页
科技术语提取是科技术语自动处理的重要环节,对后续的机器翻译、信息检索、QA问答等任务有重要意义。传统的人工科技术语提取方法耗费大量的人力成本。而一种自动提取科技术语方法是将术语提取转化为序列标注问题,通过监督学习方法训练... 科技术语提取是科技术语自动处理的重要环节,对后续的机器翻译、信息检索、QA问答等任务有重要意义。传统的人工科技术语提取方法耗费大量的人力成本。而一种自动提取科技术语方法是将术语提取转化为序列标注问题,通过监督学习方法训练出标注模型,但是面临缺乏大规模科技术语标注语料库的问题。文章引入远程监督的方法来产生大规模训练标注语料。另外又提出基于自注意力机制的Bi-LSTM的模型架构来提高科技术语提取结果。发现新模型在发现新的科技术语的能力上远远优于传统机器学习模型(CRF)。 展开更多
关键词 科技术语提取 远程监督 自注意力
下载PDF
Python和语帆术语宝的术语提取功能对比研究——基于2019年REN21报告的实际项目 被引量:1
18
作者 司超凡 肖飞 《英语广场(学术研究)》 2020年第25期37-41,共5页
目前,语料库是语言服务业的热门话题,也是语言学习者们,尤其是翻译工作者经常用来进行术语提取的途径之一。本文从实际项目出发,通过对比Python和语帆术语宝从大型文本中提取术语的表现来分析两者的优缺点,进而探讨在术语提取方面是否... 目前,语料库是语言服务业的热门话题,也是语言学习者们,尤其是翻译工作者经常用来进行术语提取的途径之一。本文从实际项目出发,通过对比Python和语帆术语宝从大型文本中提取术语的表现来分析两者的优缺点,进而探讨在术语提取方面是否有更优解。本研究的最终目的是将重复无意义的术语提取工作交给计算机去完成,以期节省人力,提高翻译工作效率。 展开更多
关键词 PYTHON 术语 术语提取
下载PDF
一种适用于复合术语的本体概念学习方法 被引量:10
19
作者 李江华 时鹏 胡长军 《计算机科学》 CSCD 北大核心 2013年第5期168-172,共5页
术语的提取显然在本体概念学习中起着重要作用,由于汉语文本中词与词之间没有明显的界限,使得领域术语特别是复合术语的提取尤为困难。针对传统提取方法缺乏语义支持、计算量大、准确率低等不足,提出了一种适用于复合术语提取的本体概... 术语的提取显然在本体概念学习中起着重要作用,由于汉语文本中词与词之间没有明显的界限,使得领域术语特别是复合术语的提取尤为困难。针对传统提取方法缺乏语义支持、计算量大、准确率低等不足,提出了一种适用于复合术语提取的本体概念学习方法。首先利用自然语言处理技术过滤掉与术语无关的成分,对语句进行自然切割,为领域术语提取提供完整的候选数据集,以保证候选领域复合术语不被误分。在此基础上,根据术语的领域统计和分布特征,利用术语频率和信息熵进行多策略的领域术语筛选,经同义术语识别与合并,获得领域概念集。经实验验证,提出的方法能够以较高的准确率从领域文本中提取出领域单词术语和复合术语。 展开更多
关键词 术语提取 术语筛选 复合术语 本体概念学习
下载PDF
基于隐马尔科夫模型的中文术语识别研究 被引量:37
20
作者 岑咏华 韩哲 季培培 《现代图书情报技术》 CSSCI 北大核心 2008年第12期54-58,共5页
基于对中文文本信息语法构成尤其是词性搭配的概率特征的分析,提出一种基于双层隐马尔科夫模型的中文泛术语识别和提取的思路和系统框架,并实现相关系统,基于训练语料对多个领域的文本信息进行术语提取测试。实验结果表明,所提出的基于... 基于对中文文本信息语法构成尤其是词性搭配的概率特征的分析,提出一种基于双层隐马尔科夫模型的中文泛术语识别和提取的思路和系统框架,并实现相关系统,基于训练语料对多个领域的文本信息进行术语提取测试。实验结果表明,所提出的基于隐马尔科夫模型的中文泛术语识别和提取思想具有较好的实践参考意义。 展开更多
关键词 中文术语识别和提取 隐马尔科夫 HMM
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部