期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
自动术语抽取研究综述 被引量:23
1
作者 张雪 孙宏宇 +2 位作者 辛东兴 李翠平 陈红 《软件学报》 EI CSCD 北大核心 2020年第7期2062-2094,共33页
自动术语抽取是从文本集合中自动抽取领域相关的词或短语,是本体构建、文本摘要、知识图谱等领域的关键基础问题和研究热点.特别是,随着近年来对非结构化文本大数据研究的兴起,使得自动术语抽取技术进一步得到学者的广泛关注,取得了较... 自动术语抽取是从文本集合中自动抽取领域相关的词或短语,是本体构建、文本摘要、知识图谱等领域的关键基础问题和研究热点.特别是,随着近年来对非结构化文本大数据研究的兴起,使得自动术语抽取技术进一步得到学者的广泛关注,取得了较为丰富的研究成果.以术语排序算法为主线,对自动术语抽取方法的理论、技术、现状及优缺点进行研究综述:首先概述了自动术语抽取问题的形式化定义和解决框架.然后围绕"浅层语言分析"中基础语言信息和关系结构信息两个层面的特征对近年来国内外的研究成果进行分类,系统总结了现有自动术语抽取方法的研究进展和面临的挑战.最后对术语抽取使用的数据资源及实验评价进行分析,并对自动术语抽取未来可能的研究趋势进行了探讨与展望. 展开更多
关键词 自动术语抽取 术语识别 文本处理 机器学习
下载PDF
基于全局指针的中文自动术语抽取研究
2
作者 刘波 《电子技术与软件工程》 2022年第18期226-229,共4页
本文为了提高中文术语边界的识别,构建了基于全局指针和RoBERTa预训练语言模型的中文自动术语抽取模型。为了评估该模型效果,本文标注了一个概率论与数理统计的中文数学术语数据集。划分的训练集、验证集和测试集的术语不重复,以评估模... 本文为了提高中文术语边界的识别,构建了基于全局指针和RoBERTa预训练语言模型的中文自动术语抽取模型。为了评估该模型效果,本文标注了一个概率论与数理统计的中文数学术语数据集。划分的训练集、验证集和测试集的术语不重复,以评估模型的泛化能力。实验结果表明该模型显著提高了术语抽取的F1值,具有较强的泛化能力。 展开更多
关键词 自动术语抽取 全局指针 RoBERTa
下载PDF
生成式情报学术语自动抽取与多维关联知识挖掘研究
3
作者 胡昊天 邓三鸿 +4 位作者 孔玲 闫晓慧 杨文霞 王东波 沈思 《情报学报》 CSSCI CSCD 北大核心 2024年第5期588-600,共13页
情报学术语承载了情报学科基础知识与核心概念。从概念维度梳理与分析情报学术语对推动学科发展、助力下游知识挖掘任务具有重要意义。面对数量快速增长的科技文献,自动术语抽取替代了人工筛选,但现有方法严重依赖大规模标注数据集,难... 情报学术语承载了情报学科基础知识与核心概念。从概念维度梳理与分析情报学术语对推动学科发展、助力下游知识挖掘任务具有重要意义。面对数量快速增长的科技文献,自动术语抽取替代了人工筛选,但现有方法严重依赖大规模标注数据集,难以迁移至低资源场景。本文设计了一种生成式情报学术语抽取方法(generative term extraction for information science,GTX-IS),将传统基于序列标注的抽取式任务转化为序列到序列的生成式任务。结合小样本学习策略与有监督微调,提升面向特定任务的文本生成能力,能够在低资源有标签数据集场景下较为精准地抽取情报学术语。对于抽取结果,本文进一步开展了情报学领域术语发现及多维知识挖掘。综合运用全文科学计量与信息计量方法,从术语自身、术语间关联、时间信息等维度,对术语的出现频次、生命周期、共现信息等进行统计分析与知识挖掘。采用社会网络分析方法,结合时间维度特征,从术语角度出发,完善期刊的动态简介,探究情报学研究热点、演变历程和未来发展趋势。本文方法在术语抽取实验中的表现超越了全部13种主流生成式和抽取式模型,展现出较强的小样本学习能力,为领域信息抽取提供了新的思路。 展开更多
关键词 情报学术语 术语自动抽取 文本生成 科学计量 热点分析
下载PDF
基于有效词频的改进C-value自动术语抽取方法 被引量:11
4
作者 熊李艳 谭龙 钟茂生 《现代图书情报技术》 CSSCI 北大核心 2013年第9期54-59,共6页
现有的中文术语自动抽取方法主要针对术语的高频特征与单元性指标,而低频术语和术语的术语性指标缺乏有效的处理方法。针对上述问题,将背景语料库引入C-value方法,提出词语领域分布度与有效词频的概念,通过计算候选术语的EC-value值来... 现有的中文术语自动抽取方法主要针对术语的高频特征与单元性指标,而低频术语和术语的术语性指标缺乏有效的处理方法。针对上述问题,将背景语料库引入C-value方法,提出词语领域分布度与有效词频的概念,通过计算候选术语的EC-value值来自动抽取术语,并结合术语簇识别与挖掘,改善低频术语抽取性能。通过计算机领域术语抽取实验,表明本文提出的改进方法(EC-value方法)能更有效地衡量术语的术语性,改善低频术语抽取性能。 展开更多
关键词 自动术语抽取 EC—value 有效词频 术语
原文传递
基于质子串分解的中文术语自动抽取 被引量:21
5
作者 何婷婷 张勇 《计算机工程》 EI CAS CSCD 北大核心 2006年第23期188-190,共3页
针对中文术语构成特点,提出了一种基于质子串分解的术语自动抽取方法,将词分为2类:结构简单的质词和有复杂结构的合词;使用参数F-MI抽取结构简单的质词;并在其基础上,进一步使用质子串分解方法抽取具有复杂结构的合词。实验结果显示,该... 针对中文术语构成特点,提出了一种基于质子串分解的术语自动抽取方法,将词分为2类:结构简单的质词和有复杂结构的合词;使用参数F-MI抽取结构简单的质词;并在其基础上,进一步使用质子串分解方法抽取具有复杂结构的合词。实验结果显示,该算法有效地提高了中文自动术语抽取的精确度。目前该算法已在国家网络媒体监测项目中得到了应用,并显示了良好的效果。 展开更多
关键词 质子串分解 术语自动抽取 C—value 互信息
下载PDF
基于关联规则的术语自动抽取研究 被引量:1
6
作者 王昊贤 李广建 《图书与情报》 CSSCI 北大核心 2014年第5期20-25,共6页
文章在文献调研的基础上,通过理论与实验结合的方法讨论了基于关联规则的术语抽取方法的合理性和可用性。从理论上看,关联规则的基本原理决定了它在充分解决"序"的条件下,可以解决术语的识别和抽取问题;从实践上看,关联规则... 文章在文献调研的基础上,通过理论与实验结合的方法讨论了基于关联规则的术语抽取方法的合理性和可用性。从理论上看,关联规则的基本原理决定了它在充分解决"序"的条件下,可以解决术语的识别和抽取问题;从实践上看,关联规则的方法的确可以正确抽取出术语,而且,通过与现有算法的比较,可以发现,关联规则在算法实现难度和算法占用资源方面具有较明显的优势。 展开更多
关键词 大数据 术语自动抽取 关联规则
下载PDF
中文领域术语自动抽取方法进展研究 被引量:6
7
作者 闫琪琪 张海军 《电脑知识与技术》 2014年第10期6716-6718,共3页
论文梳理总结了目前术语自动抽取的研究现状,分析讨论了术语自动抽取的研究方法,通过对术语抽取方法剖析和比较,提出了目前研究中存在的问题和发展趋势,这对后续的中文领域术语自动抽取的研究具有一定的指导意义。
关键词 术语自动抽取 中文信息处理 研究现状
下载PDF
一种混合策略的领域术语自动抽取方法 被引量:1
8
作者 闫琪琪 张海军 《电子制作》 2015年第8Z期50-51,共2页
本文提出了一种规则与统计相结合的方法,针对计算机领域术语综合其领域术语特征和统计特征。算法在语料词性标注基础上,在原有词串扩展算法上糅合领域术语部件和领域术语特征获取候选术语。综合统计特征G-MI实现候选术语过滤。实验证明... 本文提出了一种规则与统计相结合的方法,针对计算机领域术语综合其领域术语特征和统计特征。算法在语料词性标注基础上,在原有词串扩展算法上糅合领域术语部件和领域术语特征获取候选术语。综合统计特征G-MI实现候选术语过滤。实验证明,算法能有效提高术语抽取的正确率和抽取效率。 展开更多
关键词 术语部件 术语自动抽取 本体
下载PDF
基于语料库的军事术语抽取方法初探 被引量:8
9
作者 许汉成 《外语研究》 CSSCI 北大核心 2017年第5期43-46,60,共5页
互联网大规模文本数据的出现,对于语言学研究既是机遇,更是挑战。计算语言学提出了大量基于语料库和统计的文本数据处理方法,具有重要应用价值,而语言学家对其了解不多。我们认为,这类系统从人文和科学主义两个方向着手,更有利于研发应... 互联网大规模文本数据的出现,对于语言学研究既是机遇,更是挑战。计算语言学提出了大量基于语料库和统计的文本数据处理方法,具有重要应用价值,而语言学家对其了解不多。我们认为,这类系统从人文和科学主义两个方向着手,更有利于研发应用价值高的产品。俄语等语种的资源匮乏,基础薄弱,其处理需要软件工程和语言学两种知识体系,只有学者自己走跨学科的道路,或者构建团队,才能有效地解决问题。 展开更多
关键词 语料库 术语 军事术语 自动术语抽取 自动术语识别
下载PDF
基于网络资源与用户行为信息的领域术语提取 被引量:8
10
作者 闫兴龙 刘奕群 +3 位作者 方奇 张敏 马少平 茹立云 《软件学报》 EI CSCD 北大核心 2013年第9期2089-2100,共12页
领域术语是反映领域特征的词语.领域术语自动抽取是自然语言处理中的一项重要任务,可以应用在领域本体抽取、专业搜索、文本分类、类语言建模等诸多研究领域,利用互联网上大规模的特定领域语料来构建领域词典成为一项既有挑战性又有实... 领域术语是反映领域特征的词语.领域术语自动抽取是自然语言处理中的一项重要任务,可以应用在领域本体抽取、专业搜索、文本分类、类语言建模等诸多研究领域,利用互联网上大规模的特定领域语料来构建领域词典成为一项既有挑战性又有实际价值的工作.当前,领域术语提取工作所利用的网络语料主要是网页对应的正文,但是由于网页正文信息抽取所面临的难题会影响领域术语抽取的效果,那么利用网页的锚文本和查询文本替代网页正文进行领域术语抽取,则可以避免网页正文信息抽取所面临的难题.针对锚文本和查询文本所存在的文本长度过短、语义信息不足等缺点,提出一种适用于各种类型网络数据及网络用户行为数据的领域数据提取方法,并使用该方法基于提取到的网页正文数据、网页锚文本数据、用户查询信息数据、用户浏览信息数据等开展了领域术语提取工作,重点考察不同类型网络资源和用户行为信息对领域术语提取工作的效果差异.在海量规模真实网络数据上的实验结果表明,基于用户查询信息和用户浏览过的锚文本信息比基于网页正文提取技术得到的正文取得了更好的领域术语提取效果. 展开更多
关键词 领域术语自动抽取 新词发现 WEB数据挖掘 用户行为分析
下载PDF
信息领域汉英术语的特征及其在语料中的分布规律 被引量:12
11
作者 邢红兵 《术语标准化与信息技术》 2000年第3期17-21,共5页
在对 725万字的信息领域专业文献中带英文注释的术语(汉英术语)进行了人工标记,然后利用程序提取汉英术语及其前界环境(前至少 4个汉字)的工作基础上 ,本文对汉英术语的自身特征和前界环境进行了分析,目的是为术语的自动抽取提供... 在对 725万字的信息领域专业文献中带英文注释的术语(汉英术语)进行了人工标记,然后利用程序提取汉英术语及其前界环境(前至少 4个汉字)的工作基础上 ,本文对汉英术语的自身特征和前界环境进行了分析,目的是为术语的自动抽取提供规则及相关统计数据。 展开更多
关键词 汉英术语 信息领域语料库 术语自动抽取
下载PDF
法律领域术语部件的描述
12
作者 那日松 刘青 +1 位作者 陈永朝 朱磊 《中国科技术语》 2011年第6期7-9,共3页
从实现自动抽取法律术语的目的出发,立足于法律术语具有术语部件的特点,建立了由579条部件组成的法律术语部件库,并针对各种属性的术语部件做出统计分析,完成了每个法律术语部件"生成能力"和"贡献度"两个属性的详... 从实现自动抽取法律术语的目的出发,立足于法律术语具有术语部件的特点,建立了由579条部件组成的法律术语部件库,并针对各种属性的术语部件做出统计分析,完成了每个法律术语部件"生成能力"和"贡献度"两个属性的详细描述。 展开更多
关键词 法律术语 术语自动抽取 术语部件 贡献度 生成能力
下载PDF
基于统计方法的教育术语特征分析研究
13
作者 闫琪琪 张海军 《计算机光盘软件与应用》 2014年第24期109-110,共2页
领域术语特征研究是领域术语自动抽取的基础。研究抽取词典词条和领域高频术语集构建教育术语库,使用中科院分词软件和统计方法对教育术语的特征进行分析。分析结果表明教育术语字长为2-11,词长为1-6词,单词术语占教育术语库28%。对比... 领域术语特征研究是领域术语自动抽取的基础。研究抽取词典词条和领域高频术语集构建教育术语库,使用中科院分词软件和统计方法对教育术语的特征进行分析。分析结果表明教育术语字长为2-11,词长为1-6词,单词术语占教育术语库28%。对比教育、科技和法律的术语特征发现其具有显著区别,对领域术语自动抽取及信息处理相关研究具有重要理论意义。 展开更多
关键词 教育术语 术语自动抽取 教育术语特征
下载PDF
融入形态特征的英语多词术语自动抽取研究 被引量:1
14
作者 邓耀臣 王健刚 《外语电化教学》 CSSCI 北大核心 2013年第2期35-40,共6页
本文从术语研究的语言学视角,提出将形态特征同现有术语抽取方法相融合的多词术语自动抽取策略,并通过抽取实验对该策略进行了评估。结果表明,形态特征和基于句法规则方法相融合能够显著提高术语的自动抽取效率。研究同时发现,形态特征... 本文从术语研究的语言学视角,提出将形态特征同现有术语抽取方法相融合的多词术语自动抽取策略,并通过抽取实验对该策略进行了评估。结果表明,形态特征和基于句法规则方法相融合能够显著提高术语的自动抽取效率。研究同时发现,形态特征值能够有效地区分术语和非术语。本研究不仅揭示了语言学知识在术语自动抽取中的作用,同时为以语言学为支撑的自然语言处理研究范式提供了有力支持。 展开更多
关键词 术语自动抽取 形态特征 多词单位 融入策略
原文传递
面向科技领域的术语自动抽取模型 被引量:2
15
作者 陈士超 郁滨 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2013年第1期230-235,共6页
分析了科技领域术语的特点,综合考虑语言学与统计学特征,提出了一种科技领域术语自动抽取模型,包括预处理、串扩展和术语筛选3个部分.通过实验研究了阈值选取同评价指标之间的关系,验证了本文模型的有效性.对比实验结果表明,在保证较高... 分析了科技领域术语的特点,综合考虑语言学与统计学特征,提出了一种科技领域术语自动抽取模型,包括预处理、串扩展和术语筛选3个部分.通过实验研究了阈值选取同评价指标之间的关系,验证了本文模型的有效性.对比实验结果表明,在保证较高准确率和召回率的基础上,抽取速度较通用方法提高2倍以上. 展开更多
关键词 科技领域 术语自动抽取 串扩展 术语筛选
原文传递
中文专利辅助阅读
16
作者 迟海 《科技风》 2012年第21期198-198,共1页
术语是通过语言或文字来表达所限定专业概念的约定性语言符号,其集中体现和负载了一个学科领域的核心知识。中文专利辅助阅读是基于术语自动抽取(AutomaticTermExtraction:ATE)的一项应用型项目。也是自然语言处理的一项重要课题,在机... 术语是通过语言或文字来表达所限定专业概念的约定性语言符号,其集中体现和负载了一个学科领域的核心知识。中文专利辅助阅读是基于术语自动抽取(AutomaticTermExtraction:ATE)的一项应用型项目。也是自然语言处理的一项重要课题,在机器翻译、信息检索、文本分类和文本摘要等领域有着广泛的应用。本文研究用基于CRF工具包自动抽取术语问题,通过对抽取出的术语文档进行处理,获得一个标注好的术语文档,及其实现过程中涉及到基于中文分词处理的一系列算法以及数据结构等问题进行剖析,有效提高了中文专利阅读的效率及准确性。 展开更多
关键词 术语自动抽取 哈希索引 倒排查找 术语标注
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部