期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于词频分布变化统计的术语抽取方法 被引量:27
1
作者 周浪 张亮 +1 位作者 冯冲 黄河燕 《计算机科学》 CSCD 北大核心 2009年第5期177-180,共4页
提出了一种规则与统计相结合的术语抽取方法,用于抽取包含多个词语的词组型术语。目前,绝大多数的统计方法都侧重于衡量术语的结构完整性,但这些方法并不能体现术语与专业相关的领域特征。通过对术语在各文档中的分布情况进行观察,提出... 提出了一种规则与统计相结合的术语抽取方法,用于抽取包含多个词语的词组型术语。目前,绝大多数的统计方法都侧重于衡量术语的结构完整性,但这些方法并不能体现术语与专业相关的领域特征。通过对术语在各文档中的分布情况进行观察,提出了一种利用术语在语料中词频分布变化程度的统计信息来检验术语的领域相关性的方法,同时结合机器学习方法获取的语言知识,从计算机领域的语料中抽取领域特征明显的词组型术语。实验证明,该方法对低频术语和高频普通词串有较强的分辨能力。 展开更多
关键词 术语抽取 机器学习 分布方差 知识获取 termhood unithood
下载PDF
专利技术术语的抽取方法 被引量:24
2
作者 韩红旗 朱东华 汪雪锋 《情报学报》 CSSCI 北大核心 2011年第12期1280-1285,共6页
针对专利中缺少技术关键词的问题,在对主要的术语抽取方法研究的基础上,引入C-value方法,修改了术语构词规则和术语度(termhood)计算公式,用PC-value值测量一个词语的术语度,提出了专利技术术语抽取的流程模型,实现了从专利中... 针对专利中缺少技术关键词的问题,在对主要的术语抽取方法研究的基础上,引入C-value方法,修改了术语构词规则和术语度(termhood)计算公式,用PC-value值测量一个词语的术语度,提出了专利技术术语抽取的流程模型,实现了从专利中抽取技术术语。该模型分为四个阶段:①分词和词性标注;②运用语言学规则取得可能术语列表;③计算词语的术语度值,取得候选术语列表;④领域专家评估并确定术语。实验结果证明,提出的方法能很好地抽取中文专利技术术语,在长术语的抽取和抽取精度上比C-value方法更具有优势。 展开更多
关键词 术语抽取 技术术语 术语度 专利分析
下载PDF
统计与规则相融合的领域术语抽取算法 被引量:12
3
作者 樊梦佳 段东圣 +2 位作者 杜翠兰 张仰森 佟玲玲 《计算机应用研究》 CSCD 北大核心 2016年第8期2282-2285,2306,共5页
针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性搭配规则与边界信息... 针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性搭配规则与边界信息出现概率知识库相结合的词语度筛选策略以及基于词频—逆文档频率(TF-IDF)的领域度筛选策略。运用此算法不但能抽取出领域的常见用词,还可以挖掘出领域新词。实验结果显示,基于该方法构建的领域术语抽取系统的准确率为84.33%,能够有效支持中文领域术语的自动抽取。 展开更多
关键词 领域术语抽取 词语度 领域度 左右信息熵扩展 边界检测 词频-逆文档频率
下载PDF
基于多层术语度的一体化术语抽取研究 被引量:19
4
作者 章成志 《情报学报》 CSSCI 北大核心 2011年第3期275-285,共11页
以往的术语抽取研究大多将语言学方法和统计方法分别进行单独的处理,并且只考虑候选术语本身的术语度,而没有考虑候选术语所在句子的术语度对术语抽取性能的影响。本文将语言学方法与统计方法进行并行融合,综合考虑候选术语及其所在... 以往的术语抽取研究大多将语言学方法和统计方法分别进行单独的处理,并且只考虑候选术语本身的术语度,而没有考虑候选术语所在句子的术语度对术语抽取性能的影响。本文将语言学方法与统计方法进行并行融合,综合考虑候选术语及其所在语句的术语度,进行基于多层术语度的一体化术语抽取。该研究有两个特色:首先,采用条件随机场模型,能有效融合语言学方法和统计方法,实验结果表明了基于一体化策略的术语抽取方法的有效性;其次,通过语料库比较方法,提出基于多层术语度的术语抽取方法,该方法能抽取多字术语,实验结果表明了利用多层术语度进行术语抽取的有效性。 展开更多
关键词 术语抽取 多层术语度 一体化策略 条件随机场
下载PDF
科技术语自动提取技术——现状与思考 被引量:6
5
作者 常宝宝 《中国科技术语》 2022年第1期3-13,共11页
文章简要介绍了自动术语提取任务的定义、主要方法和评价指标。针对传统的自动术语提取方法,以互信息、t值、tf-idf、C/NC-value为例介绍了单元度和术语度的概念;针对自动术语标注方法,主要介绍了基于序列标注的建模思想。从提取效果来... 文章简要介绍了自动术语提取任务的定义、主要方法和评价指标。针对传统的自动术语提取方法,以互信息、t值、tf-idf、C/NC-value为例介绍了单元度和术语度的概念;针对自动术语标注方法,主要介绍了基于序列标注的建模思想。从提取效果来看,现有自动术语提取技术距离期望仍有差距,文章也尝试给出了一些值得探索的方向。 展开更多
关键词 自动术语提取 自动术语标注 单元度 术语度 机器学习
下载PDF
中国古代科技术语翻译研究:现状与前瞻 被引量:10
6
作者 刘性峰 《燕山大学学报(哲学社会科学版)》 2021年第3期78-83,共6页
中国古代科技术语是中国传统科技文化知识体系的基本元素,中国古代科技术语翻译对于能否有效对外译介中国传统科技文化至关重要。文章通过分析已有研究,梳理该领域研究取得的成绩和存在的问题,并提出应对策略。研究发现,该领域的研究内... 中国古代科技术语是中国传统科技文化知识体系的基本元素,中国古代科技术语翻译对于能否有效对外译介中国传统科技文化至关重要。文章通过分析已有研究,梳理该领域研究取得的成绩和存在的问题,并提出应对策略。研究发现,该领域的研究内容逐年增多,多聚焦翻译策略,理论建构有所突破;问题表现在研究领域、研究视野和研究方法有待丰富、未重视中国古代科技术语翻译史的梳理和中国古代科技的术语性。建议今后拓展研究领域和视域,合理利用规定性方法和描述性方法,重视理论建构和术语翻译史梳理。 展开更多
关键词 中国古代科技术语 翻译 术语性
下载PDF
基于FP序列树的法文词语提取方法研究 被引量:1
7
作者 于娟 吴晓鹏 +1 位作者 廖晓 刘建国 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第1期84-90,共7页
法语复杂的语法和词形变化规则导致N-gram等词语提取方法的效果无法保证,影响法语文本挖掘的准确性。该文提出一种高效的法文词语提取方法,从待分析的法语文本中自动获取包括单词和短语的词语集合,构建法语文本挖掘所需的词库。该方法... 法语复杂的语法和词形变化规则导致N-gram等词语提取方法的效果无法保证,影响法语文本挖掘的准确性。该文提出一种高效的法文词语提取方法,从待分析的法语文本中自动获取包括单词和短语的词语集合,构建法语文本挖掘所需的词库。该方法把文本中的单词共现信息压缩为FP序列树结构,快速提取频繁词串并计算其成词度,得到法文词语集合。实验表明,该方法的准确率高达90%,且具有比现有法文词语提取方法更高的召回率,能有效支持法语文本挖掘应用。 展开更多
关键词 FP序列树 法语文本挖掘 词语提取 成词度 文本压缩
下载PDF
基于改进C-value方法的中文术语抽取 被引量:23
8
作者 胡阿沛 张静 刘俊丽 《现代图书情报技术》 CSSCI 北大核心 2013年第2期24-29,共6页
提出一种改进C-value的术语抽取方法,即IC-value方法。利用停用词对文本进行预处理后,采用一种基于串频统计的抽取算法提取候选术语;对候选术语进行语言规则过滤;从逆文档频率、破碎子串和术语长度三个方面改进C-value方法得到IC-value... 提出一种改进C-value的术语抽取方法,即IC-value方法。利用停用词对文本进行预处理后,采用一种基于串频统计的抽取算法提取候选术语;对候选术语进行语言规则过滤;从逆文档频率、破碎子串和术语长度三个方面改进C-value方法得到IC-value方法,并用来计算候选术语的术语度。以1 000篇乙型肝炎相关论文摘要进行实证研究,结果证明IC-value方法在准确率和召回率方面都要优于C-value、TF-IDF和V-value,有较强的长术语发现能力,且识别破碎子串的效果十分明显。 展开更多
关键词 术语抽取 串频统计 语言规则 术语度
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部