-
题名基于词表和N-gram算法的新词识别实验
被引量:7
- 1
-
-
作者
曹艳
杜慧平
刘竟
侯汉清
-
机构
南京农业大学信息管理系
-
出处
《情报科学》
CSSCI
北大核心
2007年第11期1687-1691,1695,共6页
-
基金
国家社会科学基金(05BTQ021)
-
文摘
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选的非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。
-
关键词
N-gram算法
未登录词
新词识别
停用词典
过滤词典
-
Keywords
N- gram algorithm
unlisted words
new words identification
stop word list
filter vocabulary
-
分类号
G252.7
[文化科学—图书馆学]
-
-
题名一种面向专利摘要的领域术语抽取方法
被引量:5
- 2
-
-
作者
曾镇
吕学强
李卓
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
-
出处
《计算机应用与软件》
CSCD
2016年第3期48-51,共4页
-
基金
国家自然科学基金项目(61271304)
北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(KZ201311232037)
北京市属高等学校创新团队建设与教师职业发展计划项目(IDHT20130519)
-
文摘
专利领域中术语抽取结果的好坏决定了本体构建的质量。提出一种自动生成过滤词典并结合词汇密集度等影响因子的术语抽取方法。首先在分词和词性标注的基础上,对文献匹配词性规则算法生成的模板得到候选长术语和单词型短术语集合,然后利用文档一致度生成的过滤词典过滤部分候选长术语集,最后针对长术语的构成特点,将词汇密集度、文档差比、文档一致度三个术语因子加权平均作为整个长术语的术语权重值,并按值高低排序。在8000篇专利摘要文献的基准语料上进行实验,随机选取五组实验数据,平均准确率达到86%。结果表明该方法在领域术语抽取方面是行之有效的。
-
关键词
领域术语
本体构建
过滤词典
词汇密集度
-
Keywords
Field terminology
Ontology creation
Filtering dictionary
Words intensity
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于词表和N-gram算法的新词识别实验
被引量:1
- 3
-
-
作者
曹艳
杜慧平
刘竟
侯汉清
-
机构
南京农业大学信息管理系
-
出处
《中国索引》
2008年第1期49-54,共6页
-
文摘
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。
-
关键词
N-gram算法
未登录词
新词识别
停用词典
过滤词典
-
分类号
G354
[文化科学—情报学]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向军事领域的土耳其语术语自动抽取研究
- 4
-
-
作者
张贵林
易绵竹
李宏欣
闫丹辉
孙玥莹
-
机构
战略支援部队信息工程大学洛阳校区
中国科学技术信息研究所
-
出处
《中国科技术语》
2022年第1期26-35,共10页
-
基金
国防科技创新特区项目“面向周边国家多语言信息的领域知识获取与分析”(18H86301ZT00500501)。
-
文摘
文章以土耳其语军事领域术语语言特征研究为基础,提出一种规则与统计相结合的术语抽取方法,先后通过关键词、停止词、形态分析序列模式、点互信息、左右信息熵和临接词缀等特征对单语文本中的候选项进行筛选,在W-data和N-data大小两组单语文本中进行实验,结果表明该方法能够有效地从实验数据中抽取土耳其语军事术语。
-
关键词
土耳其语军事术语
过滤词典
自动抽取方法
-
Keywords
Turkish terminology extraction
filtering dictionary
automatic extraction methodologies
-
分类号
H512
[语言文字]
H083
[语言文字—语言学]
-