-
题名基于大规模语料库的新词检测
被引量:32
- 1
-
-
作者
崔世起
刘群
孟遥
于浩
西野文人
-
机构
中国科学院计算技术研究所数字化技术研究室
中国科学院研究生院
中国科学院研究生院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第5期927-932,共6页
-
基金
国家"八六三"高技术研究发展计划基金项目(2004AA114010
2003AA111010)
中国科学院计算技术研究所和富士通研究开发中心有限公司合作项目~~
-
文摘
自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域.
-
关键词
新词
垃圾串
垃圾头
垃圾尾
独立词概率
-
Keywords
new word
garbage string
garbage head
garbage tail
IWP
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种新词检测方法研究
被引量:6
- 2
-
-
作者
钟将
耿升华
董高峰
-
机构
重庆大学计算机学院
-
出处
《数字通信》
2013年第2期1-5,23,共6页
-
基金
国家自然科学基金青年基金资助项目(61103114)
-
文摘
汉语自动分词是进行中文信息处理的基础。目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别。同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义。提出一种新的未登录词识别方法,该方法混合了互信息、信息熵及词频等3个评价指标评价新词,并在此基础上添加了垃圾串过滤机制,大幅度提高了新词识别准确率和召回率。
-
关键词
新词
互信息
信息熵
词频
垃圾串
-
Keywords
new word
mutual information
entropy of information
word frequency
garbage string
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语中新词识别方法研究
- 3
-
-
作者
王倩倩
范通让
-
机构
石家庄铁道大学信息科学与技术学院
-
出处
《河北省科学院学报》
CAS
2014年第2期35-40,共6页
-
文摘
随着互联网和社会的飞速发展,新词不断涌现。识别和整理这些新词语,是中文信息处理中的一个重要研究课题。提出一种新词识别方法,该方法利用基于PAT-Array的重复字符串抽取候选串,提高了新词的召回率。并在此基础上分析新词内部模式,添加了垃圾串过滤机制。单字串过滤主要是运用垃圾词典的方法,多字词模式新词的确定是利用改进的互信息与独立成词概率结合的方法。由此,大幅度提高了新词识别的准确率。
-
关键词
新词
PAT-Array
互信息
垃圾串过滤
内部模式
-
Keywords
New words
PAT-Array
Mutual information
Garbage string filter
Internal model
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-