汉语中新词识别方法研究

Research of Chinese new word identification method

下载PDF

导出

摘要随着互联网和社会的飞速发展,新词不断涌现。识别和整理这些新词语,是中文信息处理中的一个重要研究课题。提出一种新词识别方法,该方法利用基于PAT-Array的重复字符串抽取候选串,提高了新词的召回率。并在此基础上分析新词内部模式,添加了垃圾串过滤机制。单字串过滤主要是运用垃圾词典的方法,多字词模式新词的确定是利用改进的互信息与独立成词概率结合的方法。由此,大幅度提高了新词识别的准确率。 With the rapid development of internet and society,new words are emerging.Identifying and organizing these new words,is an important research topic of Chinese information processing.This paper presents a new word recognition method via using PAT-Array repeated extractions of candidate strings to improve the recall of new words.Based on this method,analyses the internal model of new words and adds a garbage string filtering mechanism.Use the garbage dictionary to filter the single string.The improved mutual information is combined with a separate word combination methods to determine more new words.Our achievements can significantly improve the accuracy of new word recognitions.

作者王倩倩范通让

机构地区石家庄铁道大学信息科学与技术学院

出处《河北省科学院学报》 CAS 2014年第2期35-40,共6页 Journal of The Hebei Academy of Sciences

关键词新词 PAT-Array 互信息垃圾串过滤内部模式 New words PAT-Array Mutual information Garbage string filter Internal model

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1曾依灵,许洪波.网络热点信息发现研究[J].通信学报,2007,28(12):141-146. 被引量：29
2张海军,史树敏,朱朝勇,黄河燕.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10. 被引量：39
3Nie J-Y,Hannan M-L,Jin W.Unknown Word Detection and Segmentation of Chinese using Statistical and Heuristic Knowledge[J].Communications of COLIPS,1995:47-57.
4Isozaki H.Japanese named entity recognition based on a simple rule generator and decision tree learning[C].Proceedings of the39th Annual Meeting on Association f or Computational Linguistics Toulouse.France,2001:306-313.
5刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
6Chen K-J,Ma W.Unknown Word Ex traction for Chinese Documents[C].Proceedings of COLING 2002.Taipei,2002:169-175.
7张海军,栾静,李勇,齐向伟.基于统计学习框架的中文新词检测方法[J].计算机科学,2012,39(2):232-235. 被引量：10
8苏宁,惠子敬,刘娟.基于单字特征和搜索引擎的新词识别[J].武汉大学学报（理学版）,2010,56(6):704-710. 被引量：2
9钟将,耿升华,董高峰.一种新词检测方法研究[J].数字通信,2013,40(2):1-5. 被引量：6
10林自芳,蒋秀凤.基于词内部模式的新词识别[J].计算机与现代化,2010(11):162-164. 被引量：17

二级参考文献82

1苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
4孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
5曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
6崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
7刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
8王素格,杨军玲,张武.自动获取汉语词语搭配[J].中文信息学报,2006,20(6):31-37. 被引量：14
9黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
10罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,2007,33(7):718-725. 被引量：14

共引文献98

1刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
2张宇萌,刘传汉.一种基于逐层扫描的频繁字串快速提取算法[J].计算机科学,2008,35(5):127-130. 被引量：1
3韩艳,姚建民,朱巧明,张晶.不限领域的中文新词的识别研究[J].郑州大学学报（理学版）,2008,40(3):67-71. 被引量：2
4刘华.面向对外汉语教学的话题聚类研究[J].外语研究,2008,25(5):55-60. 被引量：5
5黄宇栋,李翔,林祥.互联网媒体信息热点主动发现技术研究与应用[J].计算机技术与发展,2009,19(5):1-4. 被引量：5
6韩艳,林煜熙,姚建民.基于统计信息的未登录词的扩展识别方法[J].中文信息学报,2009,23(3):24-30. 被引量：15
7王巍,杨武,齐海凤.基于多中心模型的网络热点话题发现算法[J].南京理工大学学报,2009,33(4):422-426. 被引量：28
8倪颖杰,王律科,张军.基于高性能数据挖掘的网络海量信息处理平台[J].计算机工程与科学,2009,31(A01):129-132. 被引量：9
9张海军,史树敏,朱朝勇,黄河燕.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10. 被引量：39
10陆蓓,程肖,谌志群.基于改进蚁群聚类的热点主题发现算法研究[J].现代图书情报技术,2010(4):66-71. 被引量：4

1林建敏,谢康林.基于PAT-array和模糊聚类的文本聚类方法[J].计算机工程,2004,30(12):126-127. 被引量：6
2廖祥文,林自芳,陈水利.基于词内部模式的中文新词识别研究[J].集美大学学报（自然科学版）,2011,16(6):461-466. 被引量：1
3聂金慧,苏红旗,时志远.中文新词提取与过滤研究综述[J].中国科技博览,2013(30):209-210. 被引量：1
4罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,2007,33(7):718-725. 被引量：14
5林自芳,蒋秀凤.基于词内部模式的新词识别[J].计算机与现代化,2010(11):162-164. 被引量：17
6钟将,耿升华,董高峰.一种新词检测方法研究[J].数字通信,2013,40(2):1-5. 被引量：6
7林伟.一种基于成词概率的贝叶斯垃圾邮件过滤方法[J].计算机技术与发展,2011,21(9):242-244.
8吴保珍,何婷婷,李立,张勇,陈龙.基于全切分获取网络流行语方法研究[J].计算机应用研究,2009,26(4):1260-1262. 被引量：2
9贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24
10吕洁.HEVC完全内部模式空间可分级编码[J].计算机与现代化,2014(3):136-140.

河北省科学院学报

2014年第2期

浏览历史

内容加载中请稍等...

汉语中新词识别方法研究

参考文献11

二级参考文献82

共引文献98

相关作者

相关机构

相关主题

浏览历史