基于单字特征和搜索引擎的新词识别被引量：2

Chinese New Word Detection Based on One Character Word and Search Engine

导出

摘要新词识别是影响搜索准确率以及速率的重要因素.本文提出了一种基于统计模型和词语搭配的中文新词自动识别方法.采用条件概率的方法提取单字词搭配特征和临界词特征,并采用层次结构实现新词定位以及识别.首先采用双向最大匹配相结合的方法对文本进行词法粗切分,然后根据单字词搭配得到候选新词的位置,用临界词方法确定候选新词的边界,采用改进Nagao串频统计方法对新词候选词在本文内进行重复串统计,对于只在文中出现一次的新词则借助搜索引擎进行确定.对新浪网近期的网络文章进行测试,结果表明,基于本文方法设计的系统可以识别不同领域的新词,在低频词、较长的词以及新词语搭配方面取得了良好的效果.单字词搭配检查发现新词位置综合指标F值达到96.8%. New word recognition have vital effect on precision and speed of search engine.This paper presents a hybrid method for automatic new word recognition based on a statistical model and search engine.It adopts conditional probability for collocation extraction.The method consists of four steps for new word detection and recognition：after segmenting the corpus based on bi-direction matching method,it first detects new words with collocation of one character word,and then determines new words candidates set with boundary words,and then searches for repeated strings with improved Nagao frequency statistics methods,and finally recognizes new words based on search engine dictionary.Experiment results show that the system built on the proposed method can find new words in any field,especially low frequency words,long words,and new collocation.The average of F-measure is 96.8% in locating new words.

作者苏宁惠子敬刘娟

机构地区武汉大学计算机学院

出处《武汉大学学报（理学版）》 CAS CSCD 北大核心 2010年第6期704-710,共7页 Journal of Wuhan University:Natural Science Edition

关键词新词识别单字词临界词搭配抽取搜索引擎 new word recognition one character word boundary word collocation extraction search engine

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Chen Kehjiann, Bai Minghong. Unknown word detection for Chinese by a corpus-based learning method [J]. Computational Linguistics and Chinese Language Processing, 1998,3( 1 ) : 27-44.
2Zhang H P,Yu H K,Xiong DY,etal. HHMM-Based Chinese lexical analyzer ICTCLAS[DB/OL]. [2009-10- 30]. http://portal, acre. org/citation, cfm? id = 1119280.
3郑家恒,李文花.基于构词法的网络新词自动识别初探[J].山西大学学报（自然科学版）,2002,25(2):115-119. 被引量：56
4Chen Aitao. Chinese Word Segmentation Using Minimal Linguistic Knowledge[DB/OL]. [2009-10-30]. http:// portal, acre. org/citation, cfm? id= 1119271.
5崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
6邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
7王素格,杨军玲,张武.自动获取汉语词语搭配[J].中文信息学报,2006,20(6):31-37. 被引量：14
8王大亮,涂序彦,郑雪峰,佟子健.多策略融合的搭配抽取方法[J].清华大学学报（自然科学版）,2008,48(4):608-612. 被引量：6
9曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
10Nagao M,Mori S. A New Method of N-gram Statistics for Large Number of n and Automatic Extraction of Words and Phrases from Large Text Data of Japanese [DB/OL]. [2009-10-10]. http://portal, acm. org/citation, c fro? id= 991994.

二级参考文献37

1孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997(1):29-38. 被引量：55
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3曲维光,陈小荷,吉根林.基于框架的词语搭配自动抽取方法[J].计算机工程,2004,30(23):22-24. 被引量：18
4全昌勤,何婷婷,姬东鸿,刘辉.从搭配知识获取最优种子的词义消歧方法[J].中文信息学报,2005,19(1):30-35. 被引量：13
5周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
6由丽萍,王素格.汉语动词-动词搭配规则与分布特征[J].计算机工程与应用,2005,41(23):179-181. 被引量：6
7全昌勤,刘辉,何婷婷.基于统计模型的词语搭配自动获取方法的分析与比较[J].计算机应用研究,2005,22(9):55-57. 被引量：8
8郑家恒李文花.新词语自动识别方法研究.自然语言理解与机器翻译[M].北京:清华大学出版社,2001..
9陆志苇.现代汉语构词法（修订本）[M].北京:中华书局,1975..
10Halliday MAK. System and Function in Language [M]. London: Oxford University Press, 1976.

共引文献264

1战疆,冯月利,王珊.PostgreSQL中文全文索引技术研究与实现[J].华中科技大学学报（自然科学版）,2005,33(z1):213-216. 被引量：3
2隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
3张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
4王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
6李文翔,晏蒲柳,夏德麟,张滨.基于差异相似矩阵算法的词语用法知识发现[J].计算机应用与软件,2005,22(1):90-92.
7刘新斌,李俊.一种基于N-gram组合的中文垃圾邮件过滤方法[J].微电子学与计算机,2004,21(12):85-91. 被引量：5
8黄建中,王肖雷.Katz平滑算法在中文分词系统中的应用[J].计算机工程,2004,30(B12):371-372. 被引量：5
9夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24
10刘群,张浩,白硕.自然语言处理开放资源平台[J].语言文字应用,2002(4):50-56. 被引量：9

同被引文献19

1刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
2罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,2007,33(7):718-725. 被引量：14
3Chen Keh-jiann, Bai Minghong. Unknown word detection for Chinese by a corpus-based learning method[ J]. Computation-al Linguistics and Chinese Language Processing, 1998,3 (1) : 27 -44.
4Jemslow R, Wang J. Solving propositional satisfiability prob- lems[ C ]//Annals of mathematics and artificial intelligence. [s. L ] :Springer,1990.
5Nie Jianyun. Unknown Word Detection and Segmentation of Chinese Using Statistical and Heuristic Knowledge [ J ]. Com- munications of COLIPS ,2008,5 ( 1 ) :47-47.
6Nie J-Y,Hannan M-L,Jin W.Unknown Word Detection and Segmentation of Chinese using Statistical and Heuristic Knowledge[J].Communications of COLIPS,1995:47-57.
7Isozaki H.Japanese named entity recognition based on a simple rule generator and decision tree learning[C].Proceedings of the39th Annual Meeting on Association f or Computational Linguistics Toulouse.France,2001:306-313.
8Chen K-J,Ma W.Unknown Word Ex traction for Chinese Documents[C].Proceedings of COLING 2002.Taipei,2002:169-175.
9MANBERU,MYERSG.Suffix arrays:a new method for outline string searches[J].SIAM Journal on Computing,1993,22(5):935-948.
10曾依灵,许洪波.网络热点信息发现研究[J].通信学报,2007,28(12):141-146. 被引量：29

引证文献2

1徐远方,李成城.基于SVM和词间特征的新词识别研究[J].计算机技术与发展,2012,22(5):134-136. 被引量：4
2王倩倩,范通让.汉语中新词识别方法研究[J].河北省科学院学报,2014,31(2):35-40.

二级引证文献4

1徐远方,李成城.基于支持向量机和约束条件的新词识别研究[J].计算机技术与发展,2014,24(1):98-101. 被引量：2
2李文坤,张仰森,陈若愚.基于词内部结合度和边界自由度的新词发现[J].计算机应用研究,2015,32(8):2302-2304. 被引量：35
3李淑平.中文新词识别研究概述[J].科技资讯,2016,14(29):145-146.
4付瑶,万静,邢立栋.基于条件随机场与信息熵的特定领域概念发现[J].计算机应用研究,2020,37(3):708-711. 被引量：5

1姚兴山.基于词频的中文文本分类研究[J].现代情报,2009,29(2):179-181. 被引量：4
2薛晶,杜友福,黄岚.词语搭配抽取系统的对比研究[J].现代计算机,2016,22(6):17-21.
3杨令铎,史海波,周晓锋.基于词向量的评价搭配抽取算法研究[J].小型微型计算机系统,2016,37(10):2269-2272.
4闫蓉,张蕾.基于遗传算法的汉语未登录词识别[J].计算机应用与软件,2008,25(7):88-90. 被引量：3
5于童,刘淑芬.构建单字词表识别未登录词的方法[J].吉林大学学报（理学版）,2015,53(2):307-310. 被引量：2
6麦范金,李东普,岳晓光.基于双向匹配法和特征选择算法的中文分词技术研究[J].昆明理工大学学报（自然科学版）,2011,36(1):47-51. 被引量：8
7风雨彩虹.吃尽网络文章管好系统资源[J].网友世界,2007(6):24-25.
8D吴雅娟,柳培林,丁子睿.基于统计分词的中文文本分类系统[J].电脑知识与技术,2005(4):71-74. 被引量：1
9蔡荣彦.面向未登录领域词切分的中文分词技术研究[J].信息系统工程,2013,26(11):133-136. 被引量：1
10郑晓刚,韩立新,白书奎,曾晓勤.一种组合型中文分词方法[J].计算机应用与软件,2012,29(7):26-28. 被引量：11

武汉大学学报（理学版）

2010年第6期

浏览历史

内容加载中请稍等...

基于单字特征和搜索引擎的新词识别被引量：2

参考文献11

二级参考文献37

共引文献264

同被引文献19

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于单字特征和搜索引擎的新词识别 被引量：2

参考文献11

二级参考文献37

共引文献264

同被引文献19

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于单字特征和搜索引擎的新词识别被引量：2