一种基于大规模语料的新词识别方法被引量：24

Method of new word identification based on lager-scale corpus

下载PDF

导出

摘要提出了一种基于大规模语料的新词识别方法,在重复串统计的基础上,结合分析不同串的外部环境和内部构成,依次判断上下文邻接种类,首尾单字位置成词概率以及双字耦合度等语言特征,分别过滤得到新词。通过在不同规模的语料上实验发现,此方法可行有效,能够应用到词典编撰,术语提取等领域。 The paper proposes a method for new word identification based on large scale corpus,which analyzes the outer lingual environment and inner structure of a string simultaneously.At first,find all the repetitive strings in the text collection,then decide whether a string should be filtrated or not,according to the context varieties,inside word probabilities and double character couplings.At last the remnant words are considered as new words.The experiments have done on corpus with different scale,and the results show that this method is practicable

作者贺敏龚才春张华平程学旗

机构地区中国科学院计算技术研究所中国科学院研究生院

出处《计算机工程与应用》 CSCD 北大核心 2007年第21期157-159,共3页 Computer Engineering and Applications

基金国家重点基础研究发展规划(973)(the National Grand Fundamental Research 973 Program of China under Grant No.2004CB318109) 中科院知识创新工程基金(No.20056550)。

关键词新词邻接类别单字成词概率双字耦合度 new words context variety inside word probability double character coupling

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
2崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
3Chen KehJiann,Bai MingHong.Unknown word detection for chinese by a coupus-based learning method[J].International Journal of Computational linguistics and Chinese Language Processing,1998,3(1):27-44.
4Li Hongqiao,Huang Changning,Gao Jianfeng,et al.The use of SVM for Chinese new word identification[C]//Proceedings of First International Joint Conference on Natural Language Processing,Sanya,Hainana Island China,2004:497-504.

二级参考文献12

1邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
2Hua- Ping ZHANG, Qun LIU. et al, Chinese Name Entity Recognition Using Role Model[ J]. Special issue ''Word Formation and Chinese Language processing'' of the International Journal of Computational Linguistics and Chinese Language Processing, 2003, 8(2):2
3Craig G. Nevill - Manning, Ian H. Witten. Identifying Hierarchical Structure in Sequences: A linear - time algorithm [J]. Journal of Artificial Intelligence Research, 1997, 7:67- 82
4K.J.Chen,Ming-Hong Bai.Unknown word detection for Chinese by a corpus-based learning method.International Journal of Computational Linguistics and Chinese Language Processing,1998,3 (1):27～44
5K.J.Chen,W.Y.Ma.Unknown word extraction for Chinese documents.The 19th COLING 2002,Taipei,2002
6Jianfeng Gao,Mu Li,Andi Wu,et al.Chinese word segmentation:A pragmatic approach.Microsoft Research,Technical Report:MSR-TR-2004-123,2004
7Nie Jian-Yun,Wanying Jin,Mareie-Louise Hannan.A hybrid approach to unknown word detection and segmentation of Chinese.Int' 1 Conf.Chinese Computing,Singapore,1994
8Hua-Ping Zhang,Qun Liu,Hao Zhang,et al.Automatic recognition of Chinese unknown words based on roles tagging.The 1st SIGHAN Workshop on Chinese Language Processing,Taipei,2002
9Andi Wu,Zixin Jiang.Statistically-enhanced new word identification in a rule-based Chinese system.The 2nd Chinese Language Processing Workshop,Hong Kong,2000
10Fuchun Peng,Fangfang Feng,Andrew McCallum.Chinese segmentation and new word detection using conditional random fields.COLING 2004,Geneva,Switzerland,2004

共引文献77

1崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
2任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
3胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
4何婷婷,朱薏,张勇,任函.基于词语属性的计算机辅助获取流行词语研究[J].中文信息学报,2006,20(6):38-45. 被引量：4
5姜韶华,党延忠.自动提取含字母词语的领域新术语的研究[J].计算机工程,2007,33(2):47-49. 被引量：3
6吕学强,黄河,李渝勤,施水才.BBS中文新词语自动挖掘[J].现代图书情报技术,2007(1):37-39. 被引量：2
7胡彧,苏雪峰.特定主题的相关概念挖掘研究与实现[J].电脑开发与应用,2007,20(2):14-16. 被引量：1
8张榕,宋柔.一种被定义项的识别策略[J].当代语言学,2007,9(1):33-38. 被引量：4
9刘竟,朱书梅,侯汉清.网络环境信息标引的测评与比较研究[J].中国索引,2007,5(3):2-7.
10高俊波,杨静.在线论坛中的意见领袖分析[J].电子科技大学学报,2007,36(6):1249-1252. 被引量：30

同被引文献196

1陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
2孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
3孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
5邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
6贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
7秦浩伟,步丰林.一个中文新词识别特征的研究[J].计算机工程,2004,30(B12):369-370. 被引量：13
8费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
9刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
10郑庆华,王朝静,孙霞.一种基于结构化语料库的概念语义网络自动生成算法[J].计算机研究与发展,2005,42(3):478-485. 被引量：7

引证文献24

1岑咏华,韩哲,季培培.基于隐马尔科夫模型的中文术语识别研究[J].现代图书情报技术,2008(12):54-58. 被引量：37
2韩艳,林煜熙,姚建民.基于统计信息的未登录词的扩展识别方法[J].中文信息学报,2009,23(3):24-30. 被引量：15
3汪青青.现代汉语新词特征探析[J].现代语文（下旬．语言研究）,2009(7):122-123. 被引量：3
4李海涛,马振华,沈文华.章回小说的有意义串发现算法[J].计算机工程与应用,2010,46(4):129-131.
5岑咏华,王曰芬,王晓蓉.面向企业技术创新决策的专利数据挖掘研究综述(下)[J].情报理论与实践,2010,33(2):124-128. 被引量：5
6吕美香,何琳,李玥,杨敏,张越.基于N-Gram文本表达的新闻领域关键词词典构建研究[J].情报科学,2010,28(4):571-574. 被引量：3
7季培培,鄢小燕,岑咏华.面向领域中文文本信息处理的术语识别与抽取研究综述[J].图书情报工作,2010,54(16):124-129. 被引量：17
8刘兴林,陈建超,马千里.基于互联网的词汇语义知识库构建框架研究[J].计算机与现代化,2010(10):8-11. 被引量：1
9林自芳,蒋秀凤.基于词内部模式的新词识别[J].计算机与现代化,2010(11):162-164. 被引量：17
10张海军,栾静,李勇,齐向伟.基于统计学习框架的中文新词检测方法[J].计算机科学,2012,39(2):232-235. 被引量：10

二级引证文献175

1夏松,林荣蓉,刘勘.网络谣言敏感词库的构建研究——以新浪微博谣言为例[J].知识管理论坛,2019(5):267-275. 被引量：6
2李鲲鹏.试论专利权在信息时代的科技信息价值[J].科技创业家,2013(21).
3王曰芬,徐丹丹,李飞.专利信息内容挖掘及其试验研究[J].现代图书情报技术,2008(12):59-65. 被引量：8
4岑咏华,王曰芬,王晓蓉.面向企业技术创新决策的专利数据挖掘研究综述(下)[J].情报理论与实践,2010,33(2):124-128. 被引量：5
5季培培,鄢小燕,岑咏华.面向领域中文文本信息处理的术语识别与抽取研究综述[J].图书情报工作,2010,54(16):124-129. 被引量：17
6谷俊,王昊.基于领域中文文本的术语抽取方法研究[J].现代图书情报技术,2011(4):29-34. 被引量：22
7吴悦,燕鹏举,翟鲁峰.基于二元背景模型的新词发现[J].清华大学学报（自然科学版）,2011,51(9):1317-1320. 被引量：10
8王成,吕学强,王弘蔚,王涛.基于信息熵与词语活跃度的领域词抽取[J].北京信息科技大学学报（自然科学版）,2011,26(5):49-52. 被引量：1
9陈黎,于中华,王亚强,秦湘清.基于登录词邻接关系的双条件概率的领域术语抽取算法[J].四川大学学报（自然科学版）,2011,48(6):1300-1306. 被引量：2
10张瑞霞,杨国增,吴慧欣.基于《知网》的汉语未登录词语义相似度计算[J].中文信息学报,2012,26(1):16-21. 被引量：8

1林自芳,蒋秀凤.基于改进位置成词概率的新词识别[J].福州大学学报（自然科学版）,2011,39(1):43-48. 被引量：3
2刘冰洋,刘倩,张瑾,刘欣然,程学旗.多语种网络文本快速新词抽取[J].中文信息学报,2014,28(2):78-84. 被引量：2
3王思力,王斌.基于双字耦合度的中文分词交叉歧义处理方法[J].中文信息学报,2007,21(5):14-17. 被引量：17
4李勇敢,周学广,孙艳,张焕国.结合依存关联分析和规则统计分析的情感词库构建方法[J].武汉大学学报（理学版）,2013,59(5):491-498. 被引量：3
5马辉.互联网信息库新词识别技术研究[J].移动信息,2015,0(7):19-19.
6周超,严馨,余正涛,洪旭东,线岩团.融合词频特性及邻接变化数的微博新词识别[J].山东大学学报（理学版）,2015,50(3):6-10. 被引量：10
7王倩倩,范通让.汉语中新词识别方法研究[J].河北省科学院学报,2014,31(2):35-40.
8赵丽,齐兴斌,李雪梅,田涛.基于PTM潜在Dirichlet分配的少量标记样本文本分类[J].计算机应用研究,2015,32(5):1428-1432. 被引量：2
9林伟.一种基于成词概率的贝叶斯垃圾邮件过滤方法[J].计算机技术与发展,2011,21(9):242-244.
10聂颂,何丕廉,孙越恒.统计与规则结合的一种新词识别方法[J].微型机与应用,2003,22(10):58-60. 被引量：5

计算机工程与应用

2007年第21期

浏览历史

内容加载中请稍等...

一种基于大规模语料的新词识别方法被引量：24

参考文献4

二级参考文献12

共引文献77

同被引文献196

引证文献24

二级引证文献175

相关作者

相关机构

相关主题

浏览历史

一种基于大规模语料的新词识别方法 被引量：24

参考文献4

二级参考文献12

共引文献77

同被引文献196

引证文献24

二级引证文献175

相关作者

相关机构

相关主题

浏览历史

一种基于大规模语料的新词识别方法被引量：24