基于语料库和网络的新词自动识别被引量：11

Automatic New Words Detection Based on Corpus and Web

下载PDF

导出

摘要汉语自动分词是进行中文信息处理的基础。目前 ,困扰汉语自动分词的一个主要难题就是新词自动识别 ,尤其是非专名新词的自动识别。同时 ,新词自动识别对于汉语词典的编纂也有着极为重要的意义。文中提出了一种新的新词自动识别的方法。这个方法用到了互信息和log likelihoodratio两个参数的改进形式。主要分三个阶段完成 :先从网络上下载丰富的语料 ,构建语料库 ;然后采用统计的方法进行多字词识别 ;最后与已有的词表进行对照 ,判定新词。 Automatic Chinese segmentation is the basis of Chinese information processing. At present, automatic new word detection, especially automatic non proper noun detection is a dilemma for automatic Chinese segmentation. At the same time, automatic new word detection is very important to thesaurus compiling. This paper presents a new method for new word detection. It uses two improved parameters: mutual information and log likelihood ratio. This method mainly consists of three phrases. First, download adequate web documents and build a corpus; then recognize multi word units by using statistical method; finally, compare these words with the previous word list, so as to decide the new words. Experiments on real corpus show that the proposed method is more efficient and robust.

作者刘建舟何婷婷骆昌日

机构地区华中师范大学计算机科学系

出处《计算机应用》 CSCD 北大核心 2004年第7期132-134,共3页 journal of Computer Applications

基金湖北省自然科学基金资助项目 (2 0 0 1ABB0 1 2 )

关键词抽取多字词页面解析动态语料库 multi word unit extraction page parsing dynamic corpus

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1LIU Jianzhou, HE Tingting, LIU Xiaohua, et al. Extracting Chinese Multi-word Units from Large-scale Balanced Corpus[ A]. The 17th PACLIC Conference[ C]. Singapore, October 2003.
2Valter Crescenzi , Giansalvatore Mecca , Paolo Merialdo , et al.ROADRUNNER: Towards Automatic Data Extraction from Large Web Sites[ A]. Proceedings of the 27th International Conference on Very Large Data Bases[ C]. September 2001. 109 ～ 118.
3Peas A, Verdejo F, Gonzalo J, et al. Corpus-based Terminology Extraction applied to Information Access [ A]. In Proceedings of Corpus Linguistics 2001[ C]. Lancaster University, UK, 2001.
4Silva J, Lopes G, et al. A local Maximal Method and a Fair Dispersion Normalization for Extracting Multiword Units[ A]. Proceedings of the 6th Meeting on the Mathematics of Language[C], 1999. 369 -381.
5Dunning T. Accurate Methods for the Statistics of Surprise and Coincidence [J]. Association for Computational Linguistics, 1993,19(1): 61-76.
6陈玉泉,顾顺莲,陆汝占.计算机辅助新词新语词典的编纂[J].上海交通大学学报,2000,34(7):999-1000. 被引量：2
7孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
8谭红叶郑家恒刘开瑛.中国地名的自动识别方法研究[A]..计算语言学文集[C].北京:清华大学出版社,1999..
9孙茂松张维杰.英语姓名译名的自动辨识[A]..计算语言学研究与应用[C].北京:北京语言学院出版社,1993..
10陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26

二级参考文献16

1张普.关于大规模真实文本语料库的几点理论思考[J].语言文字应用,1999(1):35-44. 被引量：48
2张普.关于语感与流通度的思考[J].语言教学与研究,1999(2):83-96. 被引量：60
3张普.关于网络时代语言规划的思考[J].语文研究,1999(3):1-10. 被引量：20
4李建国.新词新语研究与辞书编纂[J].辞书研究,1996(3):30-38. 被引量：28
5孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
6宋柔，计算语言学研究与应用，1993年
7孙茂松，计算语言学研究与应用，1993年
8郑家恒，计算语言学研究与应用，1993年
9张俊盛，中文信息学报，1992年，6卷，3期
10团体著者，姓氏人名用字分析统计，1990年

共引文献111

1周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
2王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
3张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
4郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
5陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
6黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1
7季姮,罗振声.基于统计和规则的中文姓名自动辨识[J].语言文字应用,2001(1):14-18. 被引量：13
8孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
9杜鸣.中文姓名输入研究[J].南京师范大学文学院学报,2004(3):184-188.
10郑泽之,张普,杨建国.基于语料库的字母词语自动提取研究[J].中文信息学报,2005,19(2):78-85. 被引量：10

同被引文献172

1邓文彬.网络语言的定位与规范问题[J].西南民族大学学报（人文社会科学版）,2009,30(1):273-277. 被引量：32
2王辉.西方语言规划观的演变及启示[J].宁夏大学学报（人文社会科学版）,2009,31(6):204-208. 被引量：8
3南洋.浅析汉语网络新词的翻译策略[J].山西师大学报（社会科学版）,2012,39(S4):116-118. 被引量：11
4文旭.国外认知语言学研究综观[J].外国语,1999,22(1):35-41. 被引量：188
5陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
6苑春法,黄昌宁.基于语素数据库的汉语语素及构词研究[J].语言文字应用,1998(3):86-91. 被引量：47
7李政,洪娇.浅谈2013年汉语网络新词英译技巧[J].长春教育学院学报,2013,29(22). 被引量：1
8朱曦.模因论视角下网络新词的英译[J].无锡职业技术学院学报,2013,12(6):64-67. 被引量：2
9许红晴.当代网络流行新词之单纯词造词法探讨[J].华中师范大学学报（人文社会科学版）,2013,52(S4):78-81. 被引量：3
10苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13

引证文献11

1周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
2徐艳华.新词语结构分析在自动分词中的作用[J].烟台职业学院学报,2007,13(4):57-63.
3周蕾,朱巧明.基于统计和规则的未登录词识别方法研究[J].计算机工程,2007,33(8):196-198. 被引量：21
4葛宁,王军.领域Ontology的自动丰富——基于ADL地名表的实例研究[J].计算机科学,2007,34(9):156-162. 被引量：5
5曹艳,杜慧平,刘竟,侯汉清.基于词表和N-gram算法的新词识别实验[J].情报科学,2007,25(11):1687-1691. 被引量：7
6曹艳,杜慧平,刘竟,侯汉清.基于词表和N-gram算法的新词识别实验[J].中国索引,2008,6(1):49-54. 被引量：1
7韩艳,林煜熙,姚建民.基于统计信息的未登录词的扩展识别方法[J].中文信息学报,2009,23(3):24-30. 被引量：15
8钟将,耿升华,董高峰.一种新词检测方法研究[J].数字通信,2013,40(2):1-5. 被引量：6
9周超,严馨,余正涛,洪旭东,线岩团.融合词频特性及邻接变化数的微博新词识别[J].山东大学学报（理学版）,2015,50(3):6-10. 被引量：10
10车飞.近十余年来汉语网络新词语研究述略[J].重庆工商大学学报（社会科学版）,2015,32(3):102-113. 被引量：6

二级引证文献107

1那勇,李明全.基于深度学习的中文自动分词研究[J].吉林广播电视大学学报,2019(12):58-59.
2徐艳华.新词语结构分析在自动分词中的作用[J].烟台职业学院学报,2007,13(4):57-63.
3韩艳,姚建民,朱巧明,张晶.不限领域的中文新词的识别研究[J].郑州大学学报（理学版）,2008,40(3):67-71. 被引量：2
4杜慧平,何琳.基于聚类的词表等级关系自动识别研究[J].情报科学,2008,26(11):1680-1684. 被引量：5
5韩艳,林煜熙,姚建民.基于统计信息的未登录词的扩展识别方法[J].中文信息学报,2009,23(3):24-30. 被引量：15
6都菁,熊海灵.基于论坛语料识别中文未登录词的方法[J].计算机工程与设计,2010,31(3):630-633. 被引量：10
7卜书庆,刘华梅,王广平.近年来国内知识组织研究热点综述[J].中国索引,2010,8(1):2-12. 被引量：9
8吕美香,何琳,李玥,杨敏,张越.基于N-Gram文本表达的新闻领域关键词词典构建研究[J].情报科学,2010,28(4):571-574. 被引量：3
9张雪英,张春菊,闾国年.地理命名实体分类体系的设计与应用分析[J].地球信息科学学报,2010,12(2):220-227. 被引量：23
10张运良,梁健,朱礼军,乔晓东.基于术语定义的科技知识组织系统自动丰富关键技术研究[J].现代图书情报技术,2010(7):66-71. 被引量：8

1李建廷.元搜索引擎中搜索结果的采集与处理[J].电子科技,2010,23(6):64-66. 被引量：2
2郎凤举.HTMLParser提取网页超链接研究[J].电脑编程技巧与维护,2010(2):74-75. 被引量：1
3路遥,周海亮,任女尔,林涛,薛桂香,廖文喆.基于Lotus Domino的移动办公平台的框架研究[J].计量技术,2014,0(11):64-67.
4高雪霞,邝涛.基于词典知识库的快速检索算法研究[J].德州学院学报,2011,27(4):70-73.
5杨留慧,雷航,郭文生.嵌入式浏览器解析排版并行化研究与设计[J].计算机应用,2011,31(12):3331-3333. 被引量：3
6宋凯伦,邱广华,李珊.基于Web的定向信息采集系统的设计与实现[J].福建电脑,2011,27(11):18-19. 被引量：1
7吴静,杨波,孙润元,马坤.基于虚拟化的应用服务监控软件设计[J].山东科学,2012,25(5):78-82. 被引量：1
8唐长宁,张志平,赵小兵.面向现代汉语动态流通语料库的html To xml转换工具的设计和实现[J].内蒙古师范大学学报（自然科学汉文版）,2008,37(1):63-66.
9李言实,武晓杰,张慧.网络动态语料库的论述与应用[J].新课程学习,2015,0(3):25-25.
10杨锦程,羌亮,叶涵敏.基于XML的富媒体发布流程的优化及比较[J].上海电力学院学报,2009,25(2):173-175.

计算机应用

2004年第7期

浏览历史

内容加载中请稍等...

基于语料库和网络的新词自动识别被引量：11

参考文献12

二级参考文献16

共引文献111

同被引文献172

引证文献11

二级引证文献107

相关作者

相关机构

相关主题

浏览历史

基于语料库和网络的新词自动识别 被引量：11

参考文献12

二级参考文献16

共引文献111

同被引文献172

引证文献11

二级引证文献107

相关作者

相关机构

相关主题

浏览历史

基于语料库和网络的新词自动识别被引量：11