不限领域的中文新词的识别研究被引量：2

Study on Chinese OOV Identification Without Domain Restriction

下载PDF

导出

摘要新词识别是中文信息处理领域中的一个难点,也是自然语言处理、信息检索和机器翻译等领域的一项基础研究.根据新词特点提出不限领域的基于概率统计技术和规则方法相结合的概念抽取方法,比较了规则和统计结合的方法与纯统计的新词识别方法,通过增加权重设置很好地结合了两种方案. Identification of Chinese OOV （unknown words） is a problem of Chinese information processing. And it is also a basic research in NLP, IR and MT. The method based on statistic techniques and rules is put forward for new words discovery. Also, the method based on statistic techniques and rules is compared with the method based on statistic techniques only. Weight setting helps to combine the two schemes smoothly.

作者韩艳姚建民朱巧明张晶

机构地区苏州大学计算机科学与技术学院华南理工大学计算机学院

出处《郑州大学学报（理学版）》 CAS 2008年第3期67-71,共5页 Journal of Zhengzhou University:Natural Science Edition

基金江苏省自然科学基金资助项目,编号BK2006539 江苏省高校自然科学基础研究项目,编号06KJB520095

关键词新词检测平均互信息频度比权重设置 new word detection average MI（mutual information） frequency ratio weight setting

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
2郑家恒,李文花.基于构词法的网络新词自动识别初探[J].山西大学学报（自然科学版）,2002,25(2):115-119. 被引量：56
3贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
4Wu Andi, Jiang Zixin. Statistically-enhanced new word identification in a rule-based Chinese systemiC]//The 2nd Chinese Lanauaee Processing Workshop. Hong Kong, 2000.
5Peng Fuchun, Feng Fangfang, McCallum A. Chinese segmentation and new word detection using conditional random fields[C]//COLING 2004. Geneva, Switzerland, 2004.
6刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
7施水才,俞鸿魁,吕学强,李渝勤.基于大规模语料的新词语识别方法[J].山东大学学报（理学版）,2006,41(3):89-91. 被引量：5
8周蕾,朱巧明.基于统计和规则的未登录词识别方法研究[J].计算机工程,2007,33(8):196-198. 被引量：21

二级参考文献86

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2张普.关于大规模真实文本语料库的几点理论思考[J].语言文字应用,1999(1):35-44. 被引量：48
3陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
4孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
5黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
6刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
7董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
8孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
9苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
10温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19

共引文献204

1孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
2李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
3周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
4张泉,曾国荪,王伟,孙明军,谷华楠.基于改进的模糊C-均值聚类的信任文摘[J].计算机研究与发展,2008,45(z1):268-273. 被引量：2
5郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
6王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
7徐艳华.新词语结构分析在自动分词中的作用[J].烟台职业学院学报,2007,13(4):57-63.
8洪虹,李波.汉语自动分词研究进展[J].魅力中国,2009,0(22):114-114.
9陈小荷.中文信息处理概述[J].南京师范大学文学院学报,2002(1):171-176. 被引量：8
10黄建中,王肖雷.Katz平滑算法在中文分词系统中的应用[J].计算机工程,2004,30(B12):371-372. 被引量：5

同被引文献23

1邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
2贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
3崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
4施水才,俞鸿魁,吕学强,李渝勤.基于大规模语料的新词语识别方法[J].山东大学学报（理学版）,2006,41(3):89-91. 被引量：5
5吕学强,黄河,李渝勤,施水才.BBS中文新词语自动挖掘[J].现代图书情报技术,2007(1):37-39. 被引量：2
6贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24
7吕红良.基于大规模语料库的中文新词识别[J].大连理工大学学报,2008(7) :49-53.
8吴春颖,王士同,蔡崇超.一种基于新词发现的Web文本表示方法[J].计算机应用,2008,28(3):764-767. 被引量：4
9张海军,史树敏,朱朝勇,黄河燕.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10. 被引量：39
10林自芳,蒋秀凤.基于词内部模式的新词识别[J].计算机与现代化,2010(11):162-164. 被引量：17

引证文献2

1黄轩,李熔烽.博客语料的新词发现方法[J].现代电子技术,2013,36(2):144-146. 被引量：17
2李淑平.中文新词识别研究概述[J].科技资讯,2016,14(29):145-146.

二级引证文献17

1霍帅,张敏,刘奕群,马少平.基于微博内容的新词发现方法[J].模式识别与人工智能,2014,27(2):141-145. 被引量：25
2王琳琳.规则与统计相结合的中文新词识别研究[J].嘉兴学院学报,2014,26(6):124-130. 被引量：4
3唐波,陈光,王星雅,王非,陈小慧.微博新词发现及情感倾向判断分析[J].山东大学学报（理学版）,2015,50(1):20-25. 被引量：8
4郝晓玲,茅嘉惠,于秀艳.微博热词抽取及话题发现研究[J].情报杂志,2015,34(6):109-113. 被引量：10
5李文坤,张仰森,陈若愚.基于词内部结合度和边界自由度的新词发现[J].计算机应用研究,2015,32(8):2302-2304. 被引量：35
6雷一鸣,刘勇,霍华.面向网络语言基于微博语料的新词发现方法[J].计算机工程与设计,2017,38(3):789-794. 被引量：11
7符贤哲,刘胜全,刘艳,郭竹为,赵美玲.基于生存法则的稳定新词识别方法的研究[J].新疆大学学报（自然科学版）,2018,35(1):73-79. 被引量：1
8闻永毅,王治梅,杨婷.中医文献语料库自动分词中的新词发现研究[J].西部中医药,2018,31(9):71-74.
9李淑平.中文新词识别研究概述[J].科技资讯,2016,14(29):145-146.
10陈秋瑗,程光,李迪,张建.机械设计领域的命名实体识别研究[J].计算机工程与应用,2017,53(20):100-104. 被引量：5

1王琳琳.规则与统计相结合的中文新词识别研究[J].嘉兴学院学报,2014,26(6):124-130. 被引量：4
2姜祖新,张德贤,张苗,李军军.基于新型文档频的平均互信息改进研究[J].软件导刊,2012,11(5):138-139.
3李雪伟,吕学强,刘克会.扩展搜索日志上下文的新词识别[J].现代图书情报技术,2014(11):59-65.
4张海军,李勇,闫琪琪.一种基于海量语料的网络热点新词识别方法[J].计算机工程与应用,2015,51(5):208-213. 被引量：6
5陈俊杰,侯宏旭,杨玲亭,高静.一种利用Helmholtz原理的中文新词识别方法[J].内蒙古农业大学学报（自然科学版）,2015,36(1):139-142. 被引量：1
6张小峰,张志旺,逄珊.基于通信系统的决策树构造算法[J].山东大学学报（工学版）,2011,41(4):79-84. 被引量：1
7周靖.平均互信息和类别区分性修剪规则的KNN算法[J].计算机应用,2013,33(2):558-562.
8张海军,栾静,李勇,齐向伟.基于统计学习框架的中文新词检测方法[J].计算机科学,2012,39(2):232-235. 被引量：10
9钟将,耿升华,董高峰.一种新词检测方法研究[J].数字通信,2013,40(2):1-5. 被引量：6
10郭伟,陈蓉,周伟,熊伟,于中华.基于延迟决策和斜率的新词识别方法[J].四川大学学报（自然科学版）,2007,44(3):517-520. 被引量：3

郑州大学学报（理学版）

2008年第3期

浏览历史

内容加载中请稍等...

不限领域的中文新词的识别研究被引量：2

参考文献8

二级参考文献86

共引文献204

同被引文献23

引证文献2

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

不限领域的中文新词的识别研究 被引量：2

参考文献8

二级参考文献86

共引文献204

同被引文献23

引证文献2

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

不限领域的中文新词的识别研究被引量：2