汉语未登录词识别现状及一种新识别方法介绍被引量：3

A SURVEY ON IDENTIFICATION OF UNKNOWN CHINESE WORD AND INTRODUCTION TO A NEW APPROACH

下载PDF

导出

摘要未登录词的识别对于各种汉语处理系统不仅有直接的实用意义,而且起到基础性的作用。在大规模中文文本的自动分词中,未被识别的未登录词是造成分词错误的一个重要原因,也成为许多自动分词系统走向应用的瓶颈。首先对未登录词的研究现状及现有方法做了一个综合的介绍,分析了目前方案的利弊。在此基础上提出了一个基于框架结构的未登录词专有名词识别方法。 The identification of Chinese new word not only does great signification to different Chinese process systems, but also plays a foundational role. In Chinese word segmentation of large-scale text, unidentified new words are primary factor accounting for the errors and a bottleneck for the application of automatic segmentation, A survey of Chinese unknown word identification is presented, and the advantages and disadvantages of popular approaches are discussed. Based upon that, a frame structure based approach is proposed to discover proper noun.

作者王蕾杨季文

机构地区苏州卫生职业技术学院苏州大学计算机科学与技术学院

出处《计算机应用与软件》 CSCD 北大核心 2007年第8期213-215,共3页 Computer Applications and Software

关键词专有名词识别属性标注错误驱动规则和实例 Proper noun recognition Attribute tagging Error-driving Rules and instance

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1季姮,罗振声.基于统计和规则的中文姓名自动辨识[J].语言文字应用,2001(1):14-18. 被引量：13
2张华平,刘群.基于角色标注的中国人名自动识别研究[J].计算机学报,2004,27(1):85-91. 被引量：101
3张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
4郑家恒,李鑫,谭红叶.基于语料库的中文姓名识别方法研究[J].中文信息学报,2000,14(1):7-12. 被引量：43
5刘秉伟,黄萱菁,郭以昆,吴立德.基于统计方法的中文姓名识别[J].中文信息学报,2000,14(3):16-24. 被引量：48
6黄德根,杨元生,王省,张艳丽,钟万勰.基于统计方法的中文姓名识别[J].中文信息学报,2001,15(2):31-37. 被引量：34
7黄德根,岳广玲,杨元生.基于统计的中文地名识别[J].中文信息学报,2003,17(2):36-41. 被引量：49
8孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
9谭红叶,郑家恒,刘开瑛.中国地名自动识别系统的设计与实现[J].计算机工程,2002,28(8):128-129. 被引量：16
10张辉,徐健.中国组织机构名自动识别系统的设计与实现[J].电脑开发与应用,2002,15(1):5-6. 被引量：7

二级参考文献81

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
4孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
5郑家恒,刘开瑛.汉语姓名自动辨识初探[J].语言文字应用,1994(2):65-68. 被引量：4
6孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
7吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
8黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
9孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
10谭红叶郑家恒等.中国地名的自动识别方法研究.计算语言学文集[M].北京:清华大学出版社,1999..

共引文献328

1成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
2宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
3周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
4王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
5钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
6张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
7杨霞,黄陈英.基于HMM的中文姓名识别方法研究[J].硅谷,2009,2(3).
8郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
9陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
10黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1

同被引文献32

1张瑞霞,肖汉.基于知网的词图构造[J].华北水利水电学院学报,2008(3):53-56. 被引量：6
2孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
4熊海灵,伍胜,余建桥,李航.一种基于RPUC的Web文档索引库的更新算法[J].计算机科学,2004,31(8):95-96. 被引量：1
5周蕾,朱巧明.基于统计和规则的未登录词识别方法研究[J].计算机工程,2007,33(8):196-198. 被引量：21
6董梅,胡学钢.基于多特征选择的中文文本分类[J].计算机技术与发展,2007,17(7):117-119. 被引量：11
7Zhang Mao-yuan, Lu Zheng-ding, Zou Chun-yan. A Chinese word segmentation based on language situation in processing ambiguous words[J].Information Sciences,2004(162):275-285.
8SPROAT R, SHIH C L.A statistical method for finding word boundaries in Chinese text[J]. Computer Processing of Chinese and Oriental Languages, 1993,4(4):336-249.
9Hong Chin-Ming,Chen Chih-Ming,Chiu Chao-Yang.Automatic extraction of new words based on Google news corpora[J].An International Journal Expert Systems with Applications,2009,36 (2):3641-3651.
10FOO CHUBERT, Li Hui.Chinese word segmentation and its effect on information retrieval [J]. Information Processing and Management,2004,40:161 - 190.

引证文献3

1都菁,熊海灵.基于论坛语料识别中文未登录词的方法[J].计算机工程与设计,2010,31(3):630-633. 被引量：10
2朱颖.浅谈HMM在词性标注中的应用[J].电脑开发与应用,2011,24(3):52-55. 被引量：3
3张瑞霞,杨国增,闫新庆.基于知网的汉语普通未登录词语义分析模型[J].计算机应用与软件,2012,29(8):126-130. 被引量：4

二级引证文献17

1徐坤,曹锦丹.基于领域文献的未登录词识别方法研究[J].情报杂志,2012,31(1):172-174. 被引量：1
2张小燕,宿建军,薛化建,王磊.维吾尔语语音识别语料库中的OOV研究[J].计算机工程与设计,2012,33(2):772-776. 被引量：4
3段宇锋,鞠菲.基于N-Gram的专业领域中文新词识别研究[J].现代图书情报技术,2012(2):41-47. 被引量：10
4郑阳,莫建文.基于专业术语提取的中文分词方法[J].大众科技,2012,14(4):20-23. 被引量：1
5张瑞霞,杨国增,闫新庆.基于知网的汉语普通未登录词语义分析模型[J].计算机应用与软件,2012,29(8):126-130. 被引量：4
6周蕾,朱巧明.词结合型未登录词识别方法研究[J].常熟理工学院学报,2012,26(4):110-114.
7董跃华,邓文龙.基于BP-HMM的词性标注方法的研究[J].计算机工程与设计,2014,35(4):1424-1428. 被引量：1
8齐富民,谢晓尧,景凤宣.SVM词库智能更新技术在搜索分类中的应用[J].计算机工程与设计,2014,35(6):2017-2023. 被引量：1
9于童,刘淑芬.构建单字词表识别未登录词的方法[J].吉林大学学报（理学版）,2015,53(2):307-310. 被引量：2
10方康,韩立新.基于HMM的加权Textrank单文档的关键词抽取算法[J].信息技术,2015,39(4):114-116. 被引量：12

1王蕾,李培峰,朱巧明,杨季文.一种基于框架结构的专有名词自动识别方法[J].计算机工程与科学,2007,29(7):141-144.
2朱丽丽,郑家恒.基于小句相似度计算的专有名词识别[J].通讯和计算机（中英文版）,2006,3(6):18-22. 被引量：1
3刘开英,郑家恒.歧义切分与专有名词识别软件研究[J].语言文字应用,2000(1):10-13. 被引量：1
4叶进军,闵华松,陈友东,韩美华.数控系统智能故障诊断系统的研究[J].机床与液压,2011,39(13):141-144. 被引量：4
5郗国庆,巴文燕,郭炜,刘辰炯.Mapgis在绘制钻孔柱状图中的应用[J].化工矿产地质,2013,35(2):100-104. 被引量：4
6牛晓妍.基于最大熵的汉语人名识别方法研究[J].福建电脑,2008,24(4):72-73.
7陈萱华,李学亚.基于元数据的教学资源库构建研究[J].公安海警高等专科学校学报,2010(4):17-18.
8张引,赵小敏,陈庆章.计算机病毒数据库及其信息管理平台的设计与实现[J].计算机工程与应用,2005,41(7):130-131. 被引量：2
9李成城,赵述芳,刘建毅,钟义信.基于动态规划算法的专有名词切分[J].计算机应用研究,2005,22(7):78-80. 被引量：2
10赵志靖,周静,冯锐,齐丙辰.智能人机交互中自动分词技术的实现[J].扬州大学学报（自然科学版）,2005,8(3):58-61. 被引量：3

计算机应用与软件

2007年第8期

浏览历史

内容加载中请稍等...

汉语未登录词识别现状及一种新识别方法介绍被引量：3

参考文献10

二级参考文献81

共引文献328

同被引文献32

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

汉语未登录词识别现状及一种新识别方法介绍 被引量：3

参考文献10

二级参考文献81

共引文献328

同被引文献32

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

汉语未登录词识别现状及一种新识别方法介绍被引量：3