基于标记的规则统计模型与未登录词识别算法被引量：13

A Rule-statistic Model Based on Tag and an Algorithm to Recognize Unknown Words

下载PDF

导出

摘要该文针对小型词库,提出了基于规则统计模型的消歧方法和识别未登录词的词加权算法。通过大量语料库学习获取歧义高频字,作为歧义标记,利用规则统计模型对标记的上下文信息分类处理,剩下的部分进行正向或逆向动态最大匹配,对连续单字串使用词加权算法来判断其是否为未登录多字词。经过实验测试,该系统的准确率为98.88%,召回率为98.32%。 It is prerequisite to segment words for Chinese text understanding.This paper presents a novel method to it for a small vocabulary.It uses rule-statistic models to eliminate ambiguity and uses word-weight algorithm to recognize unknown words.The characters with high frequency ambiguity are extracted firstly,then the context of the extracted characters is dealed with according to the rule -statistic model.The others are segmented by a dynamic maximum matching approach.Unknown words are identified based on word-weight algorithm from a sequence of continuous single-character words.Finally,this paper further demonstrates the segmented results using the software prototype developed by authors based on the proposed approach,with a precision rate of98.88%,a recall rate of98.32%.Thus the approach is more effective and robust.

作者苏菲王丹力戴国忠

机构地区中国科学院软件所人机交互技术与智能信息处理实验室

出处《计算机工程与应用》 CSCD 北大核心 2004年第15期43-45,91,共4页 Computer Engineering and Applications

基金国家973基础研究计划课题(编号:2002CB312103) 国家自然科学基金项目(编号:60373056) 国家自然科学基金重点项目(编号:60033020)

关键词歧义标记规则统计模型 N元语法词加权算法 ambiguity tag,rule-statistic model,n-gram,word-weight algorithm

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1许嘉璐.现状和设想——试论中文信息处理与现代汉语研究[J].中国语文,2000(6):490-496. 被引量：37
2Swen Bing,Yu Shiwen. A Graded Approach for the Efficient Resolution of Chinese Word Segmentation Ambiguities. NLPPRS ,Beijing, China, 1999
3Jin Hu Huang,David Powers. Chinese Word Segmentation based onContextual Entropy[C].In :Pacific Asia Conference on Language,Information and Computation,2003-09
4Foo S,Li H.Chinese word segmentation and its effect on information retrieval.Information Processing & Management,2002
5高山张艳徐波.基于三元统计模型的汉语分词标注一体化研究[C]..见:全国第五届计算语言学联合学术会议(JSCL2001)[C].,2001..
6孙茂松,左正平,邹嘉彦.高频最大交集型歧义切分字段在汉语自动分词中的作用[J].中文信息学报,1999,13(1):27-34. 被引量：51
7刘群.汉语词法分析和句法分析技术综述[C]..见:第一届学生计算语言学研讨会(SWCL2002)专题讲座[C].,2002..
8.87年字汇表构词率统计表[Z].,..
9Kim-Teng Lua,Kok_Wee Gan. An Application of Information Theory in Chinese Word Segmentation[J].Computer Processing of Chinese & Oriental Languages, 1994; 8 (1): 115～124
10Kim-Teng Lua. From character to word-An application of information theory[J].Computer Processing of Chinese & Oriental Languages, 1994:4(4) :304～313

二级参考文献6

1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
2段慧明,松井久仁於,徐国伟,胡国昕,俞士汶.大规模汉语标注语料库的制作与使用[J].语言文字应用,2000(2):72-77. 被引量：20
3孙茂松邹嘉彦等.汉语真实文本中的交集型切歧义.汉语计量与计算研究[M].香港城市大学语言资讯科学研究中心,1998..
4孙茂松，汉语计量与计算研究，1998年
5刘开瑛，语言文字应用，1997年，1期
6黄曾阳.HNC理论与自然语言语句的理解[J].中国基础科学,1999,0(Z1):85-90. 被引量：18

共引文献93

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
3曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
5张克亮.基于HNC理论的句法结构歧义消解[J].中文信息学报,2004,18(6):43-52. 被引量：9
6鲁川,缑瑞隆,刘钦荣.汉语句子语块序列的认知研究和交际研究[J].汉语学习,2002(2):13-23. 被引量：21
7苏菲,马翠霞,戴国忠.针对特定几何语言的句法语义一体化分析方法[J].计算机工程与设计,2004,25(10):1641-1643. 被引量：2
8马光志,李专.基于特征词的自动分词研究[J].华中科技大学学报（自然科学版）,2003,31(3):60-62. 被引量：4
9李宇明.通用语言文字规范和标准的建设——学习《中华人民共和国国家通用语言文字法》的体会[J].语言文字应用,2001(2):17-24. 被引量：42
10李晋霞.面向计算机的“V_双+N_双”结构类型研究[J].语言文字应用,2002(4):69-76. 被引量：5

同被引文献112

1田丰,牟书,戴国忠,王宏安.Post-WIMP环境下笔式交互范式的研究[J].计算机学报,2004,27(7):977-984. 被引量：29
2陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
3孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
4耿瑾,单宏浩,高秀娟,戴国忠.自然交互研究——笔式简谱编辑器的设计与实现[J].计算机工程与应用,2004,40(25):100-103. 被引量：1
5孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
7龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量：26
8贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
9朱宏一.汉语词缀的定义、范围、特点和识别——兼析《汉语水平等级标准与语法等级大纲》的词缀问题[J].语文研究,2004(4):32-37. 被引量：14
10苏菲,马翠霞,戴国忠.针对特定几何语言的句法语义一体化分析方法[J].计算机工程与设计,2004,25(10):1641-1643. 被引量：2

引证文献13

1熊金泉,刘翌,王丹力.面向少儿多通道交互技术软件系统的研究[J].江西科学,2010,28(1):64-66.
2黄水清,程冲.基于既定词表的自适应汉语分词技术研究[J].现代图书情报技术,2006(5):13-17. 被引量：4
3刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
4冯素琴,陈惠明.一种自组织的汉语组合型歧义消歧方法[J].计算机工程与设计,2007,28(3):737-739. 被引量：3
5曹艳,杜慧平,刘竟,侯汉清.基于词表和N-gram算法的新词识别实验[J].情报科学,2007,25(11):1687-1691. 被引量：7
6屈志毅,李一伟,张延堂,杨曙光,张菲菲.一种基于关键重复语义的最大熵文本分类[J].广西师范大学学报（自然科学版）,2007,25(4):204-207. 被引量：2
7冯素琴,陈惠明.一种基于搭配信息的汉语组合型消歧方法[J].山西大学学报（自然科学版）,2008,31(2):173-176.
8曹艳,杜慧平,刘竟,侯汉清.基于词表和N-gram算法的新词识别实验[J].中国索引,2008,6(1):49-54. 被引量：1
9张赢,万仲保.对专业搜索引擎中未登录词的识别研究[J].计算机技术与发展,2009,19(5):134-136. 被引量：2
10奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：104

二级引证文献151

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2杨一帆,陈文亮.旅游场景下的实体别名抽取联合模型[J].中文信息学报,2020(6):55-63. 被引量：3
3游家兴,张哲远.文以载道——文本分析研究评述与展望[J].当代会计评论,2022(2):32-59.
4王超,黄水清,杨小莉.汉语文献文外频率加权与逆文献频率加权方法的比较[J].情报理论与实践,2007,30(2):275-277. 被引量：1
5刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
6陈平,刘晓霞,李亚军.基于字典和统计的分词方法[J].计算机工程与应用,2008,44(10):144-146. 被引量：13
7张宇萌,刘传汉.一种基于逐层扫描的频繁字串快速提取算法[J].计算机科学,2008,35(5):127-130. 被引量：1
8张严虎,潘璐璐,彭子平,张靖波,于中华.基于规则挖掘和Nave Bayes方法的组合型歧义字段切分[J].计算机应用,2008,28(7):1686-1688. 被引量：5
9韩艳,姚建民,朱巧明,张晶.不限领域的中文新词的识别研究[J].郑州大学学报（理学版）,2008,40(3):67-71. 被引量：2
10刘华.面向对外汉语教学的话题聚类研究[J].外语研究,2008,25(5):55-60. 被引量：5

1仁青吉,安见才让.藏语语言模型的研究[J].信息与电脑（理论版）,2015(6). 被引量：1
2谢春发.中文智能搜索引擎的探讨[J].福建广播电视大学学报,2005(5):61-63. 被引量：1
3谢春发.中文智能搜索引擎的研究与探讨[J].河北广播电视大学学报,2005,10(4):17-19. 被引量：2
4麦合甫热提,艾山.吾买尔,麦热哈巴.艾力,吐尔根.伊布拉音,张健.基于词典和统计相结合的维吾尔语拼写检查方法[J].中文信息学报,2014,28(2):66-71. 被引量：2
5魏欧,吴健,孙玉芳,sonata.iscas.ac.cn.基于统计的汉语词性标注方法的分析与改进[J].软件学报,2000,11(4):473-480. 被引量：31
6肖涵,蒲旭.多语种文本标记系统的设计与应用[J].电脑编程技巧与维护,2008(5):25-39.
7苏菲,马翠霞,戴国忠.针对特定几何语言的句法语义一体化分析方法[J].计算机工程与设计,2004,25(10):1641-1643. 被引量：2
8许云,樊孝忠,张锋.一种不需分词的中文文本分类方法[J].北京理工大学学报,2005,25(9):778-781. 被引量：5
9刘丹,方卫国,周泓.基于贝叶斯网络的二元语法中文分词模型[J].计算机工程,2010,36(1):12-14. 被引量：8
10朱靖波,张玫杰,姚天顺.一种基于NA假设的训练数据自动构造方法[J].东北大学学报（自然科学版）,1999,20(4):366-368. 被引量：1

计算机工程与应用

2004年第15期

浏览历史

内容加载中请稍等...

基于标记的规则统计模型与未登录词识别算法被引量：13

参考文献11

二级参考文献6

共引文献93

同被引文献112

引证文献13

二级引证文献151

相关作者

相关机构

相关主题

浏览历史

基于标记的规则统计模型与未登录词识别算法 被引量：13

参考文献11

二级参考文献6

共引文献93

同被引文献112

引证文献13

二级引证文献151

相关作者

相关机构

相关主题

浏览历史

基于标记的规则统计模型与未登录词识别算法被引量：13