基于规则、串频统计和上下文关系的现代汉语分词系统的实现被引量：2

Implementation of a Modern Chinese Character Segmentation System Base On Rule,String Frequency Statistics and Context Analysis

下载PDF

导出

摘要介绍了一种集合了规则、串频统计和中文上下文关系分析的现代汉语分词系统.系统对原文进行三次扫描,首先将原文读入内存,利用规则将原文变成若干个串,构成语段十字链表;然后对每个串中的子串在上下文中重复出现的次数进行统计,把根据统计结果分析出的最有可能是词的子串作为临时词;最后利用中文语法的上下文关系并结合词典对原文进行分词处理.系统对未登录词的分词有很好的效果. A modern Chinese character segmentation system based on rule, statistics and context analysis is described. The system scans the article 3 times. At the first time,it reads the article into memory and then divides it into phases and makes it into intercrossing link by using rules. At the second time,it counts the times that the strings appear. At the last time,with the help of large amount of statistical data and the grammar of the Chinese,it segments Chinese character. It is shown that the system has good performance on the unregistered words.

作者潘大志成琥黄青松

机构地区西华师范大学数学与信息学院昆明理工大学信息与自动化学院

出处《内蒙古师范大学学报（自然科学汉文版）》 CAS 2008年第1期71-74,共4页 Journal of Inner Mongolia Normal University(Natural Science Edition)

基金四川省教育厅重点科研基金资助项目(2003A105) 云南省计算机技术应用重点实验室开放基金资助项目

关键词中文分词未登录词现代汉语自动分词系统 Chinese segmentation unknown word modern Chinese character segmentation system

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1木小小.中文搜索引擎技术揭密:中文分词[EB/OL].(2005-01-13)[2006-12-18].http://www.fullsearcher.com/n2004911134640735.asp.
2刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报,1998,12(1):17-25. 被引量：65
3潘大志宋晓丽黄青松.自然语言接口中分词系统的实现.云南大学学报：自然科学版,2002,24(6):162-164.
4娄珽,宋柔,李卫亮,罗智勇.现代汉语分词系统通用接口设计与实现[J].中文信息学报,2001,15(5):1-7. 被引量：6

二级参考文献10

1孙茂松.清华大学计算机系接受汉语语言学国内访问学者及科研进修人员[J].语言文字应用,1999(4):11-11. 被引量：1
2宋柔.关于分词规范的探讨[J].语言文字应用,1997(3):113-114. 被引量：12
3黄昌宁，语言信息处理专论，1996年
4Li Junjie，J Harbin Inst Technol，1995年，2卷，2期
5何克抗，中文信息学报，1995年，5卷，2期，1,28页
6李俊杰，博士学位论文，1995年
7刘源，信息处理用现代汉语分词规范及自动分词方法，1994年
8姚天顺，中文信息学报，1990年，4卷，1期
9刘源，现代汉语常用词词频词典，1990年
10王晓龙,王开铸,李仲荣,白小华.最少分词问题及其解法[J].科学通报,1989,34(13):1030-1032. 被引量：25

共引文献68

1周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
2孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
3张雷生 ,万绍俊 ,许鹏文 .简单中文自动摘要系统研究[J].装备指挥技术学院学报,2004,15(3):105-109. 被引量：1
4李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：15
7季永华,许华虎,沈敏,万杰.自动答疑系统的研究与实现[J].计算机工程与应用,2005,41(14):224-225. 被引量：15
8陈耀东,王挺.基于有向图的双向匹配分词算法及实现[J].计算机应用,2005,25(6):1442-1444. 被引量：7
9孙霞,郑庆华,王朝静,张素娟.一种基于生语料的领域词典生成方法[J].小型微型计算机系统,2005,26(6):1088-1092. 被引量：11
10赵成龙,薛欣.基于Web的智能答疑系统的设计与实现[J].计算机工程与科学,2005,27(8):31-34. 被引量：13

同被引文献16

1李宏乔,樊孝忠.汉语文本中特殊符号串的自动识别技术[J].计算机工程,2004,30(12):114-115. 被引量：2
2孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
3梁颖红,赵铁军,刘博,杨沐昀.基于关联度评价的中心词扩展的英文文本语块识别[J].计算机研究与发展,2006,43(1):153-158. 被引量：3
4陈永府,杨小献,黄正东,陈立平.基于规则的数据收集研究[J].计算机工程与设计,2007,28(1):158-161. 被引量：4
5梁颖红,赵铁军,于浩,姚健民,徐冰.基于改进K-均值聚类的汉语语块识别[J].哈尔滨工业大学学报,2007,39(7):1106-1109. 被引量：4
6ABNEY S P. Parsing by chunks [ M]//BERWICK R, ABNEY S, TENNY C, et al. Principle-based parsing. Dordercht: Kluwer Academic Publishers, 1991:257- 278.
7SANG E F T K, BUCHHOLZ S. Introduction to the CoNLL-2000 shared task: chunking[ C]//Proc of the 2nd Workshop on Learning Language in Logic. Morristown: Association for Computational Linguistics, 2000 : 127-132.
8ARGAMON S, DAGAN I, KRYMOLOWSKI Y. A memory-based approach to learning shallow natural language patterns [ C ]//Proc of the 36th Annua Meeting of the Association for Computational Linguistics. Morristown: Association for Computational Linguistics, 1998: 67-73.
9ZHANG Tong, DAMERAU F, JOHNSON D. Text chunking based on a generalization of winnow[ J ]. Journal of Machine Learning Research, 2002,2:615-637.
10ABNEY S. Partial parsing via finite-state cascades[ J]. Natural Language Engineering, 1996,2(4):337-344.

引证文献2

1XU Shiyong,PENG Danling,JIN Zhen,LIU Hongyan,YANG Jie.Personality and neurochemicals in the human brain:A preliminary study using^(1)H MRS[J].Chinese Science Bulletin,2005,50(20):2318-2322.
2郭凯红,李文立.基于规则的大规模试卷文本语块识别方法的研究[J].计算机应用研究,2009,26(4):1391-1393. 被引量：4

二级引证文献4

1刘智浓.航空兵部队航理智能组卷系统设计[J].计算机工程与设计,2010,31(19):4329-4331. 被引量：2
2王兴,朱定真,苗春生.基于规则引擎的多元大气信息数据质量检查方法[J].南京信息工程大学学报（自然科学版）,2011,3(3):238-243. 被引量：4
3覃延,李冬梅,陈志泊.基于支持向量机的大规模试卷识别方法[J].西南大学学报（自然科学版）,2014,36(6):180-185. 被引量：1
4季峰.火灾事故文本中的信息抽取[J].青海师范大学学报（自然科学版）,2020,36(3):14-21.

1蔡荣彦.面向未登录领域词切分的中文分词技术研究[J].信息系统工程,2013,26(11):133-136. 被引量：1
2沈静.基于串频统计和词形匹配的分词系统[J].中国高新技术企业,2008(13):111-112.
3李正伟.汉语分词与词典自学习系统[J].内蒙古煤炭经济,2001(5):22-24.
4姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[J].情报学报,2006,25(1):74-79. 被引量：14
5刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报,1998,12(1):17-25. 被引量：65
6胡阿沛,张静,刘俊丽.基于改进C-value方法的中文术语抽取[J].现代图书情报技术,2013(2):24-29. 被引量：23
7姜赢,曾杰,林启红,郭颖珊,廖文生.LanguageTool中文语法校对XML规则定制方法[J].图书情报工作,2014,58(5):86-92. 被引量：5
8柯修,王惠临,于薇.基于串频统计的汉语和孟加拉语专有名词识别[J].现代图书情报技术,2011(12):31-38. 被引量：2
9于娟,党延忠.结合词性分析与串频统计的词语提取方法[J].系统工程理论与实践,2010,30(1):105-111. 被引量：19
10夏霙,刘功申,李翔.基于标引信息的网络新概念发现算法[J].微型电脑应用,2007,23(1):8-10.

内蒙古师范大学学报（自然科学汉文版）

2008年第1期

浏览历史

内容加载中请稍等...

基于规则、串频统计和上下文关系的现代汉语分词系统的实现被引量：2

参考文献4

二级参考文献10

共引文献68

同被引文献16

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于规则、串频统计和上下文关系的现代汉语分词系统的实现 被引量：2

参考文献4

二级参考文献10

共引文献68

同被引文献16

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于规则、串频统计和上下文关系的现代汉语分词系统的实现被引量：2