串频统计和词形匹配相结合的汉语自动分词系统被引量：64

An Chinese Word Automatic Segmentation System Based on String Frequency Statistics Combined with Word Matching

下载PDF

导出

摘要本文介绍了一种汉语自动分词软件系统，该系统对原文进行三遍扫描：第一遍，利用切分标记将文本切分成汉字短串的序列；第二遍，根据各短串的每个子串在上下文中的频度计算其权值，权值大的子串视为候选词；第三遍，利用候选词集和一部常用词词典对汉字短串进行切分。实验表明，该分词系统的分词精度在１．５％左右，能够识别大部分生词。 This paper presents a software system on Chinese automatic word segmentation.The original text is scanned three times:first,the text is cut into short Chinese character string sequence by cut marks;second,every short sting is weighted by its frequency in context,and the short strings weighted heavy are regarded as candidate words;third,short strings are segmented by candidate word set and everyday words.Experiments results shows that the segmentation precision of this word segmentation system is aboue 1.5%,and a large part of new words can be recognized correctly.This system is very suitable to document retrieval and other areas.

作者刘挺吴岩王开铸

机构地区哈尔滨工业大学计算机系

出处《中文信息学报》 CSCD 北大核心 1998年第1期17-25,共9页 Journal of Chinese Information Processing

关键词中文信息处理自动分词汉语串频统计词形匹配 hinese Information Processing, Automatic Word Segmentation, Software System

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1王晓龙,王开铸,李仲荣,白小华.最少分词问题及其解法[J].科学通报,1989,34(13):1030-1032. 被引量：25
2黄昌宁，语言信息处理专论，1996年
3Li Junjie，J Harbin Inst Technol，1995年，2卷，2期
4何克抗，中文信息学报，1995年，5卷，2期，1,28页
5李俊杰，博士学位论文，1995年
6刘源，信息处理用现代汉语分词规范及自动分词方法，1994年
7姚天顺，中文信息学报，1990年，4卷，1期
8刘源，现代汉语常用词词频词典，1990年

二级参考文献4

1梁南元，中文信息学报，1987年，2卷，2期，45页
2刘源，中文信息学报，1986年，1卷，1期，20页
3关英春，计算机研究与发展，1985年，22卷，12期，5页
4管纪文，中文信息处理国际会议论文集.2，1983年

共引文献24

1郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
2孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
3杨春花,万建成,姜合.一个并行分词体系结构模型[J].计算机工程与应用,2004,40(33):89-91.
4杨春花,张洁,胡芳立.一个书面汉语词库系统的设计与实现[J].山东轻工业学院学报（自然科学版）,2006,20(2):29-34.
5王晓龙,王幼龙.语句级汉字输入技术[J].中文信息学报,1996,10(4):51-59. 被引量：13
6刘政怡,吴建国,刘慧婷.音节切分歧义方法研究[J].计算机技术与发展,2008,18(8):35-38. 被引量：1
7刘政怡,樊庆林,吴建国,李炜.基于输入法的通用存储结构[J].计算机工程与设计,2008,29(17):4554-4558.
8刘汉兴,朱梅阶,刘财兴,林旭东.基于词图的最大概率分词方法[J].计算机工程与设计,2008,29(24):6370-6372.
9王轩,王晓龙.大规模文本计算机音字相互转换技术的研究[J].计算机研究与发展,1998,35(5):417-421. 被引量：4
10江耿豪.基于FAQ的自动答疑系统的设计与实现[J].计算机时代,2009(12):39-41. 被引量：4

同被引文献378

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2郑耿忠.基于范例推理的智能答疑的研究与实现[J].微计算机信息,2008,24(12):273-275. 被引量：4
3彭波.搜索引擎的混合索引技术[J].计算机工程与应用,2004,40(22):16-18. 被引量：6
4孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
5陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
6石冰,郑燕峰.信息检索中的数据挖掘技术[J].情报学报,1999,18(S1):108-111. 被引量：26
7朱学锋,俞士汶,王惠.现代汉语五万词语归类的实践[J].语言文字应用,1997(4):89-95. 被引量：8
8黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
9孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
10黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6

引证文献64

1周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
2孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
3张雷生 ,万绍俊 ,许鹏文 .简单中文自动摘要系统研究[J].装备指挥技术学院学报,2004,15(3):105-109. 被引量：1
4李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：91
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：14
7季永华,许华虎,沈敏,万杰.自动答疑系统的研究与实现[J].计算机工程与应用,2005,41(14):224-225. 被引量：15
8陈耀东,王挺.基于有向图的双向匹配分词算法及实现[J].计算机应用,2005,25(6):1442-1444. 被引量：7
9孙霞,郑庆华,王朝静,张素娟.一种基于生语料的领域词典生成方法[J].小型微型计算机系统,2005,26(6):1088-1092. 被引量：11
10赵成龙,薛欣.基于Web的智能答疑系统的设计与实现[J].计算机工程与科学,2005,27(8):31-34. 被引量：13

二级引证文献747

1赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：28
2张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：9
3李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
4俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：14
5吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：8
6马钰淇.论警务工作的当代内核——基于《人民警察法》(修订草案稿)词频统计与分析[J].河南警察学院学报,2021(1):119-128.
7苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：12
8馬海麗,王曦.古籍數字化中計算機自然語言處理應用現狀分析[J].古籍研究,2020(2):322-328. 被引量：2
9张泉,曾国荪,王伟,孙明军,谷华楠.基于改进的模糊C-均值聚类的信任文摘[J].计算机研究与发展,2008,45(z1):268-273. 被引量：2
10尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9

1沈静.基于串频统计和词形匹配的分词系统[J].中国高新技术企业,2008(13):111-112.
2蔡荣彦.面向未登录领域词切分的中文分词技术研究[J].信息系统工程,2013,26(11):133-136. 被引量：1
3尹锋.基于神经网络的汉语自动分词系统的设计与分析[J].情报学报,1998,17(1):41-50. 被引量：30
4袁琳琳,陈红平.汉语自动分词系统的设计与实现[J].信息与电脑（理论版）,2014,0(7):166-168.
5王彩荣,李晓毅,黄玉基.汉语自动分词系统的评价[J].微处理机,2003,24(5):28-30. 被引量：1
6何维,王宇.基于句子的文本表示及中文文本分类研究[J].情报学报,2009,28(6):839-843. 被引量：3
7唐涛,周俏丽,张桂平.统计与规则相结合的术语抽取[J].沈阳航空航天大学学报,2011,28(5):71-74. 被引量：7
8骆正清,陈增武,王泽兵,胡上序.汉语自动分词研究综述[J].浙江大学学报（自然科学版）,1997,31(3):306-312. 被引量：16
9Insuk Park Hanhoon Kang Seong Joon Yoo.LSA Based Classification of Advertising Spam Reviews[J].Computer Technology and Application,2011,2(12):998-1006.
10李正伟.汉语分词与词典自学习系统[J].内蒙古煤炭经济,2001(5):22-24.

中文信息学报

1998年第1期

浏览历史

内容加载中请稍等...

串频统计和词形匹配相结合的汉语自动分词系统被引量：64

参考文献8

二级参考文献4

共引文献24

同被引文献378

引证文献64

二级引证文献747

相关作者

相关机构

相关主题

浏览历史

串频统计和词形匹配相结合的汉语自动分词系统 被引量：64

参考文献8

二级参考文献4

共引文献24

同被引文献378

引证文献64

二级引证文献747

相关作者

相关机构

相关主题

浏览历史

串频统计和词形匹配相结合的汉语自动分词系统被引量：64