基于SVM的词频统计中文分词研究被引量：10

Study on Chinese word segmentation based on statistic and SVM

下载PDF

导出

摘要本文详细介绍SVM(支持向量机)在词频统计中文分词中的应用。可将输入的连续字串进行分词处理,输出分割后的汉语词串,一般为二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。选用了互信息原理进行统计。并采用SVM算法,分词的准确性与传统相比有了很大的提高,并具有一定的稳定性。 The paper introduces the application of SVM in Chinese word segmentation, which is based on statistic the frequency of the word. Through the system, continuous character bunch input can be segmented, and then the cut apart word bunch output can be got ten, the cut apart word bunch usually is two character word bunch, and one dictionary can be gotten. The dictionary stores word and the frequency that the word appears in these disposal tests. The segmentation system selects Mutual Information to statistic. Use SVMt the veracity of segmentation was better than the traditional method, and is of high stability.

作者朱小娟陈特放

机构地区中南大学信息科学与工程学院

出处《微计算机信息》北大核心 2007年第30期205-207,共3页 Control & Automation

基金国家自然科学基金资助项目(60674003)

关键词中文分词词频统计互信息支持向量机 Chinese word segmentation,Statistic the frequency of the word,Mutual Information,SVM

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1Paul N.Bennett,Susan T.Dumais,Eric Horvitz. Probabilistic Combination of Text Classifiers Using Reliability Indicators:Models and Results. SIGIR ' 02,2002,207-214.
2朱辉,杨扬,颉斌,封筠.SVM在小字符集手写体汉字识别中的应用研究[J].微计算机信息,2004,20(4):74-75. 被引量：19
3李蓉,刘少辉,叶世伟,史忠植.基于SVM和k-NN结合的汉语交集型歧义切分方法[J].中文信息学报,2001,15(6):13-18. 被引量：19
4李珩,朱靖波,姚天顺.基于SVM的中文组块分析[J].中文信息学报,2004,18(2):1-7. 被引量：50

二级参考文献9

1孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
2Yunqiang Chen, Xiang Zhou, and Thomas S. Huang,"one-class SVM for learning in image retrieval",In Proc. IEEE Int' l Conf. on Image Processing 2001, Thessaloniki, Greece
3孙茂松,左正平,邹嘉彦.高频最大交集型歧义切分字段在汉语自动分词中的作用[J].中文信息学报,1999,13(1):27-34. 被引量：51
4赵军,黄昌宁.基于转换的汉语基本名词短语识别模型[J].中文信息学报,1999,13(2):1-7. 被引量：41
5沈达阳,孙茂松.Internet中文个人信息搜索[J].中文信息学报,1999,13(2):24-32. 被引量：7
6周强,孙茂松,黄昌宁.汉语句子的组块分析体系[J].计算机学报,1999,22(11):1158-1165. 被引量：31
7李蓉,叶世伟,史忠植.SVM-KNN分类器——一种提高SVM分类精度的新方法[J].电子学报,2002,30(5):745-748. 被引量：133
8张昱琪,周强.汉语基本短语的自动识别[J].中文信息学报,2002,16(6):1-8. 被引量：41
9李珩,杨峰,朱靖波,姚天顺.基于增益的隐马尔科夫模型的文本组块分析[J].计算机科学,2004,31(2):152-154. 被引量：9

共引文献85

1付艳梅.智能答疑系统的中文分词[J].湖北工业大学学报,2009,24(1):65-67. 被引量：4
2陈晓明,周渝.汉语部分句法分析的研究和发展趋势[J].贵州大学学报（自然科学版）,2004,21(4):384-386. 被引量：2
3吴启德,吕强.一个比较不同中文分词法的软件[J].苏州大学学报（工科版）,2004,24(6):29-33.
4张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
5干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
6张锋,樊孝忠.基于最大熵模型的交集型切分歧义消解[J].北京理工大学学报,2005,25(7):590-593. 被引量：6
7田相军,罗琳.综合图像灰度熵和灰度值的人脸识别方法[J].现代电子技术,2005,28(24):46-48. 被引量：3
8刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68
9周文帅,冯速.汉语分词技术研究现状与应用展望[J].山西师范大学学报（自然科学版）,2006,20(1):25-29. 被引量：16
10林煜明,李优.基于SVM的句子组块识别[J].山东大学学报（理学版）,2006,41(3):33-36.

同被引文献101

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2叶苗,王勇,麦范金.基于改进的层叠SVM模型的入侵检测技术[J].微计算机信息,2008,24(3):78-79. 被引量：3
3段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
4于留宝,胡长军,苏林晗.基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(S3):143-145. 被引量：5
5邵良杉,王军.基于关联规则的手写体汉字识别技术[J].计算机应用,2004,24(9):37-40. 被引量：3
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
7徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
8费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
9陈立孚,周宁,李丹.基于机器学习的自动文本分类模型研究[J].现代图书情报技术,2005(10):23-27. 被引量：9
10杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16

引证文献10

1邱冰,皇甫娟.基于中文信息处理的古代汉语分词研究[J].微计算机信息,2008,24(24):100-102. 被引量：32
2李跃民,王浩,赵生慧,计成超.智能辅助教学系统中知识点切分歧义消除研究[J].计算机技术与发展,2009,19(4):220-223. 被引量：1
3王靖,徐向阳,符蓉.一种优化的用于中文分词的CRF机器学习模型[J].微计算机信息,2010,26(12):169-170. 被引量：1
4徐燕子,覃华.用核空间距离聚类约简大规模SVM训练集[J].微计算机信息,2010,26(15):197-198. 被引量：1
5刘步中,杨继刚,张曦煌.多分类SVM和RDF的生物信息元数据自动抽取[J].计算机工程与设计,2010,31(11):2659-2662.
6汪政,邵良杉.多类支持向量机分类算法—DDAG[J].计算机系统应用,2010,19(7):87-90. 被引量：3
7覃华,丁立朵,符丽锦,覃希.用核K-means聚类和半定规划SVM实现垃圾标签检测[J].计算机应用研究,2013,30(4):1179-1182.
8孔雪娜,孙红.中文微博文本采集与预处理综述[J].软件导刊,2017,16(2):186-189. 被引量：7
9张庆梅.针对舆情数据的去重算法[J].计算机系统应用,2017,26(5):16-22. 被引量：1
10庄新妍.中文文本分类系统构架设计[J].信息与电脑（理论版）,2012(1):53-54.

二级引证文献46

1包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：6
2俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
3李楚贞,余育文.中文微博数据预处理常用方法研究[J].科技经济导刊,2019,0(33):23-23. 被引量：4
4苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
5馬海麗,王曦.古籍數字化中計算機自然語言處理應用現狀分析[J].古籍研究,2020(2):322-328. 被引量：2
6徐紫云,徐雪松.从自动分词角度看先秦与现代汉语词汇区别[J].华东交通大学学报,2009,26(6):101-104. 被引量：1
7赵阳,顾磊.基于中文信息处理的古籍整理研究评述[J].图书情报工作,2010,54(3):116-119. 被引量：8
8石民,李斌,陈小荷.基于CRF的先秦汉语分词标注一体化研究[J].中文信息学报,2010,24(2):39-45. 被引量：71
9岳晓光,梁晓诚,麦范金,赵子强.基于.NET的中文分词系统设计与实现[J].微计算机信息,2010,26(12):215-216. 被引量：7
10黄旭,马凯.核空间二次蚁群聚类算法的研究[J].大众科技,2011,13(2):65-66.

1王凡秀,王自强.汉语自动分词技术研究[J].计算机与数字工程,2008,36(11):57-59. 被引量：3
2姚兴山.基于Hash算法的中文分词研究[J].现代图书情报技术,2008(3):78-81. 被引量：5
3张妍,许云峰,张立全.基于云计算的中文分词研究[J].河北科技大学学报,2012,33(3):266-269. 被引量：5
4张黎,徐蔚然.中文分词研究[J].软件,2012,33(12):103-108. 被引量：6
5张慧芳.汉语词汇分词研究——隐性分词词典在信息检索中的应用[J].商,2015,0(34):291-292.
6马光志,李专.基于特征词的自动分词研究[J].华中科技大学学报（自然科学版）,2003,31(3):60-62. 被引量：4
7魏晓宁.基于隐马尔科夫模型的中文分词研究[J].电脑知识与技术,2007(11):885-886. 被引量：13
8滕秋霞,杨金霄,方永佳.基于投票混合模型的中文地址分词研究[J].工业控制计算机,2015,28(11):105-106. 被引量：2
9李华,陈硕,练睿婷.神经网络和匹配融合的中文分词研究[J].心智与计算,2010,0(2):117-127. 被引量：5
10韩世欣,王开铸.基于短语结构文法的分词研究[J].中文信息学报,1992,6(3):48-54. 被引量：7

微计算机信息

2007年第30期

浏览历史

内容加载中请稍等...

基于SVM的词频统计中文分词研究被引量：10

参考文献4

二级参考文献9

共引文献85

同被引文献101

引证文献10

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于SVM的词频统计中文分词研究 被引量：10

参考文献4

二级参考文献9

共引文献85

同被引文献101

引证文献10

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于SVM的词频统计中文分词研究被引量：10