基于字分类的中文分词的研究被引量：10

Chinese Word Segmentation Research Based on Classification of Words

下载PDF

导出

摘要中文分词是自然语言处理的前提和基础,利用基于字分类的方法实现中文分词,就是将中文分词想象成字分类的过程。把字放入向前向后相邻两个字这样的一个语境下根据互信息统计将字分成四种类别,即跟它前面结合的字,跟它后面结合的字,跟它前后结合的字,独立的字。在分词的过程中采用了t-测试算法,一定程度上解决了歧义问题。以人民日报为语料库进行训练和测试,实验结果表明,该方法能够很好地处理歧义问题,分词的正确率达到了90.3%,有了明显的提高。 Chinese word segmentation is the premise and foundation of natural language processing,which is realized by mutual statistics principles.Imagining Chinese word segmentation as the process of characters classification and putting a character into certain context,the category of the character can be identified.Based on mutual statistics principles,classified characters into four categories： a character connects with the left one,a character connects with the right one,a character in the middle of the other two and an independent character.Applying to t-test algorithm in the process of segmentation,some ambiguity problems are solved.Taking People Daily as the corpus of training and testing,this experiment shows that ambiguity problems are better solved and the accuracy of word segmentation reached 90.3% and improved significantly.

作者韩月阳邓世昆贾时银李远方

机构地区云南大学信息学院

出处《计算机技术与发展》 2011年第7期29-31,35,共4页 Computer Technology and Development

基金云南省自然科学基金(2007F174M) 云南大学研究生科研课题资助项目(ynny200928)

关键词中文分词互信息 t-测试分类 Chinese word segmentation mutual information t-test categorization

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1罗桂琼,费洪晓,戴弋.基于反序词典的中文分词技术研究[J].计算机技术与发展,2008,18(1):80-83. 被引量：18
2赵姝,张燕平,张媛,陈传明.基于交叉覆盖算法的入侵检测[J].计算机工程与应用,2005,41(1):141-143. 被引量：7
3刘慧婷,倪志伟,李建洋,刘政怡.基于交叉覆盖算法的时间序列模式匹配[J].计算机应用,2007,27(2):425-427. 被引量：8
4刘政怡,龚建成,吴建国.基于交叉覆盖算法的中文文本分类[J].计算机工程,2006,32(19):183-184. 被引量：8
5吴涛,张铃.基于Rough集的交叉覆盖算法设计[J].计算机科学,2003,30(3):57-59. 被引量：2
6李新福,赵杰,梁巍.基于互信息的宋史语料库词表的提取[J].河北大学学报（自然科学版）,2006,26(5):557-560. 被引量：4
7陈平,刘晓霞,李亚军.基于字典和统计的分词方法[J].计算机工程与应用,2008,44(10):144-146. 被引量：13
8岳涛.汉语自动分词技术的最新发展及其在信息检索中的应用[J].情报杂志,2005,24(4):55-57. 被引量：6
9费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
10Huang C,Yo T,Simon P,et al.Realistic and Robust Model for Chinese Word Segmentation[C]//Proceedings of ROCL IN G.[s.l.]:[s.n.],2008.

二级参考文献52

1文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
2钱铁云,王元珍,冯小年.结合类频率的关联中文文本分类[J].中文信息学报,2004,18(6):30-36. 被引量：12
3文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
4周瑛,刘政怡.覆盖算法在文本分类中的应用[J].情报理论与实践,2006,29(1):115-117. 被引量：7
5陈健,阔永红,李建东,汪洋.基于BP网络的通信信号分类方法的进一步研究[J].电路与系统学报,2006,11(2):136-140. 被引量：3
6黄水清,程冲.基于既定词表的自适应汉语分词技术研究[J].现代图书情报技术,2006(5):13-17. 被引量：4
7王珏,苗夺谦,周育健.关于Rough Set理论与应用的综述[J].模式识别与人工智能,1996,9(4):337-344. 被引量：264
8李双龙,刘群,王成耀.基于条件随机场的汉语分词系统[J].微计算机信息,2006,22(10S):178-180. 被引量：15
9孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
10C Berrou,A Glavieux,P Thitimajshima.Near Shannon limit error-correcting coding and decodeing:Turbo codes[C].Ln:ICC1993,GENE VA, Switytland, 1993 : 1064-1070.

共引文献114

1白晓梅,张福利.校园网中文搜索引擎系统的设计[J].鞍山师范学院学报,2006,8(6):52-54. 被引量：1
2唐涛.基于文本挖掘的领域本体学习模型研究[J].图书情报工作,2010,54(S2):348-352. 被引量：3
3黄水清,程冲.基于既定词表的自适应汉语分词技术研究[J].现代图书情报技术,2006(5):13-17. 被引量：4
4孙巍.一种面向中文信息检索的汉语自动分词方法[J].现代图书情报技术,2006(7):33-36. 被引量：7
5夏天,杨瑛霞,田爱奎,张际平.学习支持系统问题理解模块的架构[J].开放教育研究,2006,12(4):80-82. 被引量：1
6康松林,施荣华.基于信息元的教学资源组织系统的设计与实现[J].电脑与信息技术,2006,14(4):20-23. 被引量：4
7杨柳,袁方,霍亮.基于渐进式丰富词典的分词方法研究[J].计算机工程与应用,2006,42(32):164-166. 被引量：1
8郭伟,陈蓉,周伟,熊伟,于中华.基于延迟决策和斜率的新词识别方法[J].四川大学学报（自然科学版）,2007,44(3):517-520. 被引量：3
9康松林,施荣华.基于信息元的教学资源组织系统设计与实现[J].计算机应用研究,2007,24(9):173-175. 被引量：4
10邓林,余刘琅,韩江洪.基于多核MIPS64芯片的综合安全网关设计与实现[J].微电子学与计算机,2008,25(2):28-31. 被引量：1

同被引文献68

1魏勇刚,张国春,常勇,袁方.基于词性分析和领域知识的Deep Web语义标注[J].郑州大学学报（理学版）,2009,41(1):52-55. 被引量：7
2张妍,许云峰,张立全.基于云计算的中文分词研究[J].河北科技大学学报,2012,33(3):266-269. 被引量：5
3段立娟.Web挖掘的敏感信息过滤模型[J].信息安全与通信保密,2007,29(1):69-71. 被引量：9
4周宁,张会平,金大卫.文本信息可视化模型研究[J].情报学报,2007,26(1):155-160. 被引量：12
5曹进军.基于PATTree的半结构化文本信息抽取范式研究[J].情报杂志,2007,26(7):55-58. 被引量：2
6周爱武,云,封军.WebH志挖掘数据预处理优化[J].计箅机技术与发展,2011,21 (01 ):42 -45.
7陈永刚,孙卉垚.互联网舆情研究[J].怙报杂志,2011,30( S1 ):85 -88.
8佟振宇.主观题自动阅卷系统的研究与实现[D].沈阳:沈阳工业大学,2009.
9Chaomei Chen. Searching for intellectual turning points: Progressive Knowledge Domain Visualization[J]. Proc. Nat. Acad. Sci., 2004,101 (Suppl.):5303-5310.
10Chaomei Chen. CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology, 2006,57(3):359-377.

引证文献10

1曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4
2田野,贾李蓉,李园白,刘静,刘丽红,李敬华,于彤,杨策,张竹绿.网络论坛中中医药信息的聚类分析研究[J].世界中医药,2012,7(6):535-536. 被引量：1
3张素智,刘婧姣.基于语义的KNN短文本分类算法研究[J].郑州轻工业学院学报（自然科学版）,2012,27(6):1-4. 被引量：4
4冯光,乔丹丹,常静怡.基于分词匹配的主观题自动评阅技术研究[J].计算机与现代化,2013(3):212-214. 被引量：4
5何恩贵,杜丙新.中文文字云图生成技术的研究及应用[J].中国电化教育,2013(8):116-120. 被引量：3
6吴晓倩,胡学钢.基于N-最短路径的中文分词技术研究[J].安徽理工大学学报（自然科学版）,2014,34(1):72-75. 被引量：5
7宇文姝丽.基于词性分析的数据流程图快速绘制方法[J].电子商务,2016,17(1):64-65. 被引量：2
8付婷,蔡宇翔,李宏发,周晟,张垚.智能电网中非结构化数据可视化技术研究[J].电网与清洁能源,2019,0(1):44-48. 被引量：9
9舒远仲,陈志燕,龚文静,聂亚兰,宋剑.基于ASP.NET技术的江铜集团培训管理信息系统的设计与实现[J].信息与电脑（理论版）,2015(1):10-11.
10郭玮.中文分词在网络信息监管系统的应用[J].信息与电脑（理论版）,2015(2):15-16.

二级引证文献32

1孙卫星.基于信息资源的医学装备论坛系统开发与运行[J].中国医学装备,2013,10(6):28-31. 被引量：5
2张素智,孙嘉彬,王威.大数据下的Web数据集成与挖掘研究[J].现代计算机（中旬刊）,2014(10):37-42.
3李湘东,曹环,丁丛,黄莉.利用《知网》和领域关键词集扩展方法的短文本分类研究[J].现代图书情报技术,2015(2):31-38. 被引量：17
4杜丙新,汪向征.初中语文写作价值取向研究[J].现代中小学教育,2015,31(1):36-40. 被引量：6
5朱晓乾,蒋丹婷,杨驰颖.社交网络安全风险分析及探讨[J].通信技术,2015,48(2):219-222. 被引量：2
6吕超镇,姬东鸿,吴飞飞.基于LDA特征扩展的短文本分类[J].计算机工程与应用,2015,51(4):123-127. 被引量：49
7李煜民,章才能.智能家居中基于数据融合的云端安全性研究[J].信息系统工程,2015,28(2):85-86.
8吕洪艳,杜鹃.基于SVM的不良文本信息识别[J].计算机系统应用,2015,24(6):183-187. 被引量：5
9李少芳.基于近似串匹配算法的评分优化设计[J].黄山学院学报,2015,17(3):11-13.
10杨小梅,黎斌.网络复杂文本的分类优化过程仿真分析[J].计算机仿真,2016,33(4):399-402.

1朱小娟,陈特放.词频统计中文分词技术的研究[J].仪器仪表用户,2007,14(3):78-79. 被引量：6
2费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
3苏志响,邵志清.基于上下文统计反馈的中文特征词抽取方法[J].情报探索,2006(12):60-61.
4徐东英,张彤.基于混合策略的双语搭配成分抽取系统的设计与实现[J].计算机工程与应用,2004,40(25):173-175. 被引量：1
5用Excel2010打印超大字[J].电脑爱好者（普及版）,2011(A01):56-57.
6三个操作系统能共用同一套字库吗？[J].软件,2005,26(7):88-88.
7罐头小人.寻找指间的快感——笔记本电脑选购之键盘篇[J].数码精品世界,2007(7):142-143.
8Panx.多系统共用字体信息小技巧[J].网络与信息,2009(11):40-41.
9长江边上.BitLocker送你一把字节锁[J].电脑爱好者,2007(9):82-82.
10雪潇.电脑,崭新的天空和村庄[J].软件,1998,19(5):43-43.

计算机技术与发展

2011年第7期

浏览历史

内容加载中请稍等...

基于字分类的中文分词的研究被引量：10

参考文献12

二级参考文献52

共引文献114

同被引文献68

引证文献10

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于字分类的中文分词的研究 被引量：10

参考文献12

二级参考文献52

共引文献114

同被引文献68

引证文献10

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于字分类的中文分词的研究被引量：10