基于词形的汉语文本切分方法被引量：4

Word Form Based Chinese Text Segmentation Approach

下载PDF

导出

摘要本文在分析汉语分词一般模型基础上，引入词形概率、词整合系数和词形网格等概念，提出了一个基于词形的汉语文本切分模型，并实现了一个反向动态规划和正向栈解码相结合的二次扫描的汉语文本切分算法。由于引入了词形概率、词整合系数，本模型不仅反映了词形统计构词规律，而且在一定程度上体现了长词优先的切分原则。初步测试表明，本方法的切分准确率和消歧率分别可达９９６％和９３４４％。 In this paper,word form probability,word form coefficient and word lattice are introduced to construct a word formality based segmentation model,and a two way scanning segmentation algorithm is implemented incorporating backward dynamic programming algorithm with forward stack decoding algorithm.Not only the statistic law on word formality,but also the principle of longest word first to some extent is reflected in the model,due to the introducing of word form probability and coefficient.Finally a segmentation accuracy rate of 99 6% and a disambiguation rate of 93 44% are achieved in the primary experiment.

作者付国宏王晓龙

机构地区哈尔滨工业大学计算机科学与工程系

出处《情报学报》 CSSCI 北大核心 1999年第3期235-240,共6页 Journal of the China Society for Scientific and Technical Information

基金国家863项目资助

关键词汉语分词词形概率整合系数词形网格信息处理 Chinese word segmentation,word form probability,word form coefficient,word Form lattice.

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
2Yao Yuan，博士学位论文，1997年
3王轩，博士学位论文，1997年
4Wong P K，Proc COLING’96 16th Int Conf Computational Linguistics Copenhagen，1996年，200页
5Wang Y J，Proc COLING’94 16th Int Conf Computational Linguistics，1994年，1245页
6Chiang T H，Proc ROCLING V ROC Computational Linguistics Conf，1992年，123页
7梁南元，Communications COLIPS，1991年，1卷，1期，51页
8Wang Xiaolong，Chin Sci Bull，1989年，34卷，22期，1924页

二级参考文献5

1Lai B Y，Proc of ROCLING-IV，1991年
2Zhang J S，Proc of ROCLING-IV，1991年
3王晓龙，科学通报，1989年，13页
4梁南元，中文信息学报，1987年，1期
5冯志伟，数理语言学，1985年

共引文献65

1肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
2许桢.基于语义网的文本分类系统设计与实现[J].硅谷,2009,2(18).
3张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
4孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
5冯志伟.汉字和汉语的计算机处理[J].当代语言学,2001,3(1):1-21. 被引量：23
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
7张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
8陈笑蓉,秦进,汪维家,陆汝占.中文文本校对技术的研究与实现[J].计算机科学,2003,30(11):53-55. 被引量：7
9费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
10刘禹孜,何中市.一种基于SVM和规则消除组合型歧义的算法[J].重庆大学学报（自然科学版）,2005,28(10):50-53. 被引量：2

同被引文献33

1刘云峰,齐欢,代建民.潜在语义分析在中文信息处理中的应用[J].计算机工程与应用,2005,41(3):91-93. 被引量：18
2薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报,2005,19(4):59-63. 被引量：63
3袁军鹏,朱东华,李毅,李连宏,黄进.文本挖掘技术研究进展[J].计算机应用研究,2006,23(2):1-4. 被引量：58
4吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
5李明.从字频统计出发的中文文摘自动编写[J].现代图书情报技术,1996(3):42-45. 被引量：20
6杨沛.汉字全文数据库索引机制的定量研究[J].现代图书情报技术,1996(2):15-19. 被引量：13
7方懿.两种自动标引法的比较及改造[J].现代图书情报技术,1996(2):20-26. 被引量：4
8黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
9孙平,宋瑞,王海霞.我国道路交通事故成因分析及预防对策[J].安全与环境工程,2007,14(2):97-100. 被引量：24
10Fayyad U M,Piatetsky-Shapiro G,Smyth P.Adavance in Knowledge Discovery and Data Mining.Cambridge MA: AAAI/MIT Press,1996

引证文献4

1张坤,梅诗冬,景国勋,西田佳史,三上喜贵.道路交通事故信息文本预处理技术研究与实践[J].安全与环境工程,2017,24(4):112-116. 被引量：3
2王彩芳,李月诚.也谈单汉字标引法[J].图书馆建设,2002(5):57-58. 被引量：1
3林绮屏.基于词形的最佳路径分词算法[J].华南师范大学学报（自然科学版）,2002,34(4):81-84. 被引量：4
4王丽坤,王宏,陆玉昌.文本挖掘及其关键技术与方法[J].计算机科学,2002,29(12):12-19. 被引量：42

二级引证文献50

1李湘云.ISODATA动态聚类算法在文本挖掘中的应用[J].长春工程学院学报（自然科学版）,2007(2):56-58.
2任成义.基于网页的知识元挖掘[J].图书情报工作,2010,54(S1):278-281.
3马绍龙,刘海砚.基于文档集的文本挖掘模型研究[J].测绘与空间地理信息,2013,36(5):48-50. 被引量：1
4陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
5文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
6王卫平,郭长旺.基于文本挖掘的企业竞争情报系统[J].现代情报,2004,24(9):188-189. 被引量：7
7吕冬煜,党齐民.基于文本挖掘的可视化竞争情报提取[J].计算机应用与软件,2005,22(2):50-51. 被引量：8
8邱均平,文庭孝,周黎明.汉语自动分词与内容分析法研究[J].情报学报,2005,24(3):309-317. 被引量：11
9陈朵玲,胡肖锋.基于Web文本挖掘技术的企业竞争情报系统研究[J].情报杂志,2005,24(6):22-24. 被引量：15
10印鉴,陈忆群,张钢.搜索引擎技术研究与发展[J].计算机工程,2005,31(14):54-56. 被引量：53

1姚磊岳,熊建英.一种基于中文分词算法的信息过滤技术[J].科技广场,2007(7):111-113.
2王显芳,杜利民.一种能够检测所有交叉歧义的汉语分词算法[J].电子学报,2004,32(1):50-54. 被引量：13
3金在全,赵照,杜秀全,张东.一种改进的增字最大匹配算法[J].科学技术与工程,2007,7(18):4761-4764. 被引量：12
4路永刚,赵伟.一种改进的MM分词方法的研究与实现[J].长春工业大学学报,2006,27(4):320-323. 被引量：3
5赵晓凡,胡顺义.基于正向最大匹配的汉语分词[J].安阳师范学院学报,2010(5):13-15. 被引量：2
6胡婕,李跃新.数据库受限汉语自然语言查询的分词研究与实现[J].湖北大学学报（自然科学版）,2005,27(4):331-335. 被引量：1
7尚文刚.医学文献全文检索的中文分词方法研究[J].广东医学院学报,2005,23(4):473-475. 被引量：1
8拉毛措,安见才让.基于ASP.NET的藏文分词系统设计与实现[J].计算机光盘软件与应用,2014,17(23):267-268. 被引量：1
9张玉茹.中文分词算法之最大匹配算法的研究[J].现代计算机,2011,17(16):24-26. 被引量：5
10刘乐茂,赵铁军,曹海龙,朱聪慧,张春越.层次短语翻译中基于Markov随机场的层次切分模型[J].软件学报,2012,23(12):3088-3100.

情报学报

1999年第3期

浏览历史

内容加载中请稍等...

基于词形的汉语文本切分方法被引量：4

参考文献8

二级参考文献5

共引文献65

同被引文献33

引证文献4

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于词形的汉语文本切分方法 被引量：4

参考文献8

二级参考文献5

共引文献65

同被引文献33

引证文献4

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于词形的汉语文本切分方法被引量：4