基于词典和词频的中文分词方法被引量：19

Chinese Word Segmentation Method Based on Dictionary and Frequency of the Words

下载PDF

导出

摘要汉语分词是中文信息处理的前提和基础。由于中文句子中,词与词之间没有明显的分隔标志,且存在多音多义词,因此不可避免的存在切分歧义。汉语分词已成为中文信息处理的"瓶颈"。本文通过使用带有词频的词典,采用逐词分解实现了中文自动分词,并使用词频计算、歧义消除等方法提高了分词的准确率。 Chinese word segmentation is the precondition and base of the Chinese information processing.In the Chinese sentences,it has no obvious interval mark between words.It has polyphony and multi-vocal words in Chinese sentences.So,the result of segmentation unavoidable contains ambiguous words.Chinese segmentation is the "bottleneck" of the Chinese information processing.This article uses dictionary and the frequency of the word to decompose the Chinese sentence,and realizes Chinese auto-segmentation,and uses t...

作者张恒杨文昭屈景辉卢虹冰张亮赵飞

机构地区第四军医大学计算机应用教研室总装备部炮兵防空兵装备技术研究所

出处《微计算机信息》北大核心 2008年第3期239-240,232,共3页 Control & Automation

基金陕西省科技计划(2004k05-G40)

关键词中文分词歧义消除词频 Chinese Word Segmentation Ambiguous word eliminating Frequency of the word

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1李双龙,刘群,王成耀.基于条件随机场的汉语分词系统[J].微计算机信息,2006,22(10S):178-180. 被引量：15
2孙茂松,左正平,邹嘉彦.高频最大交集型歧义切分字段在汉语自动分词中的作用[J].中文信息学报,1999,13(1):27-34. 被引量：51

二级参考文献11

1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
2金春实,丁晓青,彭良瑞,刘长松.基于词素的日文分词方法及其在OCR系统中的应用[J].微计算机信息,2006(01X):244-246. 被引量：2
3孙茂松邹嘉彦等.汉语真实文本中的交集型切歧义.汉语计量与计算研究[M].香港城市大学语言资讯科学研究中心,1998..
4孙茂松，汉语计量与计算研究，1998年
5刘开瑛，语言文字应用，1997年，1期
6J. Lafferty, A. McCallum, and F. Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. [C] In Proceedings of the 18th International Conf. on Machine Learning, pages 282-289. 2001
7Fuchun Peng, Fangfang Feng, and Andrew McCallum; Chinese Segmentation and New Word Detection using Conditional Random Fields. [C] In Proceedings of The 20th International Conference on Computational Linguistics (COLING 2004) , pages 562-568, August 23-27, 2004
8Ng, Hwee Tou & Low, Jin Kiat. Chinese Part-of-Speech Tagging: One-at-a-Time or All-at-Once? Word-Based or Character-Based? [C] Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. EMNLP 2004.
9N. Xue. Chinese Word Segmentation as Character Tagging. [C]International Journal of Computational Linguistics and Chinese Language Processing.2003
10Collins, M. (2002). Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with the Perceptron Algorithm. [C] In Proceedings of EMNLP 2002.

共引文献64

1曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
2曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
3苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
5马光志,李专.基于特征词的自动分词研究[J].华中科技大学学报（自然科学版）,2003,31(3):60-62. 被引量：4
6邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报（自然科学版）,2005,14(1):76-78. 被引量：6
7代建英,何中市.基于词性信息的汉语时间语词消歧算法[J].重庆大学学报（自然科学版）,2005,28(9):53-56.
8刘禹孜,何中市.一种基于SVM和规则消除组合型歧义的算法[J].重庆大学学报（自然科学版）,2005,28(10):50-53. 被引量：2
9李斌,陈小荷,方芳,徐艳华.基于语料库的高频最大交集型歧义字段考察[J].中文信息学报,2006,20(1):1-6. 被引量：6
10杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16

同被引文献154

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
3张云秋.汉语短语的分类问题[J].语文研究,1994(4):35-41. 被引量：3
4郭庆琳,樊孝忠.自动应答系统中自然语言理解技术的研究[J].计算机应用研究,2004,21(6):24-25. 被引量：2
5余正涛,樊孝忠,康海燕.基于自然语言理解的受限领域自动应答系统[J].计算机工程,2004,30(18):35-37. 被引量：10
6邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
7张红芹,曹星晶.基于OPAC的图书资源整合研究[J].高校图书馆工作,2004,24(5):52-53. 被引量：4
8张茂元,卢正鼎,邹春燕.一种基于语境的中文分词方法研究[J].小型微型计算机系统,2005,26(1):129-133. 被引量：8
9李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
10马光志,李专.基于特征词的自动分词研究[J].华中科技大学学报（自然科学版）,2003,31(3):60-62. 被引量：4

引证文献19

1邱冰,皇甫娟.基于中文信息处理的古代汉语分词研究[J].微计算机信息,2008,24(24):100-102. 被引量：30
2扎依达.木沙,吐尔根.依布拉音.基于规则的维吾尔语对偶词识别算法研究[J].新疆大学学报（自然科学版）,2009,26(2):221-226. 被引量：2
3田占霄,韩宪忠,王克俭.一种改进的长词优先逆向最大匹配分词消歧策略[J].河北农业大学学报,2009,32(4):100-102. 被引量：1
4蒋南.基于中文分词和全文检索技术的OPAC资源整合探讨[J].图书馆杂志,2009,28(10):42-45. 被引量：4
5熊桂喜,姚丽.交通管理领域的中文分词算法及应用研究[J].微计算机信息,2009,25(30):135-136.
6王舜燕,邱昌程,宁海波,张梅芬.构件搜索中需求描述关键词提取方法[J].计算机与数字工程,2009,37(11):36-39.
7佟欣,韩玉琢.房产自动应答系统的分析与设计[J].赤峰学院学报（自然科学版）,2010,26(1):31-33.
8佟欣.自动应答系统中文处理策略和算法[J].赤峰学院学报（自然科学版）,2010,26(2):38-39.
9袁鼎荣,钟宁.基于关联规则的交集型歧义消解算法[J].郑州大学学报（理学版）,2010,42(1):67-69. 被引量：3
10姚继伟,赵东范.基于短语匹配的中文分词消歧方法[J].吉林大学学报（理学版）,2010,48(3):427-432. 被引量：6

二级引证文献109

1俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：14
2苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：13
3馬海麗,王曦.古籍數字化中計算機自然語言處理應用現狀分析[J].古籍研究,2020(2):322-328. 被引量：2
4丁洁.基于最佳粒度匹配的中文分词算法的研究[J].自动化与仪器仪表,2016(7):169-170. 被引量：1
5徐紫云,徐雪松.从自动分词角度看先秦与现代汉语词汇区别[J].华东交通大学学报,2009,26(6):101-104. 被引量：1
6赵阳,顾磊.基于中文信息处理的古籍整理研究评述[J].图书情报工作,2010,54(3):116-119. 被引量：8
7石民,李斌,陈小荷.基于CRF的先秦汉语分词标注一体化研究[J].中文信息学报,2010,24(2):39-45. 被引量：67
8岳晓光,梁晓诚,麦范金,赵子强.基于.NET的中文分词系统设计与实现[J].微计算机信息,2010,26(12):215-216. 被引量：7
9陈海东.论汉语语法改革及其对中文信息处理的促进作用[J].微计算机信息,2010,26(24):212-214.
10祖芳宏,朱东妹,方曙.基于OPAC的安徽高校图书馆电子资源整合[J].图书馆学刊,2010,32(12):23-25. 被引量：7

1王中立.汉语自动分词中切分歧义及处理技术[J].许昌学院学报,2006,25(2):118-121. 被引量：1
2谷瑞.对中文分词歧义消除算法的研究[J].苏州市职业大学学报,2015,26(4):25-27. 被引量：1
3许高建,胡学钢,路遥,王庆人.一种改进的中文分词歧义消除算法研究[J].合肥工业大学学报（自然科学版）,2008,31(10):1622-1625. 被引量：6
4张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
5李跃民,王浩,赵生慧,计成超.智能辅助教学系统中知识点切分歧义消除研究[J].计算机技术与发展,2009,19(4):220-223. 被引量：1
6许智宏,张月梅,王一.一种改进的中文分词在主题搜索中的应用[J].郑州大学学报（工学版）,2014,35(5):44-48. 被引量：1
7哈斯,布音其其格.基于蒙古语名词语义网的同形词歧义消除研究[J].中文信息学报,2016,30(6):230-235. 被引量：1
8石文娟,龙舜,云飞.基于背景学习的迭代式文本分类框架[J].计算机工程与应用,2015,51(9):129-134. 被引量：2
9张素智,刘放美.基于矩阵约束法的中文分词研究[J].计算机工程,2007,33(15):98-100. 被引量：11
10李萍.试论现代汉语词语的切分技术[J].中国新技术新产品,2010(24):232-232.

微计算机信息

2008年第3期

浏览历史

内容加载中请稍等...

基于词典和词频的中文分词方法被引量：19

参考文献2

二级参考文献11

共引文献64

同被引文献154

引证文献19

二级引证文献109

相关作者

相关机构

相关主题

浏览历史

基于词典和词频的中文分词方法 被引量：19

参考文献2

二级参考文献11

共引文献64

同被引文献154

引证文献19

二级引证文献109

相关作者

相关机构

相关主题

浏览历史

基于词典和词频的中文分词方法被引量：19