基于词平台的中文文档实验系统的构建被引量：1

Experiment Chinese Text System Based on Word Platform

下载PDF

导出

摘要文章提出一种新的中文文档实验系统,力求建立一个克服束缚中文信息处理发展的自动分词问题的实验研究平台。文章采用一种新的基于中文词的文本编码方法,对每个词进行编码,并使新编码与机内码联系起来。使用这种基于词的编码格式可以使词成为计算机中文处理中的最小信息载体,无须再进行中文分词。文章使用该方法进行了关键词自动抽取的实验研究。结果显示,基于词编码的中文文档实验系统能很好的解决中文分词问题,并给其它中文文本分析奠定良好基础。 This paper presents a novel Chinese text experiment system. This method attempts to construct an experiment platform that deals with the automatic segmentation issue that blocks the development of Chinese Information Processing （CIP） for a long time, A new coding format that codes every word （not character） is adopted, Then, the new codes are connected with internal statement number （ISN）, Through all above, words become the smallest information unit in texts, which makes automatic word segmentation is unnecessary. Keyword extraction experiment is conducted based on this method. The result shows that Chinese segmentation problem is solved by this word platform and the method lays the foundation of other Chinese text analysis.

作者焦慧刘迁贾惠波

机构地区清华大学精密仪器与机械学系

出处《微计算机信息》北大核心 2008年第18期171-172,104,共3页 Control & Automation

关键词中文信息处理汉字编码词平台自动分词 Chinese Information Processing Chinese character coding, words coding,automatic segmentation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1舒忠梅,胡金柱,左亚尧.TRUETYPE字体中文字指令化技术剖析[J].微计算机信息,1998,14(5):57-59. 被引量：6
2孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
3张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
4黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83

二级参考文献49

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
4孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
5史磊,吕强.TrueType字形描述技术和TTF文件[J].中文信息,1995,12(5):54-59. 被引量：6
6吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
7黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
8孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
9吴立德.大规模文本处理[M].上海:复里大学出版社,1997..
10黄昌宁高剑峰李沐.对自动分词的反思[C]..全国第七届语言学联合学术会议[C].,2003.26-38.

共引文献177

1梁晓弘,杨文安.分词技术在信息处理中的研究综述[J].电脑知识与技术（过刊）,2007(22):1100-1102. 被引量：1
2刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
3王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
4黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1
5于清,阿里甫.库尔班.微博语料分词及标注方法初探[J].新疆大学学报（自然科学版）,2013,30(1):81-86. 被引量：1
6崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
7文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
8张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
9金瑜,陆启明,高峰.基于上下文相关的最大概率汉语自动分词算法[J].计算机工程,2004,30(16):146-148. 被引量：8
10孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101

同被引文献6

1Han J.W.,Kamber M.Data mining concepts and Techniques[M].Beijing:China Machine Press,2001.
2Jain A.K.,Murty M.N.,Flynn P.J.Data clustering:A review[J].ACM Computing Surveys,1999,31(3):265-281.
3Michael Steinbaeh.A comparison of document clustering techniques[C].KDD'2000,Technical report of University of Minnesota,2000.
4Salton G.,Wong A.,Yang C.S.On the spoeifieation of term values in automatic indexing[J].Journal of Documentation,1973,29(4):351-372.
5史忠值.知识发现[M].北京：清华大学出版社,2002.21-56.
6钱卫宁,周傲英.从多角度分析现有聚类算法(英文)[J].软件学报,2002,13(8):1382-1394. 被引量：86

引证文献1

1焦慧,刘迁,王玉英,贾惠波.优化初始值的K均值中文文本聚类[J].微计算机信息,2009,25(21):142-144. 被引量：6

二级引证文献6

1王春艳,程霜梅,杨鑫.基于聚簇样本约减的K-近邻神经网络分类器[J].情报科学,2010,28(10):1547-1549.
2徐东亮,董开坤,李斌,王研芬.基于文本挖掘的聚类算法研究[J].微计算机信息,2011,27(2):168-169. 被引量：7
3王丹,张兆心,宋颖慧.基于高权重词集的增量聚类算法研究[J].微计算机信息,2011,27(2):170-172. 被引量：1
4蔡静颖.特征文本提取的网络社团划分聚类算法[J].微计算机信息,2012,28(6):182-183.
5刘林浩.网页新闻信息预处理中SST树正文提取方法研究[J].微计算机信息,2012,28(10):466-468.
6李法运,农罗锋.基于向量语义相似度的改进K-Means算法[J].情报科学,2013,31(2):34-37. 被引量：2

1焦慧,刘迁,贾惠波.一种基于词编码的中文文档格式[J].计算机科学,2008,35(10):162-164. 被引量：1
2程一飞.一个新的基于MOF从左到右编码的多标量乘算法[J].计算机技术与发展,2007,17(11):157-159.
3潘达儒,杜明辉.基于神经网络和遗传算法的组播路由算法[J].计算机应用,2005,25(6):1261-1263. 被引量：1
4万国根.在CC—DOS中增加新编码方案[J].中文信息,1990(3):59-61.
5张蕾,普杰信,范庆辉.基于遗传算法和BP网络的物体识别方法[J].计算机工程与设计,2008,29(7):1785-1788. 被引量：6
6罗可.汉字与机内码相互转换程序[J].电脑学习,1991(4):42-43.
7徐祖华.改进形码的新编码法[J].中文信息,1995(6):27-29.
8刘兵,刘劲.Delphi实现对文档的加密解密[J].电脑编程技巧与维护,2009(4):77-79. 被引量：1
9周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15
10王永成,苏海菊,莫燕.中文词的自动办理[J].中文信息学报,1990,4(4):1-11. 被引量：13

微计算机信息

2008年第18期

浏览历史

内容加载中请稍等...

基于词平台的中文文档实验系统的构建被引量：1

参考文献4

二级参考文献49

共引文献177

同被引文献6

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于词平台的中文文档实验系统的构建 被引量：1

参考文献4

二级参考文献49

共引文献177

同被引文献6

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于词平台的中文文档实验系统的构建被引量：1