无监督的动态分词方法被引量：4

Unsupervised Dynamic Word Segmentation

下载PDF

导出

摘要介绍了一种变长汉语语料自动分词方法，这种方法以信息理论中极限熵的概念为基础，运用汉字字串间最大似然度的概念，对汉语语料进行自动分词．讨论了这些方法的局限性，并列出了一些试验结果． A variable distance automatic word segmentation method to Chinese corpus is presented.It is based on the concept of limiting entropy in information theory, and utilizes the maximum likelihood between the strings of Chinese characters to do automatic Chinese word segmentation.A method of establishing unsupervised dynamic word segmentation dictionary is specially studied.The limitations of these methods are described.Some experimental results are also covered.

作者高军陈锡先

机构地区北京邮电大学电信工程学院

出处《北京邮电大学学报》 EI CAS CSCD 北大核心 1997年第4期66-69,共4页 Journal of Beijing University of Posts and Telecommunications

关键词信息处理汉语语料库自动分词 information processing Chinese text corpuse automatic word segmentation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1万建成，中文信息学报，1995年，8卷，2期
2刘源，信息处理用现代治语分词规范及自动分词方法，1994年
3郭进，中文信息学报，1993年，7卷，1期
4郭进，第一届全国计算机语言学联合学术会议，1991年

同被引文献88

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
4孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
5曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
6文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
7孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
8张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
9吴建胜,战学刚,迟呈英.一种基于自动机的分词方法[J].计算机工程与应用,2005,41(8):81-82. 被引量：8
10杨宪泽.中文自动分词探讨[J].西南民族学院学报（自然科学版）,1994,20(3):242-245. 被引量：8

引证文献4

1张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
2张启宇,朱玲,张雅萍.中文分词算法研究综述[J].情报探索,2008(11):53-56. 被引量：35
3王姗姗,王东波,黄水清,何琳.多维领域知识下的《诗经》自动分词研究[J].情报学报,2018,37(2):183-193. 被引量：12
4颜敏,程婷,张庆轩.中文分词名称匹配与数据分层更新方法探讨[J].测绘地理信息,2020,45(6):129-131. 被引量：2

二级引证文献109

1丁美荣,冯伟森,黄荣翔,罗嘉俊.基于预训练模型和基础词典扩展的酒店评论情感分析[J].计算机系统应用,2022,31(11):296-308. 被引量：3
2曾志伟,刁明光,王欣鹏,何炳辉.基于口罩评论数据的用户情感趋势与关注分析[J].计算机系统应用,2020,29(12):263-267.
3钟顺杰,葛小三.多权组与双半径结合的异源POI融合方法[J].测绘科学,2023,48(11):230-244.
4苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
5于清,阿里甫.库尔班.微博语料分词及标注方法初探[J].新疆大学学报（自然科学版）,2013,30(1):81-86. 被引量：1
6崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
7赵志靖,周静,冯锐,齐丙辰.智能人机交互中自动分词技术的实现[J].扬州大学学报（自然科学版）,2005,8(3):58-61. 被引量：3
8黄水清,程冲.基于既定词表的自适应汉语分词技术研究[J].现代图书情报技术,2006(5):13-17. 被引量：4
9王一蕾,吴英杰.基于数据量的文本分词算法选取的研究[J].福建电脑,2006,22(9):18-19.
10刘磊,曹存根,王海涛,陈威.一种基于“是一个”模式的下位概念获取方法[J].计算机科学,2006,33(9):146-151. 被引量：18

1裴艳.用于机器翻译的汉语语料库——中文应做到形式化、公理化、算法化、自动化[J].中文信息,1997,14(1):32-33. 被引量：1
2王轩,李巍,王晓龙,赵淑香.大标记集汉语字(词)Markov 语言模型的建立[J].哈尔滨工业大学学报,1997,29(5):23-27. 被引量：3
3罗振声.清华大学ZW大型通用汉语语料库的研究[J].中文信息,1994,11(1):10-12. 被引量：1
4张国煊.汉语语料库加工技术[J].杭州电子工业学院学报,1996,16(1):32-37. 被引量：1
5张民,李生,赵铁军.大规模汉语语料库中任意n的n-gram统计算法及知识获取方法[J].情报学报,1997,16(1):28-35. 被引量：4
6ZHANG Hong REN Fuji.Chinese POS Tagging Using Restricted Maximum Entrooy Model[J].Chinese Journal of Electronics,2010,19(1):39-42. 被引量：1
7Bowei ZOU,Guodong ZHOU,Qiaoming ZHU.Research on Chinese negation and speculation： corpus annotation and identification[J].Frontiers of Computer Science,2016,10(6):1039-1051. 被引量：1
8张虎,郑家恒,刘江.汉语语料库词性标注自动校对方法研究[J].计算机应用,2005,25(1):17-19. 被引量：1
9张虎,郑家恒.基于分类的汉语语料库词性标注一致性检查[J].计算机工程,2008,34(8):90-92. 被引量：3
10张辉,武亚红,黄润才.基于规则和统计的汉语多输出切分系统[J].微电子学与计算机,2007,24(7):56-58. 被引量：1

北京邮电大学学报

1997年第4期

浏览历史

内容加载中请稍等...

无监督的动态分词方法被引量：4

参考文献4

同被引文献88

引证文献4

二级引证文献109

相关作者

相关机构

相关主题

浏览历史

无监督的动态分词方法 被引量：4

参考文献4

同被引文献88

引证文献4

二级引证文献109

相关作者

相关机构

相关主题

浏览历史

无监督的动态分词方法被引量：4