基于隐马尔科夫模型的中文分词研究被引量：13

HMM-Based Of Study On Chinese Language Classifying Words

下载PDF

导出

摘要一直以来，汉语自动分词是公认的汉语信息处理瓶颈。反思现有汉语自动分词技术，发现均有隐舍两大假设：语言是规律的、词具有确定边界？这与语言的复杂性、组合性、动态性、模糊性特征不符。本文采用一种基于隐马尔科夫模型（HMM）的算法．通过CHMM（层叠形马尔科夫模型）进行分词，再做分层，既增加了分词的；隹确性，又保证了分词的效率。 All along, Chinese language automatic classifying words is universally acknowledged bottlenecks during processing Chinese language .There stand two concealing supposes .By introspecting existing current Chinese language automatic classifying technology .For languages have the character of regularity and words have their own determining frontier ,which don＇t accord with their complication ,compose ,tendency and indistinct. The paper provided a HMM-based arithmetic ,via CHMM to classify the words and then to divide layers once more. This way can assure the precise and efficiency of classifying the words.

作者魏晓宁 Wei Xiao-ning （College of Computer Science＆Technology, Nantong University,Nantong 226019,China）

机构地区南通大学计算机科学与技术学院

出处《电脑知识与技术》 2007年第11期885-886,共2页 Computer Knowledge and Technology

关键词自动分词隐马尔科夫模型(HMM) N-最短路径粗切分统计模型 Automation participle Hidden Markov Model（HMM） Most fault route segments N-roughly Count a model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1张华平,刘群.基于N-最短路径方法的中文词语粗分模型[J].中文信息学报,2002,16(5):1-7. 被引量：99
2陈桂林,王永成,韩客松,王刚.一种改进的快速分词算法[J].计算机研究与发展,2000,37(4):418-424. 被引量：56

二级参考文献11

1徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
2周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
3骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
4吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
5孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
6黄祥喜.书面汉语自动分词的“生成——测试”方法[J].中文信息学报,1989,3(4):42-49. 被引量：11
7揭春雨,刘源,梁南元.论汉语自动分词方法[J].中文信息学报,1989,3(1):1-9. 被引量：55
8郭祥昊,钟义信,杨丽.基于两字词簇的汉语快速自动分词算法[J].情报学报,1998,17(5):352-357. 被引量：18
9陈桂林,王永成,韩客松,王刚.一种高效的中文电子词表数据结构[J].计算机研究与发展,2000,37(1):109-116. 被引量：26
10姚天顺,张桂平,吴映明.基于规则的汉语自动分词系统[J].中文信息学报,1990,4(1):37-43. 被引量：43

共引文献150

1战疆,冯月利,王珊.PostgreSQL中文全文索引技术研究与实现[J].华中科技大学学报（自然科学版）,2005,33(z1):213-216. 被引量：3
2隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
3文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
4张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
5王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
6刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
7温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
8李文翔,晏蒲柳,夏德麟,张滨.基于差异相似矩阵算法的词语用法知识发现[J].计算机应用与软件,2005,22(1):90-92.
9吴启德,吕强.一个比较不同中文分词法的软件[J].苏州大学学报（工科版）,2004,24(6):29-33.
10刘新斌,李俊.一种基于N-gram组合的中文垃圾邮件过滤方法[J].微电子学与计算机,2004,21(12):85-91. 被引量：5

同被引文献96

1冯连刚.一种改进的基于N元语法模型的中文分词方法[J].中文科技期刊数据库（全文版）自然科学,2016(10):284-284. 被引量：1
2刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
3董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
4邢福义.NVN造名结构及其NV｜VN简省形式[J].语言研究,1994,14(2):1-12. 被引量：21
5苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
6曹茂永,孙农亮,郁道银.用于模式识别的极半径不变矩[J].计算机学报,2004,27(6):860-864. 被引量：16
7孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
8夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24
9郭进.统计语言模型及汉语音字转换的一些新结果[J].中文信息学报,1993,7(1):18-27. 被引量：17
10徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15

引证文献13

1吴涛,张毛迪,陈传波.一种改进的统计与后串最大匹配的中文分词算法研究[J].计算机工程与科学,2008,30(8):79-82. 被引量：7
2郑丽,吕学强,施水才.搜索引擎日志中“N+V+N”和“V+N+N”型短语功能类别识别[J].计算机应用与软件,2012,29(9):112-116.
3张黎,徐蔚然.中文分词研究[J].软件,2012,33(12):103-108. 被引量：6
4文炯.图书馆服务质量评价中微博数据的应用研究[J].新世纪图书馆,2014(8):20-23.
5平措群培,赵栋材,马伟珍,周欢欢,巴旦团玉.基于HMM和Bayes算法的垃圾观点评论识别[J].科技创业月刊,2016,29(11):130-131.
6黄克敏,方勇.安全攻击追踪分析中短文本分类研究[J].信息安全研究,2015,1(3):272-277. 被引量：1
7刘春丽,李晓戈,刘睿,范贤,杜丽萍.基于表示学习的中文分词[J].计算机应用,2016,36(10):2794-2798. 被引量：5
8贾倩,王彦静,杨玉堃.基于本体的统一知识模型表达及应用[J].情报理论与实践,2017,40(9):125-128. 被引量：4
9邹佳伦,文汉云,王同喜.基于统计的中文分词算法研究[J].电脑知识与技术,2019,15(2):149-150. 被引量：6
10杨晨,张鹏.基于词向量相似度的食品安全问答系统设计与实现[J].软件导刊,2019,18(8):16-20. 被引量：1

二级引证文献46

1孙海斌,张晓静,刘习.面向船舶科研院所知识工程体系模型构建研究[J].知识管理论坛,2021(2):118-126.
2冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：7
3那勇,李明全.基于深度学习的中文自动分词研究[J].吉林广播电视大学学报,2019(12):58-59.
4张彩琴,袁健.改进的正向最大匹配分词算法[J].计算机工程与设计,2010,31(11):2595-2597. 被引量：11
5苗利明.基于正序词典的双向最大分词法[J].信息系统工程,2010,23(6):137-137.
6段宇锋,鞠菲.基于N-Gram的专业领域中文新词识别研究[J].现代图书情报技术,2012(2):41-47. 被引量：10
7李澎林,张献力,李伟.基于双字Hash机制的交通信息分词算法研究[J].浙江工业大学学报,2014,42(6):596-600. 被引量：4
8陈伟东,黄祖泉,陈传波,张伟平,吴涛.网络防御和不重复子串模式匹配算法研究实现[J].计算机技术与发展,2016,26(7):89-93. 被引量：1
9王庆福.隐马尔可夫模型在中文文本分词中应用研究[J].无线互联科技,2016,13(13):106-107. 被引量：5
10孔雪娜,孙红.中文微博文本采集与预处理综述[J].软件导刊,2017,16(2):186-189. 被引量：7

1王凡秀,王自强.汉语自动分词技术研究[J].计算机与数字工程,2008,36(11):57-59. 被引量：3
2朱小娟,陈特放.基于SVM的词频统计中文分词研究[J].微计算机信息,2007,23(30):205-207. 被引量：10
3姚兴山.基于Hash算法的中文分词研究[J].现代图书情报技术,2008(3):78-81. 被引量：5
4张妍,许云峰,张立全.基于云计算的中文分词研究[J].河北科技大学学报,2012,33(3):266-269. 被引量：5
5甘秋云.中文分词算法概述[J].唐山师范学院学报,2013,35(5):55-57. 被引量：3
6张黎,徐蔚然.中文分词研究[J].软件,2012,33(12):103-108. 被引量：6
7张慧芳.汉语词汇分词研究——隐性分词词典在信息检索中的应用[J].商,2015,0(34):291-292.
8马光志,李专.基于特征词的自动分词研究[J].华中科技大学学报（自然科学版）,2003,31(3):60-62. 被引量：4
9周爱民.应用程序设计语言的复杂性[J].程序员,2012(4):62-65.
10滕秋霞,杨金霄,方永佳.基于投票混合模型的中文地址分词研究[J].工业控制计算机,2015,28(11):105-106. 被引量：2

电脑知识与技术

2007年第11期

浏览历史

内容加载中请稍等...

基于隐马尔科夫模型的中文分词研究被引量：13

参考文献2

二级参考文献11

共引文献150

同被引文献96

引证文献13

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于隐马尔科夫模型的中文分词研究 被引量：13

参考文献2

二级参考文献11

共引文献150

同被引文献96

引证文献13

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于隐马尔科夫模型的中文分词研究被引量：13