基于字簇的多模型中文分词方法研究被引量：2

Multi-model Chinese word segmentation method based on character clusters

下载PDF

导出

摘要字标注分词方法是当前中文分词领域中一种较为有效的分词方法,但由于中文汉字本身带有语义信息,不同字在不同语境中其含义与作用不同,导致每个字的构词规律存在差异。针对这一问题,提出了一种基于字簇的多模型中文分词方法,首先对每个字进行建模,然后对学习出的模型参数进行聚类分析形成字簇,最后基于字簇重新训练模型参数。实验结果表明,该方法能够有效地发现具有相同或相近构词规律的字簇,很好地区别了同类特征对不同字的作用程度。 Character-based tagging method is currently an effective method in Chinese word segmentation.However,the Chinese characters have their own semantic information,different characters have different meanings and functions in different contexts,which lead to different correlations with context,resulting in the difference of word-formation rules for each word.To solve this problem,this paper proposed a multi-model segmentation method based on character clusters.Firstly,the method separately constructed a model for each word,then clustered the model parameters to form character clusters,and finally retrained the model parameters based on the character clusters.Experimental results show that this method can effectively find character clusters with the same or similar word-formation rules,and distinguish the effect of similar features for different characters.

作者李对红王裴岩张桂平张少阳 Li Duihong;Wang Peiyan ;Zhang Guiping;Zhang Shaoyang(Human-Computer Intelligence Research Center,Shenyang Aerospace University,Shenyang 110136,China)

机构地区沈阳航空航天大学人机智能研究中心

出处《计算机应用研究》 CSCD 北大核心 2020年第2期355-359,374,共6页 Application Research of Computers

基金辽宁省自然科学基金计划重点项目(20170540705) 国家教育部人文社会青年科学研究基金资助项目(17YJC740087).

关键词中文分词构词规律模型参数聚类 Chinese word segmentation word-formation rules model parameters clustering

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
2孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1070
3来斯惟,徐立恒,陈玉博,刘康,赵军.基于表示学习的中文分词算法探索[J].中文信息学报,2013,27(5):8-14. 被引量：34
4宋彦,蔡东风,张桂平,赵海.一种基于字词联合解码的中文分词方法[J].软件学报,2009,20(9):2366-2375. 被引量：42
5张少阳,王裴岩,蔡东风.一种基于字的多模型中文分词方法[J].沈阳航空航天大学学报,2017,34(1):70-75. 被引量：4
6韩冬煦,常宝宝.中文分词模型的领域适应性方法[J].计算机学报,2015,38(2):272-281. 被引量：59
7李月伦,常宝宝.基于最大间隔马尔可夫网模型的汉语分词方法[J].中文信息学报,2010,24(1):8-14. 被引量：8

二级参考文献64

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
6孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
7孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
8杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
9曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
10李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114

共引文献1415

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
3王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
4林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
5高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
6毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
7张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
8王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
9尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
10段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1

同被引文献27

1曹林,韩立新,吴胜利.元搜索引擎排序技术综述[J].计算机应用研究,2009,26(2):411-414. 被引量：26
2董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：98
3周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：91
4黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：219
5易剑,彭宇新,肖建国.基于颜色聚类和多帧融合的视频文字识别方法[J].软件学报,2011,22(12):2919-2933. 被引量：22
6苏畅,胡晓冬,王斌辅,尚凤军.基于笔画相关加权的视频图像文字识别[J].计算机应用,2012,32(8):2305-2308. 被引量：4
7朱征宇,孙俊华.改进的基于《知网》的词汇语义相似度计算[J].计算机应用,2013,33(8):2276-2279. 被引量：58
8赵美芳,关显华.煤矿巷道支护专家系统应用研究[J].现代矿业,2014,30(6):125-126. 被引量：3
9韩冬煦,常宝宝.中文分词模型的领域适应性方法[J].计算机学报,2015,38(2):272-281. 被引量：59
10于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(2):231-237. 被引量：103

引证文献2

1薛晓慧,芮光辉,李炜东,袁培森.基于排序式SVM的搜索自适应排序系统实现[J].计算机技术与发展,2021,31(10):203-208. 被引量：2
2吴克介.煤矿安全监控系统领域知识图谱构建及应用研究[J].煤炭技术,2024,43(4):238-242. 被引量：1

二级引证文献3

1辛一,李鹏,杨阳,殷春连,矫锐.面向创新的科技情报智能化服务系统构建——以陕西省科技情报一体化服务平台为例[J].计算机技术与发展,2022,32(9):180-187. 被引量：5
2李莉,孙世军,朱坤双,董新,戴振亚.面向电力气象数据的多源异构数据融合方法研究[J].电子设计工程,2024,32(16):178-182.
3王海玲,刘兴丽,邵宗曦,王金娜,韩娜,廉龙颖.基于ChatGLM的煤矿安全预警知识抽取及应用[J].煤炭技术,2024,43(8):219-221.

1李惠娟.关于中日同形词的研究现状综述[J].现代职业教育,2019,0(27):102-103. 被引量：1
2钱梅.小学低年级语文识字教学的有效策略[J].情感读本,2020,0(12):34-34.
3刘琦.利用卷积生成式对抗网络生成中文汉字[J].网络安全技术与应用,2020,0(2):41-43.
4尉迟治平.再论中文汉字字符集[J].语言研究,2020,40(1):78-89. 被引量：7
5谢春强.初中生英语词汇记忆策略[J].基础教育研究,2020(4):52-52. 被引量：1
6钱蓉蓉,曹洪恩,房侃.词根词缀记忆法在化工专业英语教育中的应用[J].当代化工研究,2020(10):113-115. 被引量：1
7李晓兰.怎样复习高中英语词汇[J].语数外学习（高中版）（中）,2019,0(11):74-74.
8熊健,翟紫姹.基于词性标注与分词消歧的中文分词方法[J].广州大学学报（自然科学版）,2019,18(5):27-33. 被引量：3

计算机应用研究

2020年第2期

浏览历史

内容加载中请稍等...

基于字簇的多模型中文分词方法研究被引量：2

参考文献7

二级参考文献64

共引文献1415

同被引文献27

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于字簇的多模型中文分词方法研究 被引量：2

参考文献7

二级参考文献64

共引文献1415

同被引文献27

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于字簇的多模型中文分词方法研究被引量：2