面向专业领域的中文分词方法被引量：19

Domain specific Chinese word segmentation

下载PDF

导出

摘要在专业领域分词任务中,基于统计的分词方法的性能受限于缺少专业领域的标注语料,而基于词典的分词方法在处理新词和歧义词方面还有待提高。针对专业领域分词的特殊性,提出统计与词典相结合的分词方法,完善领域词典构建流程,设计基于规则和字表的二次分词歧义消解方法。在工程法领域语料上进行分词实验。实验结果表明,在工程法领域的分词结果准确率为92.08%,召回率为94.26%,F值为93.16%。该方法还可与新词发现等方法结合,改善未登录词的处理效果。 The performance of statistical methods for Chinese word segmentation is limited owing to lack of the specific training corpus, and the dictionary-based methods are affected by unknown words and segmentation ambiguities. To realize domain adaptation, an approach combined statistical methods and a domain dictionary is developed. The approach firstly builds a high quality domain dictionary, and uses a statistical method to obtain preliminary results. Then, an algorithm for eliminating ambiguity is designed based on rules and Chinese character subsets with defined properties. Experimental results on a construction law domain corpus show that the precision, the recall and F-measure achieve 92.08%, 94.26%and 93.16%. The approach combined with new word detection can improve the performance of unknown words processing.

作者成于思施云涛 CHENG Yusi;SHI Yuntao(School of Civil Engineering,Southeast University,Nanjing 210096,China;Nanjing Branch Network Department,China Mobile Communications Group,Nanjing 210019,China)

机构地区东南大学土木工程学院中国移动通信集团南京分公司网络部

出处《计算机工程与应用》 CSCD 北大核心 2018年第17期30-34,109,共6页 Computer Engineering and Applications

基金国家自然科学基金青年科学基金(No.71601047) 中国博士后科学基金(No.2015M581706)

关键词中文分词专业领域歧义消解领域词典工程法 Chinese word segmentation domain specific ambiguity resolution domain dictionary construction law

分类号 TP30 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献13

1奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：104
2朱艳辉,刘璟,徐叶强,田海龙,马进.基于条件随机场的中文领域分词研究[J].计算机工程与应用,2016,52(15):97-100. 被引量：14
3刘泽文,丁冬,李春文.基于条件随机场的中文短文本分词方法[J].清华大学学报（自然科学版）,2015,55(8):906-910. 被引量：17
4韩冬煦,常宝宝.中文分词模型的领域适应性方法[J].计算机学报,2015,38(2):272-281. 被引量：59
5张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(2):8-12. 被引量：44
6邓丽萍,罗智勇.基于半监督CRF的跨领域中文分词[J].中文信息学报,2017,31(4):9-19. 被引量：19
7尹文科,朱明,陈天昊.基于Wiki链接结构图聚类的领域词典构建方法[J].小型微型计算机系统,2014,35(6):1286-1292. 被引量：7
8陆勇,章成志,侯汉清.基于百科资源的多策略中文同义词自动抽取研究[J].中国图书馆学报,2010,36(1):56-62. 被引量：26
9何正焱,王厚峰.商品品牌名称挖掘[J].中文信息学报,2012,26(2):88-91. 被引量：1
10刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198

二级参考文献134

1苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
2孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
4龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量：26
5张茂元,卢正鼎,邹春燕.一种基于语境的中文分词方法研究[J].小型微型计算机系统,2005,26(1):129-133. 被引量：8
6张永奎,李国臣.新闻语料自动分词系统[J].山西大学学报（自然科学版）,1993,16(3):280-284. 被引量：1
7章成志.基于多层特征的字符串相似度计算模型[J].情报学报,2005,24(6):696-701. 被引量：40
8骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
9杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
10孙晓,黄德根.基于动态规划的最小代价路径汉语自动分词[J].小型微型计算机系统,2006,27(3):516-519. 被引量：5

共引文献526

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：9
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：8
3唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
4杨一帆,陈文亮.旅游场景下的实体别名抽取联合模型[J].中文信息学报,2020(6):55-63. 被引量：3
5李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
6那勇,李明全.基于深度学习的中文自动分词研究[J].吉林广播电视大学学报,2019(12):58-59.
7游家兴,张哲远.文以载道——文本分析研究评述与展望[J].当代会计评论,2022(2):32-59. 被引量：1
8陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
9尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
10于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2

同被引文献154

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
3曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
4刘华.基于文本分类中特征提取的领域词语聚类[J].语言文字应用,2007(1):139-144. 被引量：22
5黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
6王庆国,李宇航,王震.《伤寒论》六经研究41说[J].北京中医药大学学报,1997,20(4):23-30. 被引量：50
7张仰森,丁冰青.中文文本自动校对技术现状及展望[J].中文信息学报,1998,12(3):50-56. 被引量：14
8钱超尘.宋本《伤寒论》版本简考[J].河南中医,2010,30(1):1-9. 被引量：10
9姜鹤,陈丽亚.SVM文本分类中一种新的特征提取方法[J].计算机技术与发展,2010,20(3):17-19. 被引量：16
10张海军,史树敏,朱朝勇,黄河燕.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10. 被引量：39

引证文献19

1成于思,施云涛.基于深度学习和迁移学习的领域自适应中文分词[J].中文信息学报,2019,33(9):9-16. 被引量：14
2赵凯,王华星,施娜,萨震,许筱颖.基于Neo4j桂枝汤类方知识图谱的研究与实现[J].世界中医药,2019,14(10):2636-2639. 被引量：33
3郭理,张恒旭,王嘉岐,秦怀斌.基于Trie树的词语左右熵和互信息新词发现算法[J].现代电子技术,2020,43(6):65-69. 被引量：12
4王莉军,周越,桂婕,翟云.基于BiLSTM-CRF的中医文言文文献分词模型研究[J].计算机应用研究,2020,37(11):3359-3362. 被引量：14
5苏翠华,熊婷.基于深度学习的精准营销推送算法设计与仿真[J].现代电子技术,2020,43(22):144-147. 被引量：2
6刘明洁,梁毅,艾中良,贾高峰.面向法律文书的中文文本校对方法研究[J].计算机工程与应用,2020,56(24):274-278. 被引量：4
7马强,路阳,李菲.基于互信息特征提取的食品安全信息新词识别[J].黑龙江八一农垦大学学报,2021,33(2):73-79. 被引量：2
8崔志远,赵尔平,雒伟群,王伟,孙浩.面向专业领域的多头注意力中文分词模型--以西藏畜牧业为例[J].中文信息学报,2021,35(7):72-80. 被引量：2
9陈皓宇,洪嘉伟,陈致然.混合信息双数组的未登录词动态识别模型[J].电脑知识与技术,2021,17(26):1-5.
10吴汉龙,梁嘉鹏,余泽汇.基于特征评分算法的网络招聘信息分析与研究[J].电子技术与软件工程,2021(22):174-177.

二级引证文献99

1戎菲,屈尧,张逸雯,佟旭,胡镜清.基于Neo4j构建知识图谱分析胡镜清论治痴呆的思路与特色[J].世界科学技术-中医药现代化,2023,25(3):826-834. 被引量：2
2张卫东,张晓晓.中医古籍数字资源知识组织与可视化研究——以《金匮要略》为例[J].情报科学,2022,40(8):107-117. 被引量：4
3冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：7
4何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
5皮乾东,邵玉斌,龙华,杜庆治,杨陈菊.汉语语句算式化融合句法分析[J].电子测量技术,2020,43(6):123-127. 被引量：3
6林燕榕,张怡,刘迪,钱东平,斯海燕,姜玉苹,朱江,陆凯东,陈浩.基于肾病专科电子病历构建肾病医学知识图谱[J].西南大学学报（自然科学版）,2020,42(11):52-58. 被引量：6
7胡潇涛,吴浩,杨亮,顾小平,宋弘.基于伪标注样本融合的领域分词方法[J].四川轻化工大学学报（自然科学版）,2021,34(1):48-55. 被引量：1
8沈阳,李洪磊,陈杰.图数据模型及其在疫情追溯领域的应用研究[J].软件导刊,2021,20(2):13-17. 被引量：6
9王芷筠,常杪,周黎,郭培坤,谷美枫.基于新词发现的环境管理专业词库构建及其实证应用[J].环境工程技术学报,2021,11(2):385-392. 被引量：4
10李晖,张天垣,金纾羽.古代中国格律诗中的社会情感挖掘[J].计算机工程与应用,2021,57(7):171-177. 被引量：2

12018年两岸工程法律研讨会在湖南师范大学成功举办[J].中国政府采购,2018(7):9-10.
2倪维健,孙浩浩,刘彤,曾庆田.面向领域文献的无监督中文分词自动优化方法[J].数据分析与知识发现,2018,2(2):96-104. 被引量：9
3Brooke Nelson,韩芳(译).英语中那些自相矛盾的词[J].英语广场（美丽英文）,2018,0(7):94-95.
4席斯雅.软件工程方法在计算机软件开发中的有效运用[J].数码世界,2018,0(8):102-102. 被引量：1
5颜端武,任婷,陶志恒.基于双语词典和歧义消解的中英双语专利信息检索研究[J].情报理论与实践,2018,41(2):138-142. 被引量：9
6林颂凯,毛存礼,余正涛,郭剑毅,王红斌,张家富.基于卷积神经网络的缅甸语分词方法[J].中文信息学报,2018,32(6):62-70. 被引量：4
7杨帅,康旭琴,安新颖,范少萍,张音,王磊.肝癌领域精准医学语料标注研究[J].军事医学,2018,42(2):92-96. 被引量：2
8宫法明,朱朋海.基于自适应隐马尔可夫模型的石油领域文档分词[J].计算机科学,2018,45(B06):97-100. 被引量：9
9王瑜,隋铭才.多重语义启动实验范式下中国英语学习者的歧义词语义加工研究[J].外语学刊,2018,0(3):72-79. 被引量：6
10吴熠潇.中文分词相关算法研究[J].科技经济导刊,2018(2):122-123. 被引量：6

计算机工程与应用

2018年第17期

浏览历史

内容加载中请稍等...

面向专业领域的中文分词方法被引量：19

参考文献13

二级参考文献134

共引文献526

同被引文献154

引证文献19

二级引证文献99

相关作者

相关机构

相关主题

浏览历史

面向专业领域的中文分词方法 被引量：19

参考文献13

二级参考文献134

共引文献526

同被引文献154

引证文献19

二级引证文献99

相关作者

相关机构

相关主题

浏览历史

面向专业领域的中文分词方法被引量：19