一种基于LSTM的端到端多任务老挝语分词方法

An End-to-end Multi Task Method for Laotian Word Segmentation via LSTM

下载PDF

导出

摘要老挝语是一种无空格切分的字母语言,在进行自然语言处理工作时需要首先进行分词处理。现有分词算法主要为首先使用规则进行音节切分,然后根据音节切分结果进行老挝语分词,存在错误传递等问题。该文提出一种基于神经网络的端到端老挝语分词方法,基于多任务联合学习思想,将老挝语音节切分与分词工作进行结合,实现了基于双向长短时记忆循环神经网络(BiLSTM)的端到端老挝语分词模型。实验表明,端到端的老挝语分词模型准确率达到89.02%,较以往分词模型有所提升。 Laotian is a non-space separated alphabetic language. The existing segmentation algorithms for Laotian mainly use rules to segment syllables first, and then segment words according to the results of syllable segmentation. This paper proposes an end-to-end Laotian word segmentation method based on neural networks. With multi-task joint learning, the Lao syllable segmentation and word segmentation are jointly processed via BiLSTM. Experiments show that the precision of the proposed method reaches 89.02%, out-performing previous word segmentation models.

作者郝永彬周兰江刘畅 HAO Yongbin;ZHOU Lanjiang;LIU Chang(School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,Yunnan 650504,China;School of Information Science and Technology,Southwest Jiaotong University,Chengdu,Sichuan 611756,China)

机构地区昆明理工大学信息工程与自动化学院西南交通大学信息科学与技术学院

出处《中文信息学报》 CSCD 北大核心 2021年第9期75-81,共7页 Journal of Chinese Information Processing

基金国家自然科学基金(61662040,61562049)。

关键词老挝语分词音节切分多任务学习端到端模型 Laotian word segmentation syllable segmentation multi-task learning end-to-end model

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1邓丽萍,罗智勇.基于半监督CRF的跨领域中文分词[J].中文信息学报,2017,31(4):9-19. 被引量：19
2何力,周兰江,周枫,郭剑毅.基于双向长短期记忆神经网络的老挝语分词方法[J].计算机工程与科学,2019,41(7):1312-1317. 被引量：17

二级参考文献6

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
3罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,2007,33(7):718-725. 被引量：14
4张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(2):8-12. 被引量：44
5许华婷,张玉洁,杨晓晖,单华,徐金安,陈钰枫.基于Active Learning的中文分词领域自适应[J].中文信息学报,2015,29(5):55-62. 被引量：7
6张洪刚,李焕.基于双向长短时记忆模型的中文分词方法[J].华南理工大学学报（自然科学版）,2017,45(3):61-67. 被引量：12

共引文献34

1冯国明,张晓冬,刘素辉.基于自主学习的专业领域文本DBLC分词模型[J].数据分析与知识发现,2018,2(5):40-47. 被引量：2
2吴振华,高瑞泽.智能家居场景下改进的中文字符串匹配算法[J].南昌航空大学学报（自然科学版）,2018,32(2):81-85. 被引量：1
3成于思,施云涛.面向专业领域的中文分词方法[J].计算机工程与应用,2018,54(17):30-34. 被引量：19
4李健龙,王盼卿,韩琪宇.面向军事领域的中文分词技术研究[J].计算机与现代化,2018(11):115-118. 被引量：2
5杨兵,聂铁铮,申德荣,寇月,于戈.一种面向医学文本数据的结构化信息抽取方法[J].小型微型计算机系统,2019,40(7):1479-1485. 被引量：16
6杨光豹,杨丰赫,郑慧锦.基于字符树结构的高性能中文词库技术[J].计算机系统应用,2019,28(8):262-267.
7成于思,施云涛.基于深度学习和迁移学习的领域自适应中文分词[J].中文信息学报,2019,33(9):9-16. 被引量：14
8江明奇,严倩,李寿山.基于联合学习的跨领域法律文书中文分词方法[J].中文信息学报,2019,33(9):17-23. 被引量：4
9王星,李超,陈吉.基于膨胀卷积神经网络模型的中文分词方法[J].中文信息学报,2019,33(9):24-30. 被引量：20
10魏宇,邢剑华.自然语言处理视角下分散化政策情报信息量化研究——以1986-2018年旅游交通政策演进为例[J].情报杂志,2020,39(8):16-23. 被引量：6

1宋永生,黄蓉美.基于Python的教学视频弹幕分析[J].现代信息科技,2021,5(11):18-20. 被引量：2
2杨德彬,马卫春.基于条件随机场模型的中文地址分词研究[J].测绘与空间地理信息,2021,44(11):73-75. 被引量：6
3朱东妹.多源数据融合视角下的阅读推广用户画像构建研究[J].图书馆理论与实践,2021(6):99-105. 被引量：16
4张常春.小学数学教学中数形结合思想的渗透研究[J].试题与研究,2021(20):25-26.
5陈虹瑶,李淑琦,王春盈,徐绍荣.葡萄酒网购消费者购买决策影响因素与客户细分——基于在线评论数据[J].酿酒科技,2021(11):127-132. 被引量：3

中文信息学报

2021年第9期

浏览历史

内容加载中请稍等...

一种基于LSTM的端到端多任务老挝语分词方法

参考文献2

二级参考文献6

共引文献34

相关作者

相关机构

相关主题

浏览历史