基于词典匹配的蒙古文命名实体识别研究被引量：3

A Study of Mongolian Named Entity Recognition Based on Dictionary Matching Method

导出

摘要命名实体是自然语言处理中重要的信息元素,是正确理解文本的基础。本研究根据蒙古文命名实体的特点,采用机器词典进行命名实体的最大化匹配后引入有限状态自动机。实验表明,采用该方法对10万词级蒙古文新闻语料库进行标注后,其召回率为90.67%,准确率为92.53%,F值为91.59%,取得了较好的识别效果。 Named entities are important information elements in natural language processing and are the basis for correct understanding of text. Based on the characteristics of Mongolian named entity, this paper introduces the finite state automata with the maximization of named entities by machine dictionary. The experimental results show that the recall rate is 90. 67% , the precision is 92. 53% , the F-measure is 91. 59% , and the recognition effect is achieved on 100, 000 words of Mongolian news corpus.

作者包敏娜斯.劳格劳

机构地区内蒙古师范大学蒙古学学院内蒙古大学蒙古学学院

出处《中央民族大学学报（哲学社会科学版）》 CSSCI 北大核心 2017年第3期165-169,共5页 Journal of Minzu University of China(Philosophy and Social Sciences Edition)

基金青格乐图教授主持的蒙古语言文字信息化专项扶持资金项目"蒙古文综合型语言知识库建设"(项目编号:MW-2014-MGYWXXH-01) 斯.劳格劳主持的国家自然科学基金项目"基于规则和统计的蒙古语多层级文本查错及纠错推理模型研究"(项目编号:61662050)的资助

关键词蒙古文命名实体词典匹配 Mongolian named entity dictionary match

分类号 H212 [语言文字—少数民族语言]

引文网络
相关文献

参考文献3

1刘殷,吕学强,刘坤.条件随机场与多层算法模型的实体自动识别[J].计算机工程与应用,2016,52(11):141-147. 被引量：3
2吴金星,那顺乌日图,杨振新.基于CRF的蒙古文人名自动识别研究[J].计算机应用研究,2016,33(7):2014-2017. 被引量：3
3斯.劳格劳.基于不确定有限自动机的蒙古文校对算法[J].中文信息学报,2009,23(6):110-115. 被引量：8

二级参考文献35

1蔡增玉,谷文祥.汉字双向有穷自动机的研究[J].中文信息学报,2005,19(3):40-44. 被引量：4
2向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：37
3张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
4Wuu Y. Mealy machines are a better model of lexical analyzers [J]. Computer Languages, 1996, 22 ( 1 ) : 27-38.
5Jian hua, Wang Xiaolong. Study on Automatic Spelling Check and Correction[J]. Journal of Chinese Language and Computing, 2003,1 (1) : 25-36.
6Karen Kukich. Techniques for Automatically Correcting Words in Text [J]. ACM Computing Surveys, 1992, 24(4): 377-438.
7黄昌宁,赵海.由字构词--中文分词新方法[c]//中文信息处理前沿进展--中国中文信息学会二十五周年学术会议论文集,北京:清华大学出版社,2006:53-63.
8Doddington G R,Mitchell A,Przybocki M A,et al.The Automatic Content Extraction(ACE)program-tasks,data,and evaluation[C]//Proceedings of the 4th International Conference on Language Resources and Evaluation,Lisbon,Portugal,2004.
9Chopra D,Morwal S.Named entity recognition in English using hidden Markov model[J].International Journal,2013.
10Ekbal A,Bandyopadhyay S.Named entity recognition using support vector machine:a language independent approach[J].International Journal of Electrical,Computer,and Systems Engineering,2010,4(2):155-170.

共引文献11

1斯·劳格劳,白斯勤,白庆格勒图.一种传统蒙古文拼写检查系统的实现[J].中央民族大学学报（哲学社会科学版）,2021,48(1):158-168. 被引量：1
2苏传捷,侯宏旭,杨萍,员华瑞.基于统计翻译框架的蒙古文自动拼写校对方法[J].中文信息学报,2013,27(6):175-179. 被引量：10
3李娜.基于条件随机场的方志古籍别名自动抽取模型构建[J].中文信息学报,2018,32(11):41-48. 被引量：29
4斯.劳格劳.蒙古语固定短语识别算法的设计与实现[J].中文信息学报,2017,31(5):85-91. 被引量：3
5娜仁图雅,白双成.蒙古语媒体资产编目问题研究[J].广西科学院学报,2018,34(1):72-77.
6包乌格德勒,李娟.蒙古文文本自动校对研究综述[J].电脑知识与技术（过刊）,2016,22(12X):227-229. 被引量：1
7杨利润,斯琴巴图.浅析蒙古文电子文档中的文本错误[J].电脑知识与技术,2019,15(4Z):211-213. 被引量：1
8杨利润,斯琴巴图,锡林宝力尔.关于解决蒙古文形对码错错误的研究综述[J].现代计算机,2020,26(4):29-31.
9潘代玉,王正勇,滕奇志.改进SLIC的岩石颗粒分割研究[J].软件导刊,2020,19(4):242-246. 被引量：3
10王学贺,李晓磊,成洪豪,赵华.一种从新闻报道中构建突发事件应急处置过程的方法[J].新疆大学学报（自然科学版中英文）,2024,41(4):444-451.

同被引文献13

1郭剑毅,薛征山,余正涛,张志坤,张宜浩,姚贤明.基于层叠条件随机场的旅游领域命名实体识别[J].中文信息学报,2009,23(5):47-52. 被引量：37
2薛征山,郭剑毅,余正涛,张志坤,姚贤明.基于HMM的中文旅游景点的识别[J].昆明理工大学学报（理工版）,2009,34(6):44-48. 被引量：11
3韩春燕,刘玉娇,琚生根,李若晨,苏翀.中文微博命名体识别[J].四川大学学报（自然科学版）,2015,52(3):511-516. 被引量：9
4张雪英,叶鹏,王曙,杜咪.基于深度信念网络的地质实体识别方法[J].岩石学报,2018,34(2):343-351. 被引量：38
5车金立,唐力伟,邓士杰,苏续军.融合词位字向量的军事领域命名实体识别[J].火炮发射与控制学报,2019,40(3):50-55. 被引量：9
6冯静,李正武,张登云,邹俊志.基于隐马尔可夫模型的桥梁检测文本命名实体识别[J].交通世界,2020,0(8):32-33. 被引量：11
7储德平,万波,李红,方芳,王润.基于ELMO-CNN-BiLSTM-CRF模型的地质实体识别[J].地球科学,2021,46(8):3039-3048. 被引量：21
8游新冬,葛昊杰,韩君妹,李育贤,吕学强.面向武器装备领域的复杂实体识别[J].北京大学学报（自然科学版）,2022,58(3):391-404. 被引量：4
9张春菊,张磊,陈玉冰,刘文聪,薄嘉晨,肖鸿飞.基于BERT的交互式地质实体标注语料库构建方法[J].地理与地理信息科学,2022,38(4):7-12. 被引量：6
10马凯,田苗,谭永健,王曙,谢忠,邱芹军.基于四份区域地质调查报告构建的命名实体识别试验数据集研发[J].全球变化数据学报（中英文）,2022,6(1):78-84. 被引量：5

引证文献3

1乌兰.简论词法标注对短语结构句法分析的影响——以蒙古文信息处理为中心[J].内蒙古师范大学学报（哲学社会科学版）,2018,47(6):57-60.
2赵平,孙连英,万莹,葛娜.基于BERT+BiLSTM+CRF的中文景点命名实体识别[J].计算机系统应用,2020,29(6):169-174. 被引量：17
3刘志豪,金相国,邱芹军,陶留锋,黄振,谢忠.顾及中文汉字多特征的矿产资源实体识别[J].地质科学,2023,58(4):1535-1553. 被引量：3

二级引证文献20

1程世清,王思宇,曹林.基于Albert的联合训练文书信息提取方法研究[J].信息工程大学学报,2021,22(2):228-233.
2任媛,于红,杨鹤,刘巨升,杨惠宁,孙哲涛,张思佳,刘明剑,孙华.融合注意力机制与BERT+BiLSTM+CRF模型的渔业标准定量指标识别[J].农业工程学报,2021,37(10):135-141. 被引量：20
3郭知鑫,邓小龙.基于BERT-BiLSTM-CRF的法律案件实体智能识别方法[J].北京邮电大学学报,2021,44(4):129-134. 被引量：17
4任妮,鲍彤,沈耕宇,郭婷.基于深度学习的细粒度命名实体识别研究——以番茄病虫害为例[J].情报科学,2021,39(11):96-102. 被引量：8
5沈同平,俞磊,金力,黄方亮,许欢庆.基于BERT-BiLSTM-CRF模型的中文实体识别研究[J].齐齐哈尔大学学报（自然科学版）,2022,38(1):26-32. 被引量：9
6赵卓,田侃,张殊,张晨,吴涛,张浩然.面向智慧文博的知识图谱构建综述[J].软件导刊,2022,21(5):1-8. 被引量：3
7单慧琳,洪智毅,张银胜,王兴涛.基于深度学习的景点图像识别[J].实验室研究与探索,2022,41(5):12-17. 被引量：4
8傅源坤,柳先辉,赵卫东.基于BERT的智能制造装备命名实体识别方法[J].制造业自动化,2022,44(9):120-124. 被引量：1
9付美玲,薛磊,徐英.基于BERT-BiLSTM-CRF模型的电子目标图谱实体抽取方法[J].空天预警研究学报,2022,36(3):206-210.
10李胜楠,徐春.基于RoBERTa-WWM的旅游领域命名实体识别方法[J].电脑与信息技术,2022,30(6):34-38.

1李振国.英语新闻标题的特点及翻译解析[J].佳木斯教育学院学报,2013(9):373-373.
2王倓倓.翻译补偿及其在文学翻译中的应用方法[J].短篇小说（原创版）,2012(16):93-94.
3雷志梅.词语的文化内涵与翻译[J].西昌学院学报（社会科学版）,2009,21(3):38-40. 被引量：2
4刘红秀.广告英语的象似性及其翻译[J].考试周刊,2014(64):76-77. 被引量：1
5于涛,梁茂成.英语动词型式自动识别研究[J].外语教学与研究,2017,49(3):366-378. 被引量：4
6齐白桦.语境与应用文写作[J].应用写作,2004(6):4-7. 被引量：2
7王晶杰.基于Google机器翻译译文的测评[J].戏剧之家,2017(6):287-287. 被引量：1
8柳超健,王军.基于语义标注工具Wmatrix的隐喻识别研究[J].外语电化教学,2017(2):15-21. 被引量：16
9孔蕾.英语“情态副词+DP”的合法性解析——兼谈其汉语对应表达[J].北京第二外国语学院学报,2017,39(2):42-54.
10李培,刘俊飞,刘涛,张珊珊,杨亦鸣.聋人汉语词汇阅读中的语音加工研究[J].语言文字应用,2017(2):57-66. 被引量：6

中央民族大学学报（哲学社会科学版）

2017年第3期

浏览历史

内容加载中请稍等...

基于词典匹配的蒙古文命名实体识别研究被引量：3

参考文献3

二级参考文献35

共引文献11

同被引文献13

引证文献3

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于词典匹配的蒙古文命名实体识别研究 被引量：3

参考文献3

二级参考文献35

共引文献11

同被引文献13

引证文献3

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于词典匹配的蒙古文命名实体识别研究被引量：3