基于编辑距离的无序词表的对齐和定位

Disorder word alignment and position based on Levenshtein Distance

下载PDF

导出

摘要语言调查采集到的数据存在相当程度的差异,需要进行二次加工。本文基于编辑距离算法实现从语言和方言词汇大数据中的词汇相似匹配及数据的对齐和定位。通过对达让语数据进行的3次实验发现,在做距离计算时,以词算而不是以词加括号内注释的整体去算的方式在保证抽取词汇召回率的基础上准确率会显著提升。实验结果表明,基于编辑距离的数据抽取方法是可行的,具有较好的检索效果。 The data of languages collected from field research have considerable differences,they need for secondary process.This paper implements the match and extraction of vocabulary similarity from the big data of language and dialect vocabulary based on levenshtein distance algorithm.Through the three experiments made by using the data of Darang,the research finds that the way of counting words rather than words and comments in brackets as a whole increases the precision rate dramatically on the basis of ensuring extraction vocabulary recall rate when the levenshtein distances are computed. The experimental results show that it is feasible to extract data based on levenshtein distance,the aboved method has better retrieval effect.

作者赵志靖

机构地区扬州大学新闻与传媒学院

出处《智能计算机与应用》 2016年第4期5-8,共4页 Intelligent Computer and Applications

基金教育部人文社会科学研究青年基金项目(15YJC740141) 江苏高校哲学社会科学研究项目(2015SJB783)

关键词编辑距离相似度 Levenshtein Distance similarity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1李宇明.论中国语言资源有声数据库的建设[J].中国语文,2010(4):356-363. 被引量：49
2LEVENSHTEIN V I. Binary codes capable of correcting deletions, insertions and reversals [ J]. Doklady Akademii Nauk SSSR, 1965, 163(4) :845-848.
3MANNING C D, RAGHAVAN P, SCHUTZE H. Introduction to information retrieval [ M ]. Cambridge : Cambridge University Press, 2008: 58- 60.
4马立东.编辑距离算法及其在英语易混词自动抽取中的应用[J].智能计算机与应用,2013(1):47-51. 被引量：2
5Allison L. Dynamic Programming Algorithm(DPA) for Edit-Distance [ EB/OL]. [ 2015 -07 - 10 ]. http ://www. allisons, org/ll/AlgDS/ Dynamic/Edit/.
6米成刚,杨雅婷,周喜,李晓,杨明忠.基于字符串相似度的维吾尔语中汉语借词识别[J].中文信息学报,2013,27(5):173-178. 被引量：6
7玛依热.依布拉音,米吉提.阿不里米提,艾斯卡尔.艾木都拉.基于最小编辑距离的维语词语检错与纠错研究[J].中文信息学报,2008,22(3):110-114. 被引量：11

二级参考文献58

1达.巴特尔.论语言资源保护[J].内蒙古社会科学,2007,28(6):133-135. 被引量：2
2古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
3周磊.乌鲁木齐方言借词研究[J].方言,2004,26(4):347-355. 被引量：9
4陈伟,丁秋林.数据清理中编辑距离的应用及Java编程实现[J].电脑与信息技术,2003,11(6):33-35. 被引量：9
5阿依克孜.卡德尔,开沙尔.卡德尔,吐尔根.依布拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3):43-48. 被引量：23
6陈世明.维吾尔语汉语借词新探[J].西北民族研究,2007(1):176-180. 被引量：7
7王辉.语言规划的资源观[J].北华大学学报（社会科学版）,2007,8(4):69-72. 被引量：16
8《中国语言文字使用情况调查资料》第88、25、26页,中国语言文字使用情况调查领导小组办公室编.语文出版社,2006.
9曹志耘主编.2009《汉语方言地图集》,商务印书馆.
10戴庆厦主编.1993《跨境语言研究》,中央民族学院出版社.

共引文献64

1林超琴,黄民理.少数民族濒危语言的保护与传承研究:以壮语为例[J].地方文化研究辑刊,2021(2):238-242. 被引量：1
2李斌.论湘语保存[J].湖南大学学报（社会科学版）,2011,25(5):103-106. 被引量：3
3何晋一,陈红英,姜文斌,张海波,刘群.基于上下文的拉丁维文拼写校对的研究[J].计算机系统应用,2011,20(12):60-63.
4吐尔根·依布拉音,袁保社.新疆少数民族语言文字信息处理研究与应用[J].中文信息学报,2011,25(6):149-156. 被引量：27
5王世凯,张亮.论“中国语言资源有声数据库辽宁库”的建设[J].渤海大学学报（哲学社会科学版）,2011,33(6):86-89. 被引量：2
6麦热哈巴.艾力,姜文斌,吐尔根.依布拉音.维吾尔语词法中音变现象的自动还原模型[J].中文信息学报,2012,26(1):91-96. 被引量：8
7李宇明.论语言生活的层级[J].语言教学与研究,2012(5):1-10. 被引量：76
8刘华,郭熙.海外华语语言生活状况调查及华语多媒体语言资源库建设[J].语言文字应用,2012(4):125-133. 被引量：17
9安见才让.基于分段的藏字校对算法研究[J].中文信息学报,2013,27(2):58-64. 被引量：12
10李庐静.地方普通话方言变项的使用和扩散——以福建永安普通话“来去”句的调查分析为例[J].语言文字应用,2013(2):26-34. 被引量：4

1Adobe Photoshop CS3：创建具有专业级标准的图像[J].数码印刷,2007(7):16-16.
2刘高军,刘妍妍,付晓玲.基于分割线和区域特征的页眉页脚判别方法[J].北方工业大学学报,2013,25(1):17-24.
3赵红梅,刘群,张瑞强,吕雅娟,隅田英一郎,吴翠玲.汉英词语对齐规范[J].中文信息学报,2009,23(3):65-87. 被引量：1
4赵中华,杨肄明,张猛.汽车车模覆盖件逆向工程中数据重构和优化[J].昆明理工大学学报（理工版）,2009,34(4):19-21.
5为奥运喝彩为中国加油[J].办公自动化（办公设备与耗材）,2008(9):13-13.
6王琛.模板化的Web列表页面信息自动抽取方法的研究[J].现代计算机（中旬刊）,2013(8):77-80. 被引量：1
7陈俊斌.谈谈如何优化固态硬盘[J].计算机与网络,2015,41(16):63-65.
8冯文贺.汉英篇章结构平行语料库的对齐标注研究[J].中文信息学报,2013,27(6):158-164. 被引量：7
9李学荣,彭武良,罗小川.一种求解资源受限项目调度问题的扩展串行调度方案[J].统计与决策,2009,25(15):39-41.
10客齐集开通QQ客服广告信息想发就发[J].计算机与网络,2005(17):31-31.

智能计算机与应用

2016年第4期

浏览历史

内容加载中请稍等...

基于编辑距离的无序词表的对齐和定位

参考文献7

二级参考文献58

共引文献64

相关作者

相关机构

相关主题

浏览历史