摘要
在大多数情况下,语言信息系统是不完备的,或者说存在某种程度的不完备,在各种实用的数据库中,属性值语言数据缺失的情况经常发全甚至是不可避免的。在语言调查与语言收集中,数据的缺失会带来很大的失误率,数据的缺失比例过大会导致数据不具有代表性和真实性,具有较大的估计偏差,甚至导致数据完全失去利用价值,因此对随机缺失的数据处理十分必要,首先,在对缺失语言数据进行处理前,了解语言数据缺失的机制和形式。其次,针对缺失的数据机制,确定追踪数据的方法,使得语言数据得到最大化的完善。
In most cases, the information system is incomplete, or there is some degree of incomplete, in a variety of practical database, the data missing attribute values often send all even inevitable. Especially in language investigation and collection, the lack of data will bring a lot of elTors, the proportion of missing data will result in representative and authenticity of the data and has a larger estimation deviation, even causes data lost use value, so it is quitely necessary to random missing data processing. First of all, before to deal with missing data, understand the mechanism and forms of data missing. Secondly, in view of the missing data mechanism, determine the method of tracking data, makes the maximize the improvement of the data.
作者
林睿
陈鲁雁
王嘉梅
范菁
袁长森
LIN Rui;CHEN Luyan;WANG Jiamei;FAN Jing;YUAN Changsen(Colleges and Universities in Yunnan Minority Language Information Processing Research Center,Yunnan Minzu University,Kunming 650500;School of Electrical & Information Engineering,Yunnan Minzu University,Kunming 650500)
出处
《计算机与数字工程》
2018年第10期2034-2038,共5页
Computer & Digital Engineering
基金
国家自然科学基金(编号:61363085)
云南省教育厅科学研究基金重大专项项目(编号:ZD2013013)
云南民族大学高水平民族大学建设科研项目(编号:ZZZC1501-JF12002)
2014年国家语委重大科研项目"少数民族语言文化信息元表示及抽取方法研究"(编号:WT125-61)
2016年云南民族大学研究生创新科研基金一般项目"大数据心理学与统计方法的研究"(编号:2016YJCXS05
2015/6-2016/9)资助
关键词
语言模型
追踪研究
缺失数据
数据处理方法
language model
follow-up study
missing data
data processing method