藏文词向量相似度和相关性评测集构建被引量：5

Construction of Tibetan Words Embedding Similarity and Relevance Evaluation Set

下载PDF

导出

摘要词向量评测是词向量研究的基础,包括内部评测(intrinsic evaluation)和外部评测(extrinsic evaluations)。外部评测是将得到的词向量应用到具体某个任务中进行评测,是词向量研究的目标。内部评测是通过建立词之间的语义相似度或相关性能力的评测集,评价词向量模型的性能,是一种常用的词向量评测方式。该文通过分析英文、汉文词向量评测集构建方法,结合藏文的特点,研究藏文词向量评测集构建方法,构建了用于评价藏文词向量相似度和相关性的评测集TWordSim215和TWordRel215,并分析其有效性。 Evaluation of words embedding as an essential issue in the research can be performed by intrinsic evaluation or extrinsic evaluation.The intrinsic evaluation,as a basic solution,usually demands an evaluation set describing the similarity or relevance among words.After examing the construction methods of words embedding evaluation sets of English and Chinese,this paper investigate the construction of Tibetan words embedding evaluation set according to the characteristic of Tibetan.The evaluation sets WordSim215 and TWordRel215 are constructed and analyzed for their effectiveness of evaluating Tibetan words embedding similarity and relevance.

作者才智杰孙茂松才让卓玛 CAI Zhijie;SUN Maosong;CAI Rangzhuoma(College of Computer Science and Technology,Qinghai Normal University,Xining,Qinghai 810016,China;Qinghai Provincial Key Laboratory of Tibetan Information Processing and Machine Translation,Xining,Qinghai 810008,China;Key Laboratory of Tibetan Information Processing,Ministry of Education,Xining,Qinghai 810008,China;Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China)

机构地区青海师范大学计算机学院青海省藏文信息处理与机器翻译重点实验室藏文信息处理教育部重点实验室清华大学计算机科学与技术系

出处《中文信息学报》 CSCD 北大核心 2019年第7期81-87,100,共8页 Journal of Chinese Information Processing

基金国家自然科学基金(61866032,61163018) 国家社会科学基金(13BYY141,16BYY167) 教育部“春晖计划”合作科研项目(Z2012093,Z2016077) 青海省基础研究项目(2017-ZJ-767,2019-SF-129) “长江学者和创新团队发展计划”创新团队资助项目(IRT1068) 青海省重点实验室项目(2013-Z-Y17,2014-Z-Y32,2015-Z-Y03) 藏文信息处理与机器翻译重点实验室项目(2013-Y-17)

关键词自然语言处理藏文词向量评测集 natural language processing tibetan words embedding evaluation set

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1才智杰,才让卓玛.藏文字符的向量模型及构件特征分析[J].中文信息学报,2016,30(2):202-206. 被引量：6

二级参考文献17

1林河水,程伟,曹晖,李文波,吴健,孙玉芳.一种符合ISO14651语义的藏文排序实现方法[J].中文信息学报,2004,18(5):36-41. 被引量：19
2高定国,龚育昌.现代藏字全集的属性统计研究[J].中文信息学报,2005,19(1):71-75. 被引量：32
3扎西次仁.《中华大藏经·丹珠尔》藏文对勘本字频统计分析[J].中国藏学,1997(2):122-133. 被引量：18
4江荻,董颖红.藏文信息处理属性统计研究[J].中文信息学报,1995,9(2):37-44. 被引量：19
5才旦夏茸.藏文文法详解[M].西宁:青海民族出版社,1988.
6百度百科.藏文[EB/OL].http://baike.baidu.corn/view/230052.htm,2013-01-12.
7CaiZhijie,CaiRangzhuoma. Statistical Analysis for Fre- quency of the Corpus-based Modern Tibetan Basic ComponentsEC~//Proceedings of 2011 4th Internation- al Conference on Intelligent Networks and Intelligent Systems (ICINIS), Kunming, China, Nov. 1 3,2011 : 214-217.
8张晓艳,王挺,陈火旺.基于多向量和实体模糊匹配的话题关联识别[J].中文信息学报,2008,22(1):9-14. 被引量：5
9黄鹤鸣,契嘎.德熙嘉措.基于DUCET的藏文排序方法[J].中文信息学报,2008,22(4):109-113. 被引量：11
10才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70

共引文献5

1才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020(5):44-49. 被引量：4
2高定国.藏文信息处理研究进展[J].广西科学院学报,2018,34(1):1-11. 被引量：7
3才智杰,孙茂松,才让卓玛.一种基于向量模型的藏文字拼写检查方法[J].中文信息学报,2018,32(9):47-55. 被引量：12
4苗晗,车文刚,朱倩倩.一种藏文雕刻字体多样性表达方法[J].信息技术,2020,44(9):129-132.
5普哇拉毛,尼玛扎西,道吉扎西,王超.藏文文本校对技术研究进展[J].高原科学研究,2023,7(2):99-104.

同被引文献32

1才智杰,才让卓玛.基于语料库的藏文字属性分析系统设计[J].计算机工程,2011,37(22):270-272. 被引量：10
2阮翀,施文娴,李岩昊,翁伊嘉,胡俊峰.基于多译文的中文转述语料库建设及转述评价方案[J].中文信息学报,2018,32(12):67-75. 被引量：4
3帕丽旦.木合塔尔,吾守尔.斯拉木,买买提阿依甫.基于混合模型的维吾尔文词性标注方法[J].计算机仿真,2019,36(1):268-273. 被引量：6
4杨阳,刘龙飞,魏现辉,林鸿飞.基于词向量的情感新词发现方法[J].山东大学学报（理学版）,2014,49(11):51-58. 被引量：26
5才让卓玛,李永明,才智杰.藏语语音合成单元选择[J].软件学报,2015,26(6):1409-1420. 被引量：5
6才智杰,才让卓玛.藏文字符的向量模型及构件特征分析[J].中文信息学报,2016,30(2):202-206. 被引量：6
7项睿.在线翻译软件灰色综合评价[J].信息技术,2016,40(9):77-80. 被引量：4
8冯艳红,于红,孙庚,赵禹锦.基于词向量和条件随机场的领域术语识别方法[J].计算机应用,2016,36(11):3146-3151. 被引量：24
9郑亚楠,珠杰.基于词向量的藏文词性标注方法研究[J].中文信息学报,2017,31(1):112-117. 被引量：10
10张丽林,李茂西,肖文艳,万剑怡,王明文.机器翻译自动评价中领域知识复述抽取研究[J].北京大学学报（自然科学版）,2017,53(2):230-238. 被引量：8

引证文献5

1才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020(5):44-49. 被引量：4
2林颖,吾守尔·斯拉木.机器翻译评价系统研究与设计[J].信息通信,2020(5):26-28. 被引量：2
3索朗拉姆,群诺.藏文词向量技术研究综述[J].电脑知识与技术,2021,17(11):226-228. 被引量：1
4德吉卡卓,张江燕,群诺.藏文词向量方法研究综述[J].信息与电脑,2022,34(17):59-62.
5华娇娇,唐华云,王延昭,商丽丽.债券领域的多粒度词向量训练及评估方法研究[J].计算机仿真,2024,41(3):260-266.

二级引证文献7

1郑萌.基于改进注意力机制模型的智能英语翻译方法研究[J].电子科技,2020,33(11):84-87. 被引量：9
2席宁丽,朱丽佳,王录通,陈俊,万晓容.一种Word2vec构建词向量模型的实现方法[J].电脑与信息技术,2023,31(1):43-46. 被引量：8
3才智杰,道吉扎西.藏文文本分类特征基元选择[J].中文信息学报,2023,37(1):64-70. 被引量：1
4杜茜,孙洪建,任海涛.基于多特征提取的语料库翻译数据标识系统设计[J].自动化与仪器仪表,2023(4):112-116. 被引量：1
5杨进,朱云飞,陈晨,阿永强.基于TMS-BERT的藏文多粒度语义匹配模型研究[J].高原科学研究,2023,7(2):84-92. 被引量：2
6才让当知,黄鹤鸣,李鑫元,张会云.基于Rcnn+Char_SegNet的藏文乌梅长文本识别[J].中文信息学报,2023,37(12):62-69.
7贾星星,陆玉,杨龙飞,多拉,王道顺.T-Transformer-XL和T-XLNet:两个藏语预训练模型[J].西安邮电大学学报,2024,29(4):93-99.

1杨晨,张鹏.基于词向量相似度的食品安全问答系统设计与实现[J].软件导刊,2019,18(8):16-20. 被引量：1
2操银环.临床护理教学研究性学习模式的构建[J].黑河学院学报,2019,10(2):118-119.
3刘薇.空间向量应用例说[J].高中数理化,2018,0(23):6-7.
4马力,李沙沙.基于词向量的文本分类研究[J].计算机与数字工程,2019,47(2):281-284. 被引量：9
5申志莲.平面向量中几个概念的教学引入[J].数学教学,2019,0(5):39-42.
6冯楠.培养小学生数学素养之创新能力的策略[J].考试周刊,2019,0(36):92-92.
7秦增平.三点共线的两种模式[J].中学生数学（高中版）,2019,0(5):6-7.
8边喜英.基于优质旅游需求下的旅游企业人力资源测评研究——以旅行社计调人员为例[J].旅游论坛,2019,12(2):49-56. 被引量：3
9李宇琦,陈维政,闫宏飞,李晓明.基于网络表示学习的个性化商品推荐[J].计算机学报,2019,42(8):1767-1778. 被引量：31
10马路佳,赖文,赵小兵.基于跨语言词向量模型的蒙汉查询词扩展方法研究[J].中文信息学报,2019,33(6):27-34. 被引量：7

中文信息学报

2019年第7期

浏览历史

内容加载中请稍等...

藏文词向量相似度和相关性评测集构建被引量：5

参考文献1

二级参考文献17

共引文献5

同被引文献32

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

藏文词向量相似度和相关性评测集构建 被引量：5

参考文献1

二级参考文献17

共引文献5

同被引文献32

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

藏文词向量相似度和相关性评测集构建被引量：5