基于众包的维吾尔语事件标注研究被引量：1

Building Uyghur Language Event Annotation Corpus with Crowdsourcing

下载PDF

导出

摘要大规模标注语料库在自然语言处理的语义理解和算法研究等领域有重要作用.本文针对维吾尔语事件标注语料空白以及标注仅仅涉及简单的人类智能的事实,提出了一种基于众包的维吾尔语事件标注方法.在制定了维吾尔语事件标注规范之后,建立了三层架构的标注体系,并提出质量控制机制.维吾尔语事件标注语料库为维吾尔语事件的研究提供了重要的资源支持. Large scale annotated corpora have played an important role in natural language processing （NLP） research, encountering the development of novel ideas, tasks and algorithm. Confronted with the lack of event tagging corpus in Uyghur language and the fact that corpus annotation only involves a simple human intelligence, this research proposes an event corpus annotation method based on crowdsourcing. At first, the paper formulated the Uygur event tagging specification, then we established a three-layer architecture corpus tagging platform, and then put forward error correction mechanism and quality control strategies to ensure the tagging quality. The establishment of Uygur language event tagging corpus can provide powerful resources for the Uyghur language event researches.

作者陈昊吐尔根.依布拉音卡哈尔江.阿比的热西提艾山.吾买尔

机构地区新疆大学信息科学与工程学院新疆大学自治区语言技术重点实验室

出处《新疆大学学报（自然科学版）》 CAS 北大核心 2015年第2期209-214,220,共7页 Journal of Xinjiang University(Natural Science Edition)

基金国家自然科学基金项目(61331011 61262060) 国家重点基础研究发展计划(973)项目(2014cb340506)

关键词事件维吾尔语语料库众包 Event Uyghur Annotation Corpus Crowdsourcing

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1邹岳琳,吐尔根.依布拉音,麦热哈巴.艾力,艾山.吾买尔,帕力旦.吐尔逊.基于词干提取的维吾尔语事件类时间短语识别[J].计算机工程与设计,2014,35(2):625-630. 被引量：6
2木合塔尔.艾尔肯,艾斯卡尔.艾木都拉,地里木拉提.吐尔逊.基于规则的维吾尔地名识别[J].通信技术,2013,46(7):103-105. 被引量：9
3Howe J.The rise of crowdsourcing[J].Wired magazine,2006,14(6):1-4.
4Wang A,Hoang C D V,Kan M Y.Perspectives on crowdsourcing annotations for natural language processing[J].Language resources and evaluation,2013,47(1):9-31.
5von Ahn L,Dabbish L.Labeling images with a computer game[C].In CHI’04:Proceedings of the SIGCHI conference on Human factors in computing systems,Vienna Austria,2004,319-326.
6von Ahn L,Dabbish L.Designing games with a purpose[J].Communications of the ACM,2008,51(8):58-67.
7Siorpaes K,Hepp M.Onto Game:Weaving the semantic web by online games[J].Research and applications,2008,751-766.
8邹建红.突发事件信息的标注研究[D].北京:北京语言大学硕士论文,2007.
9Desmet B,Hoste V.Fine-grained Dutch named entity recognition[J].Language Resources and Evaluation,2014,48(2):307-343.
10仲秋雁,王彦杰,裘江南.众包社区用户持续参与行为实证研究[J].大连理工大学学报（社会科学版）,2011,32(1):1-6. 被引量：48

二级参考文献22

1赵东霞,卢小君,柳中权.影响城市居民社区满意度因素的实证研究[J].大连理工大学学报（社会科学版）,2009,30(2):66-71. 被引量：22
2张晓艳,王挺,陈火旺.基于混合统计模型的汉语命名实体识别方法[J].计算机工程与科学,2006,28(6):135-139. 被引量：19
3钱晶,张杰,张涛.基于最大熵的汉语人名地名识别方法研究[J].小型微型计算机系统,2006,27(9):1761-1765. 被引量：26
4LI L, DING D, HUANG D. Recognizing Location Names from Chinese Texts Based on Max-Margin Network[C]. USA:IEEE, 2008:325-331.
5BRABHAM D C.Moving the crowd at Istockphoto:thecomposition of the crowd and motivations forparticipationin a crowdsourcing application. First Monday . 2008
6DIPALANTINO D,VOJNOVIC M.Crowdsourcing andall-pay auctions. http://www.citeulike.org/us-er/aschriner/article/7658011 . 2011
7CHEN Y,KI M Y M.Knowledge market design:a fieldexperi ment at google answers. Journal of Public Eco-nomics Theory . 2010
8J Howe.The rise of crowdsourcing. WIRED Mag . 2006
9Teo, T. S. H,Lim, V. K. G,Lai, R. Y. C.Intrinsic and Extrinsic Motivation in Internet Usage. The International Journal of Management Science . 1999
10Feng Liu,Lingling Zhang,Jifa Gu.The Application ofKnowledge Management in the Internet Witkey Modein China. International Journal of Knowl-edge and Systems Sciences . 2007

共引文献59

1张玉红,董大海,刘晟楠.虚拟社区顾客公民行为的界定与量表研究[J].大连理工大学学报（社会科学版）,2013,34(3):30-35. 被引量：6
2薛红.众包在高校图书馆虚拟参考咨询服务中的运用[J].图书馆杂志,2012,31(1):56-59. 被引量：23
3张利斌,钟复平,涂慧.众包问题研究综述[J].科技进步与对策,2012,29(6):154-160. 被引量：88
4袁顺波.科研人员采纳自存储的影响因素研究[J].图书情报知识,2014,31(2):72-83. 被引量：13
5吴金红,陈强,鞠秀芳.用户参与大数据众包活动的意愿和影响因素探究[J].情报资料工作,2014,35(3):74-79. 被引量：20
6李龙一,王琼.众包模式用户参与影响因素分析——基于社会交换理论的实证研究[J].现代情报,2014,34(5):17-23. 被引量：21
7李勇军,缑西梅.基于“众包”的软件开发模式[J].计算机系统应用,2014,23(6):7-10. 被引量：1
8贺爱忠,向爽.在线品牌社群成员心理相容性与社群绩效[J].西安交通大学学报（社会科学版）,2019,39(1):49-57. 被引量：5
9王路路,艾山.吾买尔,买合木提.买买提,卡哈尔江.阿比的热西提,吐尔根.依布拉音.基于CRF和半监督学习的维吾尔文命名实体识别[J].中文信息学报,2018,32(11):16-26. 被引量：13
10张军,李鹏.众包参与者竞争网络研究——以猪八戒网站为例[J].情报杂志,2014,33(11):188-192. 被引量：8

同被引文献22

1徐杰,施鹏飞.图像检索中基于标记与未标记样本的主动学习算法[J].上海交通大学学报,2004,38(12):2068-2072. 被引量：7
2徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007,21(6):95-100. 被引量：107
3居胜峰,王中卿,李寿山,等. 情感分类中不同主动学习策略比较研究[C] //中国计算语言学研究前沿进展(2009-2011). 2011:506-511.
4Li S,Huang C R,Zhou G,et al.Employing Personal/Impersonal Views in Supervised and Semi-Supervised Sentiment Classification[C].Proceedings of Annual Meeting of the Association for Computational Linguistics,2010:414-423.
5Pang B,Lee L,Vaithyanathan S.Thumbs up?:sentiment classification using machine learning techniques[C].Proceedings of Emnlp,2002:79–86.
6Dasgupta S,Ng V.Mine the Easy,Classify the Hard:A Semi-Supervised Approach to Automatic Sentiment Classification[C].Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP,2009,2.
7龙军,殷建平,祝恩,等.主动学习研究综述[C].2007全国理论计算机科学学术年会,2007:300-304.
8Pang B,Lee L.A Sentimental Education:Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts[C].Proceedings of the Acl,2004:271–278.
9Riloff E,Patwardhan S,Wiebe J.Feature Subsumption for Opinion Analysis[J].In Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing(EMNLP-06,2006:440-448.
10Mcdonald R,Hannan K,Neylon T,et al.Structured Models for Fine-to-Coarse Sentiment Analysis[C].Proceedings of Annual Meeting of the Association of Computational Linguistics,2007.

引证文献1

1李响,吐尔根.依布拉音,卡哈尔江.阿比的热西提,买合木提.买买提.基于主动学习的SVM维吾尔语情感分析研究[J].新疆大学学报（自然科学版）,2015,32(4):447-452. 被引量：6

二级引证文献6

1如先姑力.阿布都热西提,亚森.艾则孜,年梅.基于广泛相似度的维吾尔语文档分类方案[J].计算机工程与设计,2017,38(6):1686-1691.
2王树恒,吐尔根.依布拉音,卡哈尔江.阿比的热西提,艾山.吾买尔,古丽尼格尔.阿不都外力.基于BLSTM的维吾尔语文本情感分析[J].计算机工程与设计,2017,38(10):2879-2886. 被引量：16
3如先姑力·阿布都热西提,亚森·艾则孜,郭文强.维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法[J].计算机应用研究,2019,36(11):3410-3414. 被引量：5
4艾山·吾买尔,魏文琳,早克热·卡德尔.基于BiLSTM+Attention的体育领域情感分析研究[J].新疆大学学报（自然科学版）,2020,37(2):142-149. 被引量：3
5史振杰,董兆伟,庞超逸,张百灵,孙立辉.基于BiLSTM-Attention的电商评论情感分析[J].河北省科学院学报,2020,37(2):12-19. 被引量：1
6刘若兰,年梅,杨建萍.维吾尔语情感倾向性分析研究综述[J].电脑知识与技术,2022,18(28):4-6.

1刘海涛,赵怿怡.基于树库的汉语依存句法分析[J].模式识别与人工智能,2009,22(1):17-21. 被引量：4
2董松月,陈润雨,刘西菩,赵颖莉,马晓宁.网络民航事件虚假评论的识别研究[J].智能计算机与应用,2016,6(4):28-31. 被引量：1
3张占军,韩承德,杨学良.IPv6服务质量控制机制[J].计算机工程与应用,2001,37(1):8-9. 被引量：4
4许永敏,杨晓洁.试题库系统质量控制机制的设计[J].鞍山师范学院学报,2007,9(6):43-46. 被引量：3
5杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰.中文电子病历命名实体和实体关系语料库构建[J].软件学报,2016,27(11):2725-2746. 被引量：104
6张先飞,郭志刚,李弼程,孙显著.自动内容抽取中的中文事件标注[J].情报学报,2011,30(1):61-68. 被引量：1
7柯佳,詹永照,陈潇君,汪满容.基于扩展格框架标注的视频事件多维关联规则挖掘方法[J].计算机应用研究,2013,30(10):3133-3138. 被引量：2
8周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
9伊尔夏提.吐尔贡,吾守尔.斯拉木,热西旦木.吐尔洪太,于清.维吾尔文情感语料库的构建与分析[J].计算机与现代化,2017(4):67-72. 被引量：6
10罗枫,王丹志,袁捷.基于元模型的网管数据质量控制[J].电信工程技术与标准化,2006,19(10):33-36.

新疆大学学报（自然科学版）

2015年第2期

浏览历史

内容加载中请稍等...

基于众包的维吾尔语事件标注研究被引量：1

参考文献10

二级参考文献22

共引文献59

同被引文献22

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于众包的维吾尔语事件标注研究 被引量：1

参考文献10

二级参考文献22

共引文献59

同被引文献22

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于众包的维吾尔语事件标注研究被引量：1