基于众包的词汇联想网络的获取和分析被引量：6

Constructing Word Association Network by Crowdsourcing

下载PDF

导出

摘要词典是汉语自然语言处理中非常重要的一类资源,它能为汉语词法句法以及语义分析等提供资源支撑。该文采用众包方法构建汉语语义相关性词典,该词典是通过触发词联想的方式间接获取的,因此又称为词汇联想网络。词汇联想网络相比传统词典具有以下特点:(1)获取代价低;(2)面向互联网,易扩展;(3)词语关系从人的认知角度来建立,符合人的直觉。该文详细介绍词汇联想网络的获取方法并对已获取的数据进行分析,另外,将词汇联想网络与《知网》、《同义词词林》以及微博文本ngram进行比较说明其上述特点。 Dictionaries are crucial to the natural language processing. It＇s a fundamental resource for Chinese word segmentation, POS tagging, parsing and so on. This paper presents a method to build semantic relevance dictionary with crowdsourcing, which is triggered by the word association indirectly. Compared with traditional dictionaries, the so called word association network has following advantages： 1）Low cost; 2）Internet oriented and easy to ex- pend; 3）Word relationship is determined from the perspective of human cognition and is consistent with human intui tion. In addition to describing the way of building word association network, we also analyzed the data obtained, comparing it with Hownet, TongYiCi CiLin and word ngrams from Weiho to show its characteristics.

作者丁宇车万翔刘挺张梅山

机构地区哈尔滨工业大学计算机学院社会计算与信息检索研究中心

出处《中文信息学报》 CSCD 北大核心 2013年第3期100-106,共7页 Journal of Chinese Information Processing

基金国家自然科学基金重点资助项目(61133012) 国家863重大资助项目(2011AA01A207) 国家863先进技术研究资助项目(2012AA011102)

关键词众包语义相关性词典词汇联想网络 crowdsourcing semantic relevance dictionary word association network

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1张梅山,邓知龙,车万翔,等.统计与词典相结合的领域自适应中文分词[C]//第十一届全国计算语言学学术会议,2011.8.
2Amit Chandel, P C Nagesh, S Sarawagi. Efficient batch top-k search for dictionary-basedentity recogni- tion[C]//Proceedings of the 22nd International Con- ference on Data Engineering, 2006:28.
3Simonetta Montemagni, Lucy Vanderwende. Structur-al patterns vs. string patterns for extracting semantic information from dictionaries[C]//Proceedings of the 14th conference on Computational linguistics, August, 1992 : 23-28.
4董振东,董强.知网.http://www.keenage.com[M].2000.
5梅家驹,竺一鸣,高蕴琦,等.同义词词林(第二版)[M].上海辞书出版社.1996.
6Luis von Ahn, Labeling Images with a Computer Game[C]//ACM Conf, on Human Factors in Compu- ting Systems, CHI 2004: ala-ag6.
7Ann lrvine, Alexandre Nlementlev. Using Mechanical Turk to Annotate Lexicons for Less Commonly Used Languages [C]//Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon's Mechanical Turk, pages 108 113, Los Angeles, California, June 2010.
8Mukund Jha, Jacob Andreas, Kapil Thadani, et al. Corpus creation for new genres: a crowdsourced ap- proach to PP attachment [C]//Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon's Mechanical Turk, Los Angeles, California. Bremaud. Markov chains: Gibbs fields, montecarlo simulation, and queues. Springer- Verlag. 1999: 13-20.
9Nolan Lawson, Kevin Eustice, Mike Perkowitz, et al. Annotating large email datasets for named entity rec ognition with mechanical turk[C]//Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon's Mechanical Turk, Los Angeles, California, 2010 : 13-20.
10Thad Hughes, Daniel Ramage. Lexical Semantic Re- latedness with Random Graph Walk[C]//Joint Con- ference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Prague, June 2007: 581-589.

共引文献18

1廖剑,冷静,李艳燕,黄荣怀.知网的形式概念分析及概念相似度研究[J].计算机应用研究,2007,24(11):32-36. 被引量：3
2王刚,邱玉辉,蒲国林.一个基于语义元的相似度计算方法研究[J].计算机应用研究,2008,25(11):3253-3255. 被引量：13
3侯亚南,黄映辉.用于形式背景提取的中文文本表示[J].计算机技术与发展,2010,20(9):36-39.
4张培颖.多特征融合的语句相似度计算模型[J].计算机工程与应用,2010,46(26):136-137. 被引量：19
5贾文娟,何丰.基于HowNet的中文本体学习方法研究[J].计算机技术与发展,2011,21(6):77-80. 被引量：6
6党丽琼,刘文辉.一种改进的多因素语义相似度计算方法[J].计算机与现代化,2011(10):24-26. 被引量：3
7刘霞,阳小华.领域本体在课件自动生成中的应用研究[J].现代计算机（中旬刊）,2011(9):41-43.
8刘挺,车万翔,李正华.语言技术平台[J].中文信息学报,2011,25(6):53-62. 被引量：51
9邢美凤.科技文献关键词冗余解决方案研究[J].现代图书情报技术,2012(1):34-39. 被引量：2
10李爱清,何烁,郗亚辉.产品评论挖掘可视化实验平台的开发[J].河北大学学报（自然科学版）,2012,32(2):212-217. 被引量：7

同被引文献49

1孙基寿.汉字输入编码优劣评测方法的探讨[J].中文信息学报,2006,20(5):97-104. 被引量：8
2刘云浩.群智感知计算[J].中国计算机学会通讯,2012,8(10):38-41.
3余胜泉,杨现民.辨析“积件”“学习对象”与“学习活动”——教育资源共享的新方向[J].中国电化教育,2007(12):60-65. 被引量：30
4Wang J, Kraska T, Franklin M], et al. Crowder: Crowd sourcing entity resolution[J]. Proceedings of the VLDB Endowment, 2012, 5(11): 1483-1494.
5Wang J, Li G, Kraska T, et al. Leveraging transi ti ve relations for crowd sourced joins[C]//Proc of the 2013 Int Conf on Management of Data. New York: ACM. 2013: 229-240.
6Demartini G, Difallah D E, Cudre-Mauroux P. Zen'Crowd , Leveraging probabilistic reasoning and crowdsourcing techniques for large-scale entity linking[C]//Proc of the 21st Int Conf on World Wide Web. New York: ACM, 2012: 469-478.
7Karger D R, Oh S, Shah D. Iterative learning for reliable crowdsourcing systems[C]//Advances in Neural Information Processing Systems. La Jolla: NIPS, 2011: 1953-1961.
8Lindley D V. On a measure of the information provided by an experiment[J]. The Annals of Mathematical Statistics, 1956,27: 986-1005.
9Ye P, EDU U M D, Doermann D. Combining preference and absolute judgements in a crowd-sourced setting[C/OL]// Proc of ICML'13 Workshop: Machine Learning Meets Crowd sourcing.[2014-11-10]' http://www. ics. uci, edu/ qliul/MLcrowd_ICML_ workshop/.
10Franklin M J, Kossmann D, Kraska T, et al. CrowdDB: Answering queries with crowdsourcing[C]//Proc of the 2011 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2011: 61-72.

引证文献6

1张晓航,李国良,冯建华.大数据群体计算中用户主题感知的任务分配[J].计算机研究与发展,2015,52(2):309-317. 被引量：11
2路洁.两分输入法的无缝联想与空码复用技术[J].通讯世界（下半月）,2015(4):198-199. 被引量：1
3吴昌钱,洪欣.一种改进的基于社团发现的贝叶斯众包模型[J].湘潭大学自然科学学报,2015,37(4):87-91.
4丁国柱,余胜泉,潘升.学习资源的语义众包标注系统设计[J].中国电化教育,2016(9):91-95. 被引量：6
5路洁,路桂子.输入法无缝联想及其词库构建方法[J].通讯世界,2019,26(9):201-203. 被引量：1
6吴宇馨,李斌,王彬彬,张奕洋,花爱洲,夏佳成.基于用户熟练度的任务分配众包算法[J].信息技术与信息化,2022(10):18-21.

二级引证文献19

1嵇云,王丽华.智慧图书馆知识生态体系的重构[J].传媒论坛,2022,5(16):107-110. 被引量：1
2姚瑶,王战红.基于物联网的情景感知计算研究与应用[J].河南机电高等专科学校学报,2015,23(4):16-19. 被引量：1
3王青,谭良.基于用户主题精确感知大数据群体计算任务分配算法[J].计算机应用,2016,36(10):2777-2783. 被引量：6
4刘鸣,彭成,满君丰,刘美博,杜坤.群体计算中基于博弈论的任务分配策略[J].计算机与数字工程,2016,44(11):2144-2147.
5胡海斌,丁国柱,吴鹏飞.基于学习元平台的课程知识本体的构建与应用——以“教育技术新发展”课程为例[J].电化教育研究,2017,38(10):74-81. 被引量：8
6刘辉,李盛恩.时空众包环境下基于统计预测的自适应阈值算法[J].计算机应用,2018,38(2):415-420. 被引量：9
7满君丰,刘鸣,彭成,刘美博.群体计算中的偶图匹配算法[J].计算机应用与软件,2018,35(9):210-215.
8王小雪,张志勇,史培宁.基于情境分析的移动社交网络群体任务分配[J].计算机工程与设计,2018,39(12):3846-3852. 被引量：1
9丁继红,罗寒,刘华中,王永固.融合专家分类与情境语义标注的学习资源表征方法[J].远程教育杂志,2019,37(3):78-85. 被引量：2
10黄永锋,孙自诚,罗保国.笔记本电脑自动化测试的任务分配模型与方法[J].计算机系统应用,2019,28(6):183-188. 被引量：1

1罗念华,张民磊.信息系统架构模式的分析与比较[J].贵州电力技术,2009,12(1):43-44. 被引量：1
2李生.自然语言处理的研究与发展[J].燕山大学学报,2013,37(5):377-384. 被引量：50
3王玉锋,李东江,王志良,腾少东,吴笑天,陈亮,宋修雷,翟颖.汉语自然语言处理一个系统方法[J].科技通报,2007,23(4):544-548. 被引量：1
4俞莎.浅谈B2C电子商务如何赢利[J].科技资讯,2007,5(29):211-211.
5刁蒙蒙,张菁,卓力,隋磊.一种基于视觉单词的图像检索方法[J].测控技术,2012,31(5):17-20. 被引量：1
6许阳,刘功申,孟魁.基于句中词语间关系的文本向量化算法[J].信息安全与通信保密,2014,12(4):84-88. 被引量：4
7马微.海淀区“1＋20”变通突围[J].科技中国,2009(5):36-38.
8科技创意生活[J].中国高新区,2009(4):120-121.
9孙曰昕,马慧芳,师亚凯,崔彤.融合词语关联关系的自适应微博热点话题追踪算法[J].计算机应用,2014,34(12):3497-3501. 被引量：10
10宣以广,周华.基于字符熵的JavaScript代码混淆自动检测方法[J].计算机应用与软件,2015,32(1):309-312. 被引量：5

中文信息学报

2013年第3期

浏览历史

内容加载中请稍等...

基于众包的词汇联想网络的获取和分析被引量：6

参考文献13

共引文献18

同被引文献49

引证文献6

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于众包的词汇联想网络的获取和分析 被引量：6

参考文献13

共引文献18

同被引文献49

引证文献6

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于众包的词汇联想网络的获取和分析被引量：6