一种分布式语义增强的词汇链文本表示模型构建方法被引量：2

Using Semantic Model to Build Lexical Chains

导出

摘要【目的】利用分布式语义关联计算词衔接关系,解决目前词汇链构建时存在的词间关系探测深度不够等问题,提高词汇链构建质量。【方法】对词汇链构建的技术方法进行归纳,利用WordNet词典关系来计算文本中语言单元的语义关联,利用分布式记忆模型来计算语言单元之间的潜在语义关系,将这两种语义关系结合起来实现词汇链文本表示模型的构建。同时在理论研究的基础之上选择医学领域科技论文进行对比实验。【结果】在文本主题描述方面,本文方法的词汇链构建结果要优于非贪婪算法,算法耗时与非贪婪算法相当。【局限】算法耗时较长;没有完整考虑词衔接关系;只在对医学领域科技文献的主题识别中验证了该方法的有效性,还需要在更多领域进行证明。【结论】分布式语义关联可以识别潜在语义,对使用多元短语构建词汇链也有较大的帮助,能有效地增强词汇链构建效果。 [Objective] This paper uses Distributional Semantics to build high quality lexical chains. [Methods] First, we built an algorithm using WordNet Thesaurus to compute the semantic relations among language units of the texts. Second, we adopted the Distributional Memory Model to compute their latent semantic relations. Finally, we combined these relations to build the lexical chains, which were examined with papers from medical science. [Results] The proposed algorithm was better than the non-greedy methods to describe the papers＇ topics. [Limitations] The efficiency of the algorithm needs to be improved. It should also be examined with papers from other fields. [Conclusions] The proposed model can detect the latent semantic relation, and then improve the quality of lexical chains building with phrases.

作者曲云鹏王文玲 Qu Yunpeng Wang Wenling(University of Chinese Academy of Sciences, Beijing 100049, China National Science Library, Chinese Academy of Sciences, Beijing 100190, China National Library of China, Beijing 100081, China)

机构地区中国科学院大学中国科学院文献情报中心国家图书馆

出处《现代图书情报技术》 CSSCI 2016年第9期34-41,共8页 New Technology of Library and Information Service

关键词 WORDNET 分布式记忆词汇链分布式语义 WordNet Distributional Memory Lexical Chain Distributional Semantics

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献34

1Manabu O, Takeo H. Word Sense Disambiguation and Text Segmentation Based on Lexical Cohesion [C]. In: Proceedings of the 15th Conference on Computational Linguistics-Volume 2. Stroudsburg: Association for Computational Linguistics, 1994: 755-761.
2Barzilay R, Elhadad M. Using Lexical Chains for Text Summarization [A]. // Mani I, Maybury M T. Advances in Automatic Text Summarization[M].Cambridge: MIT Press, 1999: 357-380.
3Li S, You W, Li T, et al. Lexical-chain and It's Application in Text Filtering [C]. In: Proceedings of the International Conference on Information Technology: Coding and Computing. Washington: IEEE Computer Society, 2004:288-292.
4Moldovan D, Novischi A. Lexical Chains for Question Answering [C]. In: Proceedings of the 19th International Conference on Computational Linguistics-Volume 1. Stroudsburg: Association for Computational Linguistics, 2002: 1-7.
5St-Onge D. Detecting and Correcting Malapropisms with Lexical Chains [D]. Toronto: University of Toronto, 1995.
6Naveen Kumar M, Suresh R. Emotion Detection Using Lexical Chains [J]. International Journal of Computer Applications, 2012, 57(4): 1-4.
7曲云鹏,王文玲.词汇链文本表示模型计算方法综述[J].知识管理论坛,2016(2):136-144. 被引量：1
8Hirst G, St-Onge D. Lexical Chains as Representations of Context for the Detection and Correction of Malapropisms [J]. Lecture Notes in Physics, 1995, 728(9): 123-149.
9Morris J, Hirst G. Lexical Cohesion Computed by Thesaural Relations as an Indicator of the Structure of Text[J]. Computational Linguistics, 1991, 17( 1 ): 21-48.
10刘铭,王晓龙,刘远超.基于词汇链的关键短语抽取方法的研究[J].计算机学报,2010,33(7):1246-1255. 被引量：14

二级参考文献60

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
2张敏,宋睿华,马少平.基于语义关系查询扩展的文档重构方法[J].计算机学报,2004,27(10):1395-1401. 被引量：55
3郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
4卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
5刘远超,王晓龙,刘秉权,钟彬彬.信息检索中的聚类分析技术[J].电子与信息学报,2006,28(4):606-609. 被引量：9
6陈燕敏,王晓龙,刘秉权,楼喜中.多知识源融合的自动摘要系统研究与实现[J].高技术通讯,2006,16(4):337-341. 被引量：2
7苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
8索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
9刘桃,刘秉权,徐志明,王晓龙.领域术语自动抽取及其在文本分类中的应用[J].电子学报,2007,35(2):328-332. 被引量：31
10刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17

共引文献41

1李纲,戴强斌.基于词汇链的关键词自动标引方法[J].图书情报知识,2011,28(3):67-71. 被引量：27
2杨春明,韩永国.快速的领域文档关键词自动提取算法[J].计算机工程与设计,2011,32(6):2142-2145. 被引量：12
3宋培彦,杨代庆.基于语义网络的中文词汇链构造方法[J].图书情报工作,2011,55(22):26-29. 被引量：6
4张建娥.基于TFIDF和词语关联度的中文关键词提取方法[J].情报科学,2012,30(10):1542-1544. 被引量：43
5郝晓玲.网络舆情研判技术的研究进展[J].情报科学,2012,30(12):1901-1906. 被引量：8
6叶春蕾,冷伏海.基于词汇链的路线图关键词抽取方法研究[J].现代图书情报技术,2013(1):50-56. 被引量：9
7周亦鹏,杜军平.基于关联词的主题模型语义标注[J].智能系统学报,2012,7(4):327-332. 被引量：3
8叶春蕾,冷伏海.技术路线图中未来技术词表构建方法研究[J].现代图书情报技术,2013(5):59-63. 被引量：4
9冷伏海,白如江,祝清松.面向科技文献的混合语义信息抽取方法研究[J].图书情报工作,2013,57(11):112-119. 被引量：27
10张炯.一种学术网络平台研究技术趋势发现方法[J].青岛科技大学学报（自然科学版）,2013,34(3):305-308.

同被引文献13

1刘庆和,梁正友.一种基于信息增益的特征优化选择方法[J].计算机工程与应用,2011,47(12):130-132. 被引量：55
2张培.论行动研究[J].天津师范大学学报（社会科学版）,2012,32(1):48-51. 被引量：16
3翟军昌,秦玉平,车伟伟.垃圾邮件过滤中信息增益的改进研究[J].计算机科学,2014,41(6):214-216. 被引量：8
4刘良华.行动研究:是什么与不是什么[J].教育研究与实验,2001(4):66-71. 被引量：35
5李湘东,巴志超,黄莉.一种基于加权LDA模型和多粒度的文本特征选择方法[J].现代图书情报技术,2015(5):42-49. 被引量：18
6程晓堂,赵思奇.英语学科核心素养的实质内涵[J].课程．教材．教法,2016,36(5):79-86. 被引量：1817
7张永安,马昱.基于R语言的区域技术创新政策量化分析[J].情报杂志,2017,36(3):113-118. 被引量：31
8黄鲁成,滕旭东,苗红,吴菲菲,王小丽.创新政策中创新激励与负责任创新平衡态评估研究[J].中国软科学,2018(5):25-38. 被引量：17
9郑鸿颖.核心素养视域下中学英语思维可视化教学策略研究[J].中小学外语教学,2019,42(17):7-12. 被引量：29
10谭梦卓,谭宓,陈建宁.基于文本挖掘的广西科技金融政策分析[J].大众科技,2019,21(9):109-111. 被引量：2

引证文献2

1徐继田,张惠英.基于语篇分析的思维可视化英语教学策略行动研究[J].基础外语教育,2020,22(4):31-39. 被引量：6
2魏彦宸,孙梦,于小涵.政策文本挖掘相关技术的研究现状和问题[J].IT经理世界,2020,23(9):21-23.

二级引证文献6

1曾娜娟.基于思维可视化理论的高中英语阅读MATCH模式探索与构建[J].新课程导学,2023(3):71-74. 被引量：1
2杨鲁新.漫谈中小学英语教师教学研究论文写作中的常见问题[J].英语学习,2023(1):4-10.
3胡桂芳.“双减”背景下“思维可视化”在九年级英语阅读中的应用研究[J].课堂内外（初中教研）,2023(1):62-64.
4岳凯.高中英语思维可视化阅读教学研究综述[J].英语广场（学术研究）,2024(1):120-123.
5顾仕兵.高中英语教学中思维可视化工具的应用实践[J].进展,2024(2):199-201.
6任涛,李思梦.基于可视化策略促进学生思维品质发展的高中英语阅读教学实践探究[J].英语教师,2024,24(16):40-42.

1张磊,夏士雄,周勇,牛强.基于多本体的语义Web服务发现研究[J].计算机工程与应用,2009,45(11):165-167. 被引量：5
2刘晓光.3dsmax软件在三维效果图中的应用[J].黑龙江科技信息,2015(35):202-202. 被引量：1
3李少博,邸书灵,范通让.利用本体技术的文本聚类模型[J].河北省科学院学报,2014,31(2):79-82.
4杨辉.制造业领域本体构建流程研究[J].贵州工业职业技术学院学报,2013,8(3):23-27.
5纪兆辉.一种基于本体语义的信息检索模型[J].计算机与数字工程,2010,38(11):118-121. 被引量：2
6曲云鹏,王文玲.词汇链文本表示模型计算方法综述[J].知识管理论坛,2016(2):136-144. 被引量：1
7邹益民,张智雄,钱力,王颖.语义仓储构建技术研究进展[J].情报学报,2013,32(1):13-21. 被引量：1
8肖文华,包卫东,陈立栋,王炜,张茂军.一种用于图像分类的语义增强线性编码方法[J].电子与信息学报,2015,37(4):791-797. 被引量：3
9汤华茂,柏占伟,杨智慧.网络化制造资源的分布式语义描述模型研究[J].机械设计与制造,2012(7):267-269. 被引量：2
10周观民,刘书伦.用Java实现多线程程序设计[J].济源职业技术学院学报,2006,5(2):8-10. 被引量：4

现代图书情报技术

2016年第9期

浏览历史

内容加载中请稍等...

一种分布式语义增强的词汇链文本表示模型构建方法被引量：2

参考文献34

二级参考文献60

共引文献41

同被引文献13

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种分布式语义增强的词汇链文本表示模型构建方法 被引量：2

参考文献34

二级参考文献60

共引文献41

同被引文献13

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种分布式语义增强的词汇链文本表示模型构建方法被引量：2