概念图构建中概念术语自动提取的研究与实现被引量：2

Research on auto-extraction of concept terms in process of constructing concept maps

下载PDF

导出

摘要概念图的构建是一项复杂的工程,在概念术语提取阶段往往需要领域专家花费大量时间手工完成。随着概念图在信息处理和知识管理系统中得到日益广泛的应用,仅仅依靠领域专家来手工提取概念术语生成概念图的办法已不能满足应用需求。基于此,提出结合网络爬虫技术和LSA的方法自动提取概念术语,生成概念图的方法,可以降低概念图制作的人工复杂度,高效、准确的构建概念图,可以大大扩展概念图的应用范围。从指定网站上爬取大量领域文本资源;进行文本预处理并抽取特征项;再利用LSA挖掘特征项与特征项、特征项与文本之间的潜在语义结构,消除噪音及冗余特征项,提取概念术语。实验结果表明,结合网络爬虫技术和LSA方法能够降低概念术语的提取过程中的人力复杂度,去除冗余概念,并提高准确性。 Constructing concept maps is a complex task requiring lots of domain experts＇ time to manually extract concept terms from the unstructured text. With the rapid growth applications of concept maps, it＇s obviously hard to meet the demand by rel- ying solely on the manual efforts of extracting the terms. A method of auto-extraction of terms of domain concepts is proposed by combining web crawler technology and LSA technique. Firstly, through the specific domain sites, numerous text resources are captured. Then, the texts and extracts features from them are preprocessed. Finally, it extracts the domain concept terms by e- liminating the noisy terms and redundant features through a method of LSA, which can mine the potential semantic structures between features, and those between features and texts. Experiments show that the method of the combination of web crawler technology and LSA technique can decrease the artificial complexity, remove redundant terms and improve the accuracy of the ex- traction of domain concepts terms.

作者孙珠婷顾倩颐

机构地区四川师范大学计算机科学学院可视化计算与虚拟现实四川省重点实验室

出处《计算机工程与设计》 CSCD 北大核心 2012年第7期2864-2867,共4页 Computer Engineering and Design

基金全国教育科学规划项目国家青年基金课题基金项目(CCA100176) 四川省教育厅科研基金项目(09ZC080)

关键词概念图概念术语网络爬虫技术潜在语义分析特征项 concept map concept terms web crawler technology latent semantic analysis features

分类号 TP182 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献9

1马费成,郝金星.概念地图在知识表示和知识评价中的应用(Ⅰ)——概念地图的基本内涵[J].中国图书馆学报,2006,32(3):5-9. 被引量：46
2张会平,周宁,陈勇跃.概念图在知识组织中的应用研究[J].情报科学,2007,25(10):1570-1574. 被引量：27
3Chen Nian-Shing, Kinshuk, Wei Chun-wang, et al. Mining e-learning domain concept map from academic articles [C]. Proceedings of the Sixth IEEE International Conference on Ad- vanced Learning Technologies, 2006.- 694-698.
4张会平,周宁.基于词共现的概念图自动构建研究[J].情报理论与实践,2008,31(6):928-930. 被引量：6
5吴江宁,田海燕.基于主题地图的文献组织方法研究[J].情报学报,2007,26(3):323-331. 被引量：15
6赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
7王美方,刘培玉,朱振方.基于TFIDF的特征选择方法[J].计算机工程与设计,2007,28(23):5795-5796. 被引量：23
8胡晓,王理,潘守慧.基于改进VSM的Web文本分类方法[J].情报杂志,2010,29(5):144-147. 被引量：12
9李晓红.中文文本分类中的特征词抽取方法[J].计算机工程与设计,2009,30(17):4127-4129. 被引量：16

二级参考文献110

1孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
3王秀娟,郭军,郑康锋.文本分类中一种新的特征选择方法[J].计算机应用,2005,25(3):661-663. 被引量：15
4张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
5秦铁辉 ,郭延吉 ,孙琳 .信息时代的“全球定位系统”——主题地图[J].江西图书馆学刊,2005,35(1):1-3. 被引量：22
6胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
7崔继馨,张鹏,杨文柱.基于DOM的Web信息抽取[J].河北农业大学学报,2005,28(3):90-93. 被引量：12
8王志辉,张从季.浅谈文献信息的知识组织[J].图书馆工作与研究,1995(4):26-29. 被引量：7
9甘利人,李岳蒙.主题法、分类法与Ontology的比较研究[J].现代图书情报技术,2005(12):1-6. 被引量：10
10邓三鸿,金莹,杨建林.学科知识地图的构建——以图书、情报学为例[J].情报学报,2006,25(1):3-8. 被引量：44

共引文献159

1张会平,周宁.基于词共现的概念图自动构建研究[J].情报理论与实践,2008,31(6):928-930. 被引量：6
2吴江宁,王桂才.文本聚类分析结果可视化方法研究[J].情报学报,2011,30(2):115-120. 被引量：7
3马费成,郝金星.概念地图在知识表示与知识评价中的应用(Ⅱ)——概念地图作为知识评价的工具及其研究框架[J].中国图书馆学报,2006,32(4):22-27. 被引量：16
4杨曦宇.知识地图研究综述[J].图书馆学刊,2007,29(3):133-136. 被引量：30
5吕元智,王心裁,谭必勇.基于主题地图的电子政务信息资源组织研究[J].中国图书馆学报,2007,33(4):73-76. 被引量：27
6周宁,张会平,陈勇跃.基于概念图的数字图书馆知识转化模型研究[J].情报理论与实践,2007,30(5):597-600. 被引量：5
7张会平,周宁,陈勇跃.概念图在知识组织中的应用研究[J].情报科学,2007,25(10):1570-1574. 被引量：27
8文庭孝,侯经川,龚蛟腾,刘晓英,汪全莉.中文文本知识元的构建及其现实意义[J].中国图书馆学报,2007,33(6):91-95. 被引量：47
9王静,姚勇,刘志镜.基于广义隐马尔可夫模型的网页信息抽取方法[J].山东大学学报（理学版）,2007,42(11):49-52. 被引量：3
10吴慰慈,谷秀洁.2006年图书馆学学术进展[J].图书馆论坛,2007,27(6):13-17. 被引量：2

同被引文献16

1张会平,周宁.基于词共现的概念图自动构建研究[J].情报理论与实践,2008,31(6):928-930. 被引量：6
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
3邓三鸿,金莹,杨建林.学科知识地图的构建——以图书、情报学为例[J].情报学报,2006,25(1):3-8. 被引量：44
4马费成,郝金星.概念地图在知识表示和知识评价中的应用(Ⅰ)——概念地图的基本内涵[J].中国图书馆学报,2006,32(3):5-9. 被引量：46
5傅骞,魏顺平,贺龙祥.移动学习领域概念图的构建研究[J].中国电化教育,2007(10):96-99. 被引量：11
6张会平,周宁,陈勇跃.概念图在知识组织中的应用研究[J].情报科学,2007,25(10):1570-1574. 被引量：27
7Maedche A,StaabS.Discovering Conceptual Relations from Text[C]//Proc.of the 12th International Conference on Software and Knowledge Engineering.Berlin,Germany:[s.n.],2000:321-325.
8毕海滨.基于海量文本数据的实体关系抽取及挖掘[D].济南:山东大学,2013.
9Albert Weichselbraun,Gerhard Wohlgenannt,ArnoScharl.Refining non-taxonomic relation Labels with external structured data to support ontology learning[J].Data&Knowledge Engineering,2010,19(1):763-778.
10Novak JD. Learning how to learn. London, Cambridge University Press, 1984.

引证文献2

1孙珠婷.概念图构建中概念关系提取方法[J].琼州学院学报,2014,21(2):22-27.
2黄光轮,文益民,朱文宇,易新河.PPT文档的概念图自动构建[J].计算机系统应用,2015,24(9):85-90. 被引量：1

二级引证文献1

1吕品,贺云艳,许嘉,莫晓琨.面向教育的中文知识图谱自动构建技术[J].中国教育信息化,2021(4):86-92. 被引量：3

1黄光轮,文益民,朱文宇,易新河.PPT文档的概念图自动构建[J].计算机系统应用,2015,24(9):85-90. 被引量：1
2王生生,刘大有,欧阳继红,刘杰.数字农业时空信息管理平台[J].计算机应用研究,2007,24(5):163-165. 被引量：1
3智慧来,智东杰.概念格维护原理与算法[J].计算机工程与应用,2014,50(6):96-101. 被引量：2
4孙继鹏,贾民,刘增宝.一种面向文本的概念抽取方法的研究[J].计算机应用与软件,2009,26(9):28-30. 被引量：7
5陈轲,许锦洲.入侵检测（ID）系统和多传感器数据融合[J].海军工程大学电子工程学院学报,2002(2):1-5. 被引量：1
6卢小旭.消除噪音的烦恼[J].电脑爱好者,2002(1):67-67.
7孙珠婷,顾倩颐.领域概念术语提取中特征项自动抽取方法[J].计算机工程与设计,2012,33(8):3189-3193. 被引量：3
8Bonita．h.ThinkPad T60拆解清理消除噪音[J].微型计算机,2008(31):123-124.
9朱文博,李郝林,甘屹.故障诊断实例检索方法研究[J].制造业自动化,2011,33(5):74-77. 被引量：2
10方辉,艾青.模糊支持向量机的训练算法研究[J].福建电脑,2009(3):74-75. 被引量：1

计算机工程与设计

2012年第7期

浏览历史

内容加载中请稍等...

概念图构建中概念术语自动提取的研究与实现被引量：2

参考文献9

二级参考文献110

共引文献159

同被引文献16

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

概念图构建中概念术语自动提取的研究与实现 被引量：2

参考文献9

二级参考文献110

共引文献159

同被引文献16

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

概念图构建中概念术语自动提取的研究与实现被引量：2