中文UGC信息源的本体概念抽取研究被引量：4

Research of Ontology Concept Extraction Based on Chinese UGC Sources

导出

摘要【目的】实现基于UGC信息源的本体概念抽取。【方法】针对UGC信息源特征,提出一种基于语言学的细粒度词抽取组合并应用统计过滤组成概念的本体概念抽取方法,建立基于UGC信息源的概念抽取模型并对原型系统进行验证。【结果】在UGC信息源概念抽取实验中,该方法的结果比其他4组概念抽取方法的表现更为优异,准确率达68.42%,召回率达85.35%。【局限】概念抽取的测试集来自信息质量较高的UGC信息源,部分信息经过人工过滤,语料规模存在不足。【结论】概念抽取方法与技术在实现基于UGC信息源的本体概念抽取中具有一定的意义。 [Objective] In order to extract Ontology concepts from Chinese UGC information sources. [Methods] This paper proposes a mixed Ontology extraction method which extracting the fine-grained words and combining them into concepts based on linguistic methods and filters the concepts based on statistical methods. To prove the methods, the paper establishes the Ontology extraction model and develops a prototype system of concept extraction which is based on the UGC sources. [Results] The method has more excellent performance than other four concept extraction methods as the comparative samples in the experiments of concept extraction from UGC. The results of the accuracy rate and the recall rate respectively reaches 68.42% and 85.35%. [Limitations] The test set of concept extraction is from high-quality UGC sources and some of the test set is filtered manually.So the corpus scale is not enough. [Conclusions] This concept extraction method and technology has some significance in the Ontology concept extraction based on UGC.

作者唐晓波胡华

机构地区武汉大学信息管理学院

出处《现代图书情报技术》 CSSCI 北大核心 2014年第5期41-49,共9页 New Technology of Library and Information Service

基金国家自然科学基金项目"社会化媒体集成检索与语义分析方法研究"(项目编号:71273194)的研究成果之一

关键词概念抽取词性规则中心词互信息信息熵 Concept extraction Speech rules Seed word Mutual information Information entropy

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1姜业庆.不可小视UGC市场[EB/OL].[2013-04-04].http://finance.eastmoney.com/news/1350,20130404283364128.html.
2Billsus D, Pazzani M J. Learning Collaborative Information Filters[C]. In: Proceedings of the 15th International Conference on Machine Learning (ICML'98), Madison. San Francisco: Morgan Kaufmann Publishers Inc., 1998: 46-54.
3于娟,党延忠.本体关系学习方法研究——概念特征词法[J].系统工程理论与实践,2012,32(7):1582-1590. 被引量：5
4化柏林.针对中文学术文献的情报方法术语抽取[J].现代图书情报技术,2013(6):68-75. 被引量：31
5丁君军,郑彦宁,化柏林.基于规则的学术概念属性抽取[J].情报理论与实践,2011,34(12):10-14. 被引量：30
6YANG Yuehua,DU Junping,ZI Lingling.Bootstrapping-based Automatic Acquisition of Domain Concepts for Ontology Construction[J].Chinese Journal of Electronics,2013,22(2):313-318.
7Cohen J D. Highlights: Language-and Domain-Independent Automatic Indexing Terms for Abstracting [J]. Journal of the American Society for Information Science, 1995, 46(3): 162-174.
8Ji L, Sum M, Lu Q, et al. Chinese Terminology Extraction Using Window-Based Contextual Information[C]. In: Proceedings of the 8th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing'07). Berlin, Heidelberg: Springer-Verlag, 2007: 62-74.
9Vu T, Aw A, Zhang M. Term Extraction Through Unithood and Termhood Unification[C]. In: Proceedings of the 3rd International Joint Conference on Natural Language Processin (IJCNLP-08). 2008:631-636.
10刘柏嵩.面向数字图书馆的本体自动构建[J].中国图书馆学报,2006,32(5):47-51. 被引量：6

二级参考文献99

1杜波,田怀凤,王立,陆汝占.基于多策略的专业领域术语抽取器的设计[J].计算机工程,2005,31(14):159-160. 被引量：26
2姜韶华,党延忠.无词典中英文混合术语抽取及算法研究[J].情报学报,2006,25(3):301-305. 被引量：2
3梁健,吴丹.种子概念方法及其在基于文本的本体学习中的应用[J].图书情报工作,2006,50(9):18-21. 被引量：13
4刘桃,刘秉权,徐志明,王晓龙.领域术语自动抽取及其在文本分类中的应用[J].电子学报,2007,35(2):328-332. 被引量：31
5何燕,穗志方,段慧明,李素建.基于专业术语词典的自动领域本体构造[J].情报学报,2007,26(1):65-70. 被引量：13
6王昊.基于层次模式匹配的命名实体识别模型[J].现代图书情报技术,2007(5):62-68. 被引量：8
7王璐,朱东华,任智军.科技术语属性抽取方法研究[J].现代图书情报技术,2007(5):69-72. 被引量：8
8化柏林,赵亮.知识抽取中的嵌套向量分词技术[J].现代图书情报技术,2007(7):50-53. 被引量：5
9Bourigault D.Surface Grammatical Analysis for the Extraction of Terminological Noun Phrases[C]//Proceedings of COLING' 92.1992:977-981
10Pantel P,Lin D.A Statistical Corpora-based Term Extractor[C] //Lecture Notes in Artificial Intelligence.Springer,Verlag,2001:34-46

共引文献134

1李红亮,杨燕,尹红风,贾真.基于规则的百科人物属性抽取[J].集成技术,2013,2(3):1-4. 被引量：3
2吴楠,王庆林,刘禹.基于百科词条的领域本体关系抽取方法[J].中南大学学报（自然科学版）,2013,44(S2):347-350.
3王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
4白菊平.探讨提高中文文献信息检索质量的相关技术[J].农业图书情报学刊,2005,17(12):119-120. 被引量：1
5姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503. 被引量：5
6刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
7任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
8梁健,吴丹.种子概念方法及其在基于文本的本体学习中的应用[J].图书情报工作,2006,50(9):18-21. 被引量：13
9章成志,苏兰芳,苏新宁.基于多语境的相关词自动提取系统的设计与实现[J].现代图书情报技术,2006(9):23-28. 被引量：6
10李新福,赵杰,梁巍.基于互信息的宋史语料库词表的提取[J].河北大学学报（自然科学版）,2006,26(5):557-560. 被引量：4

同被引文献41

1温有奎.基于“知识元”的知识组织与检索[J].计算机工程与应用,2005,41(1):55-57. 被引量：74
2姜永常,杨宏岩,张丽波.基于知识元的知识组织及其系统服务功能研究[J].情报理论与实践,2007,30(1):37-40. 被引量：64
3Auduna. Sesame [ EB/OL]. [2014 - 07 - 23 ]. http://www. openrdf, org/about, jsp.
4TopQuadrant. TopBrand Enterprise Vocabulary Net [ EB/OL ]. [2014 - 07 - 22 ]. http ://download. topquadrant, com/evn/45doc/ evnlntro, html.
5Manola F,Miller E. RDF primer[EB/OL]. [2014 -08 -23]. ht- tp ://www. w3. org/TR/2004/REC - rdf - primer - 20040210/.
6通用规范汉字表[M].北京:语文出版社,2013.
7王昊,苏新宁.基于模式匹配的中文通用本体概念抽取模型[J].情报理论与实践,2008,31(2):292-297. 被引量：6
8李锐,王泰森.基于知识元的知识组织与知识服务[J].图书馆学研究,2008(8):84-86. 被引量：9
9江敏,肖诗斌,王弘蔚,施水才.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89. 被引量：109
10韦小丽,孙涌,张书奎,苗艳军.基于最大熵模型的本体概念获取方法[J].计算机工程,2009,35(24):114-116. 被引量：17

引证文献4

1许德山,张运良,李芳.中文本体三元组的单字索引与更新方法研究[J].图书情报工作,2014,58(22):111-116.
2赵美玲,刘胜全,刘艳,郭竹为,符贤哲.基于动态主题模型的舆情本体概念抽取[J].计算机工程与设计,2018,39(4):1174-1179. 被引量：3
3王思丽,祝忠明,刘巍,杨恒.基于深度学习的领域本体概念自动获取方法研究[J].情报理论与实践,2020,43(3):145-152. 被引量：17
4王忠义,郑鑫,王珂莹.面向用户生成内容的多粒度知识组织研究[J].情报学报,2022,41(10):1034-1043. 被引量：5

二级引证文献25

1白茹.基于云计算和Hadoop的网络舆情监控系统设计[J].电子设计工程,2019,27(16):141-144. 被引量：9
2杜政康,邓思铭,戴小鹏.概念抽取的技术分析[J].福建电脑,2020,36(1):87-88.
3哈妮克孜·伊拉洪,艾斯卡尔·艾木都拉.维吾尔语领域本体构建综述[J].电视技术,2019,43(21):9-14.
4陈星霖.国内基于深度学习的目标跟踪研究知识图谱分析[J].情报科学,2020,38(6):158-162. 被引量：2
5邱科达,马建玲.机器学习在术语抽取研究中的文献计量分析[J].图书情报工作,2020,64(14):94-103. 被引量：6
6熊励,王成文,王锟.基于事件本体的疫情知识库构建策略[J].图书情报工作,2021,65(14):138-148. 被引量：15
7王思丽,杨恒,祝忠明,刘巍.基于BERT的领域本体分类关系自动识别研究[J].情报科学,2021,39(7):75-82. 被引量：11
8赵梓博,王昊,邓三鸿,张海潮.文本语义化表示对其识别准确率的影响研究--以中华美食本体库构建为例[J].情报理论与实践,2021,44(10):8-17. 被引量：1
9盛姝,黄奇,杨洋,解绮雯,秦新国.HL7 FHIR框架下中国医疗领域信息交换研究与解决方案[J].数据分析与知识发现,2021,5(11):13-28. 被引量：3
10苏江文.基于深度学习的远程监督关系抽取方法研究[J].电子设计工程,2022,30(2):106-109.

1张建华,肖中正.结合词性规则和依存句法分析的评价对象抽取方法[J].计算机与现代化,2016(4):16-20. 被引量：3
2陈凯,肖国强,潘珍,李正浩.单尺度词袋模型图像分类方法[J].计算机应用研究,2011,28(10):3986-3988. 被引量：12
3马伟珍,完么扎西,尼玛扎西.藏语句子边界识别方法[J].西藏大学学报（社会科学版）,2012,27(5):70-76. 被引量：8
4杨达,武永亮.智能视频技术的环境适应陛分析[J].中国安防,2008,0(11):66-68.
5晓野.App指引你的移动生活[J].百科知识,2011(8):30-30.
6马春光,汪定,张启明.广域涉密信息系统域间授权问题研究[J].保密科学技术,2011,0(11):50-52. 被引量：3
7张雷瀚,吕学强,李卓,徐丽萍.领域本体术语的抽取方法研究[J].情报学报,2014,33(2):167-174. 被引量：8
8杨晓敏,严斌宇,王潘,宋亚东.一种基于视觉显著度词袋模型的图像分类方法[J].数字技术与应用,2014,32(7):77-79.
9何晓新.计算机组成原理复习指导[J].现代远程教育研究,1998,10(11):74-79.
10肖哲,秦志光,丁熠,蓝天,于跃.基于低尺度词袋模型的图像快速分类方法[J].电子科技大学学报,2016,45(6):997-1001.

现代图书情报技术

2014年第5期

浏览历史

内容加载中请稍等...

中文UGC信息源的本体概念抽取研究被引量：4

参考文献15

二级参考文献99

共引文献134

同被引文献41

引证文献4

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

中文UGC信息源的本体概念抽取研究 被引量：4

参考文献15

二级参考文献99

共引文献134

同被引文献41

引证文献4

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

中文UGC信息源的本体概念抽取研究被引量：4