基于文本挖掘机制的区域经济关系分析被引量：5

Text Mining for the Relations between Entities

下载PDF

导出

摘要已有的经济关系研究大都采用实证的或单纯的计量学的方法来实现的。本文则针对非结构化的文本特点，采用信息抽取和文本挖掘方法挖掘用户感兴趣的区域经济关系是具有十分重大应用价值的研究课题。本文在探讨了基于实体关系的文本挖掘机制的基础上，对31个省、市、自治区的区域经济关系进行了分析。运用文本挖掘技术对经济关系的挖掘包括两种方式：一是基于属性的经济关系挖掘，利用信息抽取获取各个实体属性，采用聚类方法分析经济实体关系；二是基于相互引用的经济关系挖掘，首先构造经济实体关系分类词典，提出了实体关系标注算法，利用信息抽取获得实体之间的引用情况，然后构造关系有向图，从中挖掘区域经济之间的关系。研究表明，运用文本挖掘技术，既可以对各个区域经济发展状况进行分析和评价，也可以发现特定区域经济之间的内在关系。 Text mining plays an important role in knowledge acquisition, and it is valuable issue to apply information extraction and text mining to mine relations among entities from non-structure texts in the internet. In this paper, the approach of text mining for relations between named entities is presented, and it includes two mining schemes. One is based on the attributes of entities. It applies the approach of information extraction to collect their attributes, and then adopt the clustering algorithm to analyze the relations between named entities. The other is based on the reference between entities. It constructs the relation dictionary and presents the algorithm of annotating relations. It set up the vector-graph based on the references between entities, and it derives several interesting information patterns from the vector-graph. As a result, it shows a better effect on mining the relationship between named entities from a specific domain.

作者丁堃刘盛博许侃

机构地区北京大学经济学院大连理工大学人文社会科学学院大连理工大学电子与信息工程学院

出处《情报学报》 CSSCI 北大核心 2008年第3期418-424,共7页 Journal of the China Society for Scientific and Technical Information

基金本文得到国家自然科学基金项目（编号：60373095,60673039）的资助.

关键词文本挖掘同义扩充实体关系关系标注聚类分析区域经济 text mining, synonymous expansion, relations between named entities, annotating relations, clustering analysis, regional economics

分类号 F127 [经济管理—世界经济] B97 [哲学宗教—宗教学]

引文网络
相关文献

参考文献15

1Udo Hahn, Klemens Schnattinger. Knowledge Mining from Textual Sources[ A ]. CIKM' 97, New York, USA, Nov., 1997 : 83 -90.
2Udo Hahn, Klemens Schnattinger. Deep Knowledge Discovery from Natural Language Texts [ A ]. KDD' 97, AAAI Press, 1997:175-178.
3Zhang D,Lee W S. Web Based Pattern Mining and Matching Approach to Question Answering [ A ]. In Proceedings eighth Text Retrieval Conference, 2002, Gaithersburg, Maryland, NIST Press,2002: 305-312.
4林鸿飞,贡大跃,张跃,姚天顺.可视化中文文本挖掘模型[J].计算机科学,2000,27(4):37-41. 被引量：13
5林鸿飞,战学刚,姚天顺.中文文本挖掘的特征导航机制[J].东北大学学报（自然科学版）,2000,21(3):240-243. 被引量：12
6袁毓林.用逻辑和篇章知识来约束模板匹配——逻辑结构和篇章结构知识在信息抽取中的运用[J].中文信息学报,2005,19(4):39-45. 被引量：6
7李向阳,张亚非.基于语义标注的信息抽取[J].解放军理工大学学报（自然科学版）,2004,5(4):39-43. 被引量：12
8廖乐健,曹元大,李新颖.基于Ontology的信息抽取[J].计算机工程与应用,2002,38(23):110-113. 被引量：31
9姜吉发.一种跨语句汉语事件信息抽取方法[J].计算机工程,2005,31(2):27-29. 被引量：12
10Zelenko D, Aone C, Richardella A. Kernel Methods for Relation Extraction [ J ]. Journal of Machine Learning Research, 2003 ( 3 ) : 1083 - 1106.

二级参考文献44

1朱德熙.现代书面汉语里的虚化动词和名动词为第一届国际汉语教学讨论会而作[J].北京大学学报（哲学社会科学版）,1985,22(5):3-8. 被引量：131
2周明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,8(3):35-52. 被引量：39
3王建波,杜春玲,王开铸.基于篇章理解的自动文摘研究[J].中文信息学报,1995,9(3):33-42. 被引量：12
4[1]ELLEN R. Information extraction as a stepping stone toward story understanding [M]. Montreal:MIT press, 1999.
5[2]SODERLAND G. Learning text analysis rules for domain-specific natural language processing [D]. Amherst: University of Massachusetts, 1997.
6[3]COLLINS M, MILLER S. Semantic tagging using a probabilistic context free grammar [EB/OL].http://www.ai.mit.edu/people/mcollins/papers/wvlcb.fin-as.ps,2003-12-22.
7[4]HOBBS, JERRY R, DOUGLAS E, et al. FASTUS: a cascaded finite-state transducer for extracting information from natural-language text[A]. In: Finite State Devices for Natural Language Processing[C]. Cambridge: MIT Press, 1997.
8Cowie J,Lchnert W. Information Extraction. Special NLP Issuc of the Communications of the ACM, 1996, 39( 1 ): 80-91
9Dong Zhendong,Dong Qiang. HowNet. http://www.keenage.com.2000
10Grishman R. Information Extraction: Techniques and Challenges.In Information Extraction, Springer Notes in Artificial Intelligence,Springer-Verlag, 1997

共引文献196

1葛艳,杜坤钰,杜军威,陈卓.基于混合神经网络的实体关系抽取方法研究[J].中文信息学报,2021,35(10):81-89. 被引量：3
2吴婷,孔芳.基于图注意力卷积神经网络的文档级关系抽取[J].中文信息学报,2021,35(10):73-80. 被引量：11
3刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：24
4闫冰冰,马驰翔.大学生安全教育体系的构建[J].包装世界,2018,0(7):180-180.
5曹怀虎,牛娃,张艳梅.基于语义本体论的网格资源描述及匹配算法[J].四川大学学报（工程科学版）,2007,39(S1):174-177. 被引量：3
6李湘云.ISODATA动态聚类算法在文本挖掘中的应用[J].长春工程学院学报（自然科学版）,2007(2):56-58.
7叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
8崔娜,雷涯邻,安海忠.面向用户需求的新闻文本集信息可视化模型[J].图书情报工作,2011,55(S2):273-279. 被引量：1
9王鑫雨.基于语义Web的数字图书馆服务平台的设计与研究[J].农业网络信息,2013(10):48-50.
10李红亮,杨燕,尹红风,贾真.基于规则的百科人物属性抽取[J].集成技术,2013,2(3):1-4. 被引量：3

同被引文献75

1刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005(S1):1783-1786. 被引量：11
2胡利勇,陈定权.引文分析可视化研究[J].情报杂志,2004,23(11):78-79. 被引量：15
3卢娇丽,郑家恒.基于粗糙集的文本分类方法研究[J].中文信息学报,2005,19(2):66-70. 被引量：16
4孙蔓莉,姚岳.公司报告语言信息研究[J].甘肃社会科学,2005(3):244-247. 被引量：11
5曲春锦.改进的关联规则挖掘算法及其在教育信息挖掘中的应用[J].交通与计算机,2005,23(4):68-71. 被引量：17
6龙昊,冯剑琳,李曲.R-means:以关联规则为簇中心的文本聚类[J].计算机科学,2005,32(9):156-159. 被引量：3
7王建芳,冷伏海.共引分析理论与实践进展[J].中国图书馆学报,2006,32(1):85-88. 被引量：49
8刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
9何玉,冯剑琳,王元珍.基于最大关联规则的文本分类[J].计算机科学,2006,33(11):143-145. 被引量：6
10孙爽,章勇.一种基于语义相似度的文本聚类算法[J].南京航空航天大学学报,2006,38(6):712-716. 被引量：18

引证文献5

1鲁超,刘清.结合地理信息的引文分析研究现状[J].情报科学,2011,29(2):303-307. 被引量：3
2郭金龙,许鑫,陆宇杰.人文社会科学研究中文本挖掘技术应用进展[J].图书情报工作,2012,56(8):10-17. 被引量：22
3蒋艳辉,姚靠华,周双文,王薇.一种基于领域本体的药品研发信息抽取方法[J].情报杂志,2012,31(12):130-134. 被引量：4
4龚光明,王薇,蒋艳辉,周双文.基于领域本体的文本资料聚类算法改进研究[J].情报科学,2013,31(6):129-134. 被引量：3
5阮光册.基于文本挖掘的网络媒体报道研究[J].知识管理论坛,2011(6):24-31. 被引量：1

二级引证文献33

1李树祥,褚淑贞,庄倩.我国药品注册法规体系的演变分析——基于文本挖掘方法[J].中国新药杂志,2020,29(1):1-8. 被引量：4
2赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：29
3孙颖,冯晨旭.科学知识图谱对人文社会科学研究情报质量的优化——以基于CiteSpace的完美主义热点研究为例[J].图书情报工作,2013,57(S1):227-231. 被引量：3
4孙敏,刘青,游俊,尹红,杨洋.体育教育研究情况分析暨国际国内研究比较——基于ISI Web of Science平台及中国学术期刊网络出版平台[J].中国体育科技,2011,47(6):131-135. 被引量：1
5张省,顾新.知识链知识获取:技术实现与应用举例[J].图书与情报,2012(6):73-76.
6张诗博.“数字人文”背景下的图书馆知识服务[J].晋图学刊,2013(5):40-42. 被引量：19
7洪韵佳,许鑫.基于领域本体的知识库多层次文本聚类研究——以中华烹饪文化知识库为例[J].现代图书情报技术,2013(12):19-26. 被引量：9
8蒋艳辉,冯楚建.MD&A语言特征、管理层预期与未来财务业绩——来自中国创业板上市公司的经验证据[J].中国软科学,2014(11):115-130. 被引量：42
9王敬东,李佳.基于知识协同的大数据知识处理模型的设计[J].情报科学,2015,33(10):140-142. 被引量：4
10徐德金,张伦.文本挖掘用于社会科学研究:现状、问题与展望[J].科学与社会,2015,5(3):75-89. 被引量：13

1范并思.组织者的话[J].图书情报工作,2012,56(8):5-5.
2许喆,崔海云,曹赞华,艾变开.基于文本挖掘技术的ICT领域技术关联度分析[J].青岛科技大学学报（自然科学版）,2012,33(2):201-207. 被引量：2
3张秀敏,杨连星,吴漪,曹柳龙,徐一方.基于文本挖掘方法的环境信息披露指标体系改进——以川渝经济区上市企业为例[J].软科学,2014,28(7):65-71. 被引量：11
4张一兵,周嘉昕.承认相对和有限的客观性——关于构境论的对话[J].理论探讨,2013(4):41-44. 被引量：4
5张平.论我国城市规划监督管理中存在的主要问题和对策[J].中华建设,2009(8):54-55. 被引量：1
6康燕燕.基于VAR模型的消费结构与经济增长关系研究——以广州市为例[J].中国商贸,2012,0(03Z):249-251. 被引量：1
7鲍训吾.个别主体与群体主体的矛盾问题──兼论马克思主义哲学的出发点[J].中州学刊,1998(4):44-49.
8邓芳.我国对外贸易与经济增长的ECM模型[J].经济论坛,2004(5):24-25. 被引量：3
9李秀兰.浅谈基尼系数与我国经济的发展[J].金秋,2002,0(3):24-24.
10张永安,耿喆.我国区域科技创新政策的量化评价——基于PMC指数模型[J].科技管理研究,2015,35(14):26-31. 被引量：152

情报学报

2008年第3期

浏览历史

内容加载中请稍等...

基于文本挖掘机制的区域经济关系分析被引量：5

参考文献15

二级参考文献44

共引文献196

同被引文献75

引证文献5

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于文本挖掘机制的区域经济关系分析 被引量：5

参考文献15

二级参考文献44

共引文献196

同被引文献75

引证文献5

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于文本挖掘机制的区域经济关系分析被引量：5