基于文体和词表的突发事件信息抽取研究被引量：13

Emergency Information Extraction Based on Style and Terminology

下载PDF

导出

摘要非结构化数据的结构化任务是大数据环境下管理信息系统面临的新课题。该文从文体的角度研究自由文本的特性,提出了从Web新闻中抽取突发事件属性的方法,该方法首先分析研究了Web文本和新闻文体的特征,利用Google Word2Vec对领域专家构建的词表进行扩展,针对突发事件的不同属性制定了不同的抽取方法:采用词表实现事件分类,采用文体特征进行时间、事件摘要的抽取,采用文体和词表进行地点、伤亡情况和经济损失属性的抽取。实验表明,采用基于文体和词表方法在爬取的Web新闻语料库和公开语料库进行突发事件的属性进行抽取时,平均准确率分别为87.89%、91.29%,平均召回率分别为81.76%、87.91%,能满足应急管理需求。 With the development of Big Data,one of necessities of management information system is to structure tons of non-or semi-structured data.The paper proposed a solution to extract the attributes of emergencies from Web pages.Based on study of Web page structure and style of news,the paper expanded the existing terminology by Google Word2 Vec,and proposed different ways from different attributes of emergencies：terminology for classification,style for date/time and abstract,style and terminology for location,casualty and loss.Experiment result showed that the solution＇s average accuracy were 87.89%,91.29% and the average recall were 81.76%,87.91% on both Web news set and published emergency corpus,which was high enough to meet the requirement of emergency management.The idea of information extraction proposed in this paper has practical value for free text information extraction in other application fields.

作者邱奇志周三三刘长发陈晖 QIU Qizhi;ZHOU Sansan;LIU Changfa;CHEN Hui(School of Computer Science and Technology,Wuhan University of Technology,Wuhan,Hubei 430000,China)

机构地区武汉理工大学计算机科学与技术学院

出处《中文信息学报》 CSCD 北大核心 2018年第9期56-65,74,共11页 Journal of Chinese Information Processing

基金安全预警与应急联动技术湖北省协同创新中心开放课题(JD20150507)

关键词文体词表信息抽取突发事件 style terminology information extraetion emergency

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1林曦,姚乐野.我国突发事件应急管理的情报工作现状与问题分析[J].图书情报工作,2014,58(23):12-18. 被引量：53
2邵荃,翁文国,郑雄,袁宏永.城市火灾案例库辅助决策方法的研究[J].中国安全科学学报,2009,19(1):113-117. 被引量：36
3廖振良,刘宴辉,徐祖信.基于案例推理的突发性环境污染事件应急预案系统[J].环境污染与防治,2009,31(1):86-89. 被引量：35
4于璐,李颖,刘家国.基于CBR和GRA的供应链突发事件应急系统研究[J].情报杂志,2009,28(10):132-135. 被引量：3
5侯玉梅,许成媛.基于案例推理法研究综述[J].燕山大学学报（哲学社会科学版）,2011,12(4):102-108. 被引量：46
6赵小明,朱洪波,陈黎,王亚强,秦湘清,于中华.基于多分类器的金融领域多元关系信息抽取算法[J].计算机工程与设计,2011,32(7):2348-2351. 被引量：6
7沈元一,郑骁庆,顾轶灵.基于语义的互联网药品信息抽取算法[J].计算机系统应用,2011,20(1):41-47. 被引量：7
8吴平博,陈群秀,马亮.基于时空分析的线索性事件的抽取与集成系统研究[J].中文信息学报,2006,20(1):21-28. 被引量：21
9余晨,毛喆,高嵩.基于规则的海事自由文本信息抽取方法研究[J].交通信息与安全,2017,35(2):40-47. 被引量：15
10郭喜跃,何婷婷.信息抽取研究综述[J].计算机科学,2015,42(2):14-17. 被引量：84

二级参考文献261

1王君,潘星,李静,刘鲁.基于案例推理的知识管理咨询系统[J].清华大学学报（自然科学版）,2006,46(z1):990-995. 被引量：33
2吴清烈,冯勤超.基于案例推理技术在企业并购决策中的应用[J].中国管理科学,2002,10(z1):367-371. 被引量：2
3王燕,夏幼明,晏立,吴高凯,王吉盛.中医诊断专家系统中融合案例与模糊规则的推理机制研究[J].云南大学学报（自然科学版）,2008,30(S2):195-197. 被引量：4
4王昀,苑春法.基于转换的时间-事件关系映射[J].中文信息学报,2004,18(4):23-30. 被引量：19
5兰德.论信息与情报的区别[J].科研管理,1986,7(4):17-22. 被引量：5
6蔡亚航.关于强化情报信息主导警务战略的思考[J].公安研究,2008,0(11):72-75. 被引量：3
7李善平,尹奇韡,胡玉杰,郭鸣,付相君.本体论研究综述[J].计算机研究与发展,2004,41(7):1041-1052. 被引量：274
8史忠植,董明楷,蒋运承,张海俊.语义Web的逻辑基础[J].中国科学（E辑）,2004,34(10):1123-1138. 被引量：71
9徐勤.英文招投标文件的文体特征及翻译[J].中国翻译,2005,26(1):79-82. 被引量：24
10房文娟,李绍稳,袁媛,汪伟伟.基于案例推理技术的研究与应用[J].农业网络信息,2005(1):13-17. 被引量：32

共引文献432

1伍晓飞.足球赛事领域事件本体构建描写研究[J].华中师范大学研究生学报,2019,0(4):99-103.
2佘硕,陈鑫.2013年以来社会安全事件应急管理研究综述[J].中国应急管理科学,2023(8):23-37.
3肖群鹰,刘慧君.在国际视野下开辟我国核应急预案新场景——以无人机袭击法国比热伊核电站为例[J].中国应急管理科学,2020(11):57-65. 被引量：2
4吴爱枝,张鹏,刘菲菲,常璐,齐春雪,张慧.知识框架理论下的应急预案知识要素体系研究与构建[J].中国应急管理科学,2020(11):48-56. 被引量：1
5孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：4
6张家瑞,王天祥,胡保安,董先锋.国内突发环境污染事件特征分析与防范策略研究[J].人民黄河,2024,46(S01):62-63.
7鲁黛迪,何思秦.电力企业疫情防控应急管理体系构建[J].企业管理,2021(S01):208-209.
8陈平,匡尧,陈婧.基于BERT-wwm-ext多特征文本表示的经济事件主体抽取方法研究[J].武汉电力职业技术学院学报,2020(2):45-50. 被引量：1
9张海瑜,陈庆龙,张斯静,张子怡,杨帆,李鑫星.基于语义知识图谱的农业知识智能检索方法[J].农业机械学报,2021,52(S01):156-163. 被引量：12
10王竹,谷松原.基于裁判文书争议焦点的民事案由逻辑图谱构建研究——以产品责任领域为例[J].民商法争鸣,2022(2):13-25.

同被引文献156

1王卫星.论南京国际安全区的成立[J].民国档案,2005(4):101-108. 被引量：7
2赵妍妍,秦兵,车万翔,刘挺.中文事件抽取技术研究[J].中文信息学报,2008,22(1):3-8. 被引量：106
3蒋德良.基于规则匹配的突发事件结果信息抽取研究[J].计算机工程与设计,2010,31(14):3294-3297. 被引量：17
4夏彦,何琳,潘运来,欧阳辰晨.基于规则与统计相结合的互联网突发事件识别研究[J].现代图书情报技术,2010(10):65-69. 被引量：6
5顾基发.物理事理人理系统方法论的实践[J].管理学报,2011,8(3):317-322. 被引量：90
6姚占雷,许鑫.互联网新闻报道中的突发事件识别研究[J].现代图书情报技术,2011(4):52-57. 被引量：14
7李静月,李培峰,朱巧明.一种改进的TFIDF网页关键词提取方法[J].计算机应用与软件,2011,28(5):25-27. 被引量：30
8叶枫,陈莺莺,周根贵,李昊旻,李莹.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(2):256-262. 被引量：47
9赵小明,朱洪波,陈黎,王亚强,秦湘清,于中华.基于多分类器的金融领域多元关系信息抽取算法[J].计算机工程与设计,2011,32(7):2348-2351. 被引量：6
10钱学森,许国志,王寿云.组织管理的技术——系统工程[J].上海理工大学学报,2011,33(6):520-525. 被引量：81

引证文献13

1范华,翁利国,周艳,姜川,孙涛.基于Bi-LSTM和TFIDF的工单事件提取[J].电脑知识与技术,2020,0(4):291-293.
2李纲,潘荣清,毛进,操玉杰.整合BiLSTM-CRF网络和词典资源的中文电子病历实体识别[J].现代情报,2020,40(4):3-12. 被引量：28
3黄胜,李胜,朱菁.面向并购重组类公告的信息抽取[J].计算机工程与设计,2020,41(5):1420-1426. 被引量：2
4邱俊安,邱奇志,周三三,陈先桥,贺宜.词语语义相似度在突发事件案例检索中的应用[J].武汉理工大学学报（信息与管理工程版）,2020,42(3):272-278. 被引量：4
5李静,戴丽娜.基于整数线性模拟的多样性关键信息抽取仿真[J].计算机仿真,2020,37(10):365-368.
6尹浩然,曹金璇,曹鲁喆,王国栋.扩充语义维度的BiGRU-AM突发事件要素识别研究[J].数据分析与知识发现,2020,4(9):91-99. 被引量：2
7武国亮,徐继宁.基于命名实体识别任务反馈增强的中文突发事件抽取方法[J].计算机应用,2021,41(7):1891-1896. 被引量：11
8马晓雯,何琳,刘建斌,李章超,高丹.基于Bi-LSTM的古籍事件句触发词分类方法研究[J].农业图书情报学报,2021,33(9):27-36. 被引量：3
9桑勇.突发事件的语义模型及其建构[J].辽宁大学学报（哲学社会科学版）,2021,49(4):133-141. 被引量：2
10徐元,毛进,李纲.面向突发事件应急管理的社交媒体多模态信息分析研究[J].情报学报,2021,40(11):1150-1163. 被引量：18

二级引证文献74

1张耀兰.社交媒体使用动机对于“双边”文化认同的影响——以中国访问学者的跨文化适应经验为例[J].新闻知识,2023(11):3-13. 被引量：1
2尹朝.基于内容生成与特征提取的图像情感识别模型研究[J].系统仿真技术,2023,19(2):141-147.
3屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：6
4李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：5
5周亮杰,马敬东.基于深度学习的患者安全事件的命名实体识别[J].中华医学图书情报杂志,2020,29(6):1-6.
6余传明,黄婷婷,林虹君,安璐.基于标签迁移和深度学习的跨语言实体抽取研究[J].现代情报,2020,40(12):3-16. 被引量：4
7武小平,张强,赵芳,焦琳.基于BERT的心血管医疗指南实体关系抽取方法[J].计算机应用,2021,41(1):145-149. 被引量：15
8廖开际,邹珂欣,席运江.一种在线医疗社区问答文本实体识别方法——基于卷积神经网络和双向长短期记忆神经网络[J].科技管理研究,2021,41(8):173-179. 被引量：4
9耿骞,邓斯予,靳健.融合词语义表示和新词发现的领域本体演化——以产品评论数据为例[J].图书情报工作,2021,65(8):85-96. 被引量：3
10魏小林,彭宇明,张铁军.基于BERT多层网络的医疗实体抽取模型研究[J].中国数字医学,2021,16(5):36-40.

1李雪.国外巧治“低头族”[J].思维与智慧,2018,0(22):21-21. 被引量：1
2李纲,徐伟,王馨平.基于事件要素的组合模型微博热点事件摘要提取[J].图书情报工作,2018,62(1):96-105. 被引量：5
3余璇,孙伟,张翔.基于互信息的文本分类改进方法研究[J].微型机与应用,2017,36(19):19-22. 被引量：1
4高永兵,杨贵朋,张娣.官方微博关键词提取与摘要技术研究[J].内蒙古科技大学学报,2017,36(3):273-279. 被引量：1
5彭银桥,范家诚,肖秀春.Web新闻智能处理与重发布系统[J].信息与电脑,2018,30(11):82-84.
6许传升.居民楼火灾应急科普现存问题及建议[J].现代职业安全,2018,0(11):20-22.
7郭文正.英语视频新闻语料库的构建[J].校园英语,2017,0(37):221-222. 被引量：1
8吴致晖,刘洪伟,陈丽.高效朴素贝叶斯Web新闻文本分类模型的简易实现[J].统计学与应用,2014,3(1):30-35. 被引量：2
9管涛涛,宋万里,张锐捷.新闻自动分类和推荐系统研究与实现[J].现代信息科技,2018,2(10):9-11.
10司文豪,贾雷萍,戚银城.基于卷积神经网络的中文人物关系抽取方法[J].计算机与现代化,2018(9):17-20. 被引量：4

中文信息学报

2018年第9期

浏览历史

内容加载中请稍等...

基于文体和词表的突发事件信息抽取研究被引量：13

参考文献18

二级参考文献261

共引文献432

同被引文献156

引证文献13

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

基于文体和词表的突发事件信息抽取研究 被引量：13

参考文献18

二级参考文献261

共引文献432

同被引文献156

引证文献13

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

基于文体和词表的突发事件信息抽取研究被引量：13