基于领域本体的微博用户信息抽取方法被引量：1

Method for Extracting Microblog Users' Information Based on Domain Ontologh

下载PDF

导出

摘要传统基于本体的Web页面信息抽取以单个信息项为最小抽取单位,抽取出的实体语义关联性较差和抽取准确率不理想。针对上述问题,以微博领域本体为基础,提出了一种两层次匹配的用户信息抽取方法:将微博中具有语义关联的不同层次的用户信息划分成对应信息块,以信息块作为最小抽取单位分别抽取其中包含的用户各属性信息(包含个人信息、关注的好友信息和所发文本微博信息)。试验结果证明,与传统信息抽取方法相比,设计的抽取规则算法能够有效地提高信息的准确率和召回率,对微博页面结构复杂以及信息量大的Web网页有良好的抽取效果。 There are some problems of existing the traditional ontology-based Web information which uses single information item as the smallest unit,the extracted entities lack of associating semantics and with poor extraction accuracy.In response to the problems,a two-level matching method of users' personal information extraction is proposed based on the microblog domain ontology,microblog user information is divided into different blocks,then the information block is used as the smallest unit to extract information from the each user's property(including personal information,information of concerned friend and issued the text tweets).Experimental results show that compared with traditional information extraction method,the proposed method can effectively improve the accuracy and the recall of information extraction and has good extraction results with the complex microblogging page and infor.

作者余伟陶皖徐京刘成满

机构地区安徽工程大学计算机与信息学院

出处《长江大学学报（自科版）（上旬）》 CAS 2015年第4期36-40,4,共5页 JOURNAL OF YANGTZE UNIVERSITY (NATURAL SCIENCE EDITION) SCI ＆ ENG

基金安徽省教育厅基金项目(KJ2013B020) 国家级大学生创新与创业训练计划(201210363066 201310363097)

关键词领域本体两层次匹配信息抽取微博抽取规则 Domain ontology two-level matching Information extraction microblog extraction rules

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1高军,王腾蛟,杨冬青,唐世渭.基于Ontology的Web内容二阶段半自动提取方法[J].计算机学报,2004,27(3):310-318. 被引量：18
2李向阳,陆建江,张亚非.基于竞争分类的Web信息抽取[J].电子学报,2004,32(11):1915-1917. 被引量：2
3黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
4黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
5周顺先,林亚平,王耀南,易叶青.基于二阶隐马尔可夫模型的文本信息抽取[J].电子学报,2007,35(11):2226-2231. 被引量：25
6柳佳刚,陈山,黄樱.一种改进的基于本体的Web信息抽取[J].计算机工程,2010,36(4):39-41. 被引量：7
7陈雪,梁永全,赵相彬.改进的基于本体的Web信息抽取[J].计算机应用与软件,2013,30(7):14-16. 被引量：6
8周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34

二级参考文献64

1周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
2黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
3张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
4林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
5于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
6周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
7洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56
8刘耀,穗志方.领域Ontology概念描述体系构建方法探析[J].大学图书馆学报,2006,24(5):28-33. 被引量：15
9蒲强,李鑫,刘启和,杨国纬.一种Web主题文本通用提取方法[J].计算机应用,2007,27(6):1394-1396. 被引量：5
10黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32

共引文献115

1岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
2黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
3宫秀志.对中国画人物画创新探索的几点认识[J].齐齐哈尔大学学报（哲学社会科学版）,2005(1):119-119.
4楼玉萍,王丽侠.基于本体的智能答疑系统的模型研究[J].浙江工业大学学报,2005,33(1):71-73. 被引量：8
5刘颖,詹萌.Ontology在数字图书馆领域中的应用与研究综述[J].图书馆杂志,2005,24(6):53-58. 被引量：5
6翟东升,余旸.国际贸易技术壁垒信息采集系统设计与实现[J].情报杂志,2005,24(8):33-35. 被引量：3
7翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1
8严玥,李华.基于本体论的课件资源检索系统设计[J].计算机工程与设计,2006,27(5):879-881. 被引量：2
9李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
10胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16

同被引文献58

1王波,姚敏.基于信息抽取的匿名用户兴趣描述[J].华南理工大学学报（自然科学版）,2004,32(z1):117-120. 被引量：1
2周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
3陈兰,左志宏,熊毅,孟令谦.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2004,21(8):155-157. 被引量：18
4翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1
5梁晓涛,谢荣传.基于OWL描述本体的语义信息抽取[J].计算机技术与发展,2006,16(1):62-65. 被引量：2
6谢红薇,周慧,李娟莉.基于应急案例本体的信息抽取的模型及应用[J].电脑开发与应用,2006,19(2):46-48. 被引量：3
7郭志鑫.基于本体的文档引文元数据信息抽取[J].微计算机信息,2006,22(06X):304-306. 被引量：18
8韩颖,陈墨,李铎.纪传中基于本体的信息抽取和分析[J].数字图书馆论坛,2007(5):12-17. 被引量：1
9柳佳刚,刘高嵩,贺令亚,陈山.基于Web的信息抽取技术现状与发展[J].福建电脑,2007,23(7):48-49. 被引量：6
10何召卫,陈俊亮.基于本体关系匹配的信息抽取[J].计算机工程,2007,33(21):207-209. 被引量：13

引证文献1

1阳广元.国内基于本体的信息抽取研究现状与热点分析[J].图书馆理论与实践,2017,0(5):38-43. 被引量：1

二级引证文献1

1阎思宇,李绪辉,陈沐坤,朱海锋,谭杰骏,高旷,王永博,黄桥,任相颖,靳英辉,王行环.面向真实世界的知识挖掘与知识图谱补全研究(二):非结构化电子病历信息抽取方法及进展[J].医学新知,2023,33(5):358-365. 被引量：3

1刘绍毓,李弼程,郭志刚,王波,陈刚.实体关系抽取研究综述[J].信息工程大学学报,2016,17(5):541-547. 被引量：18
2Q＆A——如何快速地整理QQ好友信息[J].软件,2005,26(8):112-112.
3mark.快速找回丢失了的QQ好友[J].网络与信息,2009(12):47-47.
4orangeye.综合查询QQ世界的“警察叔叔”[J].网友世界,2009(12):49-49.
5田昊,李国辉,廉蔺,贾立.用于遥感图像建筑物目标分类的层次匹配核[J].计算机科学与探索,2011,5(7):588-594. 被引量：1
6刘一,王旭磊,查红彬.基于局部字袋模型的三维部分形状检索方法[J].北京大学学报（自然科学版）,2009,45(6):965-972. 被引量：2
7Gaolbird.偷梁换柱——窥探他人QQ好友[J].网友世界,2003(15):46-46.
8潘云峰,蔡明.基于语义的Web服务层次匹配模型设计[J].计算机应用与软件,2008,25(4):170-171.
9郑顺义,马电,王晓南.三角网约束下的层次匹配方法[J].计算机辅助设计与图形学学报,2014,26(11):1989-1996.
10曹霞,李岳阳,罗海驰,蒋高明,丛洪莲.基于Android的蕾丝花边检索系统的研究与实现[J].计算机应用与软件,2017,34(1):191-197. 被引量：1

长江大学学报（自科版）（上旬）

2015年第4期

浏览历史

内容加载中请稍等...

基于领域本体的微博用户信息抽取方法被引量：1

参考文献8

二级参考文献64

共引文献115

同被引文献58

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于领域本体的微博用户信息抽取方法 被引量：1

参考文献8

二级参考文献64

共引文献115

同被引文献58

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于领域本体的微博用户信息抽取方法被引量：1