基于LCA分块算法的大学科研人员信息抽取被引量：3

Information Extraction of University Research Faculty Based on LCA Segmentation Algorithm

下载PDF

导出

摘要现有的半结构化网页信息抽取方法主要假设有效数据间具有较强结构相似性,将网页分割为具有类似特征的数据记录与数据区域然后进行抽取。但是存有大学科研人员信息的网页大多是人工编写填入内容,结构特征并不严谨。针对这类网页的弱结构性,提出了一种基于最近公共祖先(lowest common ancestor,LCA)分块算法的人员信息抽取方法,将LCA和语义相关度强弱的联系引入网页分块中,并提出了基本语义块与有效语义块的概念。在将网页转换成文档对象模型(document object model,DOM)树并进行预处理后,首先通过向上寻找LCA节点的方法将页面划分为基本语义块,接着结合人员信息的特征将基本语义块合并为存有完整人员信息的有效语义块,最后根据有效语义块的对齐获取当前页面所有关系映射的人员信息。实验结果表明,该方法在大量真实的大学人员网页的分块与抽取中,与MDR(mining data records)算法相比仍能保持较高的准确率与召回率。 Conventional information extraction methods of semi-structured pages usually assume that valid data have relatively strong structural similarity, divide the page into data records and data region with similar characteristics and then extract from them. However, faculty list pages of universities mostly are written artificially and filled by human beings instead of automatic generation by using templates, so their structure is not rigorous. This paper proposes a fac-ulty information extraction method based on LCA （lowest common ancestor） segmentation algorithm, introduces the connection between LCA and semantic relation into Web segmentation, and presents the new concepts of basic semantic blocks and effective semantic blocks. After converting the page into a DOM （document object model） tree and the pre-processing, the page is divided into the basic semantic blocks with LCA algorithm firstly. Then the basic semantic blocks are merged into their corresponding effective semantic blocks with complete personnel information. Finally, according to the alignment of effective semantic blocks, all faculty information mapped by all relationships in current page is gotten. The experimental results show that the proposed method still has high precision and recall rates in the segmentation and extraction of quantities of real university research faculty list pages by compared with the MDR （mining data records） algorithm.

作者易晨辉刘梦赤胡婕

机构地区武汉大学计算机学院湖北大学计算机与信息工程学院

出处《计算机科学与探索》 CSCD 北大核心 2016年第6期761-772,共12页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金No.61202100 软件工程国家重点实验室开放基金No.SKLSE2012-09-20~~

关键词信息抽取最近公共祖先(LCA) 基本语义块有效语义块关系映射 information extraction lowest common ancestor （LCA） basic semantic block effective semantic block relational mapping

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献19

1Tang Jie, Zhang Jing, Yao Limin, et al. ArnetMiner: extractionand mining of academic social networks[C]//Proceedingsof the 14th ACM SIGKDD International Conferenceon Knowledge Discovery and Data Mining, Las Vegas,USA, Aug 24-27, 2008. New York, USA: ACM, 2008: 990-998.
2Liu Bing, Grossman R, Zhai Yanhong. Mining data recordsin Web pages[C]//Proceedings of the 9th ACM SIGKDD InternationalConference on Knowledge Discovery and DataMining, Washington, USA, Aug 24- 27, 2003. New York,USA: ACM, 2003: 601-606.
3Liu Bing, Zhai Yanhong. NET-a system for extractingWeb data from flat and nested data records[C]//Proceedingsof the 6th International Conference on Web InformationSystems Engineering, New York, USA, Nov 20- 22, 2005.Berlin, Heidelberg: Springer, 2005: 487-495.
4Zhao Hongkun, Meng Weiyi, Yu C. Mining templates fromsearch result records of search engines[C]//Proceedings ofthe 13th ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining, San Jose, USA, Aug 12-15, 2007. New York, USA: ACM, 2007: 884-893.
5Lerman K, Getoor L, Minton S, et al. Using the structure ofWeb sites for automatic segmentation of tables[C]//Proceedingsof the 2004 ACM SIGMOD International Conferenceon Management of Data, Paris, France, Jun 13-18, 2004. NewYork, USA: ACM, 2004: 119-130.
6Hong J L, Siew E G, Egerton S. Information extraction forsearch engines using fast heuristic techniques[J]. Data &Knowledge Engineering, 2010, 69(2): 169-196.
7高乐,张健,田贤忠.基于视觉的Web页面分块算法的改进与实现[J].计算机系统应用,2009,18(4):65-69. 被引量：11
8Chakrabarti D, Kumar R, Punera K. A graph-theoretic approachto webpage segmentation[C]//Proceedings of the17th International Conference on World Wide Web, Beijing,China, Apr 21-25, 2008. New York, USA: ACM, 2008:377-386.
9Ravikumar S, Chakrabarti D, Punera K. Method for segmenting webpages by parsing webpages into document object modules (DOMs) and creating weighted graphs: U.S.Patent 7, 974, 934[P]. 2011-07-05.
10Cai Deng, Yu Shipeng, Wen Jirong, et al. VIPS: a visionbasedpage segmentation algorithm, MSR-TR-2003-79[R].Microsoft, 2003.

二级参考文献6

1于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
2Cai D, Yu S, Wen JR, et al. VIPS: a vision based page segmentation algorithm. Microsoft Technical Report, MSR- TR- 2003 - 79, 2003:10.
3Chen JL, Zhou BY, Shi J, et al. Function-based object model towards website adaptation. Proceedings of the 10th World Wide Web Conference. Hong Kong: ACM Press, 2001:587 - 596.
4Chakrabarti S, Punera K, Subramanyam M. Accelerated focused crawling through online relevance feedback Proceedings of the eleventh international conference on World Wide Web (WWW2002), 2002:148 - 159.
5Lin SH, HO JM. Discovering informative coment blocks from Web documents. Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDDp02). July, 2002.
6Wen JR, Song RH, Cai D, et al. Microsoft Research Asia at The Web Track of TREC 2003. The Twelfth Text Retrieval Conference (TRECp12), 2003.

共引文献10

1李烯,徐朝军.基于分块和统计相结合的新闻正文抽取[J].情报理论与实践,2010,33(1):117-120. 被引量：4
2史晶,吴庆波,杨沙洲.面向移动终端的Web页面重组技术综述[J].计算机应用研究,2011,28(12):4405-4408. 被引量：2
3徐红艳,党晓婉,冯勇,李军平.基于BP神经网络的Deep Web实体识别方法[J].计算机应用,2013,33(3):776-779. 被引量：5
4伍杰华,倪振声,陈有青.一种基于逆序匹配重复模式的主题信息提取方法[J].计算机应用与软件,2013,30(4):88-91.
5周兴斌,骆四毛.牛顿插值与分块算法对自适应支持度的研究[J].计算机工程与设计,2014,35(2):520-524. 被引量：2
6吴茜,刘嘉勇,卿粼波.基于VIPS算法和模糊字典匹配的网页提取技术研究[J].信息网络安全,2014(10):49-53. 被引量：4
7蒋凌燕,查英华.基于HTML5的响应式Web页面重组适配技术研究[J].计算机与现代化,2015(2):7-10. 被引量：14
8顾问,曹阳.基于jsoup的Web页面自适应转换系统的实现[J].电子技术与软件工程,2017(18):200-202. 被引量：3
9丁晟春,刘凯,方振.融合动态主题词库和改进Shark-Search算法的主题爬虫方法——以武器装备领域为例[J].数据分析与知识发现,2022,6(8):52-60. 被引量：1
10朱林.基于Web的主题内容提取与存储系统研究[J].软件,2016,37(11):30-32.

同被引文献12

1刘迁,焦慧,贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究,2007,24(7):6-9. 被引量：41
2纪昂,姚丹,郭跃飞.一种基于叶分量分析的带有监督信息的在线学习方法[J].计算机应用与软件,2009,26(8):219-222. 被引量：1
3刘一宁.语义网主要技术发展分析[J].情报探索,2011(9):96-98. 被引量：1
4胥小波,赵尔凡,康荣保.基于语义分析的互联网人物信息提取[J].信息安全与通信保密,2013,11(12):103-108. 被引量：3
5徐倩,胡婕,刘梦赤.复杂语义关系的描述与操作[J].计算机科学与探索,2014,8(12):1432-1441. 被引量：6
6刘海燕,潘欣,廖安,史彬,鄢烈祥.基于LCA与NSGA-II的混合算法解多目标优化问题[J].计算机与应用化学,2014,31(12):1461-1466. 被引量：11
7甘国华,刘梦赤,胡婕.面向大学领域的聚焦爬虫设计与实现[J].山西大学学报（自然科学版）,2015,38(2):223-234. 被引量：4
8吴平,陈亮,周伟,郭玲玲.基于主成分分析和噪声估计的在线子空间辨识[J].浙江大学学报（工学版）,2018,52(9):1694-1701. 被引量：2
9张天骐,范聪聪,喻盛琪,赵健根.基于JADE与特征提取的正交/非正交空时分组码盲识别[J].系统工程与电子技术,2020,42(4):933-939. 被引量：7
10张天骐,范聪聪,葛宛营,张天.基于ICA和特征提取的MIMO信号调制识别算法[J].电子与信息学报,2020,42(9):2208-2215. 被引量：21

引证文献3

1夏翠翠,刘梦赤,胡婕.基于信息网模型的Web实体语义信息搜索平台[J].计算机工程,2017,34(3):18-23. 被引量：3
2黄振峰.学者资料搜索与特征信息提取[J].信息技术,2017,41(9):150-153. 被引量：1
3崔莹.叶分量分析(LCA)在静态图像识别中的应用[J].佳木斯大学学报（自然科学版）,2022,40(4):55-58.

二级引证文献4

1任璐.基于用户和搜索体验的英文阅读书目搜索任务[J].信息技术,2019,43(5):134-137. 被引量：1
2李文靖,胡书山,余日季.基于语义网的数字化家具模型本体设计与检索[J].软件导刊,2019,18(8):136-139. 被引量：2
3谢梦怡.基于机器视觉的医院档案信息智能搜索[J].西安工程大学学报,2019,33(5):575-580. 被引量：9
4吴雨晨,刘萍萍,徐江涛.改进的大数据检索自适应性切换搜索算法[J].西安工业大学学报,2019,39(6):688-695. 被引量：2

1徐小双,冯玉才,王锋,周英飚.LCA关系序对导引小枝查询[J].小型微型计算机系统,2010,31(3):398-403.
2易飞滔,黄刘生,刘刚,徐宏力.SWALLOW:一个稳定的WLAN区域定位系统[J].小型微型计算机系统,2013,34(6):1237-1241. 被引量：1
3吴启鸿,余科军.基于ASP的大学科研信息管理系统[J].科学中国人,2016(9Z).
4刘鸿沛,李志勤.云计算在大学科研领域中的应用研究[J].信息与电脑（理论版）,2015(5):63-64 66.
5日光.没有不可能网页链接“截”下来[J].软件指南,2006(3):40-40.
6网页转换过度效果的实现技巧[J].电脑知识与技术（过刊）,2002(11):55-55.
7何克右.MIS输出数据的网页转换[J].现代计算机,1999,5(8):9-12.
8金彪,姚文连.视频下载各有招分块合并也轻松[J].电脑爱好者,2011(16):27-27.
9张航,李文华,张登科.C#委托和事件及其在MIS中的应用[J].仪器仪表用户,2006,13(5):138-139.
10张洁.Java解析xml文件的研究与应用[J].硅谷,2014,7(6):120-120. 被引量：2

计算机科学与探索

2016年第6期

浏览历史

内容加载中请稍等...

基于LCA分块算法的大学科研人员信息抽取被引量：3

参考文献19

二级参考文献6

共引文献10

同被引文献12

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于LCA分块算法的大学科研人员信息抽取 被引量：3

参考文献19

二级参考文献6

共引文献10

同被引文献12

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于LCA分块算法的大学科研人员信息抽取被引量：3