基于规则的百科人物属性抽取被引量：3

Rules-Based Character Attributes Extraction from Baidu Encyclopedia

下载PDF

导出

摘要信息抽取是数据挖掘的一个重要领域,文本信息抽取是指从一段自由文本中抽取出指定的信息并将其结构化数据存入知识库供用户查询或下一步处理所用。人物属性信息抽取是智能人物类搜索引擎构建的重要基础,同时结构化信息也是计算机所能理解的一种数据格式。作者提出了一种自动获取百科人物属性的方法,该方法利用各属性值的词性信息来定位到百科自由文本中,通过统计的方法发现规则,再根据规则匹配从百科文本中获取人物属性信息。实验表明该方法从百科文本中抽取人物属性信息是有效的。抽取的结果可以用来构建人物属性知识库。 Information extraction is an important area of data mining. Text information extraction means extracting specified information from a section of free text and storing structured data in the knowledge base for user querying or further processing. Character attribute information extraction is an important instrument of building search engine of persons, and is also a technology for computer program understanding. This paper presents an automatic method to obtain encyclopedia character attributes, and this method uses the speech tagging of each attribute value to locate the encyclopedia free text. The rules are discovered by statistical method, and the character attributes information is obtained from encyclopedia text according to rules matching. Experiments show that this method is effective in extracting character attribute information from encyclopedia text. The extracted results can be used to build the knowledge base of the character attributes.

作者李红亮杨燕尹红风贾真

机构地区西南交通大学信息科学与技术学院

出处《集成技术》 2013年第3期1-4,共4页 Journal of Integration Technology

基金国家自然科学基金(61152001 61170111) 中国科学院自动化研究所复杂系统管理与控制重点实验室开放课题(20110102) 中央高校基本科研业务费专项资金(SWJTU11ZT08)

关键词人物属性抽取规则获取自由文本 character attributes extraction rules acquisition free text

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
2王全剑,李芳.基于Wikipedia的人名简历信息抽取[J].计算机应用与软件,2011,28(7):170-174. 被引量：2
3丁君军,郑彦宁,化柏林.基于规则的学术概念属性抽取[J].情报理论与实践,2011,34(12):10-14. 被引量：26
4车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：115
5陆科进,李新颖.基于Ontology的文本信息抽取[J].计算机应用研究,2003,20(7):46-48. 被引量：18
6化柏林,郭江.基于规则的高校实验室Web信息抽取的系统设计与实现[J].现代图书情报技术,2009(10):62-66. 被引量：2
7Chen J X,Ji D H,Tan C L. Unsupervised feature selectionfor relation extraction[A].2005.262-267.

二级参考文献54

1车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：115
2李向阳,戴江山,张亚非.一种Web信息抽取规则的优化方法[J].兰州理工大学学报,2006,32(1):90-93. 被引量：3
3王璐,朱东华,任智军.科技术语属性抽取方法研究[J].现代图书情报技术,2007(5):69-72. 被引量：8
4[1]R Gaizauskas,Y Wilks.Information extraction:Beyond document retrieval.Journal of Documentation,1998,54(1):70-105
5[2]C Aone,M Ramos-Santacruz.Rees:A large-scale relation and event extraction system.The 6th Applied Natural Language Processing Conference,Washington,USA,2000
6[4]S Soderland.Learning information extraction rules for semi-structured and free text.Machine Learning,1999,34(1-3):233-272
7[5]D Zelenko,C Aone,A Richardella.Kernel methods for relation extraction.Journal of Machine Learning Research,2003,3:1083-1106
8[6]D Freitag.Machine learning for information extraction in informal domains:[Ph D dissertation].Pittsburghers,USA:Carnegie Mellon University,1998
9[7]Sergey Brin.Extracting patterns and relations from the World Wide Web.In:Lecture Notes in Computer Science 1590,Berlin:Srpinger,1998.172-183
10[8]T Hasegawa,S Sekine,R Grishman.Discovering relations among named entities for large corpora.Association for Computational Linguistics(ACL-2004),Barcelona,Spain,2004

共引文献163

1葛艳,杜坤钰,杜军威,陈卓.基于混合神经网络的实体关系抽取方法研究[J].中文信息学报,2021,35(10):81-89. 被引量：3
2吴婷,孔芳.基于图注意力卷积神经网络的文档级关系抽取[J].中文信息学报,2021,35(10):73-80. 被引量：11
3刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：23
4叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
5崔娜,雷涯邻,安海忠.面向用户需求的新闻文本集信息可视化模型[J].图书情报工作,2011,55(S2):273-279. 被引量：1
6黄毅,王庆林,刘禹.一种基于条件随机场的领域术语上下位关系获取方法[J].中南大学学报（自然科学版）,2013,44(S2):355-359. 被引量：5
7包金龙.基于向量空间模型的信息检索系统的设计[J].情报杂志,2005,24(7):44-45. 被引量：16
8梁昌勇,张申恒.基于本体的企业文本检索模型研究[J].计算机应用研究,2005,22(12):27-29. 被引量：4
9胡思康,曹元大.Web网页知识获取技术[J].北京理工大学学报,2006,26(12):1065-1068. 被引量：4
10陈珂,殷凡.中文自动摘要综述[J].福建电脑,2007,23(2):34-35.

同被引文献27

1程梦,洪宇,尉桢楷,姚建民.融合情感词交互注意力机制的属性抽取研究[J].中文信息学报,2021,35(10):90-100. 被引量：3
2马进,杨一帆,陈文亮.基于远程监督的人物属性抽取研究[J].中文信息学报,2020(6):64-72. 被引量：11
3Tang J,Zhang J,Yao L,et al. Arnetminer: Extraction and Mining of Academic Social Networks[C]//Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM,2008:990-998.
4Yang Q, Zhang C, Niu Z. Two-stage Web Record Extraction[C]//Computer Science & Education (ICCSE), 2013 8th In- ternational Conference on. IEEE,2013:783-788.
5Bing L, Lam W, Wong T L. Wikipedia Entity Expansion and attribute Extraction form the Web using Semi-supervised Learning[C] // Proceedings of the sixth ACM International Conference on Web Search and Data Mining. ACM, 2013: 567- 576.
6Wu B,Cheng X,Wang Y,et al. Simultaneous Product Attribute 'Name and Value Extraction from Web Pages[C]//Pro- ceedings of the 2009 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technol- ogy. IEEE Computer Society, 2009 : 295-298.
7Wong T L, Lam W, Wong T S. An Unsupervised Framework for Extracting and Normalizing Product Attributes from Multiple Web Sites[C]//Proceedings of the 31st annual international ACM SIGIR conference on Research and develop- ment in information retrieval. ACM, 2008 : 35-42.
8Han H,Giles C L, Manavoglu E,et al. Automatic Document Metadata Extraction Uging Support Vector Machines[C]// Proceedings of the ACM/IEEE Joint Conference on Digital Libraries. IEEE,2003:37-48.
9Sekine S, Artiles J. Weps2 Attribute Extraction Task[C]//2nd Web People Search Evaluation Workshop, 18th WWW Conference, 2009.
10de Pablo-Sanchez C, Martinez Fernfindez P. UC3M at WePS2-AE:Acquiring Patterns for People Attribute Extraction from Webpages[C]//2nd Web People Search Evaluation Workshop, 18th WWW Conference, 2009.

引证文献3

1张巧,熊锦华,程学旗.基于弱监督学习的主页人物属性抽取方法[J].山西大学学报（自然科学版）,2015,38(1):8-15. 被引量：5
2张飞宇,马进,贾昊,张世奇,陈文亮.基于机器阅读理解的商品属性识别[J].山西大学学报（自然科学版）,2022,45(4):924-935.
3李云想,王汝凉,李嘉敏.基于RoBERTa-WWM-BiGRU-CRF的中文命名实体识别[J].南宁师范大学学报（自然科学版）,2023,40(1):72-78.

二级引证文献5

1马进,杨一帆,陈文亮.基于远程监督的人物属性抽取研究[J].中文信息学报,2020(6):64-72. 被引量：11
2程南昌,邹煜,滕永林,侯敏.篇章知识与逐级分类相结合的人物属性抽取方法研究[J].语言文字应用,2019(1):125-134. 被引量：1
3瞿珊珊,周晓光.面向流域水资源自由文本的属性抽取方法[J].情报探索,2018(5):63-67.
4苏丰龙,谢庆华,黄清泉,邱继远,岳振军.基于直推式学习的半监督属性抽取[J].山东大学学报（理学版）,2016,51(3):111-115. 被引量：5
5张世奇,马进,周夏冰,贾昊,陈文亮,张民.基于预训练语言模型的商品属性抽取[J].中文信息学报,2022,36(1):56-64. 被引量：1

1朱臻,孙媛.基于SVM和泛化模板协作的藏语人物属性抽取[J].中文信息学报,2015,29(6):220-227. 被引量：7
2叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
3张巧,熊锦华,程学旗.基于弱监督学习的主页人物属性抽取方法[J].山西大学学报（自然科学版）,2015,38(1):8-15. 被引量：5
4赵长伟,孙素环,李晓培.基于语义相似度的文本表示降维方法[J].河南科技大学学报（自然科学版）,2008,29(5):36-39. 被引量：4
5谷雨,段鹏,张天军,周波.一个基于时间窗口的入侵检测算法[J].云南民族学院学报（自然科学版）,2003,12(2):105-107. 被引量：2
6本期评测游戏[J].大众软件,2011(23):117-119.
7于东,刘春花,田悦.基于远距离监督和模式匹配的职衔履历属性抽取[J].计算机应用,2016,36(2):455-459. 被引量：2
8韩君,张焕国,罗敏.一种基于数据挖掘的分布式入侵检测系统[J].计算机工程与应用,2004,40(8):126-128. 被引量：5
9林琛,李弼程,宋辉.一种基于PCA和RS的文本过滤方法[J].微计算机信息,2005,21(11X):156-158. 被引量：5
10薛锦,陈原斌.一种实用的关联规则增量式更新算法[J].计算机工程与应用,2003,39(13):212-213. 被引量：2

集成技术

2013年第3期

浏览历史

内容加载中请稍等...

基于规则的百科人物属性抽取被引量：3

参考文献7

二级参考文献54

共引文献163

同被引文献27

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于规则的百科人物属性抽取 被引量：3

参考文献7

二级参考文献54

共引文献163

同被引文献27

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于规则的百科人物属性抽取被引量：3