摘要
通过从3个最大的中文百科全书(百度百科、互动百科、中文维基百科)所包含的大规模知识数据中识别重要的结构化特征生成RDF三元组,并将这些信息数据整合加入分布式大规模RDF数据存储系统,从而构成符合Linked Data要求的中文百科知识库RDF数据集。主要工作包括,通过配置网络爬虫对百度百科和互动百科的网页进行爬取,解析其中信息框等内容,生成RDF三元组并实现三元组的动态插入;下载需要的DBpedia中文三元组数据,将三元组进行整合并存储到课题组的大规模语义数据存储库Jingwei中;设计显示动态插入和三元组模式查询的页面,通过原型系统实验,验证了该方法的有效性。
It identifies important structural features from immense knowledgeable data in three largest Chinese encyclopedias(Baidu Encyclopedia, Hudong Encyclopedia, Chinese Wikipedia)and generates RDF triples, then integrates the information data and sets into a distributed large-scale RDF data storage system, and constructs the RDF dataset of Chinese Encyclopedia Knowledge Base that fits with the requirements of Linked Data. The main work includes, configuring the web crawler to crawl the html pages from Baidu Encyclopedia and Hudong Encyclopedia, parsing the content of the information box to generate RDF triples, downloading Chinese triples data from DBpedia, integrating the data sets into the distributed large-scale RDF data storage system Jingwei, designing the display of dynamic inserting and triple pattern query pages, it also verifies the validity of the method through prototype system experiments.
出处
《计算机工程与应用》
CSCD
北大核心
2015年第14期120-126,169,共8页
Computer Engineering and Applications
基金
国家自然科学基金(No.61100049
No.61070202)
国家高技术研究发展计划(863)(No.2013AA013204)