基于语义网的中文百科知识组织与集成被引量：4

Organization and integration of Chinese encyclopedia knowledge based on semantic web

下载PDF

导出

摘要通过从3个最大的中文百科全书(百度百科、互动百科、中文维基百科)所包含的大规模知识数据中识别重要的结构化特征生成RDF三元组,并将这些信息数据整合加入分布式大规模RDF数据存储系统,从而构成符合Linked Data要求的中文百科知识库RDF数据集。主要工作包括,通过配置网络爬虫对百度百科和互动百科的网页进行爬取,解析其中信息框等内容,生成RDF三元组并实现三元组的动态插入;下载需要的DBpedia中文三元组数据,将三元组进行整合并存储到课题组的大规模语义数据存储库Jingwei中;设计显示动态插入和三元组模式查询的页面,通过原型系统实验,验证了该方法的有效性。 It identifies important structural features from immense knowledgeable data in three largest Chinese encyclopedias（Baidu Encyclopedia, Hudong Encyclopedia, Chinese Wikipedia）and generates RDF triples, then integrates the information data and sets into a distributed large-scale RDF data storage system, and constructs the RDF dataset of Chinese Encyclopedia Knowledge Base that fits with the requirements of Linked Data. The main work includes, configuring the web crawler to crawl the html pages from Baidu Encyclopedia and Hudong Encyclopedia, parsing the content of the information box to generate RDF triples, downloading Chinese triples data from DBpedia, integrating the data sets into the distributed large-scale RDF data storage system Jingwei, designing the display of dynamic inserting and triple pattern query pages, it also verifies the validity of the method through prototype system experiments.

作者付宇新王鑫冯志勇吕雪栋

机构地区天津大学计算机科学与技术学院计算机科学与技术系天津市认知计算与应用重点实验室

出处《计算机工程与应用》 CSCD 北大核心 2015年第14期120-126,169,共8页 Computer Engineering and Applications

基金国家自然科学基金(No.61100049 No.61070202) 国家高技术研究发展计划(863)(No.2013AA013204)

关键词语义网资源描述框架(RDF) 中文百科全书 Linked Open Data NUTCH semantic web Resource Description Framework（RDF） Chinese encyclopedia Linked Open Data Nutch

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Berners-Lee T,Hendler J,Lassila O.The semantic web[J]. Scientific American, 2001,284 ( 5 ) : 34-43.
2Klyne G, Carroll J J, McBride B.Resource Description Framework (RDF) : concepts and abstract syntax[S].[S.I.] : W3C Recommendation, 2004.
3Bizer C, Heath T, Berners-Lee T.Linked Data-the story so far[J].lntemational Journal on Semantic Web and Infor- mation Systems, 2009,5 ( 3 ) : 1-22.
4Zhao,J.Publishing Chinese medicine knowledge as Linked Data on the Web[J].Chinese Medicine,2010,5( 1): 1-12.
5Niu X,Sun X,Wang H,et al.Zhishi.me-weaving Chinese linking open data[C]//Proceedings of the 10th International Conference on the Semantic Web, Bonn, Germany,2011 :205-220.
6Bizer C,Lehmann J,Kobilarov G,et al.DBpedia-a crys- tallization point for the Web of data[J].Journal of Web Semantics, 2009,7( 3 ) : 154-165.
7Wang Xin, Shi Hong, Jiang Longxiang, et al.Jingwei+ : a distributed large-scale RDF data server[C]//Proceedings of the 14th Asia-Pacific Web Conference(APWeb2012), 2012:779-783.
8Khare R, Cutting D, Sitaker K, et al.Nutch: a flexible and scalable open-source web search engine[J].Oregon State University, 2004.
9Chang F, Dean J, Ghemawat S, et al.Bigtable: a distributed storage system for structured data[J].ACM Transactions on Computer Systems(TOCS ), 2008,26(2).
10Dean J, Ghemawat S.MapReduce: simplified data pro- cessing on large clusters[J].Communications of the ACM, 2008,51(1): 107-113.

同被引文献19

1张祥,葛唯益,瞿裕忠.语义网站点的发现与排序[J].软件学报,2009,20(10):2834-2843. 被引量：2
2李慧颖,瞿裕忠.KREAG:基于实体三元组关联图的RDF数据关键词查询方法[J].计算机学报,2011,34(5):825-835. 被引量：14
3丁楠,潘有能.基于关联数据的图书馆信息聚合研究[J].图书与情报,2011(6):50-53. 被引量：52
4李楠,张学福.基于关联数据的知识发现模型研究[J].图书馆学研究,2013(1):73-77. 被引量：14
5钟远薪,李田章,刘炜.OPAC混搭关联数据应用研究[J].现代图书情报技术,2013(4):25-29. 被引量：9
6杜方,陈跃国,杜小勇.RDF数据查询处理技术综述[J].软件学报,2013,24(6):1222-1242. 被引量：64
7陈硕颖,郑敏信,齐铂金,杨清森.用于电池管理系统的数据存储系统设计[J].单片机与嵌入式系统应用,2014,14(1):65-68. 被引量：2
8张威,鲍丽娜.可快速定位的视频流媒体大数据存储系统[J].科学技术与工程,2014,22(1):239-243. 被引量：4
9蔡建文,黄文浩.基于DVD双光束多层数据存储系统的设计及仿真[J].半导体光电,2014,35(1):162-164. 被引量：1
10吴信东,李毅,李磊.在线社交网络影响力分析[J].计算机学报,2014,37(4):735-752. 被引量：120

引证文献4

1李荣利.大规模网络数据存储系统的设计与实现[J].现代电子技术,2017,40(2):118-121.
2张自然,杨东升,张瑞娜.面向中文用户生成内容的关联数据混搭系统模型及应用[J].图书馆学研究,2017(8):51-58. 被引量：1
3邱望,潘善亮.语义社交网络中用户信息提取与影响力分析[J].小型微型计算机系统,2018,39(7):1465-1470.
4刘晖,龚知资.基于人脸识别的人物信息在线检索平台[J].现代信息科技,2020,4(13):74-76. 被引量：1

二级引证文献2

1吴丹,程磊.信息组织与检索的研究热点与动向:语义、交互与社群[J].图书情报知识,2017,34(4):4-12. 被引量：11
2徐辰威,甘理财,姜浩博,陆星宇,魏远旺.基于人脸识别与ZigBee技术的访客管理系统[J].信息与电脑,2021,33(14):157-160. 被引量：1

1段寿建,甘健侯.基于RDF、OWL的知识表示及其转换研究与实现[J].保山师专学报,2006,25(2):68-71.
2刘海静.基于ESA的文本分类算法研究[J].洛阳师范学院学报,2016,35(2):68-71.
3朝乐门,张勇,邢春晓.DBpedia及其典型应用[J].现代图书情报技术,2011(3):80-87. 被引量：14
4白海燕.关联数据及DBpedia实例分析[J].现代图书情报技术,2010(3):33-39. 被引量：35
5杨光,刘秉权,刘铭.基于图方法的命名实体消歧[J].智能计算机与应用,2015,5(5):52-55. 被引量：7
6黄山山,马军,郭磊,王帅强.LinkMF:结合Linked Data的协同过滤推荐算法[J].中文信息学报,2016,30(1):85-92.
7杜婧君,陆蓓,谌志群.基于中文维基百科的命名实体消歧方法[J].杭州电子科技大学学报（自然科学版）,2012,32(6):57-60. 被引量：3
8互动百科提请对百度反垄断调查[J].电脑爱好者,2011(6):12-12.
908年网络流行语盘点：很黄很暴力很雷很山寨[J].文化市场,2008(5):37-37.
10人人网携手互动百科首推国产Connect[J].互联网天地,2009(9):9-9.

计算机工程与应用

2015年第14期

浏览历史

内容加载中请稍等...

基于语义网的中文百科知识组织与集成被引量：4

参考文献10

同被引文献19

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于语义网的中文百科知识组织与集成 被引量：4

参考文献10

同被引文献19

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于语义网的中文百科知识组织与集成被引量：4