期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于Neo4j生物医药知识图谱的构建 被引量:26
1
作者 曹皓伟 徐建良 窦方坤 《计算机时代》 2020年第6期35-38,共4页
人类积累了大量的生物医药科研数据,这些数据以不同的形式存放在不同的数据源中,而数据的组织形式决定了数据的使用价值。为了使数据发挥更大的价值,将多源异构数据应用于知识挖掘与发现,深入研究和改进了知识融合等知识图谱的构建技术... 人类积累了大量的生物医药科研数据,这些数据以不同的形式存放在不同的数据源中,而数据的组织形式决定了数据的使用价值。为了使数据发挥更大的价值,将多源异构数据应用于知识挖掘与发现,深入研究和改进了知识融合等知识图谱的构建技术,使用Neo4j图形数据库进行数据存储,构建了生物医药领域的大规模知识图谱。知识图谱的构建可为后期的知识挖掘与知识图谱的应用作支撑。 展开更多
关键词 Neo4j 图数据库 生物医药 知识图谱构建 数据融合
下载PDF
基于文本元素的PDF表格区域识别方法研究 被引量:6
2
作者 窦方坤 曹皓伟 徐建良 《软件导刊》 2020年第1期113-116,共4页
为了对药学PDF文献中的表格进行正确识别,减少表格抽取过程中无关文本元素混入的噪音,以更准确地进行表格结构还原和信息抽取,基于pdf2xml对药学文献PDF中的文本元素进行抽取,将文本元素分类并对表格标题区域向下延伸,从而识别表格区域... 为了对药学PDF文献中的表格进行正确识别,减少表格抽取过程中无关文本元素混入的噪音,以更准确地进行表格结构还原和信息抽取,基于pdf2xml对药学文献PDF中的文本元素进行抽取,将文本元素分类并对表格标题区域向下延伸,从而识别表格区域。实验结果表明,该算法在单栏药学PDF和双栏药学PDF中的识别率分别达到89.7%和93.7%,比tabula工具的识别结果分别提高了10.4%和60.4%,表明该算法能有效处理表格框线缺失和分栏文献等复杂情况。 展开更多
关键词 PDF 文字流 文本抽取 文本分类 表格识别
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部