离散化分段哈希的海量化合物并行检索

The parallel retrieval of massive compound based on discretized segment hash

导出

摘要针对海量数据环境下单机检索低效问题,建立了对海量化合物快速检索的分布式计算模型,提出了基于分治策略的分段哈希算法。对于如分子量、脂水分配系数(lggP)等不适于用哈希检索的连续数值型数据,设计了连续属性离散化模型进行离散化处理。实验结果表明,在对化合物大文件进行检索时,该模型可快速有效地检索范围信息,避免了对海量数据的重复检索,大幅降低了化合物检索的内存及时间,具有稳定的可扩展性和高效性。 Focusing on the problem of inefficient single retrieve in the environment of massive data, in this paper, a distributed computing model for fast retrieval of massive compounds is built, and a segment hash based on divided-and-conquer is proposed. In addition, aiming at some continuity properties which are not suitable for the hash retrieval such as molecular weight, lipid-water partition coefficient （logP） and so on, in this article a model ofdiscretization to process continuous attributes is designed. The experimental results show that when retrieving the large compound file, this method can retrieve a range of the information quickly and efficiently, avoid the repetition of retrieving massive data, and greatly reduce the memory and the time of the retrieve of compounds. Besides, the model is stably scalable and efficient.

作者闫奕霖田生伟禹龙孙霞

机构地区新疆大学信息科学与工程学院新疆大学软件学院新疆大学网络中心

出处《计算机与应用化学》 CAS 2015年第7期885-888,共4页 Computers and Applied Chemistry

关键词并行计算化学信息学海量数据连续属性离散化哈希 parallel computation chemoinformatics massive data discretization of continuous features hash

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1潘夕琪,陈和平,刘心雄.EJB设计中JavaBean类值对象模式的不足及其改进策略[J].组合机床与自动化加工技术,2004(5):42-44. 被引量：1
2束志恒,陈德钊,陈亚秋.粗糙集方法及其在化学模式分类规则挖掘中的应用[J].分析化学,2004,32(7):879-883. 被引量：6
3井银玲,李晓霞,袁小龙,郭力.大规模化合物子结构检索的并行实现与优化[J].计算机与应用化学,2010,27(6):728-734. 被引量：7
4苗夺谦.Rough Set理论中连续属性的离散化方法[J].自动化学报,2001,27(3):296-302. 被引量：139
5宋婷婷,何险峰,温浩.工程化学数据库中分子结构信息的处理[J].计算机与应用化学,2008,25(9):1152-1158. 被引量：4
6王艳玲,李婕,王任小.有机化合物脂水分配系数和溶解度的计算方法[J].物理化学学报,2010,26(7):1742-1754. 被引量：13

二级参考文献125

1李琰,周家驹.VF算法在化学结构检索中的应用[J].计算机与应用化学,2002,19(5):575-576. 被引量：8
2苏振强,鲁先平,石乐明.分布式多线程并行处理技术在大规模化学结构检索数据库系统中的应用[J].计算机与应用化学,2004,21(5):659-664. 被引量：3
3储春梅,李晓霞,郭力.定向查询引擎在Web化学数据库集成检索中的应用[J].计算机与应用化学,2005,22(8):659-666. 被引量：12
4卓流艺,李晓霞,郭力.XML技术在化学深层网数据提取中的应用[J].计算机与应用化学,2006,23(11):1137-1141. 被引量：9
5苗夺谦.Rough Set理论及其在机器学习中的应用研究（博士学位论文）[M].北京:中国科学院自动化研究所,1997..
6MDL Information Systems Inc. http://www. mdli. com/.
7MDL CTfile formats. http ://www. mdli. com/downloads/ctfite/ctfile _ subs. html.
8OpenBabel. http ://openbabel. soureeforge. net/wiki/Main _ Page.
9http://ce. sysu. edu. cn/ChemiPublic/Newa/200f05/ChemiPublic -200605111545111. html. 2006 -05 - 11.
10http ://www. cas. org/aboutcas/index. html.

共引文献163

1孙秋野,张化光,刘贺男.基于粗糙集的变压器故障诊断方法研究[J].仪器仪表学报,2006,27(z1):385-386. 被引量：2
2柴保明,王志腾,李文选,王鹏.基于未确知测度的机械设备运行状态识别与故障诊断方法研究[J].装备维修技术,2010(2):11-14. 被引量：1
3王明慧.粗糙集理论在铁路行车调度指挥系统中应用的研究[J].中国铁道科学,2004,25(4):103-107. 被引量：13
4于达仁,胡清华,鲍文.融合粗糙集和模糊聚类的连续数据知识发现[J].中国电机工程学报,2004,24(6):205-210. 被引量：70
5赵荣珍,孟凡明,张优云.基于粗糙集知识获取的转子轴承系统故障诊断知识库构造研究[J].润滑与密封,2004,29(4):25-26. 被引量：3
6张雪峰,石凡,郝丽娜,张庆灵.粗糙集数据分析系统的程序实现[J].辽宁石油化工大学学报,2004,24(3):66-69. 被引量：5
7杨涛,李龙澍.一种基于粗糙集聚类的数据约简算法[J].系统仿真学报,2004,16(10):2195-2197. 被引量：5
8赵荣珍,张优云.基于Roughset知识获取的故障数据表聚类离散化方法研究[J].机械工程学报,2005,41(1):145-150. 被引量：5
9贺跃,郑建军,朱蕾.一种基于熵的连续属性离散化算法[J].计算机应用,2005,25(3):637-638. 被引量：15
10项新建,Stolle.M.一种基于聚类的粗糙集连续属性的离散化算法(英文)[J].浙江科技学院学报,2003,15(3):154-157. 被引量：5

1张学浪,耿楠.基于云计算的图像并行检索关键技术研究[J].计算机应用与软件,2013,30(5):220-222. 被引量：5
2乐晓波,吴晓红.一个有效的快速并行检索算法[J].微电子学与计算机,1993,10(7):33-37. 被引量：1
3高珊,何婷婷,胡文敏.一种基于锚文本的并行检索策略[J].计算机工程,2008,34(19):30-31. 被引量：2
4王荣德,荆一楠,王欢,高海锋.基于时间戳索引的日志文件并行检索技术研究[J].计算机应用与软件,2011,28(2):145-147. 被引量：3
5田生伟,禹龙.搜索引擎中并行检索均衡自适应机制的研究与实践[J].计算机应用与软件,2005,22(4):83-84.
6李玮,李利.Web搜索引擎与全文检索技术[J].情报科学,2003,21(5):558-560. 被引量：14
7周国安,李强,陈新,胡旭.海量小文件元数据的分布式存储与检索[J].空军预警学院学报,2014,28(6):427-431.
8黄鑫.基于确定图的频繁子图挖掘技术概述[J].计算机光盘软件与应用,2012,15(17):63-64.
9姚建华,李佳,黄迎,徐雯丽,蒋舒仰,胡静.虚拟技术与化学研究[J].上海化工,2014,39(10):20-22.
10刘久星,孙永强.PRAM,BSP和LogP并行模型之间的关系及其比较[J].小型微型计算机系统,1999,20(11):824-827. 被引量：6

计算机与应用化学

2015年第7期

浏览历史

内容加载中请稍等...

离散化分段哈希的海量化合物并行检索

参考文献6

二级参考文献125

共引文献163

相关作者

相关机构

相关主题

浏览历史