【远古生物复活】深度学习与生物大数据处理
1转载自中科曙光1
这些曾经平静生活在地球上的动物因为人类活动而骤然灭绝。如今更是每天都有100多个物种在走向灭亡。 我们不想孤独的生活在地球上,我们希望可以和这些生物和平共存。 深度学习加速生物大数据处理速度 随着生命科学的迅猛发展,生物医学领域的数据量呈指数形式增长,生物医学数据表现为数据量大(Volume)、多样化(Variety)、有价值(Value)、高速(Velocity)等特点。有学者指出,“生物学未来的新瓶颈在于大数据问题”。 一次人类基因测试实验最大可产生约600G原始数据,典型的医疗数据很容易达到PB级,如何更高效地处理这些数据,成为生物医学领域面临的迫切问题。 XSharp是曙光公司专为深度学习技术而开发的一款软件产品,分别从分布式并行系统优化、分布式并行机器学习执行模式优化、大规模机器学习算法工具集三个层面提供深度学习优化策略,帮助用户实现应用优化。 深度学习技术的发展,为大数据处理提供了一种全新方法。曙光公司联合中科院计算机所,在生物医学处理方面取得了长足进展,大大加速了生物大数据处理速度。 生物医学领域数据有其自身特点。 1.数据量大:生物医学领域数据量十分庞大。仅人类DNA信息就多达60ZB,若为每个中国公民完成基因测序,数据量将超过1000EB,如此庞大的数据量,无论是存储还是处理,都将是一场噩梦。如今,只需几千美元和几个小时,即可完成一个人基因组的解析,低廉高效的研究方式得到生物科学家们的青睐,大量的物种得以测序解析,使得生物研究进入的生物数据的海洋,而积累的原始数据也必将迅速增长。 2.数据多样化:测序仪器种类繁多,产生的数据格式也各不相同。同时,利用不同的生物信息分析软件或分析流程处理得到的结果也是千差万别。深度学习技术是一种全新的数据分析工具,可以在生物图像信息处理中发挥重要作用。 3.价值高:随着生物信息学的发展,越来越多有价值的信息从生物数据中挖掘出来,这些价值不仅体现在生物科研领域,而且已应用于农业、健康和医学等领域。 4.高速:生物医学数据量急剧增长的速度让人惊叹,而且数据的多样化和价值也必将在快速处理中得以体现。 目前的生物医学领域,高通量成像数据分析算法的时间复杂度为O(year),科学家希望通过交互式和高精度的并行计算平台,将时间复杂度降低为O(minutes),为实现这个目标,以“大数据+HPC”为理论基础的曙光XSharp软件成为生命科学大数据处理和分析的利器。 曙光XSharp软件整体分为算法接口、层级操作和虚拟后端三个逻辑层面,整体设计以加速应用为目标,为用户提供标准算法接口;利用网络层、分布式并行等层级操作,实现应用加速和优化;底层将传统的HPC硬件进行虚拟化,提供统一接口,完成深度学习的硬件实现。 1.算法接口 从Model、Rule、Activation、Metric等方面向应用提供标准算法接口。XSharp是一个开放平台,我们将深度学习的各种算法均集合到产品中,在具体实践中可以自由增加、删除、修改、裁剪各种算法模块,快速相应用户需求。 2.层级操作 从网络和分布式并行两个方面分别提供算法优化策略。网络层内容包含数据、通信、开销、权重等;分布式并行包含数据、模型、流水线等优化策略。 3.虚拟后端 以编程和HPC硬件为基础,包括并行编程MPI、大数据分布式处理框架Spark、GPU编程语言CUDA、RDMA、存储技术等组成。 曙光XSharp软件是一套完整的深度学习实践平台,基于此,用户可以自由开发满足自身需求的应用,调用成熟的算法接口和数学库,降低开发难度,缩短开发周期。 在生物图像处理中,反卷积扮演着重要的角色,在胰岛发育及功能载体成像研究中,实验过程需要处理2300张、624GB图像数据,借助传统的Fiji反卷积库处理,需要4.7年才能完成。曙光使用XSharp软件平台,将反卷积过程移植到4颗GPU上并发执行,仅需2天即可完成数据处理,结果令人叹为观止。 在基于SVM的Flash自动检测流程项目中,曙光科学家使用XSharp软件,利用支持向量机技术进行训练,实际效果可以在1s之内完成图片自动检测,效率提高了300倍以上。 深度学习在生物领域取得的进展让人振奋。现阶段XSharp的应用主要集中在高维多模式生物图像分布式数据系统、海量生物图像数据的深度挖掘流程和生物图像处理数据密集型算法加速等项目中。不仅如此,曙光公司正在大力推动XSharp在其他领域的应用和发展,帮助用户了解企业大数据的价值所在,利用数据为用户创造更多价值。 寄语: 热烈祝贺新智元上线!新时代,新智元,人工智能领航者! (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |