炼数成金 门户 大数据 超级计算 查看内容

E级超算+深度学习,点亮癌症精准治疗之路

2019-4-18 16:47| 发布者: 炼数成金_小数| 查看: 29770| 评论: 0|来自: 国家超级计算广州中心

摘要: 美国疾病预防与控制中心发布的最新发病率数据显示,癌症是美国民众的第二大致死原因,仅次于心脏病。沉重的统计数据让人感到沮丧。然而,最近我们迎来了抗癌的曙光,由专业研究团队牵头的“癌症分布式学习环境(CANDL ...

模型 Hadoop 机器学习 深度学习 超级计算

“癌症”通常泛指所有恶性肿瘤,是100多种相关疾病的统称,它是危害人类健康的第二大杀手,死亡率仅次于心脑血管疾病。随着美国近年来“癌症登月”计划的启动,美国政府及相关机构都投入了大量的人力物力资源用于推进癌症研究。作为这一计划的一部分,美国能源部与美国国家癌症研究所以及弗雷德里克国家癌症研究实验室近期联合发起了“CANDLE”项目,将E级计算和深度学习带入癌症精准医学研究,助力人类攻克癌症。

美国疾病预防与控制中心发布的发病率数据显示,癌症是美国民众的第二大致死原因,仅次于心脏病。沉重的统计数据让人感到沮丧。然而,最近我们迎来了抗癌的曙光,由专业研究团队牵头的“癌症分布式学习环境(CANDLE)”项目正在寻求新的具有针对性的方法来对抗癌症,以探索癌症诊断和治疗的新方法。CANDLE项目正在构建一个软件环境,它将具有百亿亿次级计算能力的E级超算系统和深度学习方法相结合,以应对癌症研究、诊断和治疗方面的各项挑战。


为实现CANDLE这一宏伟计划,这需要来自全美资深专家的智慧以及世界上最强大超级计算机的计算支撑。CANDLE项目参与机构包括美国能源部下属的阿贡、橡树岭、劳伦斯利弗莫尔和洛斯阿拉莫斯国家实验室,以及美国国家癌症研究所和弗雷德里克国家癌症研究实验室。“CANDLE是一个跨越多个国家实验室、科技企业、合作伙伴和其他单位及机构的大型项目。我们在技术开发、应用集成以及平台的易用性之间进行了平衡。”CANDLE项目的首席研究员Rick Stevens说。

CANDLE项目面临的三大挑战
Stevens描述了CANDLE团队面临的三大挑战,必须克服这些挑战才能更好地理解癌症的本质,并找出对抗各种类型癌症的较佳药物。首先,研究团队需要对各种类型癌症的生物学和分子相互作用有细致了解。其次,团队必须开发出能够预测癌细胞对药物反应的计算模型。Stevens说:“我们预见了癌症诊疗的未来。到那个时候,医生可以对癌变肿瘤进行活检,以分析其分子特性。与此同时,机器学习模型可以利用这些数据来确定哪种靶向药物最有可能杀死这种肿瘤。” 

Stevens及其团队面临的第三个挑战是从“患者轨迹”中收集信息。这意味着团队必须评估来自全国数百万癌症患者的数据,希望能借此发现支持CANDLE团队构建大规模计算模型的模式。虽然一些患者的癌症数据存在结构化的数据库当中,但还有一些其它数据的来源情况更为复杂,比如肿瘤学家手写的患者报告。然而,只有收集和挖掘所有这些数据,才有可能发现共性和模式,从而进一步完善CANDLE上的模型。

通过同时应对癌症研究的三重挑战,CANDLE项目致力于识别甚至设计药物和治疗策略,以对抗各种类型的癌症。

Stevens说,“面临这三点挑战,CANDLE需要有预测复杂的癌细胞在药物作用下会发生什么变化的能力。要做到这一点,我们必须获取更多高质量的数据,以更好地理解这一过程背后的生物学原理。因此,机器学习方法必须集成海量的数据源来克服这个障碍。当然,我们还需要更多的测试来完善我们的预测模型,并将这种能力从实验室环境转移到临床应用。这极具挑战,但目前我们已取得良好的进展。”

通过类比,Stevens描述了数据集成和深度学习应用程序之间的关键关系。“如果我们把系统想象成一艘火箭飞船,那么学习模型就类似于火箭发动机,而数据代表燃料。无论发动机有多好,它都需要优质的燃料才能起飞。因此,我们一直面临的挑战是获取大量高质量的数据,对其进行清洗、集成、归一化,并设计出能够较大限度地利用数据的新型深度学习架构。”

由于大量的数据和预测模型模拟了药物与其分子靶点之间的相互作用,该过程很有可能能够识别出比现有药物更有效的新药。Stevens强调了这一过程蕴含的机遇。“化疗已经有75年的历史了,但是我们从未有效地预测它对哪些患者有效。设计融合分子信息和可视化信息以构建预测模型的方法,将有助于区分哪些肿瘤会对给定的药物产生反应,而哪些不会。通过E级计算,我们有机会做到这一点,这也将挽救数百万人的生命。”

阿贡实验室的E级超算系统
除了在CANDLE项目中所扮演的角色,Stevens还担任美国阿贡国家实验室计算、环境和生命科学理事会的副理事长。作为阿贡即将推出的E级超算系统“Aurora(极光)”背后的核心人物,Stevens对于Aurora将在材料科学,宇宙科学,神经学,气候研究等众多领域发挥的巨大作用,有着细致独特的认识。

Aurora由Intel公司、Cray公司和阿贡实验室共同建造,预计将于2021年交付。Stevens解释说,“我们选择‘Aurora’这个名字,是期望这台超算系统在某种意义上可以照亮整个世界。我们第一次将拥有高达每秒百亿亿次运算的强大计算性能。CANDLE团队非常期待可以发挥Aurora的全部性能,以前所未有的方式来帮助人类。”

“研制E级超算系统是一项高度复杂且具有挑战性的工作”。Stevens补充说,“幸运的是,Intel和Cray公司将和我们一起努力,开创百亿亿次超算系统的新纪元。”

E级超算系统为创建更复杂的模型并融合创新思想提供了可能。Stevens解释道:“例如,我们可以将模型的不确定性因素量化,这样我们就可以估计模型在做出给定预测时的准确程度。有了这个指标,我们就能让模型更有效。E级超算系统在推动机器学习的发展方面至关重要,我们也越来越了解如何利用超大规模计算获得更有效的深度学习模型。”

光明的未来
CANDLE的初衷是利用美国能源部超级计算机的深度学习能力,但该项目也有可能用于与癌症治疗无关的其他应用领域。据Stevens介绍,CANDLE的潜在能力和工具可以将深度学习应用到气候建模、材料科学、宇宙科学等其他科学领域。由于机器学习环境的设计具有通用性和普遍性,它可以在多个应用领域发挥作用。

虽然Stevens希望最终CANDLE能成为具有多样化的科学用例的生态系统,但目前他的团队主要还是专注于癌症方面的研究。“和CANDLE研究团队的其他成员一样,我们废寝忘食地研究着攻克癌症的新方法,并尽较大努力挖掘可以用来治疗癌症的切实可行的解决方案。有了E级超算系统,我们将打破传统计算能力的限制,可以更加自由地试验和尝试创新方法。”

“我们热切期待有一天,CANDLE团队的工作可以帮助全世界数百万人。那将会是一个非常激动人心的时刻。”Stevens补充说道。

声明:本文版权归原作者所有,文章收集于网络,为传播信息而发,如有侵权,请联系小编及时处理,谢谢!

欢迎加入本站公开兴趣群
软件开发技术群
兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流
QQ群:26931708

Hadoop源代码研究群
兴趣范围包括:Hadoop源代码解读,改进,优化,分布式系统场景定制,与Hadoop有关的各种开源项目,总之就是玩转Hadoop
QQ群:288410967 

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2019-8-2 08:16 , Processed in 0.185198 second(s), 24 queries .

安徽快3开奖结果 河北快3开奖结果 江苏快3开奖结果 江苏快3开奖结果 北京快三开奖结果 吉林快三开奖结果 北京快3开奖结果 江苏快三开奖结果 贵州快3开奖结果 吉林快3开奖结果