11月,OpenStack峰会将在柏林召开,其中
200多个由用例组成的会议涵盖:人工智能和机器学习、高性能计算、边缘计算、网络功能虚拟化、容器基础设施以及公有/私有和多云战略。

在这里,重点介绍一些关于HPC、GPU和AI的会议。


The AI Thunderdome:Using OpenStack to accelerate AI training with Sahara,Spark
and Swift

Red Hat的Sean Pryor说,OpenStack非常适合大数据问题。他将谈论如何使用Swift和Ceph,数据存储比以往更容易。
大数据领域中最重要的问题之一是使用AI来理解不断增加的数据量。
OpenStack使这成为一个可解决的问题:存储在Swift中的数据可以由Sahara集群访问,该集群可以使用GPU实例来加速并行AI参数调优。
这种能力允许用户只需一小部分手动工作就可以完成大型AI的训练——这不就是云的全部内容吗?




NASA Goddard Private Cloud: Genesis and lessons learned

2016年秋季,美国宇航局戈达德的NASA气候模拟中心(NCCS)和信息技术与通信局(ITCD)开始合作,使用从NCCS的传统HPC集群
Discover回收的硬件为整个Goddard社区提供内部私有云。

2018年10月,GPC正在按计划生产就绪(运行Queens),但是在Mitaka的原型环境中有超过30个项目(并且还在增加!)。




来自美国宇航局的Mike
Moore将描述所遇到的挑战以及在此过程中设计的创新解决方案,包括:遥测/计费、数据保护/灾难恢复、安全性、“云化”工作负载、容器以及指导HPC用户转向云计算。


Monitoring-as-a-Service in HPC Cloud

当应用程序迁移到云时,第一步是在软件定义的基础设施上重新创建相同的平台。这并不符合云的真正潜力。
一旦云用户意识到可用的强大API和服务,OpenStack基础设施就可以提供更多功能。

在本次演讲中,StackHPC Ltd.的Stig Telfer和Verne Global的Darryl Weaver将介绍如何将HPC云迁移提升到新的水平。
他们将展示Monasca服务的集成,以便监控和记录以性能为中心的部署。
他们将展示如何为所有用户解锁最佳性能遥测,以及如何为用户和管理员提供理解和优化其应用的新机会。


Cyborg:Accelerate your cloud

随着数据中心工作负载逐渐变得越来越计算密集型,对加速器的需求也越来越大。有各种各样的加速器,包括GPU、FPGA、ASIC和工作负载特定的加速器,如TPU。
OpenStack中的Cyborg项目旨在简化这些不同加速器类型的采用和生命周期管理。

英特尔的Sundar Nadathur称,Cyborg和Nova开发者已经建立了一个架构,可以卸载到各种加速器。
该架构包括FPGA,它对编程和比特流管理有独特的需求。
这个演讲将介绍一般的卸载到器件的用例、FPGA的编程模型以及Placement中器件(包括FPGA)的表示。Nadathur将密切关注需要加速器的实例的调度。
他将详细介绍os-acc的架构——这是用于Nova与Cyborg交互的库。最后将介绍Cyborg开发的现状。







原文链接:


http://superuser.openstack.org/articles/inside-hpc-gpu-ai-must-see-sessions-at-the-berlin-summit/







内容覆盖主流开源领域

投稿邮箱

openstackcn@sina.cn