Microsoft正在开发多个方面以提高其Azure数据中心的弹性。在上周Build 2019的“Inside Azure数据中心架构”演示中,Azure的首席技术官Mark Russinovich概述了该公司关注的一些可靠性特定领域。

Russinovich描述的其中一项努力被称为“Tardigrade项目”。正如Russinovich提醒构建观众一样,一种缓和动物(微观动物也被称为“水熊”或“苔藓仔猪”)是迄今为止发现的最耐用的动物之一。它可以在外太空和极端温度下存活。

通过Tardigrade,微软的目标是使云应用程序能够在平台故障中幸存。

“我们希望我们的服务器像缓步一样,”Russinovich说。“当事情变得糟糕时,我们不想重启虚拟机(VM)。随着Tardigrade,“VM被冻结在RAM中,其状态得以保留。” 操作系统在新服务器上恢复。

Russinovich没有提供关于何时推出这项技术的任何细节,但他确实展示了它在Bu​​ild演示期间的工作。

更新(5月14日)。有一个名为Tardigrade的微软研究项目。这是2015年5月的一篇研究论文,详细介绍了微软对Tardigrade的看法“利用轻量级虚拟机轻松高效地构建容错服务。” 微软在5月14日的当天晚些时候与我联系,说这两个Tardigrades没有关系。

来自MSR Tardigrade研究论文的摘要:

“Tardigrade(是)一个将现有的,未经修改的二进制文件部署为容错服务的系统.Tardigrade在多台机器上复制服务,以便即使其中一些机器出现故障也能继续运行。 ,它使服务状态保持同步,以便客户看到强烈一致的结果。“

正如微软研究人员所概述的那样,Tardigrade使用了一个“轻量级虚拟机(它)是一个进程沙盒,因此它的外部依赖关系被完全封装,使它能够跨机器迁移。为了让未经修改的二进制文件在这样的沙箱中运行,沙箱还包含一个提供预期API的库操作系统。“

库OS?是的,似乎Tardigrade确实源于微软围绕“Drawbridge” 所做的工作。

Drawbridge是微软的一个研究项目旨在为应用程序沙盒提供一种新的虚拟化形式。正如微软研究人员所描述的那样,它依赖于picoprocesses(一个具有最小内核的基于进程的隔离容器)和一个库操作系统,或者重构为在应用程序上下文中作为一组库运行的操作系统。Microsoft依靠Drawbridge概念将SQL Server引入Linux,将Windows子系统Linux引入Windows 10。

微软发言人表示微软研究Tardigrade与Azure项目Tardigrade没有任何关系,尽管名字相同(并且对我来说听起来像是一个潜在的类似焦点)。该发言人表示,Azure Project Tardigrade是一项全新的计划。正如Russinovich上周告诉Geekwire,

微软还希望通过在全球推出更多可用区来提高其数据中心的可靠性。可用区域旨在帮助保护客户免受数据中心级故障的影响。这些区域位于Azure区域内,提供独立的电源,网络和冷却。有中启用了Azure的地区至少三个分开的区域位置。

虽然微软官员经常声称这一点与全球任何云提供商相比,微软拥有更多的云区域,相对较少的Azure区域支持可用区域。就其而言,AWS将“区域”定义为运营可用区域群集的地理位置。AWS目前在21个地区拥有64个可用区。