轻松用开源,AWS推出简化Apache Airflow部署与使用的托管服务

面向Apache Airflow的Amazon Managed Workflows简化云端数据处理及机器学习工作流的编写、调度和监控

日前,亚马逊云服务(AWS)宣布面向Apache Airflow的Amazon Managed Workflows(MWAA)正式可用。这项全新服务让数据工程师可以更轻松地在云端运行数据处理工作流。Apache Airflow是一款流行的开源工具,可以帮助客户编写、调度和监控工作流。通过Amazon MWAA,客户可以使用熟悉的Airflow平台来管理工作流,而不改变现有的操作方式,同时改善可伸缩性、可用性和安全性,又无需承担构建、扩展和管理底层基础设施。Amazon MWAA可根据客户需求,扩展工作流执行能力,并与AWS安全服务集成,提供安全访问客户数据的入口。使用Amazon MWAA无需前期投入,客户只需为使用的资源付费。如欲开始使用Amazon MWAA,请访问:https://aws.amazon.com/mwaa

如今,客户正使用数据分析和机器学习,从大量数据中获得洞察力。为了有效地使用这些数据,客户通常需要首先构建一个工作流,定义一系列连续的任务来准备和处理这些数据。数以万计的客户使用AWS Step Functions,可视地构建和运行具有成本效益和可伸缩的事件驱动工作流,这些工作流跨多个AWS服务执行任务。还有一些客户想要通过Apache Airflow来编排工作流。Apache Airflow有着活跃的开源社区,有大量的库,集成了Apache Spark、Hadoop等第三方数据处理工具,并可使用Python脚本创建工作流。然而,使用Apache Airflow需要数据工程师安装、维护、扩展和保护Apache Airflow环境,这增加了成本和操作复杂性。此外,为了支持基于角色的身份验证、以实现安全访问,Apache Airflow通常需要手动、反复地更改配置,有时要使用命令行命令,在某些情况下,还需要对Apache Airflow代码进行编辑,容易出错。客户还必须集成和配置额外的工具,用以对系统停机、工作流错误和任务执行延迟等问题发出告警。虽然客户确实喜欢Apache Airflow预集成第三方工具、使用熟悉的Python编程语言等特性,但他们希望不要增加运营成本和复杂性。

Amazon MWAA使得客户可以很方便地在AWS中构建和执行Apache Airflow工作流。Amazon MWAA负责管理Apache Airflow的配置和日常维护,客户不再需要操心补丁、扩展,不需要保护自管理的Apache Airflow部署。使用Amazon MWAA,执行任务的计算资源可以按需伸缩,为用户提供一致的性能。客户数据默认是安全的,因为工作负载使用Amazon VPC虚拟私有云,运行在客户自己隔离的安全云环境中,存储的数据使用AWS KMS 密钥管理服务加密。Amazon MWAA使得客户可以很容易地使用任何Apache Airflow的集成来组合数据,可以使用AWS服务,也可使用Apache Hadoop、Presto、Hive和Spark等流行的第三方工具,从而实现数据处理、机器学习管道以及软件开发与运营的自动化。客户可以通过AWS IAM身份与访问管理服务,轻松安全地实现基于角色访问Apache Airflow用户界面,为调度和查看工作流执行提供用户单点登录(SSO)的访问。Amazon MWAA自动向AWS监控服务Amazon CloudWatch发送Apache Airflow系统指标和日志,客户无需第三方工具,即可轻松查看跨一个或多个环境的任务执行延迟和工作流出错情况。通过使用Amazon MWAA,数据工程师可以获得Apache Airflow可扩展性、可用性和AWS的安全性。

“客户告诉我们,他们非常喜欢Apache Airflow,因为它可以加速数据处理和机器学习工作流的开发,但希望它没有扩展、操作和保护服务器的负担。”AWS应用集成副总裁Jesse Dougherty表示,“有了Amazon MWAA,客户就可以和现在一样地使用Apache Airflow平台,同时获得AWS的可伸缩性、可用性和安全性。”

客户可以从AWS管理控制台、CLI、AWS CloudFormation或AWS SDK启动新的Amazon MWAA环境,并在几分钟内开始运行。Amazon MWAA现已在美国东部(弗吉尼亚北部)、美国西部(俄勒冈)、美国东部(俄亥俄)、亚太地区(新加坡)、亚太地区(东京)、亚太地区(悉尼)、欧洲(爱尔兰)、欧洲(法兰克福)和欧洲(斯德哥尔摩)区域正式推出,其它区域也将很快推出。

最新文章