2banana

Развертывание Apache Airflow в Azure для создания и запуска конвейеров данных

Apache Airflow – это платформа с открытым исходным кодом, используемая для создания, планирования и мониторинга рабочих процессов. Airflow преодолевает некоторые ограничения утилиты cron, предоставляя расширяемую платформу, которая включает операторов, программируемый интерфейс для создания заданий, масштабируемую распределенную архитектуру и широкие возможности отслеживания и мониторинга. С момента своего добавления в Apache foundation в 2015 году Airflow получила широкое распространение в сообществе для проектирования и организации конвейеров ETL и рабочих процессов ML. В Airflow рабочий процесс определяется как направленный ациклический граф (DAG), гарантирующий, что определенные задачи выполняются одна за другой, управляя зависимостями между задачами.

Упрощенная версия архитектуры Airflow показана ниже. Он состоит из веб-сервера, который предоставляет пользовательский интерфейс, хранилища реляционных метаданных, которое может быть базой данных MySQL/PostgreSQL, постоянного тома, в котором хранятся файлы DAG, планировщика и рабочего процесса.

Deploying Apache Airflow in Azure to build and run data pipelines

Вышеуказанная архитектура может быть реализована для запуска в четырех режимах выполнения, включая:

  • Последовательный исполнитель & – Этот режим полезен для разработки/тестирования или демонстрации. Он сериализует операции и позволяет одновременно выполнять только одну задачу.
  • Локальный исполнитель &- Этот режим поддерживает распараллеливание и подходит для рабочей нагрузки малого и среднего размера. Он не поддерживает масштабирование.
  • Celery Executor & – Это предпочтительный режим для производственных развертываний и один из способов масштабирования числа работников. Чтобы это сработало, для координации требуется дополнительный сервер celery, который является брокером RabbitMQ или Redis.
  • Dask Executor &- Этот режим также позволяет расширять масштаб за счет использования библиотеки Dask.distributed, позволяя пользователям запускать задачу в распределенном кластере.

Вышеуказанная архитектура может быть реализована в виртуальных машинах Azure или с помощью управляемых служб в Azure, как показано ниже. Для производственных развертываний мы рекомендуем использовать управляемые сервисы со встроенными возможностями высокой доступности и гибкого масштабирования.

Deploying Apache Airflow in Azure to build and run data pipelines

Изображение Puckel’s Airflow docker содержит последнюю сборку Apache Airflow с автоматической сборкой и выпуском в общедоступный реестр DockerHub. Служба приложений Azure для Linux интегрирована с общедоступным реестром DockerHub и позволяет запускать веб-приложение Airflow в контейнерах Linux с непрерывным развертыванием. Служба приложений Azure также позволяют мульти-контейнер с Docker и Kubernetes для развертывания составить полезный режим выполнения сельдерея.

на&#кино xD; &#xD а;

мы разработали для Azure QuickStart шаблона, который позволяет быстро развернуть и создать воздушный поток инстанции в Azure с помощью службы приложений Azure и экземпляр базы данных Azure для PostgreSQL в качестве хранилища метаданных.

на&#кино xD; &#xD а;

Deploying Apache Airflow in Azure to build and run data pipelines

&#кино xD; &#xD а;

при QuickStart шаблона автоматически скачивает и устанавливает самые последние образ контейнера Docker от puckel/настройки воздушного потока, и инициализирует базу данных в базы данных Azure для PostgreSQL Server, как показано на следующем рисунке:

&#кино xD; &#xD а;

Deploying Apache Airflow in Azure to build and run data pipelines

&#кино xD; &#xD а; переменные среды для воздушного потока докер изображения можно установить с помощью настройки приложения в Службе приложений Azure, как показано на следующем рисунке:

&#кино xD; &#xD а;

Deploying Apache Airflow in Azure to build and run data pipelines

&#кино xD; &#xD а; переменные среды, используемые в процессе развертывания являются:

&#кино xD; &#xD а;

    &#xD а;

  • расход воздуха__базовый__в SQL_алхимии_Конн &- задает строку подключения в веб-приложение, чтобы подключиться к базе данных Azure для PostgreSQL.
  • в&#xD а;

  • расход воздуха__базовый__нагрузка_примерах &- установите значение true, чтобы загрузить Даг примеры во время развертывания.
  • в&#xD В; &#кино xD; &#xD а; от WEBSITES_ENABLE_APP_SERVICE_STORAGE, как установлено в True, который может быть использован в качестве постоянного хранилища для Дага файлов доступных для планировщика и рабочий контейнер изображений.

    После его развертывания вы можете просмотреть пользовательский интерфейс веб-сервера на порту 8080, чтобы увидеть примеры DAG и отслеживать их, как показано на следующем рисунке:

    Deploying Apache Airflow in Azure to build and run data pipelines

    Следующие шаги

    Теперь вы готовы организовать и спроектировать конвейеры данных для рабочих процессов ETL и машинного обучения, используя операторов Airflow. Вы также можете использовать Airflow для планирования и мониторинга заданий во множестве управляемых баз данных в Azure, определив подключения, как показано ниже.

    Deploying Apache Airflow in Azure to build and run data pipelines

    Если вы ищете захватывающий вызов, вы можете развернуть образ kube-airflow с помощью celery executor со службами Azure Kubernetes, используя helm charts, Azure Database for PostgreSQL и RabbitMQ. Дайте нам знать, если вы его разработали, и мы будем рады предоставить ссылку на него в этом блоге.

    Благодарности

    Особая благодарность Марку Больцу и Джиму Толанду за их вклад в публикации.

    beinginthecloud.com – URL-адрес сайта-источника

Поделиться

Другие новости

Перенос базы 1с на облако

внедрения 1С
Новости про облачные технологии

5 ошибок внедрения 1С. 2 пункт особенный.

Введение Успешное внедрение 1С автоматизации зависит не столько от надежного интегратора, сколько от подготовленности компании клиента. Несмотря на очевидные факторы, многие проекты по внедрению заканчиваются неудачей. Почему так происходит? Ответ кроется в типичных ошибках, которые допускают компании. Цель этой статьи – помочь вам избежать этих ошибок и успешно внедрить новую

Читать »
Моделирование бизнес-процессов
Новости про облачные технологии

Моделирование бизнес-процессов

Глубокое погружение в мир оптимизации Моделирование бизнес-процессов – это, по сути, язык, на котором мы говорим как работает компания. Позволяет нам визуализировать, описать и, самое главное, оптимизировать все те действия, которые приводят к достижению желаемых результатов. Не зная, как работают процессы, невозможно эффективно их улучшить. Поэтому, моделирование – это первый

Читать »
microsoft
Новости про облачные технологии

Microsoft прекращает поддержку облачных сервисов

Детальный анализ ситуации Американская технологическая корпорация Microsoft объявила о том, что с 2 сентября 2024 года она начнет отключать некоторые облачные сервисы для российских юридических лиц. Под ограничения попадут популярные пакеты Microsoft 365, Office 365 и Teams, которые предоставляют доступ к почте, онлайн-документам, календарю, видеоконференциям и многим другим важным инструментам

Читать »
The Russian stock market
ИТ новости России

Российский фондовый рынок в условиях санкций

В поисках нового роста Санкции и ограничения, наложенные на Россию, стали катализатором перемен на внутреннем рынке. Они, словно буря, вывели на поверхность те процессы, которые уже начинали формироваться, но не имели такой ярко выраженной динамики. Новый импульс для развития Санкции, ограничивая доступ к внешним рынкам и капиталам, заставляют российские компании

Читать »
faq 1C
Новости про облачные технологии

FAQ 1C – 20 парадоксов

Парадоксальные ответы на вопросы, убеждения и мнения пользователей 1С

Читать »
цифрового рубля
ИТ новости России

Тестирование цифрового рубля пройдет в формате summarize

С 1 сентября в тестовую фазу тестирования цифрового рубля могут включить 1200 компаний Центральный банк России делает следующий шаг в пилотном проекте цифрового рубля, расширяя масштабы тестирования и фокусируясь на реальных бизнес-кейсах. С 1 сентября в тестовую фазу включаются 1200 компаний – это в 50 раз больше, чем на предыдущих

Читать »

Добро пожаловать в бизнес-клуб!

Помогаем развивать бизнес.

Хотите прочную платформу для мощного старта? 

АО “Глобальный сервис” это:

Чтобы стать участником клуба

заполните форму

Вы доверяете сайту и даете согласие на использование файлов cookie

у каждого своя роль

1 час /мес

на нашем облаке 1С

Специальное предложение:

бесплатная техподдержка