2banana

Развертывание Apache Airflow в Azure для создания и запуска конвейеров данных

Apache Airflow – это платформа с открытым исходным кодом, используемая для создания, планирования и мониторинга рабочих процессов. Airflow преодолевает некоторые ограничения утилиты cron, предоставляя расширяемую платформу, которая включает операторов, программируемый интерфейс для создания заданий, масштабируемую распределенную архитектуру и широкие возможности отслеживания и мониторинга. С момента своего добавления в Apache foundation в 2015 году Airflow получила широкое распространение в сообществе для проектирования и организации конвейеров ETL и рабочих процессов ML. В Airflow рабочий процесс определяется как направленный ациклический граф (DAG), гарантирующий, что определенные задачи выполняются одна за другой, управляя зависимостями между задачами.

Упрощенная версия архитектуры Airflow показана ниже. Он состоит из веб-сервера, который предоставляет пользовательский интерфейс, хранилища реляционных метаданных, которое может быть базой данных MySQL/PostgreSQL, постоянного тома, в котором хранятся файлы DAG, планировщика и рабочего процесса.

Deploying Apache Airflow in Azure to build and run data pipelines

Вышеуказанная архитектура может быть реализована для запуска в четырех режимах выполнения, включая:

  • Последовательный исполнитель & – Этот режим полезен для разработки/тестирования или демонстрации. Он сериализует операции и позволяет одновременно выполнять только одну задачу.
  • Локальный исполнитель &- Этот режим поддерживает распараллеливание и подходит для рабочей нагрузки малого и среднего размера. Он не поддерживает масштабирование.
  • Celery Executor & – Это предпочтительный режим для производственных развертываний и один из способов масштабирования числа работников. Чтобы это сработало, для координации требуется дополнительный сервер celery, который является брокером RabbitMQ или Redis.
  • Dask Executor &- Этот режим также позволяет расширять масштаб за счет использования библиотеки Dask.distributed, позволяя пользователям запускать задачу в распределенном кластере.

Вышеуказанная архитектура может быть реализована в виртуальных машинах Azure или с помощью управляемых служб в Azure, как показано ниже. Для производственных развертываний мы рекомендуем использовать управляемые сервисы со встроенными возможностями высокой доступности и гибкого масштабирования.

Deploying Apache Airflow in Azure to build and run data pipelines

Изображение Puckel’s Airflow docker содержит последнюю сборку Apache Airflow с автоматической сборкой и выпуском в общедоступный реестр DockerHub. Служба приложений Azure для Linux интегрирована с общедоступным реестром DockerHub и позволяет запускать веб-приложение Airflow в контейнерах Linux с непрерывным развертыванием. Служба приложений Azure также позволяют мульти-контейнер с Docker и Kubernetes для развертывания составить полезный режим выполнения сельдерея.

на&#кино xD; &#xD а;

мы разработали для Azure QuickStart шаблона, который позволяет быстро развернуть и создать воздушный поток инстанции в Azure с помощью службы приложений Azure и экземпляр базы данных Azure для PostgreSQL в качестве хранилища метаданных.

на&#кино xD; &#xD а;

Deploying Apache Airflow in Azure to build and run data pipelines

&#кино xD; &#xD а;

при QuickStart шаблона автоматически скачивает и устанавливает самые последние образ контейнера Docker от puckel/настройки воздушного потока, и инициализирует базу данных в базы данных Azure для PostgreSQL Server, как показано на следующем рисунке:

&#кино xD; &#xD а;

Deploying Apache Airflow in Azure to build and run data pipelines

&#кино xD; &#xD а; переменные среды для воздушного потока докер изображения можно установить с помощью настройки приложения в Службе приложений Azure, как показано на следующем рисунке:

&#кино xD; &#xD а;

Deploying Apache Airflow in Azure to build and run data pipelines

&#кино xD; &#xD а; переменные среды, используемые в процессе развертывания являются:

&#кино xD; &#xD а;

    &#xD а;

  • расход воздуха__базовый__в SQL_алхимии_Конн &- задает строку подключения в веб-приложение, чтобы подключиться к базе данных Azure для PostgreSQL.
  • в&#xD а;

  • расход воздуха__базовый__нагрузка_примерах &- установите значение true, чтобы загрузить Даг примеры во время развертывания.
  • в&#xD В; &#кино xD; &#xD а; от WEBSITES_ENABLE_APP_SERVICE_STORAGE, как установлено в True, который может быть использован в качестве постоянного хранилища для Дага файлов доступных для планировщика и рабочий контейнер изображений.

    После его развертывания вы можете просмотреть пользовательский интерфейс веб-сервера на порту 8080, чтобы увидеть примеры DAG и отслеживать их, как показано на следующем рисунке:

    Deploying Apache Airflow in Azure to build and run data pipelines

    Следующие шаги

    Теперь вы готовы организовать и спроектировать конвейеры данных для рабочих процессов ETL и машинного обучения, используя операторов Airflow. Вы также можете использовать Airflow для планирования и мониторинга заданий во множестве управляемых баз данных в Azure, определив подключения, как показано ниже.

    Deploying Apache Airflow in Azure to build and run data pipelines

    Если вы ищете захватывающий вызов, вы можете развернуть образ kube-airflow с помощью celery executor со службами Azure Kubernetes, используя helm charts, Azure Database for PostgreSQL и RabbitMQ. Дайте нам знать, если вы его разработали, и мы будем рады предоставить ссылку на него в этом блоге.

    Благодарности

    Особая благодарность Марку Больцу и Джиму Толанду за их вклад в публикации.

    beinginthecloud.com – URL-адрес сайта-источника

Поделиться

Другие новости

Перенос базы 1с на облако

SQLite
Новости про облачные технологии

SQLite забавные факты

📌 SQLite: Невидимый гигант в мире баз данных SQLite – это не просто очередная база данных. Она – невидимый гигант, тихий и мощный, основа для бесчисленных приложений, которые мы используем каждый день. Ее распространенность поистине удивительна, и она является непременным компонентом нашей цифровой жизни. Факт 1: Миллиарды копий и триллионы

Читать »
ИТ-санкции
ИТ новости России

ИТ-услуги под санкциями США, чем ответит Россия

США вводят санкции против ИТ-сектора России: подробности и влияние 12 июня 2024 года США объявили о новых санкциях, направленных на изоляцию российского ИТ-сектора от остального мира. Ограничения: Вступление в силу: санкции вводятся поэтапно: Цели санкций: Ответ России: Влияние санкций: Долгосрочные последствия: Ростелеком инвестирует в программное обеспечение Компания запускает венчурный фонд «Консоль» с первоначальным объёмом

Читать »
IT-рынок
Новости про облачные технологии

IT-рынок: Аншлаг и бардак. Мнение.

IPO компании IVA Technologies – это не просто выход на биржу, это заявление о намерениях стать ключевым игроком на бурно развивающемся, но хаотичном рынке российского IT. Генеральный директор компании, Станислав Иодковский, в интервью Ведомостям, описал этот рынок как сочетание аншлага и бардака. Аншлаг – это, безусловно, огромный спрос на отечественные

Читать »
AI’s Insatiable Data-Center
ИТ новости России

Nvidia собирает сливки, от майнинга до ИИ

Во время золотой лихорадки обогащаются продавцы лопат Nvidia на вершине технологического Олимпа Nvidia, компания, которая всего несколько лет назад была известна своим “железом” для геймеров, сегодня прочно заняла место на вершине технологического мира. Рыночная капитализация Nvidia превысила $3 трлн, обогнав Apple и заняв второе место среди публичных американских компаний после

Читать »
Нейро кладбище
Новости про облачные технологии

Нейрокладбище – “ритуалы” входят в ИТ

Мир технологий не стоит на месте, и даже смерть не стала преградой для инноваций. Россия, страна, известная своим особенным отношением к смерти. Где еще можно встретить поминание памятных дат связанных с днем смерти известных личностей прошлого. Эта инициатива стала результатом сотрудничества ритуальной службы Ритуал.ру и ростовской ИТ-компании Dragons Code. Нейродвойники

Читать »
ИТ-знания
ИТ новости России

Рейтинг ВУЗов дающих ИТ-знания

ИТ-знания – инструмент “рабочего класса” 21 века Инвестиции в знания: где получить образование, которое принесет наибольшую прибыль в России? Бенджамин Франклин говорил: “Инвестиции в знания приносят наибольшую выгоду”. Его слова особенно актуальны сегодня, в эпоху бурного развития информационных технологий. ИТ-знания дают выпускникам престижных вузов высокие зарплаты и перспективное будущее. Рейтинг

Читать »

Добро пожаловать в бизнес-клуб!

Помогаем развивать бизнес.

Хотите прочную платформу для мощного старта? 

АО “Глобальный сервис” это:

Чтобы стать участником клуба

заполните форму