Можно ли запустить собственный скрипт Python в потоке данных Apache Beam или Google Cloud

Я хочу запустить один из моих скриптов Python с использованием GCP. Я новичок в GCP, поэтому мало что понимаю.

Мой скрипт python получает данные из BigQuery и выполняет эти задачи.

Несколько операций обработки данных

Создайте модель машинного обучения, используя KDTree и несколько алгоритмов кластеризации.

Выгрузка окончательного результата в таблицу Big Query.

Этот скрипт нужно запускать каждую ночь.

Пока я знаю, что могу использовать виртуальные машины, Cloud Run, функцию Cloud (для меня это не лучший вариант, так как на все уйдет около часа). Что должно быть лучшим выбором для меня, чтобы запустить это?

Я наткнулся на Dataflow, но мне любопытно узнать, можно ли запустить собственный скрипт python, который может делать все эти вещи в потоке данных облака Google (при условии, что мне придется преобразовать все в формат уменьшения карты, который не кажется легким с мой код, особенно часть ML)?

Вам нужно уточнить, что это за операции. Да, конвейеры Beam могут быть написаны на Python и развернуты в Dataflow.   —  person No_body    schedule 30.10.2019

Судя по вашему вопросу, вам нужен облачный продукт, который запускает ваш скрипт, может подключаться к источникам данных, обрабатывать оркестровку и т. Д. В этом случае вы можете проверить Cloud Function или Cloud Composer.   —  person No_body    schedule 30.10.2019

Спасибо, я только что отредактировал вопрос. Я запутался в части потока данных.   —  person No_body    schedule 30.10.2019

См. также:  Параметр NO_PARAM в запросе недействителен. Укажите правильное значение для параметра NO_PARAM при развертывании шаблона лазурной руки с помощью Powershell.
Понравилась статья? Поделиться с друзьями:
IT Шеф
Комментарии: 1
  1. No_body

    Вам просто нужно, чтобы скрипт python работал на одном экземпляре в течение пары часов, а затем завершал работу?

    Вы можете настроить микросервис движка приложения «базовое масштабирование» в рамках своего проекта GCP. Максимальное время выполнения задач очереди задач составляет 24 часа при использовании «базового масштабирования».

    Запросы могут выполняться до 24 часов. Экземпляр с базовым масштабированием может выбрать обработку / _ah / start и выполнение программы или сценария в течение многих часов без возврата кода ответа HTTP. Задачи очереди задач могут выполняться до 24 часов.

    https://cloud.google.com/appengine/docs/standard/python/how-instances-are-managed

Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: