Я хочу запустить один из моих скриптов Python с использованием GCP. Я новичок в GCP, поэтому мало что понимаю.
Мой скрипт python получает данные из BigQuery и выполняет эти задачи.
Несколько операций обработки данных
Создайте модель машинного обучения, используя KDTree и несколько алгоритмов кластеризации.
Выгрузка окончательного результата в таблицу Big Query.
Этот скрипт нужно запускать каждую ночь.
Пока я знаю, что могу использовать виртуальные машины, Cloud Run, функцию Cloud (для меня это не лучший вариант, так как на все уйдет около часа). Что должно быть лучшим выбором для меня, чтобы запустить это?
Я наткнулся на Dataflow, но мне любопытно узнать, можно ли запустить собственный скрипт python, который может делать все эти вещи в потоке данных облака Google (при условии, что мне придется преобразовать все в формат уменьшения карты, который не кажется легким с мой код, особенно часть ML)?
Вам нужно уточнить, что это за операции. Да, конвейеры Beam могут быть написаны на Python и развернуты в Dataflow. — person No_body schedule 30.10.2019
Судя по вашему вопросу, вам нужен облачный продукт, который запускает ваш скрипт, может подключаться к источникам данных, обрабатывать оркестровку и т. Д. В этом случае вы можете проверить Cloud Function или Cloud Composer. — person No_body schedule 30.10.2019
Спасибо, я только что отредактировал вопрос. Я запутался в части потока данных. — person No_body schedule 30.10.2019
Вам просто нужно, чтобы скрипт python работал на одном экземпляре в течение пары часов, а затем завершал работу?
Вы можете настроить микросервис движка приложения «базовое масштабирование» в рамках своего проекта GCP. Максимальное время выполнения задач очереди задач составляет 24 часа при использовании «базового масштабирования».
https://cloud.google.com/appengine/docs/standard/python/how-instances-are-managed