Я работаю с паркетными файлами, хранящимися в ведрах AWS S3. Они имеют размер несколько ТБ и разделены числовым столбцом, содержащим целочисленные значения от 1 до 200, назовем его…

IT Шеф

Итак, у меня есть фреймворк pyspark, организованный следующим образом: ID timestamp value1 value2 1 1 a x 2 1 a y 1 2 b x 2 2 b…

IT Шеф

В настоящее время я добавляю некоторые метрики в существующий конвейер, который работает в Google Dataproc через Spark Runner, и я пытаюсь определить, как получить доступ к этим метрикам…

IT Шеф

В настоящее время я пытаюсь выполнить простое чтение из настроенного мной ведра S3, используя Spark 3.0.0 (реализация через Scala 2.12.10). Однако при отправке скрипта я получаю эту ошибку:…

IT Шеф