Использование облака для науки о данных

В этой серии блогов мы обсудим, как специалисты по данным используют облачные сервисы, такие как AWS, для развертывания решений для обработки данных в производстве или для увеличения вычислительной мощности. Прежде чем мы углубимся в это, давайте обсудим некоторые общие термины, такие как: облако, узлы, кластер и распределенные вычисления.

Начнем с сетей.

Компьютеры, соединенные вместе и использующие одинаковые ресурсы, называются сетью. Эти компьютеры в сети называются узлами. Один из первых узлов Интернета (самой известной сети в мире) располагался в Калифорнийском университете в Лос-Анджелесе и Стэнфорде.

Когда определенная группа подключенных компьютеров работает над выполнением определенной задачи, это называется кластером. Поскольку все они работают вместе, их можно рассматривать как один компьютер. Такие кластеры обеспечивают высокую производительность , доступность и масштабируемость. Программное обеспечение и приложения, написанные для использования этих кластеров для выполнения задач, знают Hadoop, Spark и MapReduce.

Наконец, облако описывает ситуацию, когда одна сторона владеет, администрирует и управляет группой сетевых компьютеров и общих ресурсов, как правило, для размещения и предоставления программных решений. Облачные вычисления означают, что у вас есть «пул» ресурсов, таких как память или мощность процессора, состоящий из множества реальных компьютеров. Теперь, когда вам нужны ресурсы, скажем, для веб-сайта, вместо того, чтобы использовать одну машину, вы просто берете из этого «пула». Неважно, хотите ли вы 1 ГБ оперативной памяти или 128 ГБ оперативной памяти, вы можете просто взять ее из пула вместо того, чтобы настраивать один компьютер для выполнения этой работы.

Но как мы можем использовать облако для науки о данных и аналитики?

Короткий ответ — AWS (или, если уж на то пошло, облако Google или любое другое предложение на рынке). В этом блоге я подробно расскажу о шагах по настройке Amazon Web Services(AWS) для работы с аналитикой.

См. также: Из многих маршрутов вы можете продолжить изучение науки о данных и машинного обучения (аспирантура, MOOC, учебные лагеря, самообучение и т. Д.), Которые…

Наука о данных на AWS

Шаг 1. Создайте аккаунт AWS

Создайте учетную запись, выбрав нового пользователя, и после ввода базовой информации вы окажетесь в главной консоли AWS, как показано ниже.

Шаг 2. Доступ к панели управления

Пока не беспокойтесь о каждом сервисе AWS. Просто сосредоточьтесь на:

а) EC2 (Elastic Compute Cloud): это процессор ваших облачных вычислений.

б) S3 (Простая служба хранения): это жесткий диск вашего облачного хранилища.

Шаг 3. Запустите экземпляр

Нажмите на экземпляр EC2 на панели инструментов и запустите экземпляр, как показано ниже:

Как мы уже обсуждали выше, облако предлагает несколько экземпляров (учитывайте процессоры). Вы можете запустить один или несколько экземпляров. Вы также можете приостановить (временно) или прекратить их навсегда.

Шаг 4. Выберите AMI (образ машины Amazon)

Мы можем начать с Amazon Linux AMI, отображаемого вверху.

Шаг 4. Выберите типы экземпляров.

Что такое экземпляр?

Экземпляры — это виртуальные серверы, на которых могут запускаться приложения. Они имеют различные комбинации ресурсов ЦП, памяти, хранилища и сети, что дает вам возможность гибко выбирать подходящее сочетание ресурсов для ваших приложений. Amazon EC2 предоставляет широкий выбор типов экземпляров, оптимизированных для различных вариантов использования.

Шаг 6. Настройка экземпляров

Шаг 7. Добавление хранилища

Наш экземпляр готов к вращению. Добавим в него хранилище.

Шаг 8. Настройка группы безопасности.

группа безопасности — это набор правил брандмауэра, которые контролируют трафик для вашего экземпляра. На этой странице вы можете добавить правила, позволяющие определенному трафику достигать вашего экземпляра. Например, если вы хотите настроить веб-сервер и разрешить интернет-трафику доступ к вашему экземпляру, добавьте правила, разрешающие неограниченный доступ к портам HTTP и HTTPS.

См. также: Перенаправление портов отладки для удаленного использования записной книжки Jupyter

Для правильной настройки нам нужно добавить еще два правила в группу по умолчанию:

HTTPS
Пользовательский TCP

Шаг 9. Окончательный запуск

Окно слева содержит сводную информацию об экземпляре. Просмотрите сведения о запуске инстанса, чтобы перейти к следующему шагу.

Шаг 10. Создание пары «ключ:значение»

Шаг 11. Мониторинг экземпляров

Вы можете видеть работающий экземпляр. В настоящее время он проходит проверку состояния. Как только это будет сделано, либо щелкните правой кнопкой мыши экземпляр и нажмите «Подключиться», либо выделите его и нажмите «Действия», «Подключиться». Вы увидите следующий экран.

В следующем сообщении блога мы обсудим, как подключиться к этому экземпляру с помощью SSH и как запустить блокнот Jupyter, размещенный на этом экземпляре.

Post Views: 252