Студия машинного обучения Microsoft Azure встречает Titanic

Содержание

Студия машинного обучения Microsoft Azure встречает Titanic
Проблема
Студия машинного обучения Microsoft Azure
Первые впечатления

Студия машинного обучения Microsoft Azure встречает Titanic

В предыдущем посте мы провели небольшой эксперимент с AWS SageMaker, используя набор данных Titanic. Теперь мы сделаем то же самое, используя службы Azure, в частности, Студию машинного обучения.

Для тех немногих, кто не читал предыдущую статью (позор вам :), всего два слова о проблеме, которую мы хотим решить.

Проблема

Набор данных «Титаника» — это классическая задача классификации: набор данных содержит несколько сведений о пассажирах (возраст, пол, класс билета и т. д.) и целевое значение выживания (да/нет).

Цель состоит в том, чтобы научить модель предсказывать, выжил ли данный пассажир или нет. Данные не готовы «как есть», поэтому нам нужно немного их предварительно обработать.

Студия машинного обучения Microsoft Azure

Студия машинного обучения Microsoft Azure — это «совместный инструмент перетаскивания, который вы можете использовать для создания, тестирования и развертывания решений прогнозной аналитики для ваших данных». (цитата Майкрософт).

В основном дополняет службу машинного обучения, где вы используете записные книжки Jupyter, размещенные в Azure или Visual Studio Code, с использованием определенного расширения.

Как видно из этой инфографики, предложение с точки зрения алгоритмов довольно исчерпывающее, поэтому давайте начнем что-то использовать для нашей задачи Титаник!

Сначала давайте загрузим файлы на платформу, чтобы мы могли использовать их в качестве активов проекта.

Теперь давайте создадим новый проект и добавим титанические файлы в качестве связанного набора данных.

Есть возможность запустить блокнот, но мы хотим использовать визуальный инструмент, поэтому давайте начнем новый эксперимент с нуля!

Это графический интерфейс, и он кажется довольно интуитивным в использовании, но сначала давайте подытожим, что мы будем делать: как было сказано, мы выполним только базовую предварительную обработку, просто чтобы увидеть инструмент в действии, не слишком обращая внимания на результаты: мы попробуем несколько разных алгоритмов классификации двух классов и увидим, как можно сравнивать результаты непосредственно в одном и том же эксперименте!

См. также: Машинное обучение MultiTech Conduit

Давайте добавим набор данных поезда и посмотрим на данные. Для этого просто перетащите его из «Сохраненные наборы данных» в левое меню и щелкните его правой кнопкой мыши, чтобы открыть контекстное меню и выбрать «Визуализировать».

Вау! Для каждого столбца вы можете иметь статистику и рисовать графики (на основе типов данных), чтобы визуализировать и лучше понять данные. Также можно сравнивать столбцы, видеть отношения между ними, делать многомерный анализ. Очень круто.

Опустим PassengerId, Name и Ticket. Для этого мы должны использовать «Выбрать столбцы в наборе данных», и после этого мы можем запустить задачу и получить результирующий набор данных, который можно визуализировать так же, как в предыдущем проходе.

Мы видим, что в Age пропущено 177 значений, и категориальные признаки необходимо преобразовать: давайте сделаем это, добавив соответствующие шаги и запустив снова.

Теперь данные готовы для некоторых моделей, так что давайте сделаем это!

Мы должны разделить данные 70–30, то есть мы будем использовать 70% данных для обучения и 30% для тестирования, а затем мы оценим результаты: затем мы будем использовать алгоритм логистической регрессии, обучить модель и увидеть результаты. Что-то вроде этого…

Просто бегите… и вуаля, очень просто. Пришло время проверить некоторые результаты, используя визуализацию результатов оценки на этапе «Оценить модель».

Потрясающий! У вас есть все показатели, четко указанные в нижней части (матрица путаницы, точность, точность, отзыв, оценка F1, AUC), возможность изменить порог и несколько полезных графиков для визуализации производительности.

Теперь давайте добавим еще один алгоритм классификации («Машина опорных векторов»), используя те же входные данные для обучения и тестирования, и давайте выясним, работает ли он лучше или нет.

См. также: ТОП-13 нейросетей ИИ для рисования по фото

Что ж, похоже, что SVM работает немного лучше с точки зрения оценки F1, и легко увидеть и сравнить результаты.

Первые впечатления

Azure Machine Learning Studio — действительно впечатляющий инструмент: интерфейс перетаскивания очень напоминает мне Orange (инструмент машинного обучения и визуализации данных с открытым исходным кодом — в будущем я сделаю о нем отдельный пост), но, очевидно, вы можете использовать всю инфраструктуру и сервисы Azure дополнительно или…. просто поиграйте с данными и сделайте несколько быстрых прототипов (вам не нужно иметь учетную запись Azure, чтобы использовать Learning Studio, только учетную запись Microsoft) без хлопот с установкой или настройкой чего-либо.

Кроме того, вы можете добавлять пользовательские сценарии на Python или R, чтобы при необходимости можно было настроить поток.

Наконец, документация исчерпывающая, и в так называемой «галерее AI» есть множество примеров, которые можно попробовать.

Надеюсь, вам понравится это небольшое введение в ML Studio. Увидимся в следующем выпуске!

Post Views: 132