Автоматизированное машинное обучение: как команды работают вместе над проектом AutoML?

В ноябре прошлого года я написал статью о демократизации искусственного интеллекта (ИИ) с помощью автоматизированного машинного обучения. В сегодняшней статье я покажу вам пример использования автоматизированного машинного обучения (опубликованный на GitHub) и, в частности, как специалист по данным, руководитель проекта и руководитель бизнеса могут использовать автоматическое машинное обучение для улучшения команды. сотрудничество и обучение, а также содействие успешной реализации инициатив в области науки о данных.

Когда дело доходит до выполнения проекта машинного обучения в организации, специалистам по обработке данных, менеджерам проектов и бизнес-лидерам необходимо работать вместе, чтобы развернуть лучшие модели для достижения конкретных бизнес-целей. Основная цель этого шага — определить ключевые бизнес-переменные, которые необходимо предсказать с помощью анализа. Мы называем эти переменные целями модели и используем связанные с ними метрики для определения успеха проекта.

В этом варианте использования, доступном для всех на GitHub, мы увидим, как специалист по анализу данных, руководитель проекта и бизнес-руководитель в розничной бакалейной лавке могут использовать автоматическое машинное обучение и службу машинного обучения Azure, чтобы сократить избыток продукции. Служба машинного обучения Azure — это облачная служба, которую вы используете для обучения, развертывания, автоматизации и управления моделями машинного обучения в широком масштабе, предоставляемом облаком. Автоматическое машинное обучение в службе машинного обучения Azure — это процесс получения обучающих данных с определенной целевой функцией и перебора комбинаций алгоритмов и выбора функций для автоматического выбора наилучшей модели для ваших данных на основе результатов обучения.

Избыточные запасы быстро становятся проблемой ликвидности, поскольку они не конвертируются обратно в наличные, если маржа не снижается посредством скидок и рекламных акций или, что еще хуже, когда они накапливаются для отправки в другие каналы, такие как торговые точки, задерживая их продажу. Заблаговременное определение того, какие продукты не будут иметь ожидаемого уровня ротации, и контроль пополнения запасов с учетом прогнозов продаж являются ключевыми факторами, помогающими ритейлерам достичь рентабельности своих инвестиций. Давайте посмотрим, как команда решит эту проблему и как автоматизированное машинное обучение позволяет демократизировать искусственный интеллект во всей компании.

Содержание

Определите правильную бизнес-цель для компании
Ищите нужные данные и конвейер
Прогнозируйте продажи апельсинового сока с помощью автоматизированного машинного обучения
Microsoft инвестирует в автоматизированное машинное обучение
Ресурсы

Определите правильную бизнес-цель для компании

Высокие продажи и прибыль являются результатом наличия правильного ассортимента продукции и уровня запасов. Для достижения этого идеального сочетания необходимо иметь актуальную и точную инвентарную информацию. Ручные процессы не только требуют времени, вызывая задержки в предоставлении текущей и точной информации о запасах, но также увеличивают вероятность ошибок. Эти задержки и ошибки могут привести к потере дохода из-за затоваривания, недостаточного запаса или отсутствия запасов.

См. также: Ошибка в данных $ update_params (params = params): [LightGBM] [Fatal] Невозможно изменить max_bin после созданного дескриптора набора данных

Избыточные запасы также могут занять ценное складское пространство и связать денежные средства, которые следует использовать для покупки нового инвентаря. Но продажа его в режиме ликвидации может вызвать ряд проблем, таких как запятнать вашу репутацию и уничтожить продажи других текущих продуктов.

Менеджер проекта, являясь связующим звеном между специалистами по обработке данных и бизнес-операциями, обращается к бизнес-лидерам, чтобы обсудить возможности использования некоторых из своих внутренних и исторических продаж для решения проблемы избыточных запасов. Менеджер проекта и бизнес-руководитель определяют цели проекта, задавая и уточняя осязаемые вопросы, которые имеют отношение к бизнес-цели.

На этом этапе решаются две основные задачи:

Определите цели. Менеджеру проекта и бизнес-руководителю необходимо определить бизнес-проблемы и, что наиболее важно, сформулировать вопросы, которые определяют бизнес-цели, на которые могут ориентироваться методы анализа данных.
Определите источники данных. Менеджеру проекта и специалисту по обработке данных необходимо найти соответствующие данные, которые помогут ответить на вопросы, определяющие цели проекта.

Ищите нужные данные и конвейер

Все начинается с данных. Менеджеру проекта и специалисту по анализу данных необходимо определить источники данных, содержащие известные примеры ответов на бизнес-проблему. Они ищут следующие типы данных:

Данные, относящиеся к вопросу. Есть ли у них меры цели и особенности, связанные с целью?
Данные, которые являются точным показателем цели их модели и интересующих функций.

На этом этапе специалисту по анализу данных необходимо решить три основные задачи:

Загрузите данные в целевую аналитическую среду
Изучите данные, чтобы определить, адекватно ли качество данных, чтобы ответить на вопрос
Настройте конвейер данных для оценки новых или регулярно обновляемых данных

После настройки процесса перемещения данных из исходных местоположений в целевые местоположения, где можно выполнять аналитические операции, специалист по анализу данных начинает работать с необработанными данными, чтобы создать чистый высококачественный набор данных, отношение которых к целевым переменным является понял. Прежде чем приступить к обучению моделей машинного обучения, специалисту по обработке данных необходимо выработать четкое представление о данных и создать обобщение и визуализацию данных для проверки качества данных и предоставления информации, необходимой для обработки данных, прежде чем они будут готовы к моделированию.

Наконец, специалист по данным также отвечает за разработку архитектуры решения конвейера данных, которая регулярно обновляет и оценивает данные.

Прогнозируйте продажи апельсинового сока с помощью автоматизированного машинного обучения

Специалист по анализу данных и руководитель проекта решают использовать автоматизированное машинное обучение по нескольким причинам: автоматизированное машинное обучение позволяет клиентам, как с опытом, так и без него, определять непрерывный конвейер машинного обучения для решения любой проблемы, обеспечивая более высокую точность проводя гораздо меньше времени. Кроме того, это позволяет проводить значительно большее количество экспериментов, что приводит к более быстрому переходу к готовым к эксплуатации интеллектуальным решениям.

См. также: Языковая модель для НЛП

Давайте посмотрим, как их процесс с использованием автоматизированного машинного обучения для прогнозирования продаж апельсинового сока обеспечивает эти преимущества.

После согласования бизнес-цели и того, какой тип внутренних и исторических данных следует использовать для достижения этой цели, специалист по анализу данных создает рабочее пространство. Это рабочее пространство является ресурсом верхнего уровня для службы и предоставляет специалистам по обработке данных централизованное место для работы со всеми артефактами, которые им необходимо создать. Когда рабочая область создается в службе машинного обучения Azure, следующие ресурсы Azure добавляются автоматически (если они доступны в регионе):

Реестр контейнеров Azure
Хранилище Azure
Аналитика приложений Azure
Хранилище ключей Azure

Чтобы запустить автоматизированное машинное обучение, специалисту по анализу данных также необходимо создать эксперимент. Эксперимент — это именованный объект в рабочей области, который представляет прогнозирующую задачу, выходом которой является обученная модель и набор показателей оценки для модели.

Теперь специалист по данным готов загрузить исторические данные о продажах апельсинового сока и загружает файл CSV в простой фрейм данных pandas. Столбец времени в CSV называется WeekStarting, поэтому он будет специально преобразован в тип datetime.

Каждая строка в DataFrame содержит количество еженедельных продаж бренда апельсинового сока в одном магазине. Эти данные также включают продажную цену, флаг, указывающий, рекламировался ли бренд апельсинового сока в магазине на этой неделе, и некоторую демографическую информацию о покупателях, основанную на местоположении магазина. По историческим причинам данные также включают логарифм объема продаж.

Теперь задача состоит в том, чтобы построить модель временного ряда для столбца Количество. Важно отметить, что этот набор данных состоит из множества отдельных временных рядов; по одному для каждой уникальной комбинации Store и Brand. Таким образом, чтобы различать отдельные временные ряды, мы определяем зерно — столбцы, значения которых определяют границы между временными рядами.

После разделения данных на набор для обучения и тестирования для более поздней оценки прогноза специалист по данным начинает работать над этапом моделирования для задач прогнозирования, а автоматическое машинное обучение использует этапы предварительной обработки и оценки, специфичные для временных рядов. Автоматизированное машинное обучение предпримет следующие шаги предварительной обработки:

Определите частоту выборки временных рядов (например, ежечасно, ежедневно, еженедельно) и создайте новые записи для отсутствующих временных точек, чтобы сделать ряд регулярным. Регулярный временной ряд имеет четко определенную частоту и значение в каждой точке выборки в непрерывном временном интервале.
Вписать отсутствующие значения в целевом объекте с помощью столбцов с прямым заполнением и столбцов признаков, используя средние значения столбцов.
Создавайте элементы на основе зерна, чтобы включить фиксированные эффекты в разных сериях.
Создавайте временные функции, чтобы помочь в изучении сезонных закономерностей.
Закодируйте категориальные переменные в числовые величины.

См. также: Создание заголовков для ядер Kaggle с помощью LSTM

Объект AutoMLConfig определяет настройки и данные для задания автоматизированного обучения машинному обучению. Ниже приводится сводка параметров конфигурации автоматизированного машинного обучения, которые использовались для обучения модели прогнозирования продаж апельсинового сока:

Посетите GitHub для получения дополнительной информации о прогнозировании. Каждая итерация выполняется в рамках эксперимента и сохраняет сериализованные конвейеры из итераций автоматизированного машинного обучения до тех пор, пока они не получат конвейер с наилучшей производительностью на наборе данных проверки.

После проведения оценки специалист по анализу данных, руководитель проекта и руководитель бизнеса снова встречаются, чтобы рассмотреть результаты прогнозирования. Работа менеджера проекта и бизнес-лидера состоит в том, чтобы разобраться в результатах и выбрать практические шаги на их основе. Руководителю бизнеса необходимо подтвердить, что лучшая модель и конвейер соответствуют бизнес-цели и что решение машинного обучения отвечает на вопросы с приемлемой точностью, чтобы развернуть систему в производственной среде для использования его внутренним приложением для прогнозирования продаж.

Microsoft инвестирует в автоматизированное машинное обучение

Автоматизированное машинное обучение основано на прорыве подразделения Microsoft Research. Этот подход сочетает в себе идеи совместной фильтрации и байесовской оптимизации для интеллектуального и эффективного поиска в огромном пространстве возможных конвейеров машинного обучения.

Теперь он предлагается как часть службы машинного обучения Azure. Как вы уже видели, автоматизированное машинное обучение позволяет клиентам, как с опытом, так и без него, находить сквозной конвейер машинного обучения для решения любой проблемы и экономить время, одновременно повышая точность. Это также позволяет проводить большее количество экспериментов и ускорять итерации. Какую пользу автоматизированное машинное обучение может принести вашей организации? Как ваша команда могла бы более тесно работать над использованием машинного обучения для достижения бизнес-целей?