В ноябре прошлого года я написал статью о демократизации искусственного интеллекта (ИИ) с помощью автоматизированного машинного обучения. В сегодняшней статье я покажу вам пример использования автоматизированного машинного обучения (опубликованный на GitHub) и, в частности, как специалист по данным, руководитель проекта и руководитель бизнеса могут использовать автоматическое машинное обучение для улучшения команды. сотрудничество и обучение, а также содействие успешной реализации инициатив в области науки о данных.
Когда дело доходит до выполнения проекта машинного обучения в организации, специалистам по обработке данных, менеджерам проектов и бизнес-лидерам необходимо работать вместе, чтобы развернуть лучшие модели для достижения конкретных бизнес-целей. Основная цель этого шага — определить ключевые бизнес-переменные, которые необходимо предсказать с помощью анализа. Мы называем эти переменные целями модели и используем связанные с ними метрики для определения успеха проекта.
В этом варианте использования, доступном для всех на GitHub, мы увидим, как специалист по анализу данных, руководитель проекта и бизнес-руководитель в розничной бакалейной лавке могут использовать автоматическое машинное обучение и службу машинного обучения Azure, чтобы сократить избыток продукции. Служба машинного обучения Azure — это облачная служба, которую вы используете для обучения, развертывания, автоматизации и управления моделями машинного обучения в широком масштабе, предоставляемом облаком. Автоматическое машинное обучение в службе машинного обучения Azure — это процесс получения обучающих данных с определенной целевой функцией и перебора комбинаций алгоритмов и выбора функций для автоматического выбора наилучшей модели для ваших данных на основе результатов обучения.
Избыточные запасы быстро становятся проблемой ликвидности, поскольку они не конвертируются обратно в наличные, если маржа не снижается посредством скидок и рекламных акций или, что еще хуже, когда они накапливаются для отправки в другие каналы, такие как торговые точки, задерживая их продажу. Заблаговременное определение того, какие продукты не будут иметь ожидаемого уровня ротации, и контроль пополнения запасов с учетом прогнозов продаж являются ключевыми факторами, помогающими ритейлерам достичь рентабельности своих инвестиций. Давайте посмотрим, как команда решит эту проблему и как автоматизированное машинное обучение позволяет демократизировать искусственный интеллект во всей компании.
Определите правильную бизнес-цель для компании
Высокие продажи и прибыль являются результатом наличия правильного ассортимента продукции и уровня запасов. Для достижения этого идеального сочетания необходимо иметь актуальную и точную инвентарную информацию. Ручные процессы не только требуют времени, вызывая задержки в предоставлении текущей и точной информации о запасах, но также увеличивают вероятность ошибок. Эти задержки и ошибки могут привести к потере дохода из-за затоваривания, недостаточного запаса или отсутствия запасов.
Избыточные запасы также могут занять ценное складское пространство и связать денежные средства, которые следует использовать для покупки нового инвентаря. Но продажа его в режиме ликвидации может вызвать ряд проблем, таких как запятнать вашу репутацию и уничтожить продажи других текущих продуктов.
Менеджер проекта, являясь связующим звеном между специалистами по обработке данных и бизнес-операциями, обращается к бизнес-лидерам, чтобы обсудить возможности использования некоторых из своих внутренних и исторических продаж для решения проблемы избыточных запасов. Менеджер проекта и бизнес-руководитель определяют цели проекта, задавая и уточняя осязаемые вопросы, которые имеют отношение к бизнес-цели.
На этом этапе решаются две основные задачи:
- Определите цели. Менеджеру проекта и бизнес-руководителю необходимо определить бизнес-проблемы и, что наиболее важно, сформулировать вопросы, которые определяют бизнес-цели, на которые могут ориентироваться методы анализа данных.
- Определите источники данных. Менеджеру проекта и специалисту по обработке данных необходимо найти соответствующие данные, которые помогут ответить на вопросы, определяющие цели проекта.
Ищите нужные данные и конвейер
Все начинается с данных. Менеджеру проекта и специалисту по анализу данных необходимо определить источники данных, содержащие известные примеры ответов на бизнес-проблему. Они ищут следующие типы данных:
- Данные, относящиеся к вопросу. Есть ли у них меры цели и особенности, связанные с целью?
- Данные, которые являются точным показателем цели их модели и интересующих функций.
На этом этапе специалисту по анализу данных необходимо решить три основные задачи:
- Загрузите данные в целевую аналитическую среду
- Изучите данные, чтобы определить, адекватно ли качество данных, чтобы ответить на вопрос
- Настройте конвейер данных для оценки новых или регулярно обновляемых данных
После настройки процесса перемещения данных из исходных местоположений в целевые местоположения, где можно выполнять аналитические операции, специалист по анализу данных начинает работать с необработанными данными, чтобы создать чистый высококачественный набор данных, отношение которых к целевым переменным является понял. Прежде чем приступить к обучению моделей машинного обучения, специалисту по обработке данных необходимо выработать четкое представление о данных и создать обобщение и визуализацию данных для проверки качества данных и предоставления информации, необходимой для обработки данных, прежде чем они будут готовы к моделированию.
Наконец, специалист по данным также отвечает за разработку архитектуры решения конвейера данных, которая регулярно обновляет и оценивает данные.
Прогнозируйте продажи апельсинового сока с помощью автоматизированного машинного обучения
Специалист по анализу данных и руководитель проекта решают использовать автоматизированное машинное обучение по нескольким причинам: автоматизированное машинное обучение позволяет клиентам, как с опытом, так и без него, определять непрерывный конвейер машинного обучения для решения любой проблемы, обеспечивая более высокую точность проводя гораздо меньше времени. Кроме того, это позволяет проводить значительно большее количество экспериментов, что приводит к более быстрому переходу к готовым к эксплуатации интеллектуальным решениям.
Давайте посмотрим, как их процесс с использованием автоматизированного машинного обучения для прогнозирования продаж апельсинового сока обеспечивает эти преимущества.
После согласования бизнес-цели и того, какой тип внутренних и исторических данных следует использовать для достижения этой цели, специалист по анализу данных создает рабочее пространство. Это рабочее пространство является ресурсом верхнего уровня для службы и предоставляет специалистам по обработке данных централизованное место для работы со всеми артефактами, которые им необходимо создать. Когда рабочая область создается в службе машинного обучения Azure, следующие ресурсы Azure добавляются автоматически (если они доступны в регионе):
- Реестр контейнеров Azure
- Хранилище Azure
- Аналитика приложений Azure
- Хранилище ключей Azure
Чтобы запустить автоматизированное машинное обучение, специалисту по анализу данных также необходимо создать эксперимент. Эксперимент — это именованный объект в рабочей области, который представляет прогнозирующую задачу, выходом которой является обученная модель и набор показателей оценки для модели.
Теперь специалист по данным готов загрузить исторические данные о продажах апельсинового сока и загружает файл CSV в простой фрейм данных pandas. Столбец времени в CSV называется WeekStarting, поэтому он будет специально преобразован в тип datetime.
Каждая строка в DataFrame содержит количество еженедельных продаж бренда апельсинового сока в одном магазине. Эти данные также включают продажную цену, флаг, указывающий, рекламировался ли бренд апельсинового сока в магазине на этой неделе, и некоторую демографическую информацию о покупателях, основанную на местоположении магазина. По историческим причинам данные также включают логарифм объема продаж.
Теперь задача состоит в том, чтобы построить модель временного ряда для столбца Количество. Важно отметить, что этот набор данных состоит из множества отдельных временных рядов; по одному для каждой уникальной комбинации Store и Brand. Таким образом, чтобы различать отдельные временные ряды, мы определяем зерно — столбцы, значения которых определяют границы между временными рядами.
После разделения данных на набор для обучения и тестирования для более поздней оценки прогноза специалист по данным начинает работать над этапом моделирования для задач прогнозирования, а автоматическое машинное обучение использует этапы предварительной обработки и оценки, специфичные для временных рядов. Автоматизированное машинное обучение предпримет следующие шаги предварительной обработки:
- Определите частоту выборки временных рядов (например, ежечасно, ежедневно, еженедельно) и создайте новые записи для отсутствующих временных точек, чтобы сделать ряд регулярным. Регулярный временной ряд имеет четко определенную частоту и значение в каждой точке выборки в непрерывном временном интервале.
- Вписать отсутствующие значения в целевом объекте с помощью столбцов с прямым заполнением и столбцов признаков, используя средние значения столбцов.
- Создавайте элементы на основе зерна, чтобы включить фиксированные эффекты в разных сериях.
- Создавайте временные функции, чтобы помочь в изучении сезонных закономерностей.
- Закодируйте категориальные переменные в числовые величины.
Объект AutoMLConfig определяет настройки и данные для задания автоматизированного обучения машинному обучению. Ниже приводится сводка параметров конфигурации автоматизированного машинного обучения, которые использовались для обучения модели прогнозирования продаж апельсинового сока:
Посетите GitHub для получения дополнительной информации о прогнозировании. Каждая итерация выполняется в рамках эксперимента и сохраняет сериализованные конвейеры из итераций автоматизированного машинного обучения до тех пор, пока они не получат конвейер с наилучшей производительностью на наборе данных проверки.
После проведения оценки специалист по анализу данных, руководитель проекта и руководитель бизнеса снова встречаются, чтобы рассмотреть результаты прогнозирования. Работа менеджера проекта и бизнес-лидера состоит в том, чтобы разобраться в результатах и выбрать практические шаги на их основе. Руководителю бизнеса необходимо подтвердить, что лучшая модель и конвейер соответствуют бизнес-цели и что решение машинного обучения отвечает на вопросы с приемлемой точностью, чтобы развернуть систему в производственной среде для использования его внутренним приложением для прогнозирования продаж.
Microsoft инвестирует в автоматизированное машинное обучение
Автоматизированное машинное обучение основано на прорыве подразделения Microsoft Research. Этот подход сочетает в себе идеи совместной фильтрации и байесовской оптимизации для интеллектуального и эффективного поиска в огромном пространстве возможных конвейеров машинного обучения.
Теперь он предлагается как часть службы машинного обучения Azure. Как вы уже видели, автоматизированное машинное обучение позволяет клиентам, как с опытом, так и без него, находить сквозной конвейер машинного обучения для решения любой проблемы и экономить время, одновременно повышая точность. Это также позволяет проводить большее количество экспериментов и ускорять итерации. Какую пользу автоматизированное машинное обучение может принести вашей организации? Как ваша команда могла бы более тесно работать над использованием машинного обучения для достижения бизнес-целей?
Ресурсы
- Подробнее о Службе машинного обучения Azure
- Узнать больше об автоматизированном машинном обучении
- Начните с бесплатной пробной версии службы машинного обучения Azure
Первоначально опубликовано на сайте azure.microsoft.com Франческой Лаззери, старшим специалистом по машинному обучению в Microsoft.