Как подойти к AutoML как к специалисту по данным

Содержание

Это не заменяет вашу работу, а лишь немного облегчает ее
Процесс обработки данных
Что AutoML охватывает в процессе обработки данных
Что AutoML не охватывает
Как эффективно использовать AutoML
Понять требования бизнес-задачи
Не относитесь к лучшей модели AutoML как к черному ящику
Всегда проверяйте вменяемость
Резюме
Источники

Это не заменяет вашу работу, а лишь немного облегчает ее

За последние пять лет одна из тенденций, которая сделала ИИ более доступным и стала движущей силой нескольких компаний, — это автоматизированное машинное обучение (AutoML). Многие компании, такие как H2O.ai, DataRobot, Google и SparkCognition создали инструменты, автоматизирующие процесс обучения моделей машинного обучения. Все, что нужно сделать пользователю, — это загрузить данные, выбрать несколько параметров конфигурации, а затем инструмент AutoML автоматически пробует и тестирует различные модели машинного обучения и комбинации гиперпараметров и предлагает лучшие модели.

Означает ли это, что нам больше не нужно нанимать специалистов по данным? Нет, конечно нет! Фактически, AutoML лишь немного упрощает работу специалистов по анализу данных, автоматизируя небольшую часть рабочего процесса в области анализа данных. Даже с AutoML специалистам по обработке данных и инженерам по машинному обучению приходится проделывать значительный объем работы для решения реальных бизнес-проблем. Цель этой статьи — объяснить, что AutoML может и чего не может сделать для вас, и как вы можете эффективно использовать его для решения реальных задач машинного обучения.

Процесс обработки данных

Как показано на рисунке ниже, на основе Team Data Science Process (TDSP) каждый проект в области науки о данных можно разделить на четыре фазы:

Определение бизнес-проблемы.
Сбор и понимание данных.
Моделирование.
Развертывание и представление модели.

Этот рабочий процесс может быть циклическим, и его можно переходить к предыдущим шагам по мере получения новой информации или требований к проекту. По сути, это гибкий подход к предоставлению решений для науки о данных.

Что AutoML охватывает в процессе обработки данных

Что AutoML делает для вас, как специалиста по данным, так это то, что он берет на себя часть работы на этапе моделирования. Это области, в которых AutoML может сэкономить ваше время, когда дело доходит до процесса моделирования:

AutoML может выполнять автоматическое проектирование элементов в форме выбора элементов или создания новых функций из комбинаций существующих функций.
Больше не нужно пытаться тестировать сотни или даже тысячи комбинаций гиперпараметров, чтобы найти лучшую модель.
Вам больше не нужно придумывать сложные ансамблевые модели, используя наложение или смешивание самостоятельно, решения AutoML могут сделать это за вас.

См. также: Разработка языковых привязок с помощью xtensor

Что AutoML не охватывает

Хотя AutoML заботится о сложном процессе поиска, связанном с поиском наилучших комбинаций модели и гиперпараметров для данной проблемы машинного обучения, есть много частей процесса анализа данных, которые он не охватывает, например:

Понимание бизнес-проблемы, которую вы пытаетесь решить.
Получение знаний в предметной области, необходимых для решения проблемы.
Представление бизнес-проблемы как проблемы машинного обучения.
Сбор надежных и достаточно точных данных для решения проблемы машинного обучения.
Очистка данных и устранение несоответствий, например отсутствующих или неточных значений.
Интеллектуальная разработка функций на основе ваших знаний в предметной области.
Проверка ваших моделей и оценка ваших предположений о данных.
Интеграция ваших моделей в существующие программные приложения (некоторые продукты AutoML могут помочь вам в этом, но вам все равно придется разбираться в существующих приложениях).
Представление ваших моделей заинтересованным сторонам и объяснение прогнозов, полученных с помощью вашей модели.
Привлечение заинтересованных сторон и / или клиентов к доверию вашим моделям.

Этот список явно намного длиннее предыдущего, содержащего части процесса обработки данных, охватываемые AutoML. Вот почему AutoML не может заменить работу специалистов по анализу данных, какой бы сложной она ни была. Специалисты по человеческим данным должны понимать бизнес-проблемы, использовать знания предметной области для их решения, а затем использовать это понимание для оценки практической эффективности моделей в реальном контексте.

Дело в том, что на практике ваши модели хороши ровно настолько, насколько хороши данные, которые вы им предоставляете, и допущения, которые вы в них вкладываете. Вы можете предоставить инструменту AutoML данные низкого качества, и даже если он потратит часы или дни на оптимизацию гиперпараметров, он в конечном итоге создаст модель низкого качества. AutoML облегчает вашу жизнь как специалисту по данным, но даже с AutoML вам предстоит еще много работы, чтобы получить готовое для бизнеса решение.

Как эффективно использовать AutoML

Хотя AutoML не может решить все ваши проблемы с наукой о данных, он может быть ценным, если вы используете его эффективно. Вот четыре принципа, которые следует учитывать при работе с AutoML:

Понять требования решаемой бизнес-задачи.
Не относитесь к лучшей модели AutoML как к черному ящику.
Всегда проверяйте работоспособность, чтобы определить, имеют ли смысл прогнозы модели.

Понять требования бизнес-задачи

Чтобы оценить эффективность модели машинного обучения, вам необходимо понять бизнес-проблему, которую вы пытаетесь решить, и связанные с ней требования. AutoML имеет тенденцию создавать сложные модели, если вы позволяете ему искать самые лучшие модели для конкретной проблемы. Сложные модели могут быть наиболее точными, но это не обязательно означает, что они лучше всего подходят для конкретного бизнес-сценария.

См. также: Студия машинного обучения Microsoft Azure встречает Titanic

Рассмотрим модели машинного обучения, лежащие в основе программного обеспечения для распознавания речи, которое поддерживает такие технологии виртуальных помощников, как Siri и Amazon Alexa. Эти модели распознавания речи должны давать результаты за секунды, а не за минуты. Представьте, что вы что-то говорите Алексе и ждете ответа пять минут. Это было бы довольно неприятно и ужасно для пользователя!

По этой причине одним показателем, который мог использоваться для оценки моделей-кандидатов для этой задачи, было бы время их вывода в практической ситуации, когда пользователь разговаривает с виртуальным помощником. Одна модель может достигать 99-процентной точности, но в среднем для обработки голосовых запросов пользователя требуется пять минут, в то время как другая может достигать 95-процентной точности и возвращать результаты за секунды. Более быстрая модель лучше подходит для этого бизнес-сценария, несмотря на меньшую точность тестирования.

В контексте AutoML вам может потребоваться задать следующие типы вопросов при оценке результатов поиска модели, выполненного инструментом AutoML:

Насколько быстро модель должна давать результаты?
Какое приложение вы создаете? Есть ли ограничение на объем памяти, который может использовать ваша модель?
Что должна делать модель для эффективного решения бизнес-задачи?

Основываясь на этих требованиях, вы можете наложить ограничения на процесс поиска, который использует ваш инструмент AutoML, чтобы получить правильную модель для вашей бизнес-задачи.

Не относитесь к лучшей модели AutoML как к черному ящику

Заманчиво просто предположить, что AutoML идеален, и вы можете рассматривать окончательную модель, возвращенную AutoML, как черный ящик и по-прежнему доверять ей. По правде говоря, в машинном обучении нет «бесплатного обеда», даже в автоматизированном машинном обучении.

Что на самом деле означает« отсутствие бесплатного обеда в машинном обучении
Демистификация этой часто неправильно понимаемой теоремы. todatascience.com»

Даже ваша модель AutoML имеет сильные стороны и ограничения, и вам следует попытаться понять, какой тип модели выбрал инструмент AutoML. Например, если инструмент AutoML выбрал в качестве оптимальной модели какой-либо вариант XGBoost, вам необходимо хотя бы на высоком уровне понимать, как работает XGBoost и каковы его ограничения как алгоритма.

Понимание того, как работает модель AutoML, также помогает понять несоответствия и аномалии, которые возникают во время части мониторинга производительности на этапе развертывания модели в процессе анализа данных. Эта идея подводит нас к следующему пункту.

См. также: Как проверить параметрическую торговую систему, откалиброванную с помощью генетического алгоритма с помощью Python

Всегда проверяйте вменяемость

Как я упоминал ранее, не следует относиться к своей модели AutoML как к черному ящику и слепо ей доверять. Вот почему вам нужно провести некую проверку работоспособности, чтобы убедиться, что прогнозы, которые генерирует ваша модель, действительно имеют смысл. Один из способов сделать это — использовать структуру объяснимого машинного обучения, такую как LIME или SHAP, для объяснения некоторых прогнозов, созданных вашей моделью. Это позволяет определить, действительно ли вы доверяете процессу принятия решений, который использует ваша модель. В моей предыдущей статье об объяснимом машинном обучении я привел конкретные примеры, показывающие, как можно использовать LIME и SHAP для объяснения причин, лежащих в основе прогнозов вашей модели.

Как сделать ваши модели машинного обучения более понятными
Особенно при их представлении нетехнической аудитории. todatascience.com

Еще один способ проверить работоспособность вашей модели — это отслеживать ее производительность на начальном этапе развертывания и проверять, являются ли ее прогнозы на основе невидимых реальных данных разумными. Если вы обнаружите, что ваша модель дает необоснованные или неточные прогнозы на этом этапе, вам, возможно, придется вернуться к предыдущему этапу процесса анализа данных, чтобы настроить модель. Вот почему TDSP является итеративным и предназначен для гибкого подхода к науке о данных. Науку о данных можно рассматривать как форму экспериментальной науки, потому что модели подобны гипотезам или теориям, которые могут быть пересмотрены по мере получения нами новых данных из реального мира, которые подчеркивают несоответствия в них. Приняв эти дополнительные меры для экспериментов и тестирования модели, вы можете быть уверены в своей модели AutoML, а не слепо доверять ей и сталкиваться с неожиданными проблемами в будущем.

Резюме

AutoML — это замечательно, но он не может решить все аспекты ваших бизнес-задач, связанных с машинным обучением.
Прежде чем приступить к работе с AutoML, убедитесь, что вы понимаете бизнес-требования проблемы, которую пытаетесь решить.
Убедитесь, что вы понимаете ограничения типа модели, выбранного с помощью инструмента AutoML, который вы использовали.
Не поддавайтесь искушению рассматривать свою модель AutoML как черный ящик и убедитесь, что вы проверили работоспособность, прежде чем слепо ей доверять.