Машинное обучение: будущее математических машин, имитирующих разум, и вопросы, которые вы должны задавать!

Авторы: Джудит Ли, выпускница Стэнфорда, специалист по обработке и анализу данных в SAP Innovation Center Network, кандидат наук и Сандра Мёрч, выпускница Гавайско-Тихоокеанского университета, менеджер по глобальным инновациям в сфере образовательных технологий в SAP
Графический заголовок: Джулия Штайер, специалист по продуктам в SAP
Комментарий: Габриэль Махер,аспирант в Стэнфорде

Эра искусственного интеллекта уже наступила, и она основана на сочетании науки о данных, глубокого обучения, статистики, интеллектуального анализа данных, машинного обучения и визуализации данных. По сути, все эти компоненты превращаются в БОЛЬШУЮ математику. В этой вводной статье будет представлен концептуальный обзор машинного и глубокого обучения на основе недавнего семинара по машинному обучению в Стэнфорде ICME. ICME расшифровывается как Институт вычислительной математики и инженерии и является всемирно известным лидером в области науки о данных, проводящим новаторские исследования в области БОЛЬШОЙ математики.

Мы хотим начать эту статью, предоставив вам немного контекста машинного обучения и ресурсы о том, как активно участвовать. Как вы, наверное, заметили, эта статья написана двумя женщинами. Джудит Ли, выпускница ICME в Стэнфорде, специалист по обработке и анализу данных в SAP Innovation Center Network и кандидат наук, а также Сандра Мёрч, магистр делового администрирования Гавайского Тихоокеанского университета, менеджер по глобальным инновациям в сфере образовательных технологий в SAP Next-Gen Labs и кандидат наук. Помимо того, что мы увлечены технологиями, мы также очень заинтересованы в привлечении большего числа женщин в эту область, поэтому каждую весну мы организуем ежегодную конференцию WiDS (Женщины в науке о данных) и движение из Стэнфорда. от имени САП. В следующем году мы будем поддерживать мероприятие из более чем 25 мест по всему миру, транслируя в прямом эфире из Стэнфорда некоторые из самых влиятельных технических женщин-лидеров в области науки о данных и технологий. Узнайте больше о WiDS и о том, как принять участие здесь.

«Наука о данных — это извлечение релевантной информации из большого потока данных и, в конечном счете, принятие обоснованных решений».Марго Герритсен, директор Стэнфордского ICME

Машинное обучение не является чем-то новым, на самом деле машинному обучению обучали десятилетиями, но теперь его потенциал, наконец, исследуется и используется. В 1950 году было выполнено первое упражнение в стиле машинного обучения; Тест Тьюринга, проведенный Аланом Тьюрингом. Машинное обучение — это часть искусственного интеллекта, в которой компьютерные алгоритмы используются для автономного обучения на основе данных и информации. В машинном обучении компьютеры не должны быть явно запрограммированы, но могут сами изменять и улучшать свои алгоритмы. С этих ранних стадий машинное обучение претерпело линейное развитие своих концепций, однако в последние годы его влияние выросло в геометрической прогрессии вместе с искусственным интеллектом. Поэтому мы считаем, что машинное обучение станет интеллектуальной движущей силой экспоненциального развития предприятия. Это один из инструментов в наборе инструментов, вероятно, отвертка, которая поможет нам погрузиться в бесконечные бассейны информации.

Одним из вкладчиков в это экспоненциальное развитие является распознавание изображений. Многие из вас, вероятно, слышали о Dr. Фей-Фей Ли, икона машинного обучения и энергичная женщина-ученый. Помимо того, что миллионы людей следят за ее Ted Talk и передовыми идеями, она является директором Стэнфордской лаборатории искусственного интеллекта и Стэнфордской лаборатории технического зрения, где она работает с самые блестящие студенты и коллеги во всем мире для создания интеллектуальных алгоритмов, которые позволяют компьютерам и роботам видеть и думать, а также для проведения когнитивных и нейровизуализационных экспериментов, чтобы выяснить, как мозг видит и думает. Фей-Фей также выступит на конференции WiDS в 2017 году, а также на собственной конференции Dr. Таня Рюкерт, исполнительный вице-президент по цифровым активам и IoT.

«Сначала мы учим машины видеть, а затем машины помогают нам видеть лучше — это моя цель»— Фей-Фей Ли, директор Стэнфордской лаборатории искусственного интеллекта и Стэнфордской лаборатории зрения,

Сочетание больших данных и машинного обучения повысит интеллект машин и вместе с этим даст возможность сделать мир лучше. Только представьте себе мир, в котором врачи будут иметь неутомимое зрение сквозь машины, а автомобили будут ездить автономно и беспрепятственно перемещаться в пробках. Машинное обучение также позволит нам исследовать новые рубежи посредством космических путешествий и других галактических мероприятий.

Мы действительно живем в легендарное время

Машинное обучение позволило извлекать большие корпоративные данные для создания большей ценности для бизнеса. Самые актуальные корпоративные данные в мире являются частью системы SAP, а интеллектуальный анализ больших корпоративных данных открывает огромные возможности. Изобретение таких баз данных, как SAP HANA, Hadoop, Spark и т. д., позволило нам гораздо эффективнее унифицировать и обрабатывать корпоративные данные. Но что дальше? Помните волнение, которое вы испытали, когда обновили свой телефон Nokia до крошечного суперкомпьютера, который вы сегодня носите с собой в кармане? Разница в том, что теперь вы можете пользоваться всеми видами приложений, которые упрощают вашу жизнь. Теперь, когда база данных сформировала инфраструктуру смартфона, все больше и больше интеллектуальных бизнес-приложений будут создаваться поверх инфраструктуры базы данных. Машинное обучение — это основа того, что делает приложения умными. Поскольку наиболее важные в мире корпоративные данные являются частью системы SAP и ее бизнес-сети, SAP и ее сеть инновационных центров (https://icn.sap.com/home.html) разрабатывают варианты использования машинного обучения, чтобы сделать SAP бизнес высокоинтеллектуальные приложения.

См. также: Лучший способ создания индексов в BigQuery

Серия летних семинаров ICME 2016 года включает вводные семинары по науке о данных по статистическому анализу данных, машинному обучению и визуализации данных. Учитывая обширные ресурсы по науке о данных, эти семинары сосредоточены на прояснении основных концепций и построении интуитивных представлений. В конце концов, машинное обучение или глубокое обучение — это не волшебный черный ящик, это просто математика. Известно, что модели машинного обучения подвержены ошибкам. Следовательно, всякий раз, когда вы видите модель машинного обучения, крайне важно спросить о том, как она построена, и критически подумать о результатах.

Предположим, кто-то представляет вам модель машинного обучения, не углубляясь в математические уравнения. Вот вопросы, которые помогут вам лучше понять эту модель и действовать как профессионал в области машинного обучения!

Контролируемый или неконтролируемый? Цель обучения с учителем – изучить сопоставление входных данных с меткой обучающих данных, которые можно обобщить на новые невидимые данные. Например, обнаружение мошенничества с кредитными картами требует создания модели классификации, чтобы предсказать, является ли новая транзакция (ввод) мошенничеством (метка) или нет, на основе помеченных исторических транзакций в качестве обучающих данных. Однако цель неконтролируемого обучения состоит в том, чтобы обнаружить интересные закономерности или свойства данных и создать функции для ввода в контролируемую модель. Например, кластеризация (например, K-средних) может использоваться для группировки похожих клиентов, которые имеют общие покупательские предпочтения, а сокращение параметров (например, PCA, ICA) может использоваться для создания тем (или характеристик) из новостных статей (или входных данных). ).

Как обрабатываются данные? Спросите разработчика моделей, как они обрабатывают отсутствующие данные или выбросы. Некоторые модели машинного обучения, такие как дерево, могут обрабатывать недостающие данные лучше, чем другие. Линейная регрессия и K-средние чувствительны к выбросам, поэтому рассмотрите возможность их удаления перед обучением моделей. Линейная регрессия также плохо работает, когда в процесс обучения включаются сильно коррелированные функции, которые мало влияют на точность прогноза. PCA требует, чтобы данные имели одинаковые единицы измерения, поэтому убедитесь, что разработчики моделей центрировали данные при использовании PCA.
Как они справляются с переоснащением? Переоснащение происходит, когда вы видите хорошую производительность на ранее просмотренных (обучающих) данных, но низкую производительность на новых данных. Спросите разработчика модели, используется ли перекрестная проверка для уменьшения ошибки обобщения. Перекрестная проверка разделяет данные на обучающий набор, проверочный набор и тестовый набор, где обучающие данные используются для изучения модели, проверочные данные для настройки параметров или выбора модели и тестовые данные для измерения производительности на невидимых данных. Переобучение можно обнаружить, когда ошибка обучения уменьшается, а ошибка теста или ошибка обобщения увеличиваются. Убедитесь, что данные, используемые для настройки параметров модели, не используются для целей тестирования. В противном случае ошибка тестирования будет недооценена. Модели машинного обучения часто включают регуляризацию, например, ридж-регрессию, или навязывают разреженность, например, лассо, как средство снижения сложности модели для улучшения обобщения.

Рассматривали ли они ансамблевые методы? Методы ансамбля в настоящее время являются, пожалуй, самыми популярными методами машинного обучения. Превращая модели машинного обучения в функции, ансамблевые методы улучшают обобщаемость и надежность исходных моделей машинного обучения. Например, известно, что дерево неустойчиво и склонно к переобучению, но случайный лес более надежен, поскольку он по существу строит ансамбль предикторов дерева и усредняет индивидуальный прогноз по каждому дереву, метод, часто называемый бэггингом. Еще одним методом ансамбля является повышение, которое превращает несколько слабых классификаторов в лучший классификатор, позволяя этим слабым классификаторам голосовать. Например, модель XGBoost на основе бустинга стала победителем нескольких соревнований Kaggle.
Точность или интерпретируемость? Если ваш бизнес-вопрос звучит так: «Какая распродажа будет на следующей неделе?» Это означает, что клиенты заботятся о точности прогноза продаж. Тогда ансамблевые методы будут вашим лучшим выбором. Однако если ваши клиенты требуют объяснений, например, «Какие факторы определяют продажи?», то вам нужна интерпретируемая модель машинного обучения. Модель линейной регрессии, несмотря на ее простоту, довольно легко интерпретируется. Хотя ансамблевые методы более точны, они, как правило, не могут легко обеспечить интерпретацию. Поэтому имейте в виду компромиссы при выборе модели машинного обучения. Одним из ключевых тезисов этого семинара является теорема «Бесплатных обедов не бывает». То есть ни один алгоритм машинного обучения не будет хорошо справляться со всеми задачами, но каждый алгоритм машинного обучения будет хорошо работать с некоторыми задачами в зависимости от вашей цели.
Рассматривали ли они возможность использования глубокого обучения? Модели глубокого обучения — это класс передовых моделей машинного обучения. «Глубокий» указывает на то, что в модели много параметров, обычно порядка от 1⁰⁶ до 1⁰¹⁰, поэтому в моделях глубокого обучения часто используется регуляризация, чтобы избежать переобучения. Модель глубокого обучения, когда они работают, они, как правило, работают очень хорошо, но обучение обходится очень дорого. И когда у вас нет такого большого количества данных или высокопроизводительных компьютеров, рекомендуется просто использовать API или предварительно обученные модели глубокого обучения, а не создавать их самостоятельно. Сверточные нейронные сети (см. CS231n для получения дополнительной информации) особенно полезны для задач компьютерного зрения, когда данные имеют пространственную структуру. Примеры приложений — автономное вождение, где необходимо анализировать изображения или видео для выявления событий. Рекуррентные нейронные сети используются в основном для последовательных данных, например, для обработки естественного языка, данных временных рядов, машинного перевода и т. д. Еще одна очень горячая область глубокого обучения — обучение с подкреплением. Примером может служить AlphaGo, разработанная Google DeepMind. AlphaGo состоит из двух сверточных нейронных сетей, которые предсказывают лучший ход и вероятность победы, и он учится, играя в игры го против себя. Приложение, основанное на машинном обучении, на самом деле обыграло самого чемпиона мира по го, Ли Седоля, несмотря на то, что игра считается самой продвинутой настольной игрой в истории человечества. Отличным ресурсом для глубокого обучения является курс глубокого обучения на Udacity, см. дополнительные ресурсы в справочном разделе ниже.

Машинное обучение и глубокое обучение: насколько сложна проблема? Особенно для людей, больше занимающихся управлением проектами, что-то, что следует учитывать при сравнении глубокого обучения с обычным машинным обучением, — это сложность. Жизненный цикл проектов машинного обучения обычно состоит из идеи → создание → тестирование → развертывание. Чем сложнее ваш алгоритм машинного обучения, тем больше времени может занять каждый этап. Поэтому стоит выяснить, может ли простой метод решить вашу проблему. Конечно, некоторые приложения действительно очень сложны и могут быть решены только с помощью глубокого обучения. Даже в этом случае важно осознавать, что сложность — это то, чем нужно тщательно управлять.

См. также: MLOps @ re: Invent 2020

Сегодня одним из лучших примеров прикладного машинного обучения, который мы видим, является Amazon, представляющий одного из пионеров рекомендательных механизмов на основе машинного обучения и алгоритмов ценовой дискриминации. Кроме того, мы видим множество примеров в подключенном здравоохранении, умных городах, чат-ботах, автономии, мошенничестве с кредитными картами, обнаружении спама, рекламе в реальном времени на веб-страницах/мобильных устройствах и, как уже упоминалось выше, прогнозируемом поведении потребителей. Все эти механизмы неизбежно станут умнее и сложнее благодаря повторяющимся испытаниям и проверкам, и на самом деле невозможно сказать, какими интеллектуальными станут машины и технологии. Все, что мы можем предсказать, основываясь на наших наблюдениях и до сих пор развитии структуры, это то, что эта технология движется по экспоненциальной кривой, и что мы все ближе и ближе приближаемся к крупным прорывам, которые действительно расширят применение машинного обучения. мы даже представить себе не могли.

Эксперты ожидают, что по мере того, как машина станет умнее и умнее, это повлияет на рынок труда. Согласно этой статье McKinsey, машины могут автоматизировать 45% операций, за выполнение которых людям платят.

Соучредитель Coursera и профессор Стэнфордского университета компьютерных наук Дафна Коллер подчеркивает важность обучения на протяжении всей жизни и того, что обучение не должно прекращаться после окончания средней школы или колледжа. Платформа MOOC (Massive Open Online Courses) сделала обучение более доступным, а машинное обучение — одним из самых востребованных навыков. Фактически, каждый шестой учащийся на Coursera занимается наукой о данных. OpenSAP — это платформа MOOC в рамках SAP, которая предлагает обучение/обучение технологиям по запросу и другие важные знания в области ИТ.

Чтобы повторить наше сообщение с этой статьей. Экспоненциальные технологии, такие как машинное обучение, определенно никуда не денутся, а ресурсы о том, как еще лучше познакомиться с этой темой, многочисленны. Машинное обучение развивается быстро, новые методы появляются почти ежедневно. Следовательно, для успеха в машинном обучении также требуется стремление оставаться в курсе последних событий. Вот несколько советов о том, как оставаться в курсе событий:

Следите за различными конференциями по машинному обучению (NIPS, ICML, ICLR)
Следите за журналами по машинному обучению (многие публикации находятся в свободном доступе на Arxiv)
Следите за ведущими исследователями и компаниями в этой области
Следите за информационным бюллетенем по машинному обучению, например DataScienceWeekly, Data Elixir.

Вам не обязательно внимательно читать каждую публикацию, но даже просто просматривая названия и аннотации, вы будете в курсе последних событий!

Помимо этих бесплатных онлайн-ресурсов, мы настоятельно рекомендуем вам пройти курс обучения через ICME в Стэнфорде, будь то полная программа на получение степени или отличные семинары, которые институт проводит в кампусе и в Интернете. Как отраслевые партнеры через SAP, академические организации приносят огромную ценность благодаря исследованиям, совместным инновациям и развитию навыков сотрудников, и мы будем продолжать тесно сотрудничать с институтами науки о данных по всему миру, чтобы привнести вдохновляющие знания и передовые идеи в нашу организацию и экосистему SAP.

См. также: Как использовать «yield» в Python?

КОММЕНТАРИЙ от Габриэля Махера, фасилитатора машинного обучения и аспиранта Стэнфордского университета

В этой статье, подготовленной Сандрой Мёрх и Джудит Ли, описаны многие из наиболее важных аспектов машинного обучения и важные ресурсы для того, чтобы быть в курсе последних событий. Чтобы коснуться некоторых тем более подробно и представить точку зрения исследователя, Габриэль Махер, аспирант ICME и исследователь глубокого обучения, предоставил некоторые комментарии.

«эта статья, которая помогает распространять ценные знания о машинном обучении и связывать людей с ресурсами, которые могут помочь им начать работу или оставаться в курсе событий» Габриэль Махер, Стэнфордский ICME PhD

В наши дни приятно видеть большой интерес к машинному обучению со стороны промышленности и таких компаний, как SAP. Еще более ценными являются такие инициативы, как эта статья, которые помогают распространять ценные знания о машинном обучении и связывать людей с ресурсами, которые могут помочь им начать работу или оставаться в курсе событий. Машинное обучение развивается быстро, поэтому такие инициативы следует только поощрять. В этой связи важно понимать, что, поскольку область машинного обучения развивается так быстро, для достижения успеха в ней требуется серьезное обязательство оставаться в курсе последних событий. Вот несколько способов быть в курсе последних разработок в области машинного обучения:

Следите за крупными глобальными конференциями по машинному обучению. Здесь собираются все ведущие исследователи в этой области, чтобы представить результаты своих последних исследований. Информацию о новейших и лучших методах можно найти в публикациях конференций, которые обычно доступны в Интернете. Некоторыми конференциями, о которых следует знать, являются NIPS, ICML и ICLR.
Следите за крупными журналами по машинному обучению. Большинство исследователей машинного обучения также активно публикуют свои результаты в Интернете с очень коротким временем обработки. Поэтому новейшие методы также часто можно найти в журнальных публикациях. Многие исследователи также публикуются на Arxiv, что делает их работы бесплатными в Интернете.
Следите за крупными компаниями, занимающимися машинным обучением. Для более промышленной перспективы многие компании также активно поддерживают онлайн-публикации своих исследований в области машинного обучения. Например, большая часть работы Google по машинному обучению доступна в Интернете в виде публикаций и может быть найдена по адресу https://research.google.com/.

Вам не обязательно читать публикации в деталях, достаточно просто просмотреть аннотации и названия!

Если вы посмотрите на многие последние разработки в области машинного обучения, вам покажется, что все проблемы можно решить с помощью глубокого обучения! Действительно, для многих приложений, таких как компьютерное зрение и обработка естественного языка, которые были сложными для стандартных методов, глубокое обучение оказалось очень полезным методом. Из моего опыта работы в промышленных проектах важно понимать, что глубокое обучение намного сложнее, чем обычное неглубокое машинное обучение, такое как деревья или линейная регрессия. Приложения машинного обучения обычно следуют итеративному жизненному циклу исследования, разработки, тестирования и, наконец, развертывания. Из-за дополнительной сложности каждый из этих этапов может занять больше времени. Например, отладка приложения глубокого обучения может занять намного больше времени, чем работа линейной регрессии. Таким образом, важно тщательно управлять этой сложностью. Кроме того, на начальных этапах проекта стоит выяснить, может ли простой метод решить проблему, поскольку это может значительно ускорить разработку на более поздних этапах. Однако некоторые приложения действительно требуют сложных методов глубокого обучения для хорошей работы, но даже в этом случае важно понимать, что это создает дополнительную сложность. Действительно, когда глубокое обучение работает, оно обычно работает очень хорошо и может открыть совершенно новые возможности для бизнеса.

Быстрое развитие машинного обучения говорит о потенциале, которым, по мнению исследователей и компаний, оно обладает. Работая вместе и распространяя результаты и информацию с помощью таких инициатив, как эта статья, промышленность и академические круги могут раскрыть этот потенциал. Поэтому я поощряю и с нетерпением жду продолжения сотрудничества между такими компаниями, как SAP, университетами, такими как Стэнфорд, и исследовательскими институтами, такими как ICME.

Ниже вы найдете ресурсы семинара ICME по машинному обучению, а также отличную литературу о том, как начать работу. Все ресурсы бесплатны и доступны онлайн.

Слайды лекций
25-минутное обучение R
10-минутный обзор собственных векторов и собственных значений
Введение в статистическое обучение с приложениями в R Гарета Джеймса, Даниэлы Виттен, Тревора Хасти и Роберта Тибширани. Полный pdf-файл находится в свободном доступе здесь. Наборы данных для этой книги можно найти здесь, а другие — здесь.
Элементы статистического обучения Тревора Хасти, Роберта Тибширани и Джерома Фридмана. В этом всеобъемлющем справочнике представлено больше материала и на более высоком математическом уровне, чем в предыдущем тексте. Полный pdf-файл находится в свободном доступе у авторов здесь.

Ресурсы сообщества машинного обучения с открытым исходным кодом:

Некоторые ресурсы глубокого обучения:

Курс глубокого обучения Udacity — https://www.udacity.com/course/deep-learning—ud730
Бесплатный онлайн-учебник по глубокому обучению — https://www.deeplearningbook.org/

Post Views: 215