Что такое Kaggle и зачем он специалисту по машинному обучению

Что такое Kaggle и зачем он специалисту по машинному обучению

Kaggle (https://www.kaggle.com/) — бесплатная платформа, где специалисты в области анализа данных и машинного обучения разных уровней пробуют свои силы и соревнуются друг с другом. В итоге можно получить денежный приз и набраться опыта.

Линар, инженер машинного обучения группы компаний Neti — активный участник Kaggle. Недавно он стал серебряным призером платформы. Линар рассказывает, как завоевал «серебро», и делится советами, как использовать Kaggle с максимальной пользой.

Как работает Kaggle

«Я узнал о сервисе год назад, когда искал что-нибудь для себя, — вспоминает Линар. — Увидел, что там много людей делятся идеями и подходами, выкладывают решения».

На Kaggle компании предоставляют необходимые данные и ставят задачу. Задачи разные: найти объекты на фото, классифицировать тексты и т. д. Решая задачу, люди соревнуются. Обычно на решение задачи дается несколько месяцев.

Участвовать может кто угодно: команда, соло, студенты, преподаватели — все, кому интересно. Аудитория сайта – около 1 млн пользователей.

Аккаунт Линара на Kaggle

Аккаунт Линара на Kaggle

Организаторы бесплатно предоставляют вычислительные ресурсы — не нужно тратиться на видеокарту или компьютер, для участия в конкурсах достаточно ноутбука и хорошего интернета. Лучше начать с простых заданий и постепенно переходить к более сложным. Важно знать Python и понимать основы машинного обучения.

«Первые состязания я, конечно, не выиграл, — признается Линар. — Было очень сложно тягаться с более опытными соперниками. В итоге я попал лишь в топ-30%».

Чем полезен Kaggle

С помощью Kaggle специалисты по машинному обучению прокачиваются в data science и обмениваются опытом. Пользователи публикуют решения и идеи, делятся информацией, что и как работает или не работает. Встречаются даже готовые куски кода, которые можно использовать в работе.

Как Линар получил серебряную медаль

Задание поступило от испанского банка Santander. Решалась задача классификации на два класса: произведет клиент транзакцию или нет, — то есть нужно было как можно точнее предсказать, совершит ли пользователь банковскую операцию.

Изначально банк предоставил 200 Мб данных — около 200 тыс. записей, то есть 200 тыс. транзакций. Это соревнование стало крупнейшим в истории Kaggle, к концу набралось около 9000 претендентов.

Задание банка Santander специалистам по анализу данных

Задание банка Santander специалистам по анализу данных

Линар занял 320 место и вошел в топ-5% лучших, за что получил серебряную медаль: «Сейчас я взял паузу и не участвую в конкурсах. Это большой стресс: ты создаешь что-то новое и поднимаешься по списку вверх, но через пару часов другие люди придумывают решение лучше и ты возвращаешься на свою позицию. И так на протяжении нескольких недель».

Линар планирует участвовать в состязаниях позже.

«Одно соревнование меня уже заинтересовало, — признается он. — Хочу больше прокачать профиль. Сейчас у меня одна медаль. Если получу еще одну, перейду на следующий уровень — «Эксперт». Еще несколько медалей дают уровень «Мастер». После него идет «Гранд-мастер» — гранд-мастеров всего 130 в мире! Этого достичь реально, но очень тяжело».

Несколько советов в конце

Если цель чему-то научиться, а не попасть в топ рейтинга и получить призы, можно выбрать соревнования, за которые не даются медали. В таких конкурсах маленькая конкуренция. Это комфортный формат для обучения.
Иногда организаторы случайно оставляют в данных то, что претендентам не нужно знать. Например, был архив с картинками, в котором остались даты создания изображений. Это утечка данных (leak). Понятно, что в реальности такого не будет и нет смысла учиться искать утечки.
Лучше участвовать в конкурсе командой. Одному иногда лень что-то делать, а командная работа будет держать в тонусе. Плюс происходит обмен идеями, и две хорошие идеи, если их соединить, дадут лучший результат.

About the author

Pretium lorem primis senectus habitasse lectus donec ultricies tortor adipiscing fusce morbi volutpat pellentesque consectetur risus molestie curae malesuada. Dignissim lacus convallis massa mauris enim mattis magnis senectus montes mollis phasellus.

Оставьте комментарий