Что такое Data Science? Это не только профессия с загадочным названием и непонятными навыками, но и тренд последних пяти лет. Data scientist (Data Analytics) — названа самой сексуальной профессией XXI века по версии Harvard Business Review. Есть такая шутка: Data Scientist — это человек, который умеет программировать лучше, чем статистик, и знает статистику лучше, чем программист.
Кто такой дата-сайентист и как им стать?
Редкое и ценное умение работать с технологиями Big Data – не просто может, а станет вашим пропуском в мир востребованных и высокооплачиваемых специалистов. Не верите?
Знаете, как появилась эта профессия? В 2006-м году
Джонатан Голдман, физик из Стэнфорда устроился работать в LinkedIn аналитиком. Тогда в сети было около 8 миллионов пользователей, но особо популярной её ещё не считали и активности руководителям компании не хватало. Пока разработчики ломали голову над тем, чего не хватает сайту, решали, как увеличить наплыв посетителей и справиться с ним, Голдман занялся чем-то очень странным. Он построил прогностическую модель, задачей которой было показывать владельцам аккаунтов, кто из пользователей LinkedIn может быть его знакомым. Он много работал, тестировал, выявлял закономерности и в итоге научился предугадывать, какие профили могут войти в сеть знакомств того или другого пользователя.
Спрашивается, зачем? Программисты работу Голдмана проигнорировали, руководство тоже ничего не поняло, но Голдман смог убедить Рида Хоффмана, гендиректора, который верил в аналитику.
Голдман не только принёс LinkedIn миллионы новых просмотров (и скачок на годы вперёд), но и сделал профессию аналитика данных одной из самых привлекательных, высокооплачиваемых и перспективных в мире.
Так что же это такое?
О, об этой профессии ходит множество слухов и шуток. Дата-сайентистов представляют кем-то вроде шаманов, которые ударом бубна из «больших данных» делают нефть. Причём совершенно не разбираются в бизнесе. Другие считают, что дата-сайентист – это тот же программист, только более пафосный, потому что работает с данными (какими – мало кто представляет).
Джеффри Лик из Унивеситета Джона Хопкинса определяет эту профессию так: Data Scientist — это специалист, владеющий тремя группами навыков.
- IT-грамотность — программирование, придумывание и решение алгоритмических задач, владение софтом;
- Математические и статистические знания;
- Содержательный опыт в какой-то области — понимание бизнес-запросов своей организации или задач своей отрасли науки.
Вакансии из этой группы могут называться по-разному (в основном, по причине непонимания многими работодателями сути этой профессии). Дата-сайентистов называют аналитиками Big Data, математиками, математиками-программистами, менеджерами по анализу систем, Big Data архитекторами (Data Engineer), бизнес-аналитиками, BI-аналитиками, инфо-аналитиками, специалистами Data Mining и даже инженерами по машинному обучению.
Data Scientist – это человек, который может многократно увеличить доходы компании с помощью километра кода и пары терабайтов статистических данных.
Стать специалистом в Data Science – не так сложно, как кажется
Рынки труда по всему миру переполнены вакансиями: на сегодняшний день соотношение резюме к запросам составляет треть от нужного количества. Квалифицированных дата-сайентистов не хватает и, само собой, спрос и зарплаты растут.
В США уровень зарплат Data Scientists может доходить до $138 тысяч в год и выше — в зависимости от уровня квалификации. Для сравнения, средняя зарплата программиста, по их же оценкам, составляет $65-80 тысяч в год.
Сегодня для тех, кто хочет работать в сфере больших данных существует большой спектр возможностей для обучения: курсы, программы и специализации. Например:
Что касается высшего образования в этой сфере, то лучшие знания и рабочие навыки будущий Data Scientist может получить на факультетах прикладной математики, информатики и математической статистики.
Data Scientist – это человек, который умеет в математику. В основе анализа данных, технологии машинного обучения и «больших данных» лежит именно математика, поэтому, в отличие от front-end, например, здесь в математике нужно разбираться, как в родном языке.
Однако в плане навыков программирования дата-сайентисту не обязательно быть богом. Приведём пример:
Компания занимается созданием систем рекомендаций, например, в YouTube. Задача дата-сайентистов и программистов – сделать так, чтобы, когда пользователь заканчивал смотреть ролик, ему подсовывались такие интересные похожие видео, чтобы он, не останавливаясь, кликал на них и смотрел новые. Так вот, программист может:
- Знать, что для решения задачи рекомендации необходимо использовать матричные разложения;
- Знать библиотеку нужного языка программирования;
- Понимать, где это матричное разложение реализовано;
Но
- Совершенно не понимать, как это работает и как это работать НЕ может.
Если программист не будет разбираться в последнем, система работать не будет, а пользователь открывать рекомендации не станет, потому что ему это не понравится.
Понимание математической составляющей этих методов, умение связать их с реальными и конкретными алгоритмами – и есть задача Data-аналитика.
Если вы на этом месте испугались, задумались, вспомнили уроки алгебры в школе и грустно повесили нос – не спешите. В 21 веке существует огромное количество базовых курсов и инструментов для новичков, которые позволяют сделать первые шаги и научиться этой профессии. К слову говоря, многие из них – бесплатные.
Разобраться, что к чему, можно и самостоятельно. Если вы ещё не определились, что это за зверь Data Science и хотите ли вы туда лезть – почитайте специальную литературу, блоги о науке данных или посмотрите лекции. Если вы уже немножечко в теме – почитайте одну из немногих книг по теме на русском языке - «
Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных» Петера Флаха.
В любом случае, помнить, что Data Science – это наука, и она требует глубоких познаний в области математической статистики, машинного обучения и программирования – нужно всегда. Но также нужно помнить, что эта профессия сама по себе является высоким достижением человечества, делающим специалиста чашей Грааля для работодателей.