Назад

​Что такое Data Science и почему это одна из самых перспективных профессий?

04 июня, 2020 4344
​Что такое Data Science и почему это одна из самых перспективных профессий?

Что такое Data Science? Это не только профессия с загадочным названием и непонятными навыками, но и тренд последних пяти лет. Data scientist (Data Analytics) — названа самой сексуальной профессией XXI века по версии Harvard Business Review. Есть такая шутка: Data Scientist — это человек, который умеет программировать лучше, чем статистик, и знает статистику лучше, чем программист.
 

Кто такой дата-сайентист и как им стать?

 
Редкое и ценное умение работать с технологиями Big Data – не просто может, а станет вашим пропуском в мир востребованных и высокооплачиваемых специалистов. Не верите?
 
Знаете, как появилась эта профессия? В 2006-м году Джонатан Голдман, физик из Стэнфорда устроился работать в LinkedIn аналитиком. Тогда в сети было около 8 миллионов пользователей, но особо популярной её ещё не считали и активности руководителям компании не хватало. Пока разработчики ломали голову над тем, чего не хватает сайту, решали, как увеличить наплыв посетителей и справиться с ним, Голдман занялся чем-то очень странным. Он построил прогностическую модель, задачей которой было показывать владельцам аккаунтов, кто из пользователей LinkedIn может быть его знакомым. Он много работал, тестировал, выявлял закономерности и в итоге научился предугадывать, какие профили могут войти в сеть знакомств того или другого пользователя.
 
Спрашивается, зачем? Программисты работу Голдмана проигнорировали, руководство тоже ничего не поняло, но Голдман смог убедить Рида Хоффмана, гендиректора, который верил в аналитику.
 

Голдман не только принёс LinkedIn миллионы новых просмотров (и скачок на годы вперёд), но и сделал профессию аналитика данных одной из самых привлекательных, высокооплачиваемых и перспективных в мире.

 
Так что же это такое?
 
О, об этой профессии ходит множество слухов и шуток. Дата-сайентистов представляют кем-то вроде шаманов, которые ударом бубна из «больших данных» делают нефть. Причём совершенно не разбираются в бизнесе. Другие считают, что дата-сайентист – это тот же программист, только более пафосный, потому что работает с данными (какими – мало кто представляет).
 
Джеффри Лик из Унивеситета Джона Хопкинса определяет эту профессию так: Data Scientist — это специалист, владеющий тремя группами навыков.
 
  1. IT-грамотность — программирование, придумывание и решение алгоритмических задач, владение софтом;
  2. Математические и статистические знания;
  3. Содержательный опыт в какой-то области — понимание бизнес-запросов своей организации или задач своей отрасли науки.
 
Вакансии из этой группы могут называться по-разному (в основном, по причине непонимания многими работодателями сути этой профессии). Дата-сайентистов называют аналитиками Big Data, математиками, математиками-программистами, менеджерами по анализу систем, Big Data архитекторами (Data Engineer), бизнес-аналитиками, BI-аналитиками, инфо-аналитиками, специалистами Data Mining и даже инженерами по машинному обучению.
 

Data Scientist – это человек, который может многократно увеличить доходы компании с помощью километра кода и пары терабайтов статистических данных.

Стать специалистом в Data Science – не так сложно, как кажется

 
Рынки труда по всему миру переполнены вакансиями: на сегодняшний день соотношение резюме к запросам составляет треть от нужного количества. Квалифицированных дата-сайентистов не хватает и, само собой, спрос и зарплаты растут.
 
В США уровень зарплат Data Scientists может доходить до $138 тысяч в год и выше — в зависимости от уровня квалификации. Для сравнения, средняя зарплата программиста, по их же оценкам, составляет $65-80 тысяч в год.
 
Сегодня для тех, кто хочет работать в сфере больших данных существует большой спектр возможностей для обучения: курсы, программы и специализации. Например:
 
  • Школа Анализа Данных «Яндекса» – самый старый и самый известный центр подготовки кадров в области анализа данных. 
  • Специализация «Машинное обучение и анализ данных» на Coursera
  • «Введение в машинное обучение» на Coursera
  • «Анализ данных в R» на Stepic
 
Что касается высшего образования в этой сфере, то лучшие знания и рабочие навыки будущий Data Scientist может получить на факультетах прикладной математики, информатики и математической статистики.
 
Data Scientist – это человек, который умеет в математику. В основе анализа данных, технологии машинного обучения и «больших данных» лежит именно математика, поэтому, в отличие от front-end, например, здесь в математике нужно разбираться, как в родном языке.
 
Однако в плане навыков программирования дата-сайентисту не обязательно быть богом. Приведём пример:
 
Компания занимается созданием систем рекомендаций, например, в YouTube. Задача дата-сайентистов и программистов – сделать так, чтобы, когда пользователь заканчивал смотреть ролик, ему подсовывались такие интересные похожие видео, чтобы он, не останавливаясь, кликал на них и смотрел новые. Так вот, программист может:
 
  • Знать, что для решения задачи рекомендации необходимо использовать матричные разложения;
  • Знать библиотеку нужного языка программирования;
  • Понимать, где это матричное разложение реализовано;
 
Но
  • Совершенно не понимать, как это работает и как это работать НЕ может.
 
Если программист не будет разбираться в последнем, система работать не будет, а пользователь открывать рекомендации не станет, потому что ему это не понравится.
 

Понимание математической составляющей этих методов, умение связать их с реальными и конкретными алгоритмами – и есть задача Data-аналитика.

 
Если вы на этом месте испугались, задумались, вспомнили уроки алгебры в школе и грустно повесили нос – не спешите. В 21 веке существует огромное количество базовых курсов и инструментов для новичков, которые позволяют сделать первые шаги и научиться этой профессии. К слову говоря, многие из них – бесплатные.
 
Разобраться, что к чему, можно и самостоятельно. Если вы ещё не определились, что это за зверь Data Science и хотите ли вы туда лезть – почитайте специальную литературу, блоги о науке данных или посмотрите лекции. Если вы уже немножечко в теме – почитайте одну из немногих книг по теме на русском языке - «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных» Петера Флаха.
 
В любом случае, помнить, что Data Science – это наука, и она требует глубоких познаний в области математической статистики, машинного обучения и программирования – нужно всегда. Но также нужно помнить, что эта профессия сама по себе является высоким достижением человечества, делающим специалиста чашей Грааля для работодателей.
 
 
 
 

Похожие статьи