Data Scientist

Последние года термин Data Science начал набирать популярность. Об этом много пишут, говорят на конференциях. Некоторые компании даже нанимают людей на должность со звучным названием Data Scientist. Что же такое Data Science? И кто такие Data Scientists?
           

Кто такие Data Scientists?


Data Scientist – это тот, кто разбирается в статистике лучше, чем любой программист, и разбирается в программировании лучше, чем любой статистик. Data Scientist, ученый по данным, является своеобразным гибридом статистика и программиста. Причем как статистики, так и программисты бывают очень разными, поэтому лучше рассматривать эту профессию как широкий спектр от чистых статистиков до чистых программистов.

Роберт Чанг, Data Scientist из Twitter, делит представителей своей профессии на 2 группы: Type A Data Scientist v.s. Type B Data Scientist.

Тип A, где A – это Analysis. Эти люди по большей части занимаются извлечением смысла из статических данных. Они очень похожи на статистиков, могут даже быть статистиками и просто сменить название должности на Data Scientist, а, как мы знаем, уже только одна смена названия должности может дать значительный прирост зарплаты, плюс почет и уважение. Но кроме статистики они знают еще и практические аспекты: как очищать данные, как работать с большими наборами данных, как визуализировать данные и описывать результаты своей работы.

Тип B, где B – Building. Они также обладают знаниями статистики, но при этом сильные и опытные программисты. Они больше заинтересованы в применении данных на реальных системах. Часто строят модели, работающие во взаимодействии с пользователями, например, системы рекомендаций товаров, фильмов, рекламы.

Data Science также немного пересекается с такими областями деятельности как Machine Learning и Artificial Intelligence, представители этой сферы близки к Data Science типа B.


Что же изучать тем, кто хочет стать Data Scientist, какие навыки необходимы? Давайте посмотрим на то, какие требования американские работодатели предъявляли к кандидатам на позиции в областях Data Science и Machine Learning.

Мы проанализировали 549 вакансий, опубликованных на одном из крупнейших мировых порталов по поиску работы, которые включали требования Data Science и Machine Learning.

           

Профессиональные навыки


Начнем с анализа требований к владению профессиональными навыками (hard skills).

Как можно увидеть из рейтинга, наиболее популярными являются фундаментальные знания математики, статистики, Computer Science и машинного обучения. Помимо теоретических знаний, Data Scientist должен уметь «добывать», очищать, моделировать и визуализировать данные. Также важен опыт в разработке программного обеспечения и управлении качеством.



           

Инструменты и технологии 


Основным инструментарием Data Scientist являются языки программирования Python и R.

R – это специализированный язык программирования для статистических расчетов, именно поэтому он так полюбился статистикам и ученым по данным. Он позволяет быстро загрузить набор данных, посчитать основные статистические характеристики, визуализировать данные, построить модели данных.

Python, хоть и представляет собой язык программирования общего назначения, но имеет огромное количество качественных библиотек и платформ для Data Science и Machine Learning.

Что примечательно, в 39% вакансий требуется знание как R, так и Python одновременно, поэтому лучше изучать оба языка сразу, а не пытаться выбрать один из них.

Для работы с большими данными работодатели предпочитают использовать Hadoop и Spark. Среди баз данных популярны MySQL и MongoDB.



           

Общие компетенции


Общие компетенции (soft skills) по сравнению с профессиональными навыками востребованы в меньшей мере, так как упоминаются в вакансиях более чем вдвое реже. Средние зарплаты вакансий, в которых требуются soft skills так же существенно, примерно на 20%, ниже тех, где требуются hard skills и знание технологий.

Тем не менее, среди встреченных soft skills наиболее важными являются следующие: умение общаться, визуализировать данные, делать презентации, эффективно писать и говорить. Также полезны навыки работы в команде, менеджмента и решения проблем.



           

Предметные области


В некоторых вакансиях требуется знание предметной области от физики и биологии до недвижимости и гостиничного бизнеса. Здесь в лидерах экономика, маркетинг и медицина.



           

Специализации


Перед началом исследования мы предполагали выделить подспециализации профессии Data Scientist. Например, отделить тех, кто занимается преимущественно анализом и визуализацией данных от тех, кто строит модели для предсказательной аналитики или алгоритмы машинного обучения. Но, как оказалось в ходе анализа данных, требования к большинству вакансий достаточно однородны, и четкого разбиения на специальности не прослеживается.

Хотя некоторые закономерности кажутся интересными. Например, если в вакансии требуются знания Python или C++, то маловероятно требование коммуникационных навыков и менеджмента, и наоборот.

           

Влияние технологий на зарплату


Опрос O’Reilly 2015 Data Science Salary Survey помогает нам взглянуть на рынок труда с противоположной стороны. Это исследование базируется на опросе 600 Data Scientists, а собранные данные включают уровень зарплат, демографическую информацию и количество времени, которое специалисты тратят на задачи различных типов. Ключевые выводы этого исследования следующие:

  • SQL, Excel, R, Python – ключевые инструменты, и этот список не меняется на протяжение 3 лет.
  • Сильно растет популярность Spark и Scala.
  • Фокус тех, кто ранее использовал специализированные коммерческие инструменты, смещается на использование R.
  • Но те, кто ранее использовал R, переходят на Python, Python лидирует.
  • Среди всех индустрий наиболее высокие зарплаты в Software Development.
  • Cloud Computing продолжает быть востребованным.


Рекомендуем прочитать отчет целиком. Кроме прочего, он описывает математическую модель зависимости зарплаты Data Scientist от того, где он живет, какое образование имеет и над какими задачами работает. Например, Data Scientists, которые проводят больше времени на встречах, зарабатывают больше. А кто больше 4 часов в день занимаются изучением данных, зарабатывает меньше.

           

Как изучать Data Science?


За последние годы появилось множество online-курсов на эту тему. И это очень хороший способ начать!

Если вы склоняетесь больше к анализу данных, то хорошим вариантом являются курсы специализации Data Science на Coursera: Launch Your Career in Data Science. Получение специализации не бесплатно, но если вам не нужен сертификат, то вы можете пройти все эти курсы бесплатно: просто посмотрите название курса и с помощью поиска найдите курс.

Для тех, кого интересует Machine Learning, можно порекомендовать курс Андрю Эн (Andrew Ng), Chief Scientist в компании Baidu Research, который по совместительству преподаватель в Стэнфорде и является основателем Coursera: Компьютерное обучение.

 

 

Что же такое Data Science?


Data Science – это новая область деятельности, поэтому требования к Data Scientists еще не до конца сформированы. Учитывая динамичность нашего времени, возможно, Data Science никогда не станет самостоятельной профессией, которой будут обучать в университетах, а так и останется набором практик и навыков. Но это точно те практики и те навыки, которые будут очень востребованы в ближайшие годы.