Каждую секунду в мире генерируется и копится цифровая информация: о банковских транзакциях, политических новостях, кликах пользователей интернета, их поисковых запросах и перемещениях и др. Это бессистемное море информации можно превратить в источник полезных сведений, которые ниоткуда больше не добыть. Как это сделать, знают специалисты науки о данных — дата-сайентисты (от английского data scientist). Кто это, что они делают, чтобы извлекать из больших данных полезные прикладные выводы и стоит ли становиться одним из них, разбираемся в этой статье.
Кто такой дата-сайентист и чем занимается
Data scientist — это специалист, который обрабатывает большие массивы данных, чтобы извлекать значимые инсайты — неожиданные выводы, найденные почти наугад в результате обработки бессистемной информации. Этим дата-сайентист отличается от аналитика больших данных: его работа включает в себя элемент творчества и эксперимента, а созданные аналитические модели уникальны. По сути, это эксперт по аналитике больших данных, который выдаёт выводы, способные повлиять на ход различных событий.
В отличие от аналитики больших данных, которая изучает прошлое и фокусируется на отслеживании динамики явлений и её причинах, data science прогнозирует будущее. Эксперт по аналитике данных создают компьютерные модели, которые умеют распознавать данные и находить в них закономерности, предсказывать вероятность событий и их последствия, рекомендовать оптимальные решения и оценивать потенциальный успех идеи или проекта.
Дата-сайентисты на основе больших данных предсказывают, как изменится спрос на товары и услуги, цены на нефть и ценные бумаги и другие факторы прибыли компании. Эти сведения помогают руководителям компаний принимать обоснованные бизнес-решения
Обработку больших данных можно разделить на 2 основных этапа.
Подготовка данных. Для начала данные нужно собрать, структурировать и исследовать. Так будет понятно, какими методами их обрабатывать, какого рода инсайты можно найти в этих данных и как они помогут решить прикладную задачу.
Разработка вычислительной модели. Затем исследователь данных разрабатывает математические модели и алгоритмы, которые подходят для этой задачи: он использует матанализ, статистическое моделирование, теорию вероятностей и технологии искусственного интеллекта.
Название профессии на английском data scientist говорит о том, что эта профессия — исследовательская. Задачи дата-сайентиста выходят за пределы обработки данных для прикладных целей. Он как учёный двигает науку о данных вперёд, ищет новые методы сбора и обработки данных, способы повышения точности расчётов и прогнозов и принципиально новые варианты применения данных
Вот примеры того, как data science применяется в разных отраслях:
- e-commerce и стриминговые платформы — рекомендательные системы для пользователей,
- здравоохранение — прогнозирование заболеваний и рекомендации по сохранению здоровья;
- логистика — планирование маршрутов и распределение автомобилей;
- финансы — оценка платёжеспособности при выдаче кредита и обнаружение мошенников;
- промышленность — отслеживание состояния оборудования и датчиков производства,
- недвижимость — поиск наиболее подходящих покупателю объектов.
Список отраслей можно продолжать: дата-сайентистов ждут в индустрии развлечений, госуправлении, спорте и др. Поговорим о востребованности профессии в более точных цифрах.
Востребованность профессии «Data scientist»
Академия больших данных MADE от Mail.ru и hh.ru провели совместное исследование, в котором обнаружили рост востребованности в таких кадрах в 9,6 раз за период с 2015 по 2019 год, а затем снова снижение в 2020.
Исследование hh.ru и Mail.ru
Мы решили получить более свежие данные и выяснить, как изменился спрос на дата-сайентистов за год. Для этого сравним количество вакансий, опубликованных за последний месяц, с аналогичным за последний месяц исследования — апрель 2020 года.
При поиске вакансий формулируйте название профессии и по-русски, и по-английски, чтобы найти больше предложений
На конец октября 2021 года на hh.ru по запросу «data scientist» мы нашли 795 вакансий, опубликованных за последний месяц. Значит, по сравнению с прошлым годом уровень востребованности вырос больше, чем в 8 раз.
График и формат работы дата-сайентиста
Работа дата-сайентиста требует полного погружения в проект. Пока он экспериментирует и подбирает форматы данных и методы их обработки, задачи плавно перетекают одна в другую. Он может занимаясь одним вопросом, вдруг найти ответ на другой.
Поэтому профессия не подходит для проектной работы и фриланса. Даже частичную занятость предлагают всего 1,5% работодателей — 12 из 795. Большинство работодателей предлагают полный рабочий день. Часть из них согласны на удалённый формат сотрудничества.
Вот как выглядит соотношение предлагаемых графиков в процентах:
- полная занятость — большинство: 98%;
- частичная занятость — почти нет: 1,5%;
- полный рабочий день — чаще всего: 70%;
- гибкий график — редко: 7%;
- удалёнка — встречается: 20%.
Зарплата дата-сайентиста
В профессии стабильно высокий уровень средних зарплат относительно других сфер IT. Зарплаты начинающих специалистов с опытом до 1 года начинаются от 50 000 руб. Средний доход такого специалиста с опытом в 1–3 года мы для верности скромно оцениваем в 150 000 руб., хотя встречаются вакансии до 250 000 руб. С опытом в Data Science от 3 лет можно претендовать на оклад выше 200 000 руб., причём верхние цифры зависят от компании, отрасли, специфического опыта и навыков самого специалиста и обсуждаются на собеседовании.
Начинающий | Опытный | Профессионал |
50–80 000 ₽ | 100–200 000 ₽ | от 200 000 ₽ |
Плюсы и минусы профессии «дата-сайентист»
При всех преимуществах у профессии есть свои недостатки. Она требует конкурентных навыков, способности нестандартно мыслить, высокой стрессоустойчивости и ответственности за предоставленные выводы. Взамен дата-сайентист получает высокую оплату труда, востребованность и уверенность в том, что так будет и дальше.
Плюсы | Минусы |
|
|
Это разделение на плюсы и минусы — условно. Необходимость брать на себя ответственность, находить неочевидные решения и постоянно прокачивать навыки можно воспринимать как мотивацию и шанс вызвать самого себя на испытание.
Вот набор навыков, которые нужны каждому специалисту по data science независимо от отрасли, в которой он работает:
- математический и статистический анализ — основа дата-сайенса, на которой построены принципы поиска закономерностей, взаимосвязей и отклонений от нормы, прогнозирования, обучения нейросетей и др.;
- машинное обучение — чтобы настраивать и обучать нейросети и поручать им обработку данных в больших объёмах, непосильных человеку;
- программирование — алгоритмы, по которым нейросеть будет учиться выполнять заданные операции с данными, чаще всего пишут на языках Python и R;
- Hadoop и MapReduce — технологии для распределённых вычислений на нескольких компьютерах, объединённых в одну систему для решения трудоёмких задач;
- SQL и работа с базами данных — нужно уметь проектировать хранилища под определённый тип данных и трансформировать их при необходимости, управлять данными внутри одной базы и перемещать между несколькими;
- визуализация данных и отчётность — для грамотной презентации выявленных инсайтов.
Английский язык в работе дата-сайентиста не обязателен, но будет полезен — чтобы читать профессиональную литературу, узнавать новости дата-сайенса и обмениваться опытом с зарубежными коллегами.
Личностные характеристики дата-сайентиста
Вопреки заблуждению, если вы привыкли считать себя гуманитарием, это не помешает вам стать хорошим дата-сайентистом. Но некоторые особенности личности всё же могут повлиять на скорость и лёгкость, с которой вы будете продвигаться по профессиональному пути.
Бизнес-мышление. От выводов дата-сайентиста часто зависит принятие значимых бизнес-решений, поэтому помимо абстрактной математической модели ему стоит учитывать реальную ситуацию и задачу. Сюда же входит понимание основных бизнес-процессов компании и специфики отрасли.
Критическое мышление. В работе дата-сайентиста встречаются задачи без чёткого технического задания, которые требуют создавать новые решения. Он должен уметь проанализировать потребности бизнеса, соотнести их с имеющимися данными и сам сформулировать задачу, прежде чем её решить.
Усидчивость. Загрузка, предварительная обработка и проверка данных — обязательная рутинная часть работы дата-сайентиста.
Коммуникабельность. Дата-сайентисту нужно много общаться с коллегами и заказчиками, чтобы принимать задачи и разбираться в них, советоваться с командой и презентовать результаты.
Как стать дата-сайентистом
Начать обучение следует с математического образования, затем или параллельно изучая программирование, методы обработки данных и машинного обучения.
Необходимую базу дают в вузах и вы можете стать дата-сайентистом после университета. Взрослым этот путь не всегда удобен, потому что начинать обучение нужно обязательно осенью, а совмещать очную учёбу и работу сложно. Но если вы сторонник академического образования и вам нужен диплом государственного образца, но мешает невозможность приехать в другой город — вам подойдёт программа дистанционного бакалавриата, подготовленная вместе с Российской академией народного хозяйства.
Онлайн-бакалавриат «Data science & Machine learning» от Skillbox и РАНХиГС
Онлайн-бакалавриат для выпускников школ и абитуриентов с высшим и среднеспециальным образованием. Вы освоите обработку, хранение данных и их анализ на SQL, язык программирования Python и машинное обучение. Вас ждут лекции и семинары в онлайн-формате и практические задания для закрепления навыков. С 3 курса вы сможете пройти программу бакалавриата на факультете экономики во французском Университете Гренобля. Вы соберёте портфолио из реальных кейсов, получите диплом государственного образца РАНХиГС о высшем образовании и выберете место стажировки. Для поступления нужно сдать ЕГЭ или внутренние вступительные испытания.
Длительность: 4 года
Стоимость: 150 000 ₽/сем.
Ещё один вариант — онлайн-курсы. Актуальная программа, разбор реальных кейсов от преподавателей, поддержка и консультации во время обучения, дополнительные материалы и нетворкинг — всё это помогает легче осваивать новые навыки. Главный аргумент, что к концу обучения студенты собирают портфолио выполненных проектов и получают помощь с трудоустройством и стажировками.
Полный курс по data science от SkillFactory
Курс для будущих дата-сайентистов. Вы научитесь анализировать большие массивы данных и проектировать для них хранилища и разберётесь в машинном обучении. Вы освоите программирование на Python, математику и статистику, сбор информации и управление базами данных. Вы узнаете, как проверять гипотезы и выявлять закономерности в данных и сможете оптимизировать бизнес-процессы и определять оптимальные решения. Вы примете участие в соревнованиях и хакатонах, добавите проекты в портфолио и получите диплом и помощь с трудоустройством. Можно выбрать тариф: более дорогой с личным ментором и более дешёвый без индивидуальных консультаций.
Длительность: 13 месяцев
Стоимость: 136 800 ₽
Профессия «Data scientist PRO» от Skillbox
Курс для будущих дата-сайентистов, подойдёт программистам и аналитикам данных. Вы освоите Python и SQL, научитесь собирать, обрабатывать и хранить большие объёмы информации и проверять гипотезы, узнаете, как разрабатывать модели машинного обучения и сможете создавать аналитическую инфраструктуру для бизнеса и предприятий. Вы углубитесь в машинное обучение, аналитику или инжиниринг больших данных на выбор, закрепите знания на индивидуальных и командных проектах и соревнованиях и сможете устроиться на стажировку во время обучения.
Длительность: 24 месяца
Стоимость: 182 900 ₽
Как и куда развиваться в профессии
Когда профессиональный путь уже начался, не стоит бросать обучение. Чтобы продолжать практиковаться, участвуйте в соревнованиях по машинному обучению в соцсети дата-сайентистов Kaggle. Вам предстоит решать задания от компаний, стремиться победить соперников в скорости и качестве и выиграть денежный приз или получить работу.
Если у вас есть опыт работы в специфической отрасли компании, он будет вашим преимуществом. У вас будет больше шансов получить работу или повышение, чем у коллег с аналогичными техническими навыками. Помимо специфических навыков получить повышение помогут менеджерский и предпринимательский опыт — он воспитывает умение мыслить стратегически, погружённость в бизнес-задачи и умение искать точки роста.
Специалист с опытом 5 лет в дата-сайенсе может искать вакансии в смежных отделах или откликаться на узкоспециализированные позиции архитекторов, ведущих разработчиков и экспертов по внедрению аналитических моделей.
Ещё больше обучающих материалов по направлению смотрите в нашей подборке онлайн-курсов по аналитике: платные и бесплатные материалы
Коротко о главном
Облако цифровой информации, которое называют большими данными, постоянно растёт. Оно — источник инсайтов, которые могут помочь решить прикладные задачи. Обработкой таких данных занимаются дата-сайентисты. Их услуги хорошо оплачиваются и нужны во всех отраслях: от сферы развлечений и спорта до здравоохранения и политики. Специалистов пока не хватает, а спрос стабильно растёт. Если математический склад ума, склонность к анализу и прагматичность — это про вас, приходите в профессию будущего. Остальные необходимые навыки вы можете получить на онлайн-курсах, закрепить их на практике и наработать опыт уже во время учёбы.