Что делает Data Scientist
Data Scientist применяет методы науки о данных (Data Science) для больших объемов информации. Он строит и тестирует математические модели поведения. Это помогает найти в них закономерности или спрогнозировать будущие значения. Например, по информации о спросе на товары в прошлом специалист по работе с большими данными может спрогнозировать продажи в следующем году. Модели строят с помощью алгоритмов машинного обучения, а с базами данных работают через SQL.
Пройдите наш тест и узнайте, какой вы Data Scientist. Ссылка в конце статьи.
Освойте профессию «Data Scientist» на курсе с МГУ
Подробнее
25 месяцев
Data Scientist с нуля до PRO
Создавайте ML-модели и работайте с нейронными сетями
Data Scientist с нуля до PRO
Как стать специалистом по Data Science
Если вы еще выбираете профессию, познакомиться с Data Science можно на бесплатных курсах и интенсивах. Вы узнаете о задачах, которые предстоит выполнять, и получите первые практические навыки.
Интенсив – это отличная возможность понять, стоит ли дальше осваивать направление Data Science
Если вы всерьез решили стать дата-сайентистом, сначала нужно изучить статистику и математику
Важно понимать термины – дифференциал, производная, определитель матрицы и другие. В этом помогут специальные курсы, например, «Математика для Data Science»
Также нужно изучить программирование, для начала достаточно языка Python. Он относительно прост, поэтому его по силам освоить даже новичку. В онлайн-школе SkillFactory есть специальный курс для Data Science – «Python для анализа данных». Вы узнаете, как быстро обрабатывать большой объем информации и создавать отчеты, автоматизируете этот процесс.
После Python можно приступать к машинному обучению. Для этого подойдут курс «Machine Learning и Deep Learning» и курс по нейронным сетям.
Также можно освоить профессию Data Scientist с нуля по одной программе, которая охватывает все необходимые знания: математику и статистику, разработку и машинное обучение – «Профессия Data Scientist».
Кто такой Data Scientist?
Давайте начнем наше знакомство с профессией с области, в которой работают Data Scientists. Data Science – это наука о данных, которая занимается изучением данных, их анализом различными методами и последующим преобразованием данных в полезные знания. Раньше обработать данные человек мог вручную, но сейчас их количество стало настолько огромным, что для обработки часто требуется искусственный интеллект. Поэтому наука активно взаимодействует с машинным обучением, математикой, статистикой и анализом данных.
Нас постоянно окружают результаты работы Data Scientists, например, мы ежедневно смотрим прогноз погоды, реклама предлагает нам определенные товары, авиасервисы прогнозируют стоимость билетов, врачи с помощью программ могут предсказать диагнозы, а голосовые помощники выполняют множество наших просьб. Всем этим и многими другими вещами управляет специалист по данным. Data Scientist – это специалист, который занимается поиском закономерностей в больших массивах данных, анализирует и хранит их. Профессия Data Scientist считается одной из самых высокооплачиваемых и сложных в мире ИТ.
Стоит обратить внимание на то, что Data Science стала неотъемлемой частью будущего. Сейчас ее активно используют в стартапах, IT компаниях, различных бизнесах, чтобы предоставлять наиболее точные данные и прогнозы, быть ближе к пользователю, автоматизировать свои решения и повысить маржинальность бизнеса
Спрос на Data Scientists ежегодно растет. Например, по информации веб-сайта по поиску работы Indeed, за 2019 год вакансий Data Scientists стало на 29% больше.
Data Scientists постоянно ищут паттерны и тренды в огромных наборах данных, используя многообразные тулы, техники и критическое мышление, чтобы найти практическое решение для реальных data-centric проблем. Давайте подробнее поговорим о том, что входит в обязанности специалистов по данным.
Методы
Алгоритмы машинного обучения на практике встречаются совершенно разные. Их используют компании и предприятия в зависимости от целей и задач, которые необходимо решить.
Важно: рассматриваемый анализ данных встречается преимущественно в Big Data. Существуют следующие методы ML:
Существуют следующие методы ML:
- древо решений;
- нейронные сети;
- кластеризация;
- «случайный лес»;
- ассоциативные правила.
Для создания утилит, реализующих упомянутые принципы, используют R, Питон, Скала и Julia. Они имеют поддержку большинством интегрируемых сред разработки.
Нейронная сеть
Нейронные сети в машинном обучении:
- Создают имитацию структуры головного мозга. Это значит, что у каждого искусственного нейрона есть связь с несколькими другими себе подобными.
- Выступают в качестве многослойной структуры. На одном слое нейрон передает данные на другой.
- Результат – электронные материалы достигают выходного слоя. На этом этапе сеть выдает гипотезу относительно решения поставленной задачи или классификации.
Вариант широко используется в медицине и здравоохранении, мультимедиа, финансовых отраслях. Пример – поиск мошенников и средств, которыми они пользуются. Хотя такой метод является дорогостоящим и почти не встречается в мелких организациях.
Древо решений
При машинном обучении используется для того, чтобы классифицировать объекты путем ответов на вопросы об атрибутах оных. Последние находятся в узловых точках. В зависимости от выданного ответа будет выбираться та или иная ветка. Процесс осуществляется до того момента, пока не удастся найти окончательный ответ.
Применяется в:
- платформах, позволяющих управлять знаниями клиентского обслуживания;
- утилитах для прогнозирования цен;
- планировании выпуска товаров;
- страховой деятельности;
- финансовой сфере – для расчета предполагаемому и возможному финансовому ущербу, платежеспособности клиентов.
Если визуально представить модель, она будет выглядеть как обычно «дерево».
Случайный лес
Моделей машинного обучения много. Знать их требуется тем, кто хочет посвятить себя карьере ML Engineer. Следующий вариант – случайный лес.
Представлен универсальным механизмом с быстрой обучаемостью. Помогает обнаруживать связи внутри набора данных. Пример – нежелательные массовые электронные или почтовые рассылки.
Кластеризация
Так называют группировку элементов информации со сходными характеристиками. В процессе применяются статистические алгоритмы. Хотя он не предусматривает учителя, весьма активно используется для классификации.
Важно: является эффективным приемом поиска групп в сложных наборах электронных сведений
О задачах
Машинное обучение основывается на том, что системы аналитики способны обучаться выявлению закономерностей и принимать решения без участия людей. Если таковое требуется, оно окажется минимальным.
ML должно облегчать современную жизнь. В основе оного лежат следующие ключевые задачи:
- Классификация. Предсказание, к какому классу будет относиться объект.
- Регрессия. Уточнение числовых значений признаков. Пример – предсказание продаж в будущем с учетом прошлогодних данных.
- Кластеризация. Это процесс разделения одного большого множества на кластеры – некие классы, содержащие схожие между собой объекты.
- Минимализация размерности. «Учеба» поможет свести большое количество признаков к меньшему. Обычно происходит сокращение до 3-х пунктов. Соответствующий прием помогает визуализировать полученные сведения.
А еще машинное обучение помогает обнаруживать аномалии. Подразумевается поиск необычных объектов, которые сильно отличаются от «общепринятых».
Навыки
Знание Python.
Это наиболее популярный язык программирования для аналитиков данных и его знание хотя бы на базовом уровне требует большинство работодателей
Знание SQL.
Аналитики данных должны уметь работать с SQL и реляционными базами данных
Знание систем визуализации данных.
Таких программ много, к наиболее распространенным можно отнести Power BI, Qlik, Tableau
Умение использовать инфраструктуру Apache Hadoop.
Это платформа для обработки больших объемов данных
Для старта в профессии
- Понимание математики в части статистики, дискретной математики и теории вероятностей. Гением математики быть не нужно, достаточно основ
- Умение работать с гибкими методологиями создания продуктов. Обычно имеется в виду Agile, Scrum, Kanban.
- Знание Microsoft Excel. Электронные таблицы так же нужны для обработки данных.
Продвинутый уровень
- Проведение A/B-тестирования. Это метод оценки эффективности потенциальных изменений путем сравнения их результатов.
- Знание английского языка. Это позволит рассчитывать на более высокие должности в российских и на работу в зарубежных компаниях, плюс позволит изучить большой пласт англоязычной спецлитературы.
- Знание дополнительных языков программирования. Помимо упомянутого Python, аналитиками используются Java или R.
Согласно рейтингу, составленному по результатам опроса, более 57 тысяч респондентов, SQL, Python являются одними из самых востребованных технологий среди разработчиков.
Где нужен и какие задачи решает Data Scientist
Дата-сайентисты работают везде, где есть много информации: чаще всего это крупный бизнес, стартапы и научные организации. Поскольку методы анализа данных универсальны, специалистам открыты любые сферы: от розничной торговли и банков до метеорологии и химии. В науке они помогают совершать важные открытия: проводят сложные исследования, например, строят и обучают нейронные сети для молекулярной биологии, изучают гамма-излучения или анализируют ДНК.
В крупных компаниях специалист по обработке данных — это человек, который нужен всем отделам:
- маркетологам поможет проанализировать данные карт лояльности и понять, каким группам клиентов что рекламировать;
- для логистов изучит информацию с GPS-трекеров и оптимизирует маршрут перевозок;
- HR-отделу поможет предсказать, кто из сотрудников скоро уволится, проанализировав их активность в течение рабочего дня;
- с продажниками спрогнозирует спрос на товар с учетом сезонности;
- юристам поможет распознать, что написано на документах, с помощью технологий оптического распознавания текстов;
- на производстве спрогнозирует срок службы оборудования на основе данных с датчиков.
В стартапах специалисты помогают разрабатывать технологии, которые выводят продукт на новый уровень: TikTok использует машинное обучение, чтобы рекомендовать контент, а MSQRD — технологии по распознаванию лица и искусственный интеллект.
Пример задачи
Если нужно спрогнозировать спрос на новую коллекцию кроссовок, то специалист:
- готовит данные о продажах кроссовок за последние несколько лет;
- выбирает модель машинного обучения, которая лучше всего подходит для прогноза;
- выбирает метрики, которые позволят оценить качество модели;
- пишет код модели;
- применяет алгоритм машинного обучения на данных о прошлых продажах;
- получает прогнозные значения и предлагает их менеджерам для принятия решения об объемах производства кроссовок.
Что дает курс обучения Data Scientist
Пройдя курс Data Scientist, ты научишься:
- создавать рекомендательные системы и нейросети и обучать их, обрабатывать тексты на естественном языке;
- понимать поставленную задачу и правильно подавать результаты своей работы заказчику (ты будешь практиковаться в формализации требований, визуализации данных, составлении отчетов и презентаций для заказчика).
После окончания курса ты получишь диплом о профессиональной переподготовке по специальности «Аналитик данных / Специалист по машинному обучению».
Нужно отметить, что половина времени курса отводится на практические знания и применение этих знаний в онлайн-маркетинге, e-commerce и других прикладных областях. На программу были отобраны преподаватели, каждый день работающие с большими данными, обучающие машины и решающие задачи по Big Data. Каждый преподаватель — не теоретик, а хорошо зарекомендовавший себя специалист в области анализа данных.
Чем занимается специалист Data Science?
Задачи специалиста по данным:
- находит скрытые закономерности и связи во время изучения данных;
- анализирует данные по необходимому критерию, который покажет эффективность создаваемой модели;
- визуализирует данные;
- программирует и тренирует модель машинного обучения;
- оценивает с коллегами модель с точки зрения экономики;
- выявляет богатые источники данных, присоединяется к ним с другими потенциально неполными источниками данных и очищает полученный набор;
- анализирует риски;
- анализирует внутренние процессы;
- занимается внедрением моделей в существующие инфраструктуры;
- дорабатывает модель и следит за процессами;
- предлагает новые направления для развития бизнеса клиента;
- занимается разработкой отчетов и прогнозированием;
- консультирует руководителей и менеджера по продукту, основываясь на полученных данных.
Благодаря работе Data Scientist бизнес принимает правильные решения и опережает своих конкурентов, продукты становятся ближе к пользователям, а жизнь людей становится удобнее.
Чтобы специалистам по обработке и управлению данными преуспеть в этой области, им часто недостаточно быть эффективными просто в преобразовании массы неструктурированных данных в форму, удобную для анализа. Желательно также уметь анализировать сами обработанные объемы данных, проводить фактический анализ.
Как стать аналитиком данных
В аналитике данных можно стартовать с нуля, без опыта: занять позицию стажёра и научиться всему на практике. Многие компании готовы обучать молодых специалистов. Но на старте зарплата будет небольшой — около 50 тысяч рублей.
Найти работу легче тем, у кого уже есть опыт решения задач, связанных с аналитикой. Поэтому в анализ данных часто приходят специалисты из смежных отраслей. Например, разработчики — они уже знакомы с языками программирования, или маркетологи — они умеют работать с системами аналитики на базовом уровне.
Также шансы попасть на стажировку повышаются у тех, кто прошёл профильные курсы. Курсы позволяют освоить главное — понять, как работает аналитика, научиться работать с базами данных и отчётами и строить дашборды. Более сложные скиллы можно получить на практике.
Высшее образование не обязательно. Но оно будет преимуществом для тех, кто строит карьеру. Есть профильные программы высшего образования для аналитиков, но подойдут и другие. Например, часто в эту сферу приходят люди с математическим или экономическим образованием.
Кто такой Data Scientist и чем он занимается?
Говоря простыми словами, это специалист по анализу данных. Он собирает их, объединяет в базы, ищет и анализирует закономерности и на этой основе создает модели, которые помогают принимать те или иные решения.,/p>
Чаще всего они востребованы в следующих сферах: ИТ, телеком, банки и финансы, консалтинг, маркетинг, научные исследования.
Какие задачи они решают:
- Создание рекомендательных систем.
- Формирование прогнозов, например, на рынках акций.
- Создание скоринговых систем, которые принимают решения на основе анализа большого объема данных. Например, выдать кредит клиенту или нет.
- Выявление аномалий в различных системах. Например, для автоматической блокировки подозрительных банковских операций.
-
Персонализированный маркетинг. Формирование уникальных предложений для клиентов, акций, скидок.
Чтобы проще понять, чем занимается Data Scientist, разберем пример рекомендательного алгоритма. Многие музыкальные сервисы на основе статистики прослушиваний могут предлагать пользователям другие треки, которые им понравятся. Алгоритм, по которому работает эта программа, создает специалист по анализу больших данных.
Все больше компаний собирают различные базы данных, которые используются для разных целей. Поэтому востребованность специалистов растет. Им предлагают хорошие зарплаты, о чем расскажем ниже.
Мы разобрались, кто такой Data Scientist и что это за профессия. Пора поговорить о преимуществах и недостатках данной работы.
Плюсы и минусы профессии Data Scientist
Плюсы
- Высокие зарплаты — сказывается нехватка кадров и растущий спрос на рынке
- Приносит пользу бизнесу — анализ больших данных позволяет искать точки роста, которые приносят дополнительный доход
- Высокий спрос — все больше компаний внедряют Data Science команды, чтобы работать с большими данными
Минусы
- Высокий уровень неопределенности — Дата Сайентисты решают сложные математические задачи. Трудно предсказать исход анализа или найти быстрое решение.
- Динамика развития — профессия новая, поэтому придется следить за изменениями и новшествами, которые появляются каждый месяц. Не зря сферу называют «наука о данных».
Чем занимается Data Scientist
Data Scientist – специалист по Data Science. Это наука о данных, которая включает инструменты, методы и технологии для обработки информации и ее дальнейшего использования. Data Science стоит на стыке математики, статистики, программирования, аналитики и стратегического планирования.
Data Scientist обрабатывает большой объем данных, ищет в них определенные закономерности, связи. Создает модели машинного обучения – алгоритмы решения задач. Они, например, подбирают фильмы на основании оценок пользователей, оптимальный маршрут для такси с учетом загруженности дорог, рекомендуют снизить стоимость товаров в магазине.
Продолжим историю
Усилиями команды компания выросла в несколько раз, появилось много продуктов: приложение для изучения лексики и отдельные программы подготовки к международным экзаменам. Бизнес вошёл в десятку крупнейших в стране.
Штат аналитиков уже не справлялся. Последней каплей стал провал социальной сети для изучения английского языка, в которую вложили полмиллиона долларов. Традиционный анализ показывал, что проект будет успешным, его оттачивали разными тестами. Но он не взлетел. В чём причина?
Массив данных English 123 превратился в Big Data, а бизнес как будто начинался снова: многое зависело от стечения обстоятельств. Необходим был человек, который поймёт, что творится, и расскажет, что делать. Так в компанию пригласили Data Scientist.
Опираясь на проверенные и новейшие исследования в ИИ, Data Scientist строит нейросети и модели ML. Вначале они могут быть непонятны, но модели работают, решают реальные проблемы. Главное в работе DS — все свои идеи он должен объяснить бизнесу и обосновать их пользу. Вот почему такой специалист стоит очень дорого.
Благодаря Data Scientist высшие руководители отвечают только за долгосрочное планирование, а практические задачи предоставлены менеджерам и аналитикам.
SkillFactory — прежде всего школа Data Science, чтобы быть конкретными, кратко перечислим темы проектов наших студентов:
Вот что нужно знать Data Scientist
-
Понимать математические выкладки — да, но этого мало. Нужно представлять себе, где они выстрелят. Владеть Machine Learning и Deep Learning: линейной и логистической регрессиями, деревьями решений, методами опорных векторов и т. д.
-
Python и его библиотеки: TensorFlow, Keras, PyTorch, LightGBM, NumPy, SciPy, Pandas, sklearn. Владение C или C++ будет большим преимуществом.
-
SQL работает большинство проектов. Базы NoSQL нужны реже.
-
Tableau, Power BI, другие инструменты визуализации Seaborn, Plotly или Matplotlib.
Один из самых важных моментов — что получит специалист за такой труд.
Зарплата Data Science
Посмотрим на последние данные hh.ru за последний месяц:
-
От 100 000 рублей до 140 000 в месяц может зарабатывать Junior. Но Junior в Data Science очень мало. Почему? Смотрите выше: в DS переходят спецы уже с бэкграундом в разработке или аналитике данных.
-
До 215 000 рублей — зарплата крепкого Middle.
-
Senior и Lead Data Scientist могут зарабатывать от 300 000 до 500 000. На вес золота.
Освоить профессию Data Science вы можете на наших курсах за 24 месяца. А вот полная картина востребованности последних лет, по данным Open Data Science:
Наука о данных растёт просто невообразимыми темпами. Количество вакансий по главным специальностям за год увеличилось в 2,2 раза. При этом, по словам Data Scientist в VK Михаила Воловича, требования к DS пока размыты. Но именно эта пластичность даёт разные точки роста разным людям.
Поэтому если вы хотели начать карьеру в IT или перейти в сферу данных из разработки и тестирования, то сделайте это прямо сейчас.
Также вы можете перейти на страницы из каталога, чтобы узнать, как мы готовим специалистов в других направлениях.
Что должен знать и уметь data-scientist?
Требования к data-scientist:
- знание современных методов эконометрики, теории вероятностей, математической статистики, стохастических процессов;
- владение пакетами эконометрического анализа и языками программирования (R, Python, Matlab);
- владение английским языком (чтение профессиональных текстов);
- Знание статистики и умение ее применять (Методы статистического вывода, проверка гипотез, statsmodels);
- Умение работать с базами данных: оконные функции, индексы, оптимизация запросов (postgres, mongo);
- Желание разбираться в предметной области, работать с заказчиками.
Виртуальный психолог «Сабина»
— «Аватар Машина» создала чат-бот-психолога «Сабина Ai». Почему вы занялись этой темой?
— Мы давно хотели, чтобы «Аватар Машина» не только работала на заказ, но и делала самостоятельные продукты. Это логичный этап развития для любого бизнеса.
Долго думали, какого бота изобрести, чтобы он одновременно содержал все наши наработки и был востребован на рынке. Идей было много. Но под все параметры идеально подошёл только бот-психолог. Или бот-друг, как назвал бы его я.
Общая тревожная обстановка в 2022 году сыграла роль триггера для создания «Сабины». Мы хотели дать людям инструмент, который позволит им немного успокоиться. Ведь сейчас многим даже поболтать не с кем. Люди чувствуют, что у них есть некие психологические проблемы. Но стесняются этого, боятся. Даже с друзьями не говорят. Общение с нашим ботом может принести им облегчение.
Скажу честно, я до последнего сомневался. Но когда профессиональные психологи проверили «Сабину» и сказали, что она реально помогает, — это был самый счастливый момент. Тогда мы поняли, что бота можно выпускать на рынок.
— Бота назвали в честь Сабины Шпильрейн, которую в фильме «Опасный метод» сыграла Кира Найтли. Почему выбрали именно её?
— Потому что она была психоаналитиком, ученицей Фрейда и Юнга. Плюс она жила в Ростове-на-Дону, где и погибла в Великую Отечественную. А ещё мы хотели, чтобы название было международным. Это позволит избежать многих проблем, когда мы решим выходить на иностранный рынок. Имя Сабины Николаевны знают во всём мире.
Сабина Шпильрейн в исполнении Киры Найтли Кадр: фильм «Опасный метод» / Sony Pictures Classics
— Вы привлекали психологов-людей для обучения нейросети?
— Конечно. Мы заказали у дипломированных психологов датасеты, воспроизводящие беседы с пациентами. И на них дообучили нейросеть. В результате сеттинг психологического разговора перешёл в чат-бот: модель научилась понимать профессиональную стилистику беседы с пациентом. «Сабина» обрела нечто, что можно назвать «характером» или «личностью».
Мы всё настроили в ней, исходя из понимания списка тем, которые должны поддерживаться, оптимальной длины сообщений, характера желаемого ответа (развёрнутый, не развёрнутый), а также того, должен ли бот в тех или иных ситуациях что-то уточнять, переспрашивать.
— «Сабина» может полностью заменить настоящего психолога?
— Нет, программа не советует лекарства, не занимается психотерапией. Множества человеческих скиллов в ней нет.
Например, у реальных психологов есть методики, когда они спрашивают и не дают советов. Пациент должен сам прийти к правильному выводу. Конечно, для бота такой подход неуместен. Люди ждут от программы ответов, а не многозначительного молчания, хотят вести диалог на заданную тему.
У нас в дисклеймере чётко написано, что наш продукт нельзя использовать, если у вас серьёзные психические заболевания (например, настоящая депрессия) или органические поражения. В таких случаях надо обращаться к специалисту.
«Сабина» поможет, если у вас наблюдаются небольшие проблемы — например, осенняя хандра или прокрастинация.
В описании к определению «Сабины» как психолога мы добавляем слово «житейский». То есть разговор с программой подобен вечерней беседе с другом на кухне. Такое общение может способствовать изменению мировоззрения человека.
А это как раз то, чего в когнитивно-поведенческой терапии психологи стремятся достичь, — менять мировоззрение и способ мышления клиентов в отношении к проблемной ситуации.
— Как пользователи отзываются о продукте?
— Разброс мнений огромный — от любви до ненависти. Многие пишут, как круто общаться с программой, хвалят. Но есть и те, кто ругается, говорит, что всё очень плохо и такие продукты никому не нужны.
В этом разница между настоящим ИИ и приложениями, которые работают по чётким алгоритмам, по заранее прописанным сценариям. Основная «фишка» нейросетей — в некоторой непредсказуемости, свободе ведения разговора. Но в результате этого могут случаться кейсы, которые не совпадают с ожиданиями пользователя. И это приводит к негативным отзывам.
При этом диалоги в «Сабине» выглядят естественно. Программа подстраивает ответы под запросы юзера. Специалисты-психологи, с которыми я общался, говорят, что свободный разговор на психологические темы полезнее, чем простой проход по сценарию. Хотя подтвердить это научно обоснованными исследованиями мы пока не можем.
Как выглядит рабочий день
Нужно ли работать в офисе, зависит от компании. На hh.ru можно найти около 25% вакансий удаленной работы. Иногда компании предлагают комбинировать работу из офиса и из дома. Взаимодействие с командой зависит от масштаба задач: новичок, готовящий данные к анализу, может общаться только с руководителем, а синьор должен общаться с заказчиками и делегировать задачи команде.
Как правило, рабочий день начинается с разбора почты и общения с командой. Затем нужно писать SQL-запросы и готовить массивы информации к машинному обучению, писать код модели на Python и прогонять данные через модель. В процессе работы нужно периодически созваниваться с командой и менеджерами, которые будут использовать модель на практике.
Станьте дата-сайентистом на курсе с МГУ и решайте амбициозные задачи с помощью нейросетей
Подробнее