Как стать дата-сайентистом с нуля самостоятельно — мой путь в Data Science без опыта в 2026 бесплатно
Я вошёл в Data Science, когда у меня не было ни профильного образования, ни опыта в программировании, ни понимания, что такое градиентный спуск. Первые три месяца учился хаотично — смотрел YouTube, читал статьи на Хабре, проходил случайные курсы на Stepik. Результат: каша в голове и ноль практики. Потом выстроил систему — и через восемь месяцев получил первый оффер.
Прежде чем читать дальше — пройдите бесплатную профориентацию. Data Science — зонтичный термин, под которым прячутся минимум три разные профессии: аналитик данных, ML-инженер и дата-инженер. У них разный стек, разные задачи и разная зарплата. Без понимания, куда именно вы идёте, есть риск учить не то два года подряд.
Три стратегии бесплатного старта
Стратегия 1. Строишь базу через открытые материалы крупных школ
Большинство топовых школ открывают часть программы бесплатно. Там реально можно найти полезный контент. Я начал с бесплатного вебинара от Нетологии «Data Science: будущее для каждого». Три занятия, где объясняют разницу между аналитиком, Data Scientist и ML-инженером. После него у меня наконец сложилось понимание, какой навык качать в первую очередь.
Затем я зарегистрировался на бесплатный буткемп от Skillbox «Data Science с нуля за 5 дней». Практические задачи прямо в браузере, Python с нуля, первые манипуляции с датасетами. Это была моя первая живая работа с данными.
Яндекс Практикум открывает первые уроки бесплатно. Там есть интерактивный тренажёр, в котором пишешь настоящий Python-код прямо в браузере. Первые три часа доступны без оплаты.
Стратегия 2. Kaggle как тренажёр — с первого дня
Kaggle — платформа для соревнований по машинному обучению. Там есть бесплатный раздел Learn с курсами по Python, Pandas, SQL и ML. Я прошёл курс по Pandas за четыре дня. Каждый урок заканчивается задачей, которую нужно решить в ноутбуке. Никакого видео, только код и результат.
После базы Pandas я взял один из открытых датасетов в Kaggle Datasets, написал простой exploratory data analysis и опубликовал его. Первый публичный проект через две недели после начала обучения. На собеседовании о нем спрашивали.
Соревнования типа Titanic и House Prices. Стандартные учебные задачи. Потому что под каждую из них есть тысячи опубликованных решений. Я разбирал чужой код построчно. Это учит быстрее, чем любой курс по теории.
Стратегия 3. Разбор чужих проектов на GitHub
GitHub завален репозиториями DS-проектов. Я нашёл несколько с хорошим README, форкнул, запустил локально и начал изменять код: менял параметры моделей, добавлял новые признаки, смотрел что меняется в метриках. Именно так я понял разницу между R² = 0.65 и R² = 0.91 на реальном примере, а не в теоретическом объяснении. Такие вещи спрашивают на техническом интервью.
Три пути в профессию: выберите свой
У всех разные стартовые условия. У кого-то есть деньги на курс, у кого-то — только время. Универсального варианта нет.
Путь 1. Полностью бесплатный — реально, но медленно
Я прошёл этот путь примерно на треть, прежде чем понял, что теряю слишком много времени на поиск структуры. Работает — если есть железная самодисциплина и готовность самостоятельно составлять программу.
- Шаг 1. Python. Начните с бесплатных уроков Яндекс Практикума или буткемпа Skillbox. Параллельно — курс Python на Kaggle Learn. Цель первых двух недель: уверенно писать функции, работать со списками и словарями, читать чужой код без сопротивления.
- Шаг 2. Pandas и NumPy. Kaggle Learn, бесплатно. Pandas — обязательный инструмент дата-сайентиста. Без умения чистить данные, делать groupby и merge не напишете ни один проект.
- Шаг 3. SQL. Сервис sqlzoo.net — полностью бесплатный тренажёр с задачами на реальных запросах. Минимум для джун-позиции: SELECT, GROUP BY, JOIN, оконные функции.
- Шаг 4. Машинное обучение. Курс на Kaggle Learn «Intro to Machine Learning». Деревья решений и случайный лес за пять занятий с практикой. После него — «Intermediate ML» на той же платформе.
- Шаг 5. Первый проект. Берёте открытый датасет с Kaggle, задаёте себе конкретный вопрос (какие факторы влияют на отток клиентов?) и отвечаете на него кодом. Публикуете на GitHub с нормальным README.
Минус пути: без обратной связи вы не знаете, правильно ли двигаетесь. Я несколько недель строил модели с утечкой данных (data leakage) и думал, что получаю хорошие результаты.
Путь 2. Бюджетный курс — оптимально для большинства
Если есть 90 000-140 000 рублей или возможность взять рассрочку — разумный выбор. Вы получаете структуру, ревью на проекты и дедлайны. Дедлайны важнее, чем кажется: без них большинство людей бросает на третьей теме.
- Нетология, «Data Scientist с нуля». 9.5 месяцев, 90 100 рублей (со скидкой 42%), рассрочка от 3950 рублей в месяц. Python, SQL, математика для ML, машинное обучение, нейросети. Диплом о профессиональной переподготовке. Можно начать в любой момент.
- Skillfactory, «Полный курс по Data Science». 12 месяцев, 135 000 рублей (скидка 50%), рассрочка от 3375 рублей в месяц. Плюс три курса в подарок. Упор на машинное обучение и нейронные сети, есть помощь в трудоустройстве.
- Бруноям, «Профессия Data Scientist». 8 месяцев, 108 900 рублей (скидка 40%), рассрочка от 9075 рублей в месяц. Python, аналитика данных, ML, нейронные сети. Ментор доступен на протяжении всего обучения.
- GeekBrains, «Профессия Data Scientist». 12 месяцев, 126 009 рублей, рассрочка от 2917 рублей в месяц. Самый низкий ежемесячный платёж среди бюджетных вариантов.
Мой совет: смотрите на наличие живого ревью проектов от куратора.
Путь 3. Полноценный курс с наставником и карьерным треком
Если хотите войти в профессию с сильным портфолио и поддержкой на этапе трудоустройства. Стоит дороже, но разница ощущается именно на финальном этапе, когда нужно объяснять свои решения на интервью.
- Яндекс Практикум, «Специалист по Data Science». 8 месяцев, 168 000 рублей, рассрочка от 15 500 рублей в месяц. Обучение через интерактивный тренажёр: пишете код и сразу видите результат. 15 проектов с ревью от практикующих специалистов. Помощь в поиске работы до 7 месяцев после выпуска. Есть расширенная версия на 16 месяцев за 212 000 рублей с углублённым ML и специализацией.
- Skillbox, «Профессия Data Scientist». 12 месяцев, 241 862 рубля (скидка 35%), рассрочка от 10 994 рублей в месяц. Сбор и обработка данных, ML, визуализация. Помощь в трудоустройстве с возможностью возврата денег при отсутствии результата.
- Нетология, «Data Scientist + курс в подарок». 9.5 месяцев, 88 300 рублей (скидка 47%), рассрочка от 5194 рублей в месяц. Три программы на выбор: базовая, расширенная и продвинутая с узкой специализацией в медицине или промышленности. Начать работать можно уже через 5 месяцев обучения.
- karpov.courses, «Принятие решений на основе данных. Data Science». 2 месяца, 70 000 рублей. Аналитика, машинное обучение, формулирование и проверка продуктовых гипотез. Подходит тем, кто уже знает Python и хочет быстро получить практику DS-подхода к принятию решений.
Что нужно знать о профессии до старта
Data Scientist — человек, который берёт данные, строит модели и переводит результаты в бизнесовые выводы. Но на рынке под этим названием прячутся три разные роли.
- Аналитик данных работает с SQL, Excel, Power BI или Tableau. Берёт готовые данные, отвечает на вопросы типа «почему упали продажи в октябре» и строит дашборды. Порог входа ниже, первая работа появляется быстрее.
- Data Scientist строит предиктивные модели: прогнозирует отток, рекомендует товары, классифицирует изображения. Python, scikit-learn, pandas — основной стек. Без математики здесь не обойтись.
- ML-инженер берёт модели дата-сайентиста и деплоит их в продакшн: FastAPI, Docker, Kubernetes, мониторинг. По сути ближе к разработчику, чем к аналитику.
Начинающим я советую двигаться в сторону аналитика данных или DS — туда больше вакансий на уровне Junior. ML-инженерию осваивают уже после того, как есть понимание работы моделей изнутри.
Зарплаты в 2026 году по реальным анонимным данным: Junior DS — 87-168 тысяч рублей, Middle — 230-340 тысяч рублей, Senior — 357-464 тысячи рублей. Lead в Яндексе, Сбере или Авито — от 420 тысяч рублей и выше.
Теория, которую нельзя пропускать
Я пытался пропустить математику и сразу перейти к sklearn. Через месяц умел запускать модели, но не понимал, почему одна работает лучше другой. На интервью это вскрылось на первом же вопросе про переобучение.
Вот минимум, без которого не работает:
- Линейная алгебра. Матрицы, векторы, транспонирование, скалярное произведение. Серия «Essence of Linear Algebra» от 3Blue1Brown на YouTube — 15 видео по 10-15 минут, покрывает всё нужное.
- Теория вероятностей и статистика. Нормальное распределение, матожидание, дисперсия, центральная предельная теорема. Проверка гипотез: t-тест, chi-squared, p-value. Без этого не сделать ни один A/B-тест, а они есть в половине DS-задач.
- Производные и градиент. На производных работает градиентный спуск. Достаточно понимать смысл производной как «насколько быстро меняется функция» и что такое градиент многомерной функции.
- Переобучение и регуляризация. Bias-variance tradeoff — один из самых частых вопросов на интервью. L1 и L2 регуляризация: зачем нужны и чем отличаются. За 30 минут разбирается на любом примере.
- Метрики качества моделей. Accuracy, precision, recall, F1, ROC-AUC — для классификации. MAE, MSE, RMSE, R² — для регрессии. Когда какую метрику применять — отдельный навык, нарабатывается только на практике с реальными задачами.
Хорошая книга для старта — «Hands-On Machine Learning» Обрена Жерона. Читается тяжело, но там и теория, и код на каждую страницу. Для тех, кто хочет проще и быстрее — «Введение в машинное обучение с помощью Python» Мюллера и Гвидо: меньше математики, больше практики.
Как собрать портфолио без реальных заказов
Главный страх новичков: «у меня нет опыта, кто меня возьмёт». Опыта нет ни у кого на старте. Портфолио строят по-другому.
- Способ 1: анализ публичных датасетов с выводами. Берёте датасет с Kaggle или UCI Machine Learning Repository, формулируете конкретный вопрос и отвечаете на него. «Выясню, какие три признака сильнее всего влияют на стоимость квартиры». Ответ оформляете в Jupyter Notebook с визуализациями и интерпретацией, публикуете на GitHub с нормальным README.
- Способ 2: соревнование на Kaggle с подробным ноутбуком. Участие в Titanic или House Prices с подробным описанием каждого шага: почему выбрали именно эти признаки, почему попробовали Random Forest, что дало XGBoost. Работодателей интересует ход мышления, а не место в лидерборде.
- Способ 3: проект по реальной задаче из вашей жизни. Я сделал анализ собственных трат за два года. Парсил выгрузку из банка, кластеризовал категории расходов и построил прогноз на следующие три месяца. Простой проект, но настоящий. Каждую строчку кода я мог объяснить, потому что сам её писал с нуля.
- Способ 4: проекты с курса. Если идёте через Яндекс Практикум или Нетологию — там встроены проекты для портфолио.
Публиковать лучше на GitHub. Каждый репозиторий с нормальным README: что за задача, что за данные, какой метод выбран и почему, какой результат получился. Рекрутер смотрит на README в первую очередь.
Пример кейса для портфолио: как это выглядит в реальности
Разберу проект, который я сделал и который спрашивали на трёх интервью из пяти. Задача: предсказать отток клиентов телеком-компании.
Вот что я сделал, и именно такую структуру рекомендую повторять:
- Сформулировал бизнес-вопрос: «За 30 дней до отписки, можно ли предсказать, кто уйдёт, с точностью выше 75%?»
- Загрузил открытый датасет Telco Customer Churn с Kaggle (7043 записи, 21 признак).
- Провёл EDA: нашёл пропуски в 11 строках поля TotalCharges, выявил дисбаланс классов (73% не ушли, 27% ушли), посмотрел корреляции признаков.
- Подготовил данные: заполнил пропуски медианой, закодировал категориальные признаки через OneHotEncoder, стандартизировал числовые.
- Обучил три модели: логистическую регрессию, случайный лес, XGBoost. Метрика — ROC-AUC, потому что дисбаланс классов делает accuracy бессмысленной.
- XGBoost дал ROC-AUC 0.845 на тесте. Разобрал важность признаков: tenure (срок пользования) и Contract (тип договора) — главные предикторы оттока.
- Оформил ноутбук с выводами для бизнеса: в первую очередь работать с клиентами до 12 месяцев на помесячном контракте.
Именно такой формат: вопрос → данные → обработка → модель → интерпретация для бизнеса — работает и у новичков. Рекрутер видит ход мышления, а не размер данных.
Когда и где искать первую работу
Выходить на рынок нужно тогда, когда есть 2-3 проекта в портфолио и вы можете объяснить каждое решение. Если затрудняетесь ответить, почему выбрали Random Forest, а не логистическую регрессию — вы ещё не готовы к техническому этапу.
Где смотреть:
- hh.ru. Самая большая база. Фильтр «Junior Data Scientist» или «Data Analyst без опыта»;
- Habr Career. IT-ориентированные вакансии, именно там размещают Яндекс, Сбер, Авито и продуктовые стартапы;
- Telegram-каналы: «ML Вакансии», «DataJobs Russia», «Удалённая работа DS/ML»;
- Холодные обращения через LinkedIn или Telegram. Написать напрямую тимлиду команды, чья работа вам нравится. Третий мой оффер пришёл именно так: написал в Telegram человеку, чьи статьи на Хабре читал полгода.
На собеседовании вас будут спрашивать, как вы принимаете решения. Типичный формат технического интервью в 2026 году: скрининг с HR на 20-30 минут, затем техническое на 60-90 минут, затем поведенческое. Готовьтесь рассказывать каждый проект по структуре: задача, данные, метод, результат, что бы сделали иначе.
Рынок в 2026 году перенасыщен людьми, которые умеют запустить .fit() и .predict(), но не понимают, что происходит внутри. На интервью именно это и проверяют. Классические вопросы про переобучение и регуляризацию L1/L2 уже считаются базой уровня Junior, а не чем-то продвинутым.
Вот вопросы, которые задавали мне на пяти интервью подряд:
- Что такое переобучение и как вы с ним боретесь?
- Чем отличается L1-регуляризация от L2 по эффекту на признаки?
- Почему accuracy плохая метрика при дисбалансе классов?
- Что такое градиентный спуск и почему он сходится не всегда?
Сколько времени реально нужно
Честный ответ: при занятиях 5-8 часов в неделю от 10 до 14 месяцев до первого оффера. При интенсивном режиме 15-20 часов в неделю — 6-8 месяцев.
Подготовка к собеседованию на Junior DS занимает от 3 до 6 месяцев интенсивной практики после базового обучения. Активные отклики нужно начинать параллельно с подготовкой, а не после.
Что ускоряет:
- Живое ревью кода от практикующего дата-сайентиста. Один разбор заменяет две недели самостоятельного блуждания;
- Проекты на реальных данных, где вы сами ставите вопрос и сами ищете ответ;
- Решение задач на Kaggle с разбором топовых решений. Читать чужой код построчно;
- Ежедневная практика: даже 15 минут в день на sqlzoo.net или leetcode даёт заметный результат через месяц.
Что тормозит:
- Бесконечное прохождение теоретических курсов без практики;
- Обучение без обратной связи: делаете вроде бы правильно, но никто не говорит, где ошибки;
- Изучение глубокого обучения и трансформеров до того, как освоена линейная регрессия и работа с pandas.
Мои главные ошибки на старте
- Учил нейросети, не умея в базовую статистику. Первые два месяца я смотрел видео про LSTM и трансформеры. Они казались мне самым интересным. На первом же серьёзном интервью меня спросили про p-value и доверительный интервал. Я плыл. После этого вернулся к статистике и потратил ещё три недели на то, что можно было пройти в начале за пять дней.
- Делал проекты без вопроса. Брал датасет и начинал смотреть, что там. Через неделю получался хаос с графиками без выводов. «Проект начинается с конкретного вопроса: Можно ли предсказать X с точностью выше Y?» Только тогда есть что рассказывать на интервью.
- Оптимизировал метрику на обучающей выборке. Я радовался точности 97%. Пока не узнал, что модель просто запомнила обучающие данные и работала бы на новых с точностью 61%. Кросс-валидация и правильное разбиение на train/test/validation — первое, чему учат на реальной работе. До этого мне никто не объяснял.
- Добавлял признаки, не понимая, что они означают. В одном из проектов я добавил признак «ID клиента» в модель. И получил отличные метрики. Модель просто выучила конкретных клиентов из обучения. Это классический data leakage, про него спрашивают на каждом втором интервью уровня Junior+.
- Боялся публиковать плохой код. Два месяца я не выкладывал проекты на GitHub, потому что код казался мне недостаточно чистым. Позже понял: рекрутер смотрит на логику и выводы, а не на PEP8. Первый опубликованный проект принёс мне первый оффер.
Стек дата-сайентиста в 2026 году
За три года рынок заметно изменился. Если в 2022-м достаточно было знать pandas и sklearn, то сейчас работодатели ожидают понимания более широкого стека.
Обязательный минимум для Junior:
- Python — pandas, NumPy, scikit-learn, matplotlib/seaborn;
- SQL — SELECT, JOIN, GROUP BY, оконные функции (ROW_NUMBER, LAG, LEAD);
- Jupyter Notebook / JupyterLab;
- Git — базовые команды, работа с GitHub;
- Статистика — проверка гипотез, A/B-тесты, распределения.
Желательно для первой работы:
- Основы машинного обучения: линейная и логистическая регрессия, деревья решений, случайный лес, XGBoost, градиентный бустинг;
- Метрики качества: уметь объяснить, когда применять ROC-AUC, а когда precision-recall;
- Базовая визуализация: Plotly или Streamlit для простых дашбордов;
- Docker на уровне могу запустить контейнер с проектом.
Что учат после первой работы:
- MLflow для отслеживания экспериментов;
- FastAPI для создания ML-сервисов;
- Airflow для оркестрации пайплайнов;
- LLM API: интеграция с OpenAI, работа с embeddings;
- Продвинутые архитектуры нейронных сетей.
По требованиям реальных вакансий Junior DS в 2026 году: Python, pandas, SQL, scikit-learn — в 90% объявлений. XGBoost и Git — в 70%. Docker и базовые знания MLflow — уже в 40%, и этот процент растёт.
FAQ: частые вопросы
Нужно ли высшее образование в математике или CS?
Формально — нет. Я видел людей с дипломом историка, которые получили оффер в DS через год обучения. Но математическая база ускоряет понимание алгоритмов в разы. Если у вас нет технического образования — потратьте на математику в два раза больше времени, чем планировали.
Достаточно ли Python для старта, или нужно учить R?
Python. R используется преимущественно в академической среде и в биостатистике. На продуктовых позициях в российских компаниях R почти не встречается. Весь Stack Overflow, Kaggle и GitHub по DS — на Python.
Нужен ли английский язык?
На старте можно обойтись. Большинство качественных курсов переведено на русский, документация scikit-learn читается даже при базовом английском. Но для уровня Middle и выше английский становится критически важным: лучшие статьи по ML выходят на английском, передовые архитектуры описаны только на нём. Я начал читать arxiv через три месяца после первой работы — поначалу медленно, потом втянулся.
Сколько проектов нужно в портфолио для первого оффера?
Два сильных проекта лучше, чем пять слабых. Сильный — это когда вы можете 20 минут рассказывать: почему такой датасет, почему такой метод, что пробовали, что не сработало, какой вывод для бизнеса. Слабый — это прошёл туториал с Kaggle и выложил без изменений.
Можно ли найти работу без опыта в IT вообще?
Да, но это удлиняет путь примерно на три месяца. Люди с опытом в смежных областях — финансовый анализ, маркетинговая аналитика, биология или медицина — часто имеют преимущество на нишевых позициях. Банки охотно берут DS с финансовым бэкграундом, фарма — с биологическим. Подумайте, в какой отрасли ваши прошлые знания дают вам фору перед чистыми технарями.
Как найти ментора?
Четыре рабочих способа: телеграм-чаты DS-сообществ (ODS.ai — крупнейшее в России), Habr Career с возможностью написать специалистам напрямую, митапы — они регулярно проходят в Москве, Петербурге и онлайн, и наконец — ревью кода на GitHub. Некоторые опытные DS периодически оставляют публичные объявления о менторстве в своих Telegram-каналах.










