Data Secrets | Карьера
6.83K subscribers
1.27K photos
58 videos
1 file
1.45K links
Вакансии Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks

Прислать вакансию/сотрудничество: @veron_28

https://telega.in/c/data_secrets_career
Download Telegram
Middle/Senior Data Engineer
Проектная работа на фул-тайм
Удаленно (гражданство РФ, РБ)

Предстоит: Выбор оптимальных инструментов исходя из специфики данных и реализация процессов их хранения, обработки и обслуживания; Поддержка технической и бизнес-команд: обработка заявок на поддержку существующих потоков данных или разработку новых, заведение и контроль исполнения заявок внутренних команд…. Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Data Аналитик в Сбер
Офис в Москве

Предстоит: Разрабатывать и тестировать статистические и машинно-обучаемые модели для прогнозирования рисков и доходностей в страховании и инвестициях; Интегрировать лучшие практики и стандарты в области моделирования, повышая точность и надежность прогнозов…. Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Кто работает в OpenAI?

Один энтузиаст подготовил подробный анализ сотрудников OpenAI: как быстро растет штат, каких специалистов больше, какое у них образование:

➡️Львиная доля сотрудников (33,9%) — это инженеры, а доля исследователей составляет всего 4,9%.

➡️Среди университетов, где учились сотрудники компании Альтмана, все входят в топ лучших в мире. Самые популярные из них — Стэнфорд, Беркли, Массачусетский технологический институт, Карнеги-Меллон и Гарвард.

➡️Среди инженеров 35,8% получили высшее образование в области компьютерных наук, а 27,7% отдали предпочтение вычислительным наукам. На удивление, всего 3,5% учились непосредственно по направлению ИИ.

https://seo.ai/blog/how-many-people-work-at-openai
Please open Telegram to view this post
VIEW IN TELEGRAM
215
Product analyst/Data analyst в WIT
От 3.000€

Удаленно (вне РФ)

Предстоит: Оцифровка, оптимизация, автоматизация бизнес-процессов – воронки продаж, маркетинговая отчетность, каналы привлечения и т. д.; Прикладная бизнес-аналитика на базе сформированных отчетов. Общение с топ-менеджментом в целях развития бизнеса…. Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
6
На прошлой неделе Гарвард опубликовал книгу по системам МЛ в открытый доступ

Если вы посмотрите на оглавление, то увидете, что в этой книге есть буквально все: дата инжиринг, обучение моделей, погружение в фреймворки, оптимизация, MLOps, даже есть отдельный блок под названием AGI Systems.

В общем, Гарвард постарался на славу, поэтому обязательно стоит глянуть, ведь не зря же авторы исписали целых 2500 станиц?
25
Senior Data Engineer
Офис / Гибрид / Удаленно
в Москве (удаленка на территории РФ)

Требования: Опыт работы с Python или Java (Python предпочтительно). Знание библиотек для обработки данных (например, Pandas, NumPy, Apache Spark). Опыт работы с SQL (на уровне продвинутого уровня)…. Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Middle DS LLM Engineer
Офис / Гибрид / Удаленно в Москве (удаленка на территории РФ)

Требования: Сильные навыки в Python; Опыт работы с библиотеками для машинного обучения и NLP (например, TensorFlow, PyTorch, Hugging Face Transformers); Глубокое понимание базовых и продвинутых методов машинного обучения (например, линейные модели, решающие деревья, нейронные сети)…. Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Новое исследование IT-рынка: массовое сокращение специалистов на фоне их нехватки

➡️ В период с 22 по 25 года 55% айтишников попали под сокращение. В основном увольнения приходились на крупные города, например, в Москве было уволено 56% айтишников.

➡️ Чаще всего увольняли представителей продуктовых команд (61%) и разработчиков (51%).

➡️ Примечательно, что в российской ИТ-отрасли в настоящее время есть некий «дисбаланс между спросом и предложением» в сферах разработки, поддержки, инфраструктуры, кибербезопасности и искусственного интеллекта.

➡️ Например, летом 2025 г. в России было размещено около 44 тыс. соответствующих вакансий. А вот подходящих под них резюме в стране было обновлено в пределах 260 тыс., то есть примерно в пять раз больше.

➡️ Также, заметно замедлился процесс найма. Теперь работодатели «гораздо тщательнее подходят к найму и чаще перераспределяют внутренние ресурсы, чем открывают новые позиции».
Please open Telegram to view this post
VIEW IN TELEGRAM
7
Middle+ Data Scientist/Data Engineer в Сбер
Удаленно

Предстоит: Создание и поддержка масштабируемых пайплайнов обработки данных и участие в разработке решений для персонализации ответов клиентам и оценки рисков...Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Python-разработчик в Хоббика
От 150.000 до 200.000₽

Удаленно / Гибрид / Офис в Москве


Предстоит: Разработка агентных систем;Работа с Postgres и графовыми БД; Интеграции API; Развертывание решений на собственной инфраструктуре...Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Время страшных историй: как HR переиграли опытного ML-щика

Герой этой истории считал себя сильным переговорщиком: играл с офферами крупных компаний, уверенно повышая планку. Но в этот раз жизнь решила преподать ему урок.

История началась с оффера от компании N, создающей вертикальные фермы с компьютерным зрением. Проект звучал идеально: роботы, замкнутые экосистемы, еда будущего. Глава ML оказался учёным-единомышленником, с которым они сразу нашли общий язык. Казалось, это работа мечты.

И тут случилось страшное: пришел оффер в 42.000$ в год против текущих 105.000$.

Герой истории оказался на распутье: с одной стороны интереснейший проект с низком зарплатой, с другой стороны менее привлекательная работа, но с выской зп.

И вот рука уже почти тянется написать "согласен". Он даже убедил себя, что "проживет на дошираке". Но тут на помощь пришел опытный друг, который посоветовал все же поднять планку.

О, чудо, компания "нашла" еще 30.000$, хотя в начале переговор сообщили, что бюджета нет. Но и тут оказалось не все так просто: мл-специалист рассказал, что провел десятки звонков и написал сотни писем ✝️. Несколько раз все висело на волоске.

История закончилась довольно грустно: оффер составил 60 тысяч в год после налогов, да еще и с падением дохода через год и сложностями релокации.

Интересная работа или кошелек? 🎃
Please open Telegram to view this post
VIEW IN TELEGRAM
17
ТАСС: средние зарплаты айтишников выросли на 15%

🔷 Помимо роста зарплаты доля вакансий в IT-секторе увеличилась на 7,5% по сравнению с 2024 годом, а средняя оплата труда увеличилась до 146,5 тысяч.

🔷 Медианная зарплата составила 83 тыс. рублей, что на 15,9% выше, чем в прошлом году.

🔷 Если рассматривать зарплаты по регионам, то специалисты в Москве в средне получают 222,8 тысяч, в Чукотском автономном округе - 207,7 тыс., МО - 179,3 тыс., в Санкт-Петербурге - 177,3 тыс. рублей.

🔷 Несмотря на такие положительные показатели, доля резюме в отрасли снизилась на 5,9%.

🔷 Зарплатные предложения в сфере IT в вакансиях, опубликованных по всей России, выросли на 16,7%, а прирост зарплатных ожиданий соискателей составил 8,5%.
Please open Telegram to view this post
VIEW IN TELEGRAM
9
Middle/Senior Data Scientist
Офис / Гибрид / Удаленно в Москве, Санкт-Петербурге, Новосибирске (удаленка на территории РФ)

Предстоит: Добыча данных – умные системы для поиска товаров, контактов, описаний и других данных, связанных с компаниями; Поддержка актуальности информации о компаниях – с помощью данных и моделей проводим валидацию существующей информации о компаниях, добываем новую
…. Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Каждый раз, когда модель обучается:
141
Разработчик для ML-платформы

Требования: Уверенное знание NextJs, React, PrismaORM, FSD; Опыт в ML(работа с transformers, datasets, pytorch); Среднее-хорошее понимание Docker, Nginx, Redis, Rabbitmq, gRPC, S3 было бы хорошим фактором знакомство с docker-swarm…. Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Разбор вопроса с собеседования в Microsoft: Почему в основном используют деревья в качестве базовых алгоритмов в бустинге? Почему не подходят линейная регрессия или SVM?

Первое, что вам может прийти в голову - «Потому что линейные модели не могут аппроксимировать нелинейные зависимости». Тут вы, конечно, будете правы, но такой ответ не покажет глубины знаний, так как нет в этом ответе рассуждений.

Рассмотрим простой алгоритм бустинга:
1️⃣ Обучаем дерево решений
2️⃣ Вычисляем остаточную ошибку
3️⃣ Обучаем следующую модель на этой ошибке
4️⃣ Повторяем шаг 2

По идее, нам необязательно брать в качестве базовой модели - дерево решений, тк всё, что нам нужно, — это остаток, который можно получить из любой модели. Это показывает, что, хотя бустинг часто ассоциируется именно с деревьями, сам алгоритм не зависит от типа базовой модели. В sklearn, например, можно использовать другой базовый алгоритм с AdaBoost.

Так почему же деревья?

Причина проста. Табличные данные — это довольно сложная структура:
- Переменные могут иметь скошенное распределение
- В признаках могут быть содержать Nan
- Разные признаки могут иметь разные масштабы
- Могут встречаться категориальные переменные
- И многое другое.

Использование стандартных алгоритмов в качестве базовых потребует тщательной очистки данных и feature engineering.

Но с деревьями все попроще Их можно просто применить к любому набору данных, и они сразу начнут обучаться (а иногда и переобучаться).

Кроме того, поскольку постоянно добавляем новые модели для аппроксимации остатков, распределение зависимой переменной (в случае регрессии — остатка) постоянно меняется. Тот feature engineering, который был применен на первом шаге бустинга, скорее всего, не будет эффективен на последующих шагах, что потребует дополнительного ручного вмешательства. Что немного неудобно.

Использование же деревьев решает эту проблему, поскольку они способны работать с любыми данными при минимальной feature engineering.
Please open Telegram to view this post
VIEW IN TELEGRAM
135
Архив обновил политику публикаций статей в области компьютерных наук

Теперь обзорные статьи и позционные документы должны быть сначала опубликованы в цитируемых журналах или конференциях и также успешно пройти процесс peer review. Перед подачей статьи также важно предоставить документальное подтверждение успешного прохождения рецензирования.

Дело в том, что такие правила вводят из-за огромного потока статей по компьютерным наукам генерируемых ИИ. Генеративные модели усугубили ситуацию, сделав написание статей - особенно тех, которые не представляют новых научных результатов - быстрым и легким.

"В прошлом arXiv CS получал относительно небольшое количество обзорных статей, и те, что мы получали, были чрезвычайно высокого качества, написанные senior-исследователями по запросу крупных изданий. Подачи позиционных документов в arXiv были редки и обычно создавались научными обществами или государственными рабочими группами. В настоящее время подача статей резко возросла. Появление LLM сделало создание такого контента легким, и большинство получаем обзорных статей представляют собой не более чем аннотированные библиографии без существенного обсуждения открытых исследовательских проблем."
17
Senior ML Engineer в HighSky
От 5.000 до 9.000$

Предстоит: разрабатывать MVP-решения для задач из различных областей (генерация текста / аудио, сбор данных, извлечение блокчейн данных) 
проектировать и разрабатывать архитектуру решения задач, выбирать подходящие БД и другие инфраструктурные компоненты
…. Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
6
This media is not supported in your browser
VIEW IN TELEGRAM
Нашли визуализацию статей NeuralPS

Энтузиаст разметил почти 6 тысяч работ с NeuralPS по кластерам: большие кластеры распадаются на мелкие, что позволяет интуитивно изучать нужные темы. А наведя курсор на любую статью, вы получите не только аннотацию, но и готовый краткий обзор с результатами.

В ходе такой работы выяснилось, что у 28% статей основной фокус сосредоточен мультимодальности, темой 13% является RL и столько же процентов занимают статьи по ризонингу и оценкам.

Отдельное спасибо автору идеи за подробное объяснение того, как именно происходило извлечение текста, кластеризация и подкластеризация, суммаризация:

На первом этапе абстракты преобразовывались в эмбеддинги, а затем их размерность уменьшалась с помощью UMAP, чтобы их потом можно было отобразить на плоскости + этот шаг нужен был для визуальной группировки.

Затем на этих данных использовался K-means, который создавал множество мелких кластеров. Центры этих кластеров затем снова кластеризуются, чтобы получить более крупные кластеры (опять же для удобства визуализации)

Зачем придумывать имена кластерам самостоятельно? Вот и автор так решил, поэтому использовал для этого LLM, передавая статьи из каждого кластера. Чтобы названия не дублировались, присвоение имен шло снизу вверх: сначала имя назначалось для маленькой группы из нескольких статей, а затем на основе уже готовых названий придумывалось новое имя для большого кластера.

Завершающие штрихи визуализации делались с использованием библиотеки datamapplot.
17
Middle/Senior Ai-разработчик
Проектная работа на фултайм (удаленка на территории РФ)

Требования: SQL на уровне вложенных запросов; Желателен опыт работы с LangChain, LangGraph 
…. Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Middle Data Scientist в Золотое Яблоко
Удаленно / Офис / Гибрид в Москве

Требования: Заниматься обработкой данных для обучения; С помощью нейронных сетей дообучать представления текста и изображений для решения задачи матчинга; Много экспериментировать (и с данными, и с моделями, и с архитектурой)…. Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
10