Forwarded from Data Events
AI-Development Conf
Список докладов – ну просто Ух!.. (прям даже обидно, что у нас тут погода хорошая, почти летняя – придётся отлучиться побегать или мячик побить, чтоб потом не FOMOить!😅 )
1. Как копилот генерит код? Идем под капот
2. AI Architecture-Driven Development
3. RAG система за час
4. Как и что писать агенту, чтобы он делал то, что нужно
5. Мечтают ли LLM о self service аналитике?
6. День сурка: сценарии, воркфлоу и вайбкодинг против рутины
7. Прогибаемся под сильные стороны LLM в разработке
Список докладов – ну просто Ух!.. (прям даже обидно, что у нас тут погода хорошая, почти летняя – придётся отлучиться побегать или мячик побить, чтоб потом не FOMOить!
1. Как копилот генерит код? Идем под капот
2. AI Architecture-Driven Development
3. RAG система за час
4. Как и что писать агенту, чтобы он делал то, что нужно
5. Мечтают ли LLM о self service аналитике?
6. День сурка: сценарии, воркфлоу и вайбкодинг против рутины
7. Прогибаемся под сильные стороны LLM в разработке
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Dev events
AI-Development Conf
🗓 08 ноября, 11:00–15:00 мск, Суббота
🌐 ОНЛАЙН
✅ Регистрация на мероприятие
1. Как копилот генерит код? Идем под капот — Авенир Воронов, директор по внедрению копилотов, Explyt ai
Как копилоты генерируют код, сравнив принципы работы…
🗓 08 ноября, 11:00–15:00 мск, Суббота
🌐 ОНЛАЙН
✅ Регистрация на мероприятие
1. Как копилот генерит код? Идем под капот — Авенир Воронов, директор по внедрению копилотов, Explyt ai
Как копилоты генерируют код, сравнив принципы работы…
Forwarded from Data engineering events
Так, ну если в #Iceberg уже вкатитились (я ещё не успел посмотреть), то можно продолжать и вкатываться в #ClickHouse (но тут вероятно будет для самых юных вкатунов – любят они Евгения Халлтаповича)! Как раз добрую половину modern lakehouse стека закрыть можно 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Архитектор Данных
Lakehouse: открытая встреча / демо, Алексей Белозерский, VKCloud
Друзья, тема Lakehouse внезапно оказалась очень востребованной.
Завтра во вторник 11 ноября вечером в 18:00 МСК мы проведем с Алексеем Белозерским открытую встречу!
Обсудим:
— Зачем нужен…
Друзья, тема Lakehouse внезапно оказалась очень востребованной.
Завтра во вторник 11 ноября вечером в 18:00 МСК мы проведем с Алексеем Белозерским открытую встречу!
Обсудим:
— Зачем нужен…
Алексей с канала @rzv_de написал интерактивный тренажёр
"Распределение, партицирование и #SCD2 в Greenplum", делюсь с вами:
gpskew.rzvde.pro
У начинающих в дата инженерии часто есть трудности с пониманием этих концепций, нет визуальной картинки.
Теперь можно за 20 минут такую составить и разобраться с этими терминами для следующего собеседования или оптимизации кода на работе
"Распределение, партицирование и #SCD2 в Greenplum", делюсь с вами:
gpskew.rzvde.pro
У начинающих в дата инженерии часто есть трудности с пониманием этих концепций, нет визуальной картинки.
Теперь можно за 20 минут такую составить и разобраться с этими терминами для следующего собеседования или оптимизации кода на работе
gpskew.rzvde.pro
Пойми распределение и партиционирование в Greenplum
Разберись в основных концепциях MPP систем на примере Greenplum через интерактивную демонстрацию. Стань востребованным дата инженером!
🔥2
AI Dev Tools Zoomcamp 20...
DataTalksClub ⬛
#AIDevToolsZoomcamp is starting!.. 🚀
В общем, такой клёвый интерактивный гайд получился у Алексея (и он, кстати, собирает фидбек для его улучшения), крипта пытается отскочить, РФ-фонда – закрепиться, а тем временем через полчаса стартует AI Dev Tools Zoomcamp от сами знаете кого!)
- https://t.me/data_career/2102
- https://t.me/aidevtoolszoomcamp/7 – тут собираемся
- а тут у нас есть чатик для совместного прохождения: https://t.me/c/de_zoomcamp/553 / https://t.me/de_zoomcamp/553
- репа тут: github.com/DataTalksClub/ai-dev-tools-zoomcamp
А в посте аудио и саммари вводного ролика (предкурсовой Q&A для AI Dev Tools Zoomcamp) https://youtube.com/live/sUwrCnP2iGU
- видео есть тут: https://t.me/data_career_chat/2583
И перевод FAQ из https://t.me/aidevtoolszoomcamp/6
не всех 10ти самых популярных вопросов о Zoomcamp по инструментам разработки ИИ (все не влезли)):
В общем, такой клёвый интерактивный гайд получился у Алексея (и он, кстати, собирает фидбек для его улучшения), крипта пытается отскочить, РФ-фонда – закрепиться, а тем временем через полчаса стартует AI Dev Tools Zoomcamp от сами знаете кого!)
- https://t.me/data_career/2102
- https://t.me/aidevtoolszoomcamp/7 – тут собираемся
- а тут у нас есть чатик для совместного прохождения: https://t.me/c/de_zoomcamp/553 / https://t.me/de_zoomcamp/553
- репа тут: github.com/DataTalksClub/ai-dev-tools-zoomcamp
А в посте аудио и саммари вводного ролика (предкурсовой Q&A для AI Dev Tools Zoomcamp) https://youtube.com/live/sUwrCnP2iGU
- видео есть тут: https://t.me/data_career_chat/2583
Предкурсовая сессия вопросов-ответов с Алексеем Григорьевым перед стартом когорты. Курс бесплатный, старт — 18 ноября 2025; основная коммуникация — YouTube/Slack/Telegram.
Формат и сертификат
Материалы и записи открыты. Сертификат — после выполнения финального проекта и peer-review.
Требования и аудитория
Нужны базовые навыки программирования и работы с командной строкой; курс для всех, кто пишет код и хочет встроить ИИ в рабочий процесс.
Структура курса (6 модулей)
• Введение: vibe-coding и обзор ИИ-инструментов
• End-to-end проект (React/TS + FastAPI/OpenAPI, CI/CD, деплой)
• MCP: подключение инструментов (FS, DB/SQL, HTTP/API, CI), практические сценарии
• Построение собственного coding-агента (на базе Django)
• ИИ для тестирования, PR-ревью, CI/CD и DevOps
• Автоматизация в n8n (LLM-ноды, вебхуки, коннекторы).
Инструменты, о которых говорили
Chat-модели (ChatGPT, Claude, DeepSeek, Microsoft Copilot), IDE-ассистенты (Copilot, Cursor, Claude Code, Pear), бутстрапперы (Bolt, Lovable), агенты (в т.ч. с MCP), n8n для low-/no-code автоматизаций. Некоторые штуки платные/по подписке, но акцент на доступных вариантах.
Ключевая мысль про workflow
Фокус разработчика смещается от «писать код» к «читать/проверять/улучшать код, сгенерированный ИИ», плюс умение правильно организовать инструменты и пайплайн вокруг этого.
И перевод FAQ из https://t.me/aidevtoolszoomcamp/6
не всех 10ти самых популярных вопросов о Zoomcamp по инструментам разработки ИИ (все не влезли)):
1. Какова цель Zoomcamp по инструментам разработки ИИ?
Помочь разработчикам стать более продуктивными и эффективными, используя современные инструменты ИИ для более быстрого написания кода.
2. Для кого предназначен курс?
Курс предназначен для всех, кто пишет код, включая инженеров MLOps, инженеров ML, инженеров ИИ и разработчиков программного обеспечения. Он сосредоточен на рабочих процессах разработки программного обеспечения, а не на задачах, связанных с конкретными данными.
3. Каковы предварительные требования к курсу?
Рекомендуется иметь базовые знания в области программирования и командной строки.
4. Какие темы освещаются?
🔸 Обзор чат-ботов, помощников по кодированию и агентов искусственного интеллекта.
🔸 Создание комплексного проекта (фронтенд + бэкенд + база данных).
🔸 Понимание агентов ИИ и MCP
🔸 Создание настраиваемого агента кодирования
🔸 Использование ИИ для автоматизации DevOps с помощью таких инструментов, как n8n
5. Требуется ли для курса платная подписка LLM?
🔸 Модуль 1: Бесплатно (работает с бесплатными инструментами, такими как Groq или Gemini)
🔸 Модуль 2: Вероятно, требуется Cursor (20 долларов в месяц) или GitHub Copilot (10 долларов в месяц)
🔸 Модуль 4: Небольшой депозит API (~5 долларов) для OpenAI или Anthropic
9. Как меняется рабочий процесс разработчика с помощью инструментов искусственного интеллекта?
Разработчики переходят от написания кода к чтению, проверке и улучшению кода, сгенерированного ИИ.
10. Могу ли я пройти курс после окончания когорты?
Да, материалы доступны для самостоятельного обучения.
Однако самостоятельное обучение не включает сдачу домашних заданий, оценку проектов и возможность получить сертификат.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Продуктовые аналитики — профессиональные детективы 🔎 Докажите это, разгадав тайну «уснувших» покупателей.
Проведите собственное расследование с решением квиза и продуктового кейса. За самые быстрые и точные результаты детективы получат призы от Lamoda.
Как принять участие:
1. Пройдите квиз и предложите решение продуктового кейса
2. Примите участие до 18 декабря.
Результаты всех финалистов попадут в общий лидерборд, поэтому делитесь ссылкой с коллегами-аналитиками, чтобы повысить градус соревновательности!
3. Дождитесь публикации поста с результатами в канале Lamoda Tech
Время пошло! Детали и задания ждут вас на сайте.
Реклама. ООО «Ламода Тех». ИНН 7734461512. erid:2W5zFHBqxrC
#Ребза 👋
Пора! Поравыходить из заходить в "зимнюю спячку"! 😂 Не в спячку, конечно, а совсем даже наоборот!
Вот лето и осень (которое тут у нас по факту было как продолжение лета – до декабря прям)) прошли,
- и даже ужепару почти тройку недель зимы уже! 🙈 (да воще НГ уже скоро!)
- и всё это время канал практически был в "отпуске" (как и я частично в этот период, хоть и не так долго, а жаль – пока что не достиг #FIRE-капитала от слова совсем – приходится работать не покладая...)),
И вот настало время выйти каналу из "отпуска"! (хотя бы на немного – до НГ😂 и проявить некоторую активность! Ведь не только работать и отдыхать – надо и перу дать пописать, пока не засохло совсем 😁
- тч не плохо бы саммари-#дайджест за этот период черкануть!
Штош, начнём...
Наверное, самое главное и заметное: ИИ-агенты и иже с ними плотно вошли в нашу жизнь, радикально изменив её...
- тут прям бездна всего...😅 Отложим, пожалуй, нырок в неё тут)
- надеюсь только, что все из вас прикоснулись к #SWE-агентам и поняли, что мир уже не станет прежним🙈
Data engineering:
- я сам из них, поэтому послеживаю в основном за ней)
- Из хайпового: AI семимильными шагами шагает и тут (можно глянуть 3й доклад тут + у его автора на его канале, но по этой теме вообще много всего везде, конечно!)
- В дата рынке продвигается всё более плотная интеграция DWH и DataLake (хоть #Lakehouse термин и совсем не нов, в отличие от какого-нибудь редкого #StreamHouse'a) за счёт таких технологий как #Iceberg (не надо тут про #Hudi и #Deltalake только)), Trino, #StarRocks (он же и как лейкхаус технлогия вроде продвигается? или только как #ClickHouse-киллер?😂 ) да и остальные SQL-движки проворно с ним интегрируются, что РФно/open-source'ные что забугорно-облачные
- Остальные "киллеры" вроде #Dagster, как #Airflow-киллер, и #SQLMesh пока не торопятся теснить монополистов (хотя и выглядит супер-интересно!), да и вряд ли это произойдёт скоро и быстро (это в тч к посту зелёного слоника скепсис))
- разве что в #Airflow3 появились откуда то навеянные [data?] assets😂
- #FiveTran купил SQLMesh быстрее, чем dbt🙈
Кстати, да!
- #dbt Cloud – практически мировой стандарт монополист SQL-driven EL[T] поглотился ещё более крупным вендором, и многие затаив дыхание следили, а многие другие судорожно форкали dbt-Core в страхе потерять open-source'сность некоммерческого ядра продукта
- но пока ничего такого не произошло они даже опенсорснули #MetricFlow (можно почитать про него тут ..., а тут, что он не такой уж сам по себе хорош)
- только узнал про #OpenDBT и эта штука хоть и непонятно, как будет развиваться параллельно с вендор-версией, но с другой стороны уже всосала в себя некоторые интересные фичи dbt Cloud, и даже пошла куда-то дальше – оч интересно, но пока непонятно что с ней будет!
- можно почитать про неё (а мб и последить там за ней дальше, кто знает)) тут
- другой столп мировой датаинженерии – #Airflow – получил крупнейшее мажорное обновление за хз сколько лет, что пошатнуло обратную совместимость, вызвало поначалу много фи, и судя по всем ещё долго минорные правки будут готовить этот релиз к большим продакшенам и миграциям (#Airflow3)
- как там с ним, кто пробовал?)
- #dlt... пока не удалось потрогать, но судя по плотной интеграции в Modern Data Stack (с теми же Dagster и OpenDBT) он стремительно развивается!
В остальном всё вроде по-старому:
- #Hadoop и #Greenplum давно уже не торты (ну по крайней мере, совсем не Modern Data Stack)), но по-прежнему держат позиции (хотя прогрессивные и мигрируют уже в #Iceberg)
Кому следить за трендами DE – неплохие дайджесты выходят тут
#RussianBI цветём всеми цветами, как обычно! (Сколько сейчас уже в "Круге Громова"?))
- из новинок – новый круг по ETL
- #Рома Бунин оформил свои знания и corp-BI-фрейворки как книгу – теперь можно прям по науке дэши пилить, не бизнес-импульсивностям))
Дальше текст не влезает) To be continued + будем эти темы разворачивать и чёнть ещё придумаем (материалов накоплено, как жирка у медведя на зиму))😁
PS выше ещё пост гляньте плз, а то дедлайн сорвал + не в топе ещё😅 #бап
Пора! Пора
Вот лето и осень (которое тут у нас по факту было как продолжение лета – до декабря прям)) прошли,
- и даже уже
- и всё это время канал практически был в "отпуске" (как и я частично в этот период, хоть и не так долго, а жаль – пока что не достиг #FIRE-капитала от слова совсем – приходится работать не покладая...)),
И вот настало время выйти каналу из "отпуска"! (хотя бы на немного – до НГ
- тч не плохо бы саммари-#дайджест за этот период черкануть!
Штош, начнём...
Наверное, самое главное и заметное: ИИ-агенты и иже с ними плотно вошли в нашу жизнь, радикально изменив её...
- тут прям бездна всего...
- надеюсь только, что все из вас прикоснулись к #SWE-агентам и поняли, что мир уже не станет прежним
Data engineering:
- я сам из них, поэтому послеживаю в основном за ней)
- Из хайпового: AI семимильными шагами шагает и тут (можно глянуть 3й доклад тут + у его автора на его канале, но по этой теме вообще много всего везде, конечно!)
- В дата рынке продвигается всё более плотная интеграция DWH и DataLake (хоть #Lakehouse термин и совсем не нов, в отличие от какого-нибудь редкого #StreamHouse'a) за счёт таких технологий как #Iceberg (не надо тут про #Hudi и #Deltalake только)), Trino, #StarRocks (он же и как лейкхаус технлогия вроде продвигается? или только как #ClickHouse-киллер?
- Остальные "киллеры" вроде #Dagster, как #Airflow-киллер, и #SQLMesh пока не торопятся теснить монополистов (хотя и выглядит супер-интересно!), да и вряд ли это произойдёт скоро и быстро (это в тч к посту зелёного слоника скепсис))
- разве что в #Airflow3 появились откуда то навеянные [data?] assets
- #FiveTran купил SQLMesh быстрее, чем dbt
Кстати, да!
- #dbt Cloud – практически мировой стандарт монополист SQL-driven EL[T] поглотился ещё более крупным вендором, и многие затаив дыхание следили, а многие другие судорожно форкали dbt-Core в страхе потерять open-source'сность некоммерческого ядра продукта
- но пока ничего такого не произошло они даже опенсорснули #MetricFlow (можно почитать про него тут ..., а тут, что он не такой уж сам по себе хорош)
- только узнал про #OpenDBT и эта штука хоть и непонятно, как будет развиваться параллельно с вендор-версией, но с другой стороны уже всосала в себя некоторые интересные фичи dbt Cloud, и даже пошла куда-то дальше – оч интересно, но пока непонятно что с ней будет!
- можно почитать про неё (а мб и последить там за ней дальше, кто знает)) тут
- другой столп мировой датаинженерии – #Airflow – получил крупнейшее мажорное обновление за хз сколько лет, что пошатнуло обратную совместимость, вызвало поначалу много фи, и судя по всем ещё долго минорные правки будут готовить этот релиз к большим продакшенам и миграциям (#Airflow3)
- как там с ним, кто пробовал?)
- #dlt... пока не удалось потрогать, но судя по плотной интеграции в Modern Data Stack (с теми же Dagster и OpenDBT) он стремительно развивается!
В остальном всё вроде по-старому:
- #Hadoop и #Greenplum давно уже не торты (ну по крайней мере, совсем не Modern Data Stack)), но по-прежнему держат позиции (хотя прогрессивные и мигрируют уже в #Iceberg)
Кому следить за трендами DE – неплохие дайджесты выходят тут
#RussianBI цветём всеми цветами, как обычно! (Сколько сейчас уже в "Круге Громова"?))
- из новинок – новый круг по ETL
- #Рома Бунин оформил свои знания и corp-BI-фрейворки как книгу – теперь можно прям по науке дэши пилить, не бизнес-импульсивностям))
Дальше текст не влезает) To be continued + будем эти темы разворачивать и чёнть ещё придумаем (материалов накоплено, как жирка у медведя на зиму))
PS выше ещё пост гляньте плз, а то дедлайн сорвал + не в топе ещё
Please open Telegram to view this post
VIEW IN TELEGRAM
кстати, вот прям ща случайно в чате одном наткнулся:
- всем кто пытается успеть дособеситься к НГ, мб не оч успешно, и уже подвыгорел – помните, что...😂 😁
как там с рынком вообще??
- правда не очень, как почти все говорят?
#собесы
- всем кто пытается успеть дособеситься к НГ, мб не оч успешно, и уже подвыгорел – помните, что...
как там с рынком вообще??
- правда не очень, как почти все говорят?
#собесы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
А вот вы это понимаете? Я к тем самым, у кого вдруг не выходят эти самые нахваленные выкрутасы с ИИ-агентами 😁
https://t.me/rockyourdata/5621?comment=51247
#SWE-агенты #swe_agents
https://t.me/rockyourdata/5621?comment=51247
#SWE-агенты #swe_agents
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Data & IT Career in Комментарии к постам Инжиниринг Данных (это не чат)
* jupYter
А вообще, пока ещё норм, с натяжкой, но скоро такие тезисы будут звучать применено как
- Я купил вчера твой нахваленный супер-молоток, и знаешь что?? Третьим ударом палец себе разх..рил к х..рам!
😁
А вообще, пока ещё норм, с натяжкой, но скоро такие тезисы будут звучать применено как
- Я купил вчера твой нахваленный супер-молоток, и знаешь что?? Третьим ударом палец себе разх..рил к х..рам!
😁
Ну вообще ладно, про ИИ сейчас из каждого утюга, а вот я тут внезапно посмотрел на название канала, и осознал… мы же тут не только про технологии и ИИ в тч собрались!
Вотпрямо сейчас обсуждаем вчера обсуждали целевой стек / #скиллсет для mid DE! 😁
https://t.me/digitalberd/3134/54883
- заходите, подключайтесь, дискутируйте..
#upd забыл самое главное!
- строку
поменять на
#skillset #mid #midDE
Вот
https://t.me/digitalberd/3134/54883
- заходите, подключайтесь, дискутируйте..
#upd забыл самое главное!
- строку
• Data Warehouse (Snowflake / BigQuery /RedshiftDatabricks)
поменять на
• Data Warehouse
- для РФ: ClickHouse / Trino / Spark + S3 / Iceberg / Hadoop / Greenplum*
- для загран: Snowflake / BigQuery / Databricks
* для РФ надо знать хорошо одну слева (и оч желательно ещё одну хотя бы немного) + что-то хотя бы одно справа
#skillset #mid #midDE
Please open Telegram to view this post
VIEW IN TELEGRAM
Анализ 400k вакансий hh.ru: как мы строили пайплайн и какие тренды нашли
- https://habr.com/ru/articles/979118
Такие заголовки всегда кликбейтят, ибо жаждущие умы / ярые вкатуны надеются обрести по ссылке сокровенные инсайты и узреть тайный путь к тем самым "300К/сек", а успешно работящие хотят глянуть на рынок, чтобы решить, когда заикаться о повышении или/и обновлять сиви😂
https://arc.net/l/quote/ewirvdqt
DSы могут сразу переходить к датасету: https://disk.yandex.ru/d/WC92JiyIumrQDQ
- впрочем датасет довольно бедный, даже текста вакансии нет, впрочем, можно перезагрузить, если оно есть в API (392748 записей – неужто в API никаких лимитов нет??.. невероятно – это ж можно новый сервис поверх HH.ru собрать как-будто))
Про датаинжей это, конечно, спорно, ибо тут мы не видим ни окрестратора, ни тулизированного data ingest, ни какой-то трансформации данных...
- тем не менее, можно как раз взять код и попробовать всё это прикрутить. Где-то мб, конечно, избыточным... впрочем, всегда можно придумать, как это может улучшить идею проекта. Взять тот же анализ данных – тут любую трансформацию данных придумать на изи!
И погнали!..😁
Вполне себе неплохой (да ещё и полезный, а как максимум – потенциально могущий прославить создателя) #пет-проект может выйти!
#summary part:
#hh #salary_analytics #джуныбольшененужны?? #pet
- https://habr.com/ru/articles/979118
Такие заголовки всегда кликбейтят, ибо жаждущие умы / ярые вкатуны надеются обрести по ссылке сокровенные инсайты и узреть тайный путь к тем самым "300К/сек", а успешно работящие хотят глянуть на рынок, чтобы решить, когда заикаться о повышении или/и обновлять сиви
https://arc.net/l/quote/ewirvdqt
Начинающим data-инженерам и дата-сайентистам: Весь код в открытом доступе и может служить учебным примером построения end-to-end ETL/ELT пайплайна на Python.
DSы могут сразу переходить к датасету: https://disk.yandex.ru/d/WC92JiyIumrQDQ
- впрочем датасет довольно бедный, даже текста вакансии нет, впрочем, можно перезагрузить, если оно есть в API (392748 записей – неужто в API никаких лимитов нет??.. невероятно – это ж можно новый сервис поверх HH.ru собрать как-будто))
Про датаинжей это, конечно, спорно, ибо тут мы не видим ни окрестратора, ни тулизированного data ingest, ни какой-то трансформации данных...
- тем не менее, можно как раз взять код и попробовать всё это прикрутить. Где-то мб, конечно, избыточным... впрочем, всегда можно придумать, как это может улучшить идею проекта. Взять тот же анализ данных – тут любую трансформацию данных придумать на изи!
- Dear Cloude Code, give me solution to find me some insights from data, create dbt models... <bla-bla-bla> Let's start with plan)
И погнали!..
Вполне себе неплохой (да ещё и полезный, а как максимум – потенциально могущий прославить создателя) #пет-проект может выйти!
#summary part:
Идея проекта
• Рынок IT-вакансий динамичен, нужны данные для понимания трендов.Link
• Цель — создать систему для сбора, обработки и анализа данных с hh.ru.Link
...
• Вспомогательные технологии: httpx, pydantic, pandas, matplotlib/seaborn, SQLite.Link
Схема работы данных
• Сбор и валидация: асинхронный сбор данных, проверка через Pydantic.Link
• Трансформация и анализ: загрузка данных в pandas, группировка, расчёт метрик.Link
• Визуализация: генерация графиков с помощью matplotlib/seaborn.Link
#hh #salary_analytics #джуныбольшененужны?? #pet
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Data & IT Career
Анализ 400k вакансий hh.ru: как мы строили пайплайн и какие тренды нашли - https://habr.com/ru/articles/979118 Такие заголовки всегда кликбейтят, ибо жаждущие умы / ярые вкатуны надеются обрести по ссылке сокровенные инсайты и узреть тайный путь к тем самым…
1) По совпадению сегодня узнал, что приятель так же пилит HH.ru-"парсер" (это по сути не парсер, пч действительно можно всё по API забрать – никаких тебе лимитов!.. 🙈 )
Ну у него #датасет, конечно посерьёзней выходит:
- во-первых он не допустил "джуновской" ошибки авторов статьи, и забирает все сырые данные (не фильтруя колонки) – настоящий датаинженерный подход!🤓
(оно и понятно – он опытный DS: для них "полнота фичей" – не пустой звук))
- во-вторых, он уже туда #LLM прикрутил и на выходе получает и улучшенные описания вакансий (загрузку и обогащение данных LLMкой я бы разнёс, но мб там так у него оптимальней выходит – не видел его пайплайн)
2) Ну вот, только потренить и попариться хотел сходить, а тут #Редж выступает – такое пропустить нельзя, конечно...😁 🍿
- https://t.me/data_career/2120
Ну у него #датасет, конечно посерьёзней выходит:
- во-первых он не допустил "джуновской" ошибки авторов статьи, и забирает все сырые данные (не фильтруя колонки) – настоящий датаинженерный подход!
(оно и понятно – он опытный DS: для них "полнота фичей" – не пустой звук))
- во-вторых, он уже туда #LLM прикрутил и на выходе получает и улучшенные описания вакансий (загрузку и обогащение данных LLMкой я бы разнёс, но мб там так у него оптимальней выходит – не видел его пайплайн)
2) Ну вот, только потренить и попариться хотел сходить, а тут #Редж выступает – такое пропустить нельзя, конечно...
- https://t.me/data_career/2120
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from Get Rejected
Меня пригласили на Воркшоп: «Карьера и поиск работы» — сегодня в 20:00
Будем обсуждать вопросы о карьере, резюме и поиске работы.
Как подключиться:
Яндекс. Конференция
Что будет:
"Приходите, если:
— составляете резюме или портфолио
— планируете карьерный переход
— хотите разобрать конкретный кейс из своей практики
— ищете работу и хотите понять, как улучшить стратегию
— хотите послушать, как мы болтаем с Get Rejected
До встречи!"
Место встречи:
Онлайн - Яндекс Конференция
Оффлайн - Офис Красная роза, главный зал для презентаций
(Будут сырки, но это не точно)
Главный спикер: канал
Будем обсуждать вопросы о карьере, резюме и поиске работы.
Как подключиться:
Яндекс. Конференция
Что будет:
"Приходите, если:
— составляете резюме или портфолио
— планируете карьерный переход
— хотите разобрать конкретный кейс из своей практики
— ищете работу и хотите понять, как улучшить стратегию
— хотите послушать, как мы болтаем с Get Rejected
До встречи!"
Место встречи:
Онлайн - Яндекс Конференция
Оффлайн - Офис Красная роза, главный зал для презентаций
(Будут сырки, но это не точно)
Главный спикер: канал
Get Rejected
Меня пригласили на Воркшоп: «Карьера и поиск работы» — сегодня в 20:00 Будем обсуждать вопросы о карьере, резюме и поиске работы. Как подключиться: Яндекс. Конференция Что будет: "Приходите, если: — составляете резюме или портфолио — планируете карьерный…
Ну я чот как-то в фоне послушал... Редж, вряд ли ты тут, но устную харизму надо чуть подтянуть 😁
В остальном вроде кому-то полезно было)
На пару поинтов, где включился, накинул текстом:
- если хотите на Spark, то ставить и тренить его надо! (хоть и не глубоко, глубоко на ноуте вряд ли получится)
- "Java, Scala" и прочее: я понимаю суммы в вакухах с сиим глаза могут мозолить, но
- если вы не знаете, нужно это или нет, то "выучить к собесу" вы это точно не сможете!😁
- в общем, это нишевые штуки для сеньоров, как правило пришедших в DE с Java-стеком или много лет писавших хардкорные скала-пайплайны – если вы не они, то... понятно, да?)
* GBQ => #GCP
В остальном вроде кому-то полезно было)
На пару поинтов, где включился, накинул текстом:
- если хотите на Spark, то ставить и тренить его надо! (хоть и не глубоко, глубоко на ноуте вряд ли получится)
- "Java, Scala" и прочее: я понимаю суммы в вакухах с сиим глаза могут мозолить, но
- если вы не знаете, нужно это или нет, то "выучить к собесу" вы это точно не сможете!
- в общем, это нишевые штуки для сеньоров, как правило пришедших в DE с Java-стеком или много лет писавших хардкорные скала-пайплайны – если вы не они, то... понятно, да?)
* GBQ => #GCP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
