Sberloga
2.5K subscribers
215 photos
34 videos
7 files
256 links
Data Сообщество
По всем вопросам обращаться @SberlogaHelperBot
Чат - @sberlogadataclub
Download Telegram
Спасибо всем кто вчера подключился ❤️
Если вчера не получилось присоединиться - ничего страшного, самое сложное будет еще впереди :)

Краткий саммари что обсуждали:
- по первой лекции - лекции были вводные, из самого интересного это третья часть о различных представлениях графов, в слайдах 2023 этих материалов почти нет, поэтому слайды 2021 стоит открыть
- разницу в курсах 2019/2021/2023
- познакомились, рассказали что кому интересно и кто чем занимается (по желанию)
- орг вопросы

Расписание дальнейших встреч будет в чате
https://t.me/sberlogawithgraphs/
4
Forwarded from Александра Сытник
«SotA для TS forecasting, все ли так однозначно?»

2️⃣0️⃣ февраля состоится следующая встреча тренировок по машинному обучению ↩️

В рамках этой встречи мы разберем следующие темы с нашими приглашенным экспертом:
⚪️переход от задачи прогнозирования временных рядов к задаче регрессии
⚪️как выбрать подходящую модель для вашей задачи временных рядов
⚪️какие есть нейронные архитектуры, в том числе Zero-shot

📢 Спикер:
⚪️Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab

📆 Когда: 20 февраля с 19:00
🗺️ Где: Покровский бульвар д. 11, ауд. R308

Подробнее про челленджи 🐭

Студентам других вузов необходимо заполнить форму для заказа пропуска не позднее чем за 24 часа до дня проведения тренировок, по организационным вопросам участия в тренировках вы можете обращаться к Александре ▶️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Forwarded from Нескучный Data Science (Евгений Смирнов)
🔥 МТС BIG DATA X Лаборатория Машинного обучения

🤩 На фото запечатлены два довольных парня из красных компаний, офисы которых находятся через дорогу, которые только что провели совместный митап. Процесс организации был настолько нативным и синергичным, что мы потратили всего полчаса на созвон и чуть больше на переписку в телеге чтобы договориться обо всех деталях. Мы обязательно продолжим проводить совместные митапы, ставьте 🔥чтобы это случилось быстрее.

🙏 Хочу поблагодарить всех причастных к этому событию. Спасибо площадке МТС за теплый прием и позитивные эмоции, всем спикерам за интересные доклады и качественный перфоманс, членам команды Лаборатории за высокий уровень самостоятельности в подготовке к митапу. Ну и конечно спасибо всем, кто пришел на наш митап в онлайне и большое спасибо тем, кто пришел на офлайн часть без вашей поддержки ничего бы не получилось!

📸 Фото вышли огонь, забирайте по ссылке.
📹 Видео и презентации на следующей неделе появятся в комментариях к посту 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥2
Вышел Airflow 3.0.0 🥳

Anywhere
Deploy workers to any environment while maintaining security isolation. Remote Execution lets you run tasks exactly where your data resides — optimizing for cost-efficiency, latency, and data sovereignty without sacrificing centralized control.

Any Time
Unlock new use cases with event-driven scheduling by integrating with message systems like Amazon SQS, so you can trigger your DAGs the moment data arrives – not just on a schedule. By removing the uniqueness constraint for logical dates, users can launch parallel inference runs easily, ideal for GenAI and on-demand ML workloads.

Any Language
Unify your data stack under a single orchestrator with multi-language task execution coming in future 3.x releases. Starting with Golang, Airflow 3 eliminates the need for code rewrites or Python wrappers — choose the right language for each task based on your specific requirements.
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Scheduler-driven backfills triggered straight from the UI.
Trigger, monitor, pause, or cancel backfills from the UI or API — no more fragile CLI-based backfills. Large-scale reprocessing jobs run reliably without session timeouts, ensuring consistent performance even for backfills spanning months of historical data.
Put your data assets at the center of orchestration.
Define data objects directly with the @asset decorator, simplifying pipeline creation while maintaining visibility into your data's journey. Write less boilerplate code, manage dependencies naturally, and align your pipelines with how you actually think about data.
dag-versioning.gif
74 KB
Track every DAG evolution with immutable snapshots tied to each run.
Never wonder which code version produced which outcome - teams can rapidly audit and debug, eliminating confusion and accelerating compliance checks. Troubleshooting now takes minutes instead of hours, giving you clear accountability and pipeline governance that satisfies even the most stringent regulatory requirements.
light-dark-mode.gif
307.4 KB
Navigate easily with an intuitive, modern UI.
Airflow’s UI has been rebuilt from the ground up, with new navigation and views to access to logs and task details quickly, making the experience ideal for both newcomers and power users. This future-focused redesign also opens the door for advanced React plugins and community-driven customizations in Airflow 3.x.
Forwarded from Data Secrets
Там Стэнфорд выложили на YouTube свой свежий курс CS336: Language Modeling from Scratch

Это практический курс, в котором вся теория по LLM подается в процессе разработки собственной модели. Получается изучение end-to-end: от обработки данных и архитектуры трансформера до RL и эвала.

Ведет курс опытный профессор университета и сооснователь TogetherAI Перси Лианг.

Ну и главное: курс новый и вся информация актуальна на сегодняшний день. Он даже в самом Стэнфорде еще идет прямо сейчас, так что лекции и код продолжат выкладывать по ходу.

Репозиторий с дз и ноутбуками
Сайт курса
YouTube
🔥201
Forwarded from Helen
Как построить личный бренд в IT и зачем это нужно?

Центр непрерывного образования ФКН приглашает на вебинар, посвященный роли личного бренда разработчика и его эффективному развитию с использованием современных ИИ-инструментов.

На вебинаре обсудим:
〰️〰️〰️〰️
1️⃣Зачем разработчику личный бренд и как он влияет на карьеру:
🟣Почему в IT уже недостаточно только технических навыков и какую роль играет персональный бренд в продвижении по карьерной лестнице и укреплении профессиональной репутации.

2️⃣Стратегии развития личного бренда в IT:
🟣Разберем эффективные подходы к продвижению себя как специалиста: выступления на конференциях, написание профессиональных статей и создание технического контента. Обсудим, как правильно выбрать каналы и форматы коммуникации.

3️⃣Как ИИ упрощает развитие бренда и в чем его ограничения:
🟣Рассмотрим, какие задачи при построении бренда можно делегировать нейросетям и большим языковым моделям, а где по-прежнему необходимы человеческий подход.

🎙Спикер: Михаил Попов, Developer Relations Partner в Яндекс Go, преподаватель программы «DevRel: работа с комьюнити как основа личного и HR-бренда».

📁Дата: 30 апреля в 19:00 в онлайн-формате.

Регистрация
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1
Forwarded from CodeCamp
Внезапная годнота для VSCode — Microsoft выкатили полноценную IDE для PostgreSQL прямо внутри редактора кода.

При чём это не просто плагин (хотя это плагин), а мощнейшая станция управления базой данных с кучей инструментов.

— Полная визуализация схемы — таблицы, связи, поля. Всё прямо в редакторе;
— Подсветка синтаксиса и автокомплит;
— Под капотом Copilot, он сейчас работает на Claude 4 Sonnet;
— История запросов и быстрый доступ к часто используемым шаблонам.

Всё работает через агента @pgsql, который реально помогает работать с запросами, как будто у вас на проекте появился свой DBA.

Уже в маркетплейсе
👍6🔥3😁1
🔥 Исследователи Яндекса выложили в опенсорс один из самых больших в мире датасетов для RecSys

Речь про YaMBDa — Yandex Music Billion-interactions Dataset. Он создан на основе обезличенных данных Яндекс Музыки, крупнейшего подписного музыкального сервиса в России, а также «Моей волны», главного рекомендательного продукта сервиса. Датасет содержит обезличенные взаимодействия 1 миллиона пользователей Яндекс Музыки с 9 миллионами треков в течение 10 месяцев. Всего это 5 миллиардов событий.

https://habr.com/ru/companies/yandex/articles/913294/
🐳3🔥1
Forwarded from Data Secrets
⚡️ Вышел Apache Spark 4.0. Что интересного в релизе:

1️⃣ Новая архитектура клиент-сервер Spark Connect. Теперь клиентское приложение отделено от кластера Spark. Это значит, что подключаться к Spark можно будет из любой среды и ЯП, включая Python, Scala, Go, Swift и Rust. Кстати, клиент для Python весит всего 1,5 МБ и устанавливается просто через pip install pyspark-connect.

2️⃣ Режим ANSI SQL по умолчанию. Раньше Spark прощал многие ошибки – например, если ты делил на ноль или числа не влезали в столбец, он просто возвращал NULL или тихо обрезал значение. Это было удобно, но могло скрывать баги. Теперь включён режим ANSI SQL по умолчанию – как в классических базах данных. Если в запросе ошибка, Spark сразу об этом скажет и выбросит ошибку. Получается более надежно и предсказуемо.

3️⃣ Materialized Views. Это сохранённый результат SQL-запроса, который может автоматически использоваться при выполнении будущих запросов, если Spark понимает, что часть запроса уже была вычислена и закеширована. То есть теперь повторяющиеся запросы не надо каждый раз пересчитывать, можно просто достать из кэша. Супер существенно для времени и нагрузки на кластер.

4️⃣ Python Data Source API. Это прямо очень приятно: теперь не надо учить Scala, чтобы подключиться к кастомному источнику данных, все можно сделать просто на питоне. Это сильно упрощает интеграцию Spark с веб-сервисами, файлами, базами данных и вообще чем угодно.

5️⃣ Новый тип данных VARIANT. Это специально для полуструктурированных данных. То есть теперь, если у вас где-то лежат вложенные поля или JSON, запросы к ним можно выполнять прямо из коробки, предварительно не описывая схему.

Официальный релиз
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from CodeCamp
Будни вайб-кодеров 💀
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣29😢7👏1
🚀 Новый курс по рекомендательным системам и RePlay — прокачай навыки персонализации данных!

В мире, где персонализация решает всё — от любимых фильмов до идеальных покупок — рекомендательные системы стали must-have инструментом. Хотите не просто понимать их, а создавать с нуля? Тогда этот курс для вас!

Sber AI Lab представляет курс по рекомендательным системам и open-source библиотеке RePlay!

🔘 Погружение в основы: от коллаборативной фильтрации до гибридных моделей
🔘 Практика на реальных кейсах, только работающие решения
🔘 Освоение RePlay — мощного инструмента для построения рекомендаций
🔘 Гибкий график — учитесь где угодно и когда удобно

🎁 Бонус: Сертификат от СберУниверситета для участников, кто успешно закроет все модули - для резюме и личной гордости

Зачем это вам?
Рынок рекомендательных систем растёт на 24,7% в год (Research Nester), и спрос на специалистов огромен. С этим курсом вы войдёте в топ востребованных профессионалов!


💻 Записаться на курс


#курс
@sb_ai_lab
7🔥3😁1👨‍💻1
Forwarded from Machinelearning
📌 США могут ускорить гонку ИИ, вложив в "Манхэттенский проект ИИ" ресурсы, сопоставимые с программой «Аполлон».

Идея «Манхэттенского проекта для ИИ», витавшая последние месяцы на самом высоком уровне в США, кажется, начинает обретать очертания. Но за громкими сравнениями обычно теряется суть: а что это значит на практике?

Аналитики из Epoch AI решили посчитать, какой вычислительный монстр может появиться, если американское правительство консолидирует ресурсы частного сектора и вложит в проект долю ВВП, сопоставимую с пиком лунной программы.

Epoch AI - некоммерческий исследовательский институт, который изучает траекторию развития искусственного интеллекта, анализирует тренды в вычислениях, данных и алгоритмах, чтобы прогнозировать влияние ИИ на экономику и общество.


🟡Картина получается масштабная.

Расчеты показывают, что к концу 2027 года такой проект мог бы обеспечить тренировочный прогон модели с вычислительной мощностью порядка 2 × 10²⁹ FLOP.

Чтобы понять масштаб: это примерно в 10 000 раз больше, чем потребовалось для обучения GPT-4. По сути, это рывок, который по текущим прогнозам должен был случиться на несколько лет позже.

Финансирование на уровне программы «Аполлон» (около 0.8% ВВП или 244 млрд. долларов сегодня) позволило бы закупить и объединить в один кластер эквивалент 27 миллионов NVIDIA H100. Эта цифра, кстати, совпадает с экстраполяцией текущих доходов NVIDIA от продаж в США.

🟡А хватит ли на это электричества?

27 миллионов GPU потребуют около 7.4 ГВт мощности - это больше, чем потребляет весь город Нью-Йорк. Оказывается, это не главная преграда. Аналитики говорят, что к 2027 году в США и так планируется ввод 8.8 ГВт за счет новых газовых электростанций, значительная часть которых уже предназначена для дата-центров.

При наличии политической воли и используя законодательные инструменты, правительство США сможет сконцентрировать эти мощности в одном месте, так что энергия не станет узким местом.

🟡Разумеется, у сценария есть свои «но».

Геополитическая напряженность, например, вокруг Тайваня, может сорвать поставки чипов. Кроме того, нельзя просто так взять и увеличить масштаб в тысячи раз. Масштабирование требует времени на отладочные прогоны и эксперименты, но это скорее инженерное, а не ресурсное ограничение.

Тем не менее, анализ показывает: при должной координации и инвестициях технологический скачок в области ИИ может произойти гораздо быстрее, чем мы думаем. И это уже вполне просчитываемая возможность.

🔜 Статья на Epoch AI

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥31😁1