Интересное что-то
517 subscribers
2.72K photos
253 videos
139 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
Несколько лет назад я наблюдал обучение диффузии в одной не очень богатой на карты, но очень богатой организации, и чтобы дешевле проводить архитектурные экспы с диффузией(тогда еще UNET не до конца устоялись, это было до sd1.3) слои инициализировались прошлыми моделями. Ну типа у нас есть уже какие то CONVs, какие то Linear, какие то Cross attn, давайте заберем их с модели которая уже пробежала что то, порешейпим и заработает.

А тут выходит работа где челы показывают все тоже самое, только для DIT и показывают что можно довольно сильно менять архитектуру за <2% претрейн бюджета.

Потом авторы какой то очередной гибридный attn придумывают.

Работа интересна своими аблейшенами + тем что еще один метод перестает быть маргинальным

https://arxiv.org/pdf/2506.05340
Forwarded from Neural Info
Где-то месяц назад решил, что надо бы изучить CUDA более детально и в процессе поиска материалов наткнулся на сообщество GPU Mode.

GPU Mode - сообщество в Discord по CUDA, каждую неделю проходят лекции на 1-1.5 часа, запись которых выкладывают на YouTube, также есть собственный сайт на котором проходят соревнования, где необходимо писать наиболее оптимизированные CUDA ядра для решения различных задач (банальный пример - перевод изображения из RGB в grayscale).

Пока что смотрю только лекции в записи, начал с самой первой лекции, которая была в январе 2024 года, можно сказать материал совсем свежий. Лекции проводятся разными людьми, поэтому качество материала может отличаться от лекции к лекции. Все лекции которые я смотрел (первые 7) устроили по качеству, было 2 лекции, где присутствовали очень спорные тейки и из-за этого были смешанные чувства о материале лекции, но общее впечатление сложилось положительное на момент написания поста. У многих лекций крутые спикеры, например, различные ребята из команды оптимизации в PyTorch, т.е. люди, которые реально используют данные технологии в своей работе.

Часть лекций берет за основу материал из 4-ого издания книги "Programming Massively Parallel Processors: A Hands-on Approach", судя по отзывам отличная книга по CUDA и, что очень важно на мой взгляд, 4-ое издание вышло в 2022 году, т.е. материал в достаточной степени покрывает современное состояние программирования на CUDA.

Я считаю, что изучение CUDA будет полезно, даже если вы ни разу в жизни не примените его на практике, т.к. оно позволит вам понимать:
1. Архитектуру GPU.
2. Различия между GPU, CPU - преимущества и недостатки каждого типа.
3. Как работает различная память, понимая какая память для чего нужна и как работает, можно неплохо оптимизировать свой код.
4. Особенности параллельных вычислений, что позволит избежать глупых ошибок в процессе распределенного обучения моделей, да и в целом будет проще писать код, использующий параллельные вычисления.
5. Как можно дополнительно оптимизировать ваш ML код.

Как пример можно привести Flash Attention, который за счет более умной работы с различными видами памяти (и других оптимизаций) позволяет значительно ускорить реализацию механизма Attention.

С учетом современных реалий, где компании-гиганты обучают огромные модели на огромных объемах данных, вопросы оптимизации становятся все более важными как для самих компаний обучающих такие модели, так и для более мелких компаний, которые адаптируют такие предобученные модели под свои задачи.

#programming
Всем привет!🤟

Кто-то ждал, а кто-то не ждал, но я дописал вторую часть обзора дельта-метода.
Совокупно с первой частью получилось очень много математики, очень много практических кейсов.

Во второй части мы обсудим рег. тесты, оценки АБ-тестов с квантилями, которые, как окажется, являются просто продолжение рег. тестов :)

Надеюсь, что я смог убедить вас в неиспользовании бутстрапа, так как я официально отказываюсь от него в своих расчетах, кроме может быть быстрых расчетов в тетрадке, но не в проде!

Ставь 🐳, если перешел в клуб любителей дельта-метода!

https://telegra.ph/Delta-metod-v-AB-testah-CHast-2-09-21

Всем хорошего дня!
Forwarded from Варим МЛ
На внутреннем митапе сделал доклад про свой опыт использования ИИ-инструментов в разработке - какие есть виды, полезные советы, как сэкономить. Решил переложить его в текстовую форму - опытные вайб-кодеры, наверное, не найдут очень много полезного, но остальным может быть интересно.

Недавно с помощью ИИ как раз запилил интересный внутренний инструмент на основе LLM - алерт-менеджер, который помогает дежурным лучше работать с инцидентами. Если интересно - могу написать постик.

И ещё пара моментов.

Вопрос - мне надоел Телеграф, картинки неудобно вставлять, ссылки на разделы нельзя давать, где лучше писать посты, есть идеи? Или проще свой поднять сайт?

Предложение - пройти опрос State of Data 2025 от моего товарища из PT Олега Кочергина, результаты он подобьёт в инсайты на конфе SmartData в октябре.

#Жека #llm
roadmapAnalyst.pdf
396.2 KB
Подготовили для вас роадмапу по аналитике с подробным гайдом по работе с ней, с основными и провдинутыми темами, а также пет-проектами. Этот гайд поможет структуировать ваши знания по аналитике. Всем успешной подготовки к следующим сезонам стажировок!

Давайте наберём 500 огоньков 🔥 и соберем такой же только в ML.

@postypashki_old
Forwarded from Denis Sexy IT 🤖
Протестировал неплохую систему Deep Research:
1. Регаетесь тут https://platform.parallel.ai/play/deep-research
2. Получаете 80$ на счет (UPD. подписчик говорит дали 20$, не знаю как это работает)
3. Выбираете Ultra8x и запускаете поиск по какой-то теме которая вам важна

Штука генерирует отчет на основе тысяч страниц, в моих тестах она рассматривала 10-20 тысяч для генерации отчета

P.S. Один отчет стоит примерно 2.4$
Forwarded from .ml
Большинство советов по ускорению Pandas звучат одинаково: «уберите циклы», «используйте apply», «снижайте размер типов». Но правда в том, что в реальном проекте эти правила работают не всегда — иногда даже замедляют пайплайн и увеличивают потребление памяти.

В статье на Хабре мы собираем бенчмарки скорости и памяти на разных сценариях и делаем практические выводы, какие из лайфхаков реально работают и при каких ограничениях. А именно:

👾 Iterrows vs itertuples: почему официальная рекомендация из документации pandas может привести к Out of Memory и замедлению пайплайна.
👾 apply с raw=True: малоизвестный аргумент, который даёт почти тот же прирост, что NumPy-векторизация — без полного переписывания кода.
👾 merge → loc или reindex: правда ли merge — швейцарский нож в мире датафреймов?
👾 Типы данных: int8 vs int64, float32 vs float64, categorical и sparse — что реально экономит ресурсы, а что даёт мизерный эффект.
👾 Параллелизация: pandarallel и multiprocessing — какой инструмент выбрать и почему (или не выбирать ни один).

Если вы работаете с большими объёмами данных на Pandas, наша статья поможет избавиться от «оптимизаций ради оптимизаций».
SGR - Ликвидация галлюцинаций в LLM

Надоело, что LLM-ка на один и тот же запрос выдаёт то стихи, то рецепт борща, то вообще уходит в астрал? Ловит постоянно галлюны и никакого структурированного ответа, как будто обожралась грибов с Бали? 🤪

Но есть решение, которое уже набирает обороты и становится must have — SGR (Schema Guided Reasoning). Это подход, который превращает LLM из капризного «чёрного ящика» под грибами в управляемый и предсказуемый инструмент.

Как это работает?
SGR заставляет модель рассуждать по заранее определённым схемам. Вместо того чтобы дать ей полную свободу творчества, мы даём ей чёткий чертёж, по которому она должна построить свой ответ. Это жёстко снижает количество галлюцинаций и повышает предсказуемость 👋

На практике: вместо того чтобы просто попросить LLM «по-братски проанализировать документ», мы даем ей строгую схему, которая заставляет её выполнить последовательный и логичный мыслительный процесс:

1️⃣ Проверь применимость.
2️⃣ Дай чёткий ответ: Да/Нет.
3️⃣ Если «Нет» — выбери причину из списка и оцени, насколько всё плохо.
4️⃣ Покажи пальцем на косяки в тексте и предложи, как их исправить.

Вся магия работает через Structured Output (SO) с помощью JSON Schema. Если не душить терминами, то мы просто описываем чёткую структуру, которую хотим получить на выходе из каждого этапа 🤭

Простейший пример на Pydantic смотри на 1 картинке.
Дальше мы просто говорим модели: «Твой ответ должен соответствовать схеме ComplianceAnalysis, или я умру». И на выходе получаем чистенький, структурированный JSON, с которым уже можно нормально работать.

Базовые паттерны SGR 😎
Для практического применения удобно использовать несколько базовых паттернов:
🟣Cascade. Линейная последовательность шагов рассуждения. Подходит для
задач, где важен чёткий порядок действий (например, создание отчета).

🟡Routing. Ветвление. Модель выбирает подходящий путь рассуждения в
зависимости от условий.

🔵Cycle. Циклический процесс. Используется для итеративной работы, Например,
через этот паттерн можно реализовать ReAct-агента, где повторяются шаги
«Reasoning → Action».

Итог 🦆
SGR — это мощный инструмент, который превращает LLM из «творческого» генератора текста в надёжный и предсказуемый инструмент для анализа, чей процесс принятия решений прозрачен и легко проверяется. Короче, это мощный инструмент, который заставляет LLM работать по твоим правилам, а не генерировать рандомный грибной бред.

Почитать подробнее можно здесь, а про паттерны здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
РАБОТА В DS НА ВАЛЮТНУЮ УДАЛЁНКУ: разбор собеседования на $8000/мес

Сегодня разбираю реальное собеседование с валютной удалёнки моего ученика на зелёных грязных бумажек, он кста туда оффер получил, сейчас в Испании с дельфинами катается 😘

Видос получился крайне сочный и информативный, поэтому если хочешь кайфовать не с 300к, а 800к ЗПшкой где-нибудь в Тайланде, причмокивая кокос, то видео обязательно к просмотру 🤑

Специально для вас заморочился с продакшном и картинкой, чтобы ваши глазки радовались 😍

Ссылочка на видосик
Please open Telegram to view this post
VIEW IN TELEGRAM