Love. Death. Transformers.
24.4K subscribers
4.48K photos
521 videos
79 files
2.94K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
GPT operator здорового человека, без 200 bucks?

Ощущается как оператор здорвого человека, не требует подписки, сразу делает что надо, САМ ПРОХОДИТ КАПЧУ.
Внутри тоже Web agent который сам тыкает кнопки и теоретически может пользоваться любым ui. Хотя модель застревает на Gradio like UI(тут оператор ведет себя чуть лучше)

Из приятного эта штука быстрее чем deepresearch и намного быстрее чем оператор. Хотя и deepresearch проверяет сильно больше информации.

Хотя deepresearch иногда уморительно галюцинирует:
Смотрю на параметры моделей и их возможности, такие как трёхмерная форма и раскладываемость.

Ищу сведения о "MTS AI LLM" или "MTS AI Gusev".

Доклад от deepresearch

https://proxy.convergence.ai/ не умеет шарить конверсейшены, промпт был такой:

make a research about best russian llms, and benchamrk.
🤮22🥱17👍115🔥4❤‍🔥2🤔2🍓22
Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.

https://huggingface.co/blog/open-r1/update-2

Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.

почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k

нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw

-
PS покайфу собираем все что с мл/ии связано в группе https://t.me/researchim
👍33👎2🔥2👏2❤‍🔥1
https://getmentor.dev/#list

могу бесплатно дать совет: не работать в ебучем ИТ и тем более не вкатывать на перегретый рынок(только если реально любите и ничего другого не хотите)
55💊13🥴10💯10👍62
😁769😨3
Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling

Вероятно пока что лучший пример применения its, nvidia говорит - писать кернелы заебно и сложно, точно не потому что у нас их писало два китайских бакалавра, а документация есть только на китайских двачах


Cобственно челы накидывают классический prompt рерайт, отбирают кернелы на основе Kernel bench , обновляют контекст и получают 50% ускорения бесплатно.

И такой воркфлоу выдает 100% точности на level1 kernels(matmul, ln и прочее)
и 96% на level2( conv + bias + ReLU)

Ну и да, в отличие от CodeForces эта штука имеет применение в реальном мире.

nvidia blog
❤‍🔥41🔥18👍2🤡2
Forwarded from Labrats
😁231👍28🔥14💋7💔4❤‍🔥1
Две опции будущего
🍓13731😁23👍104
Forwarded from Denis Sexy IT 🤖
POV человека который знает что хочет от жизни сегодня вечером:
😁104😍38💔13👍4😢3🤡2🥴22❤‍🔥1
Vibe coding in nutshell
😁95❤‍🔥11💩5👍1🌭1
Загадка от подписчика
🥴166😁21👾9❤‍🔥2👎1🔥1🤮1🤡1🍌1
щаща дружбан трампыня придет, снимет В С Е санкции, Илон маск пообещал GigaGrok 4 обученный на Cristofary NEO 2м карт(кластер построят в тундре, чтобы не охлаждать) Хуанг общеает открытие базовой кафедры на физтехе.

Сэм Альтан обещает турне по вузам - от Теплых мужских отношений до Goida Aligment. А Канал Аишная объявят первым офицальным PR каналом oai в России!!
Что это было?(в картинках)
😁1562221🤡12👏5😍5👎3💩2🗿2👍1
Media is too big
VIEW IN TELEGRAM
Нет ничего более страшного чем скучающий ум.

Ребята делают opensource car autopilot, который подключается шнурком по USBC, работает по 1 камере(!)

А ещё вы можете туда добавлять кастомные прошивки.

GitHub
111😨31👍22😁8🔥7❤‍🔥3👎3
Step brother, please have fun

StepFun text2video 30b(e б а т ь) и это опенсурс. И с MIT лицензией.

И очень бодрый motion. Вау.

Архитектруно очень похоже на huynan video.

Выложили distilled и undistilled версии(Можно доучивать на i2v)

Github
🔥71🍌5
🦄39💊1585💯4👍1
Grok3 выиграл арену и пробил 1400 elo

И ещё есть deepresearch

И это не reasoning модель( reasoning в бета версии)
🔥7912👍6
На live code bench где то как о1 low
🔥15👍75
Снова про JAX.

Если моя книга “Deep Learning with JAX” (https://t.me/gonzo_ML/2926) для вас ещё не является достаточной мотивацией освоить этот продвинутый фреймворк, то вот вам ещё пара крутых свежих материалов:

The PyTorch developer's guide to JAX fundamentals
https://cloud.google.com/blog/products/ai-machine-learning/guide-to-jax-for-pytorch-developers

Короткий гайд по созданию модели для тех, кто привык к PyTorch и хочет сравнить. Пример использует новый Flax NNX API (писал про него в посте JAX things to watch for in 2025, https://gonzoml.substack.com/p/jax-things-to-watch-for-in-2025), но есть также и пример на более старом но всё ещё популярном Flax Linen API.

================================

How to Scale Your Model

A Systems View of LLMs on TPUs
https://jax-ml.github.io/scaling-book/

Это прям целая книга про скейлинг LLM на TPU. Содержит несколько секций:

1. All About Rooflines
https://jax-ml.github.io/scaling-book/roofline/

Объясняет, что такое roofline model (писал про неё когда-то давно тут https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664). Это безумно важно понимать для оптимизации ваших вычислений, не всё определяется флопсами, многие алгоритмы ограничены коммуникацией, в смысле пересылкой данных, не обязательно в распределённой системе, даже при неудачно организованном чтении из памяти можно оказаться в ситуации, когда ваш GPU/TPU используется лишь на 5% и до пиковых флопс как до Луны.

2. What Is a TPU?
https://jax-ml.github.io/scaling-book/tpus/

Объясняет, что такое TPU (про это я тоже писал ещё давно https://moocaholic.medium.com/hardware-for-deep-learning-part-4-asic-96a542fe6a81), что такое систолический массив, какие блоки есть внутри, как связываются ускорители в Pod, каковы характеристики разных TPU от v3 до v6e.

3. Sharded Matrices and How to Multiply Them
https://jax-ml.github.io/scaling-book/sharding/

Подробно разбирает как работает шардинг (разбиение вычислений больших тензоров по нескольким ускорителям). Параллелизация, Collective Operations -- всё тут. У меня в книге этому посвящена 8-я глава, а кроме неё есть глава 7 про более классический метод параллелизации (pmap) и приложение D про уже устаревшие экспериментальные подходы, которые тем не менее могут помочь лучше понять как мы пришли в текущую точку.

4. All the Transformer Math You Need to Know
https://jax-ml.github.io/scaling-book/transformers/

Вся основа трансформеров на уровне вычислений. Где какие операции, как считать флопсы и параметры, MoE, Gradient checkpointing, KV caching, Flash Attention.

5. How to Parallelize a Transformer for Training
https://jax-ml.github.io/scaling-book/training/

Обсуждение разных видов параллелизма на примере трансформера: data parallelism, fully-sharded data parallelism (FSDP), tensor parallelism, pipeline parallelism.

6. Training LLaMA 3 on TPUs
https://jax-ml.github.io/scaling-book/applied-training/

Как применить все эти знания к обучению реальной модели (Llama 3) на TPU v5p. Что такое Llama 3, как отшардить модель LLaMA 3-70B.

7. All About Transformer Inference
https://jax-ml.github.io/scaling-book/inference/

В чём особенности инференса для трансформеров, где боттлнеки, что с памятью, что с latency. MHA, MQA, GQA (про MLA ещё нет: https://t.me/gonzo_ML/3292). KV cache, распределение инференса по разным ускорителям, фазы инференса (prefill, generation), шардирование KV-кэша, _много_ оптимизаций инференса.

8. Serving LLaMA 3-70B on TPUs
https://jax-ml.github.io/scaling-book/applied-inference/

Как применить все эти знания к инференсу реальной модели, той же самой Llama 3-70B.

9. How to Profile TPU Programs
https://jax-ml.github.io/scaling-book/profiling/

Как профилировать код на TPU и искать боттлнеки. Как работает компилятор XLA, что такое HLO (я много это разбираю в главе 5 своей книги, про компиляцию), что такое JAX TPU profiler, Trace Viewer, Graph Viewer, как делать профилирование памяти.

10. Programming TPUs in JAX
https://jax-ml.github.io/scaling-book/jax-stuff/
🔥37👍4🤡4👎1💩1