Love. Death. Transformers. – Telegram

Love. Death. Transformers.

@lovedeathtransformers

24.4K subscribers

4.48K photos

521 videos

79 files

2.94K links

❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.

Download Telegram

About

Blog

Apps

Platform

Love. Death. Transformers.

24.4K subscribers

Love. Death. Transformers.

GPT operator здорового человека, без 200 bucks?

Ощущается как оператор здорвого человека, не требует подписки, сразу делает что надо, САМ ПРОХОДИТ КАПЧУ.
Внутри тоже Web agent который сам тыкает кнопки и теоретически может пользоваться любым ui. Хотя модель застревает на Gradio like UI(тут оператор ведет себя чуть лучше)

Из приятного эта штука быстрее чем deepresearch и намного быстрее чем оператор. Хотя и deepresearch проверяет сильно больше информации.

Хотя deepresearch иногда уморительно галюцинирует:

Смотрю на параметры моделей и их возможности, такие как трёхмерная форма и раскладываемость.

Ищу сведения о "MTS AI LLM" или "MTS AI Gusev".

Доклад от deepresearch

https://proxy.convergence.ai/ не умеет шарить конверсейшены, промпт был такой:

make a research about best russian llms, and benchamrk.

🤮22🥱17👍115🔥4❤‍🔥2🤔2🍓22

9.48K views13:56

Love. Death. Transformers.

Forwarded from Агенты ИИ | AGI_and_RL

Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.

https://huggingface.co/blog/open-r1/update-2

Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.

почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k

нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw

-
PS покайфу собираем все что с мл/ии связано в группе https://t.me/researchim

👍33👎2🔥2👏2❤‍🔥1

8.4K views09:18

Love. Death. Transformers.

https://getmentor.dev/#list

могу бесплатно дать совет: не работать в ебучем ИТ и тем более не вкатывать на перегретый рынок(только если реально любите и ничего другого не хотите)

55💊13🥴10💯10👍62

8.68K views12:36

Love. Death. Transformers.

😁769😨3

8.68K views12:55

Love. Death. Transformers.

Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling

Вероятно пока что лучший пример применения its, nvidia говорит - писать кернелы заебно и сложно, точно не потому что у нас их писало два китайских бакалавра, ~~а документация есть только на китайских двачах~~

Cобственно челы накидывают классический prompt рерайт, отбирают кернелы на основе Kernel bench , обновляют контекст и получают 50% ускорения бесплатно.

И такой воркфлоу выдает 100% точности на level1 kernels(matmul, ln и прочее)
и 96% на level2( conv + bias + ReLU)

Ну и да, в отличие от CodeForces эта штука имеет применение в реальном мире.

nvidia blog

❤‍🔥41🔥18👍2🤡2

10.4K views13:03

Love. Death. Transformers.

Forwarded from Labrats

😁231👍28🔥14💋7💔4❤‍🔥1

9.25K views22:08

Love. Death. Transformers.

Две опции будущего

🍓13731😁23👍104

10.2K views22:38

Love. Death. Transformers.

Forwarded from Denis Sexy IT 🤖

POV человека который знает что хочет от жизни сегодня вечером:

😁104😍38💔13👍4😢3🤡2🥴22❤‍🔥1

7.82K views21:22

Love. Death. Transformers.

Vibe coding in nutshell

😁95❤‍🔥11💩5👍1🌭1

9.54K viewsedited 14:54

Love. Death. Transformers.

Forwarded from Техножрица 👩‍💻👩‍🏫👩‍🔧

Загадка от подписчика

🥴166😁21👾9❤‍🔥2👎1🔥1🤮1🤡1🍌1

8.78K views09:17

Love. Death. Transformers.

щаща дружбан трампыня придет, снимет В С Е санкции, Илон маск пообещал GigaGrok 4 обученный на Cristofary NEO 2м карт(кластер построят в тундре, чтобы не охлаждать) Хуанг общеает открытие базовой кафедры на физтехе.

Сэм Альтан обещает турне по вузам - от Теплых мужских отношений до Goida Aligment. А Канал Аишная объявят первым офицальным PR каналом oai в России!!
Что это было?(в картинках)

😁1562221🤡12👏5😍5👎3💩2🗿2👍1

9.45K viewsedited 11:42

Love. Death. Transformers.

Media is too big

VIEW IN TELEGRAM

Нет ничего более страшного чем скучающий ум.

Ребята делают opensource car autopilot, который подключается шнурком по USBC, работает по 1 камере(!)

А ещё вы можете туда добавлять кастомные прошивки.

GitHub

111😨31👍22😁8🔥7❤‍🔥3👎3

13.1K views17:29

Love. Death. Transformers.

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Step brother, please have fun

StepFun text2video 30b(e б а т ь) и это опенсурс. И с MIT лицензией.

И очень бодрый motion. Вау.

Архитектруно очень похоже на huynan video.

Выложили distilled и undistilled версии(Можно доучивать на i2v)

Github

🔥71🍌5

10.5K views08:22

Love. Death. Transformers.

🦄39💊1585💯4👍1

8.92K views11:00

Love. Death. Transformers.

Love. Death. Transformers.

Step brother, please have fun StepFun text2video 30b(e б а т ь) и это опенсурс. И с MIT лицензией. И очень бодрый motion. Вау. Архитектруно очень похоже на huynan video. Выложили distilled и undistilled версии(Можно доучивать на i2v) Github

Эта же лаба, выложили Step-Audio 130B aulm
и еще 3b для тех кто победнее

github

😍25🔥87

8.42K viewsedited 16:58

Love. Death. Transformers.

Grok3 выиграл арену и пробил 1400 elo

И ещё есть deepresearch

И это не reasoning модель( reasoning в бета версии)

🔥7912👍6

9K viewsedited 04:44

Love. Death. Transformers.

На live code bench где то как о1 low

🔥15👍75

7.76K views04:49

Love. Death. Transformers.

Forwarded from gonzo-обзоры ML статей

Снова про JAX.

Если моя книга “Deep Learning with JAX” (https://t.me/gonzo_ML/2926) для вас ещё не является достаточной мотивацией освоить этот продвинутый фреймворк, то вот вам ещё пара крутых свежих материалов:

The PyTorch developer's guide to JAX fundamentals
https://cloud.google.com/blog/products/ai-machine-learning/guide-to-jax-for-pytorch-developers

Короткий гайд по созданию модели для тех, кто привык к PyTorch и хочет сравнить. Пример использует новый Flax NNX API (писал про него в посте JAX things to watch for in 2025, https://gonzoml.substack.com/p/jax-things-to-watch-for-in-2025), но есть также и пример на более старом но всё ещё популярном Flax Linen API.

================================

How to Scale Your Model
A Systems View of LLMs on TPUs
https://jax-ml.github.io/scaling-book/

Это прям целая книга про скейлинг LLM на TPU. Содержит несколько секций:

1. All About Rooflines
https://jax-ml.github.io/scaling-book/roofline/

Объясняет, что такое roofline model (писал про неё когда-то давно тут https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664). Это безумно важно понимать для оптимизации ваших вычислений, не всё определяется флопсами, многие алгоритмы ограничены коммуникацией, в смысле пересылкой данных, не обязательно в распределённой системе, даже при неудачно организованном чтении из памяти можно оказаться в ситуации, когда ваш GPU/TPU используется лишь на 5% и до пиковых флопс как до Луны.

2. What Is a TPU?
https://jax-ml.github.io/scaling-book/tpus/

Объясняет, что такое TPU (про это я тоже писал ещё давно https://moocaholic.medium.com/hardware-for-deep-learning-part-4-asic-96a542fe6a81), что такое систолический массив, какие блоки есть внутри, как связываются ускорители в Pod, каковы характеристики разных TPU от v3 до v6e.

3. Sharded Matrices and How to Multiply Them
https://jax-ml.github.io/scaling-book/sharding/

Подробно разбирает как работает шардинг (разбиение вычислений больших тензоров по нескольким ускорителям). Параллелизация, Collective Operations -- всё тут. У меня в книге этому посвящена 8-я глава, а кроме неё есть глава 7 про более классический метод параллелизации (pmap) и приложение D про уже устаревшие экспериментальные подходы, которые тем не менее могут помочь лучше понять как мы пришли в текущую точку.

4. All the Transformer Math You Need to Know
https://jax-ml.github.io/scaling-book/transformers/

Вся основа трансформеров на уровне вычислений. Где какие операции, как считать флопсы и параметры, MoE, Gradient checkpointing, KV caching, Flash Attention.

5. How to Parallelize a Transformer for Training
https://jax-ml.github.io/scaling-book/training/

Обсуждение разных видов параллелизма на примере трансформера: data parallelism, fully-sharded data parallelism (FSDP), tensor parallelism, pipeline parallelism.

6. Training LLaMA 3 on TPUs
https://jax-ml.github.io/scaling-book/applied-training/

Как применить все эти знания к обучению реальной модели (Llama 3) на TPU v5p. Что такое Llama 3, как отшардить модель LLaMA 3-70B.

7. All About Transformer Inference
https://jax-ml.github.io/scaling-book/inference/

В чём особенности инференса для трансформеров, где боттлнеки, что с памятью, что с latency. MHA, MQA, GQA (про MLA ещё нет: https://t.me/gonzo_ML/3292). KV cache, распределение инференса по разным ускорителям, фазы инференса (prefill, generation), шардирование KV-кэша, _много_ оптимизаций инференса.

8. Serving LLaMA 3-70B on TPUs
https://jax-ml.github.io/scaling-book/applied-inference/

Как применить все эти знания к инференсу реальной модели, той же самой Llama 3-70B.

9. How to Profile TPU Programs
https://jax-ml.github.io/scaling-book/profiling/

Как профилировать код на TPU и искать боттлнеки. Как работает компилятор XLA, что такое HLO (я много это разбираю в главе 5 своей книги, про компиляцию), что такое JAX TPU profiler, Trace Viewer, Graph Viewer, как делать профилирование памяти.

10. Programming TPUs in JAX
https://jax-ml.github.io/scaling-book/jax-stuff/

🔥37👍4🤡4👎1💩1

7.24K views06:07

Love. Death. Transformers.

Forwarded from неуютный фкнчик

Media is too big

VIEW IN TELEGRAM

#моп_поймет
Отклик сюда: https://forms.gle/z45WwdBTRHrd8inM9

🔥42😁22🤡5👍1👎1

7.16K views11:53