GPT operator здорового человека, без 200 bucks?
Ощущается как оператор здорвого человека, не требует подписки, сразу делает что надо, САМ ПРОХОДИТ КАПЧУ.
Внутри тоже Web agent который сам тыкает кнопки и теоретически может пользоваться любым ui. Хотя модель застревает на Gradio like UI(тут оператор ведет себя чуть лучше)
Из приятного эта штука быстрее чем deepresearch и намного быстрее чем оператор. Хотя и deepresearch проверяет сильно больше информации.
Хотя deepresearch иногда уморительно галюцинирует:
Доклад от deepresearch
https://proxy.convergence.ai/ не умеет шарить конверсейшены, промпт был такой:
Ощущается как оператор здорвого человека, не требует подписки, сразу делает что надо, САМ ПРОХОДИТ КАПЧУ.
Внутри тоже Web agent который сам тыкает кнопки и теоретически может пользоваться любым ui. Хотя модель застревает на Gradio like UI(тут оператор ведет себя чуть лучше)
Из приятного эта штука быстрее чем deepresearch и намного быстрее чем оператор. Хотя и deepresearch проверяет сильно больше информации.
Хотя deepresearch иногда уморительно галюцинирует:
Смотрю на параметры моделей и их возможности, такие как трёхмерная форма и раскладываемость.
Ищу сведения о "MTS AI LLM" или "MTS AI Gusev".
Доклад от deepresearch
https://proxy.convergence.ai/ не умеет шарить конверсейшены, промпт был такой:
make a research about best russian llms, and benchamrk.🤮22🥱17👍11 5🔥4❤🔥2🤔2🍓2 2
Forwarded from Агенты ИИ | AGI_and_RL
Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.
https://huggingface.co/blog/open-r1/update-2
Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.
почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw
-
PS покайфу собираем все что с мл/ии связано в группе https://t.me/researchim
https://huggingface.co/blog/open-r1/update-2
Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.
почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw
-
PS покайфу собираем все что с мл/ии связано в группе https://t.me/researchim
👍33👎2🔥2👏2❤🔥1
https://getmentor.dev/#list
могу бесплатно дать совет: не работать в ебучем ИТ и тем более не вкатывать на перегретый рынок(только если реально любите и ничего другого не хотите)
могу бесплатно дать совет: не работать в ебучем ИТ и тем более не вкатывать на перегретый рынок(только если реально любите и ничего другого не хотите)
Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling
Вероятно пока что лучший пример применения its, nvidia говорит - писать кернелы заебно и сложно, точно не потому что у нас их писало два китайских бакалавра,а документация есть только на китайских двачах
Cобственно челы накидывают классический prompt рерайт, отбирают кернелы на основе Kernel bench , обновляют контекст и получают 50% ускорения бесплатно.
И такой воркфлоу выдает 100% точности на level1 kernels(matmul, ln и прочее)
и 96% на level2( conv + bias + ReLU)
Ну и да, в отличие от CodeForces эта штука имеет применение в реальном мире.
nvidia blog
Вероятно пока что лучший пример применения its, nvidia говорит - писать кернелы заебно и сложно, точно не потому что у нас их писало два китайских бакалавра,
Cобственно челы накидывают классический prompt рерайт, отбирают кернелы на основе Kernel bench , обновляют контекст и получают 50% ускорения бесплатно.
И такой воркфлоу выдает 100% точности на level1 kernels(matmul, ln и прочее)
и 96% на level2( conv + bias + ReLU)
Ну и да, в отличие от CodeForces эта штука имеет применение в реальном мире.
nvidia blog
❤🔥41🔥18👍2🤡2
Forwarded from Denis Sexy IT 🤖
POV человека который знает что хочет от жизни сегодня вечером:
😁104😍38💔13👍4😢3🤡2🥴2 2❤🔥1
щаща дружбан трампыня придет, снимет В С Е санкции, Илон маск пообещал GigaGrok 4 обученный на Cristofary NEO 2м карт(кластер построят в тундре, чтобы не охлаждать) Хуанг общеает открытие базовой кафедры на физтехе.
Сэм Альтан обещает турне по вузам - от Теплых мужских отношений до Goida Aligment. А Канал Аишная объявят первым офицальным PR каналом oai в России!!
Что это было?(в картинках)
Сэм Альтан обещает турне по вузам - от Теплых мужских отношений до Goida Aligment. А Канал Аишная объявят первым офицальным PR каналом oai в России!!
Что это было?(в картинках)
😁156 22 21🤡12👏5😍5👎3💩2🗿2👍1
Media is too big
VIEW IN TELEGRAM
Нет ничего более страшного чем скучающий ум.
Ребята делают opensource car autopilot, который подключается шнурком по USBC, работает по 1 камере(!)
А ещё вы можете туда добавлять кастомные прошивки.
GitHub
Ребята делают opensource car autopilot, который подключается шнурком по USBC, работает по 1 камере(!)
А ещё вы можете туда добавлять кастомные прошивки.
GitHub
🔥71🍌5
Forwarded from gonzo-обзоры ML статей
Снова про JAX.
Если моя книга “Deep Learning with JAX” (https://t.me/gonzo_ML/2926) для вас ещё не является достаточной мотивацией освоить этот продвинутый фреймворк, то вот вам ещё пара крутых свежих материалов:
The PyTorch developer's guide to JAX fundamentals
https://cloud.google.com/blog/products/ai-machine-learning/guide-to-jax-for-pytorch-developers
Короткий гайд по созданию модели для тех, кто привык к PyTorch и хочет сравнить. Пример использует новый Flax NNX API (писал про него в посте JAX things to watch for in 2025, https://gonzoml.substack.com/p/jax-things-to-watch-for-in-2025), но есть также и пример на более старом но всё ещё популярном Flax Linen API.
================================
How to Scale Your Model
A Systems View of LLMs on TPUs
https://jax-ml.github.io/scaling-book/
Это прям целая книга про скейлинг LLM на TPU. Содержит несколько секций:
1. All About Rooflines
https://jax-ml.github.io/scaling-book/roofline/
Объясняет, что такое roofline model (писал про неё когда-то давно тут https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664). Это безумно важно понимать для оптимизации ваших вычислений, не всё определяется флопсами, многие алгоритмы ограничены коммуникацией, в смысле пересылкой данных, не обязательно в распределённой системе, даже при неудачно организованном чтении из памяти можно оказаться в ситуации, когда ваш GPU/TPU используется лишь на 5% и до пиковых флопс как до Луны.
2. What Is a TPU?
https://jax-ml.github.io/scaling-book/tpus/
Объясняет, что такое TPU (про это я тоже писал ещё давно https://moocaholic.medium.com/hardware-for-deep-learning-part-4-asic-96a542fe6a81), что такое систолический массив, какие блоки есть внутри, как связываются ускорители в Pod, каковы характеристики разных TPU от v3 до v6e.
3. Sharded Matrices and How to Multiply Them
https://jax-ml.github.io/scaling-book/sharding/
Подробно разбирает как работает шардинг (разбиение вычислений больших тензоров по нескольким ускорителям). Параллелизация, Collective Operations -- всё тут. У меня в книге этому посвящена 8-я глава, а кроме неё есть глава 7 про более классический метод параллелизации (pmap) и приложение D про уже устаревшие экспериментальные подходы, которые тем не менее могут помочь лучше понять как мы пришли в текущую точку.
4. All the Transformer Math You Need to Know
https://jax-ml.github.io/scaling-book/transformers/
Вся основа трансформеров на уровне вычислений. Где какие операции, как считать флопсы и параметры, MoE, Gradient checkpointing, KV caching, Flash Attention.
5. How to Parallelize a Transformer for Training
https://jax-ml.github.io/scaling-book/training/
Обсуждение разных видов параллелизма на примере трансформера: data parallelism, fully-sharded data parallelism (FSDP), tensor parallelism, pipeline parallelism.
6. Training LLaMA 3 on TPUs
https://jax-ml.github.io/scaling-book/applied-training/
Как применить все эти знания к обучению реальной модели (Llama 3) на TPU v5p. Что такое Llama 3, как отшардить модель LLaMA 3-70B.
7. All About Transformer Inference
https://jax-ml.github.io/scaling-book/inference/
В чём особенности инференса для трансформеров, где боттлнеки, что с памятью, что с latency. MHA, MQA, GQA (про MLA ещё нет: https://t.me/gonzo_ML/3292). KV cache, распределение инференса по разным ускорителям, фазы инференса (prefill, generation), шардирование KV-кэша, _много_ оптимизаций инференса.
8. Serving LLaMA 3-70B on TPUs
https://jax-ml.github.io/scaling-book/applied-inference/
Как применить все эти знания к инференсу реальной модели, той же самой Llama 3-70B.
9. How to Profile TPU Programs
https://jax-ml.github.io/scaling-book/profiling/
Как профилировать код на TPU и искать боттлнеки. Как работает компилятор XLA, что такое HLO (я много это разбираю в главе 5 своей книги, про компиляцию), что такое JAX TPU profiler, Trace Viewer, Graph Viewer, как делать профилирование памяти.
10. Programming TPUs in JAX
https://jax-ml.github.io/scaling-book/jax-stuff/
Если моя книга “Deep Learning with JAX” (https://t.me/gonzo_ML/2926) для вас ещё не является достаточной мотивацией освоить этот продвинутый фреймворк, то вот вам ещё пара крутых свежих материалов:
The PyTorch developer's guide to JAX fundamentals
https://cloud.google.com/blog/products/ai-machine-learning/guide-to-jax-for-pytorch-developers
Короткий гайд по созданию модели для тех, кто привык к PyTorch и хочет сравнить. Пример использует новый Flax NNX API (писал про него в посте JAX things to watch for in 2025, https://gonzoml.substack.com/p/jax-things-to-watch-for-in-2025), но есть также и пример на более старом но всё ещё популярном Flax Linen API.
================================
How to Scale Your Model
A Systems View of LLMs on TPUs
https://jax-ml.github.io/scaling-book/
Это прям целая книга про скейлинг LLM на TPU. Содержит несколько секций:
1. All About Rooflines
https://jax-ml.github.io/scaling-book/roofline/
Объясняет, что такое roofline model (писал про неё когда-то давно тут https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664). Это безумно важно понимать для оптимизации ваших вычислений, не всё определяется флопсами, многие алгоритмы ограничены коммуникацией, в смысле пересылкой данных, не обязательно в распределённой системе, даже при неудачно организованном чтении из памяти можно оказаться в ситуации, когда ваш GPU/TPU используется лишь на 5% и до пиковых флопс как до Луны.
2. What Is a TPU?
https://jax-ml.github.io/scaling-book/tpus/
Объясняет, что такое TPU (про это я тоже писал ещё давно https://moocaholic.medium.com/hardware-for-deep-learning-part-4-asic-96a542fe6a81), что такое систолический массив, какие блоки есть внутри, как связываются ускорители в Pod, каковы характеристики разных TPU от v3 до v6e.
3. Sharded Matrices and How to Multiply Them
https://jax-ml.github.io/scaling-book/sharding/
Подробно разбирает как работает шардинг (разбиение вычислений больших тензоров по нескольким ускорителям). Параллелизация, Collective Operations -- всё тут. У меня в книге этому посвящена 8-я глава, а кроме неё есть глава 7 про более классический метод параллелизации (pmap) и приложение D про уже устаревшие экспериментальные подходы, которые тем не менее могут помочь лучше понять как мы пришли в текущую точку.
4. All the Transformer Math You Need to Know
https://jax-ml.github.io/scaling-book/transformers/
Вся основа трансформеров на уровне вычислений. Где какие операции, как считать флопсы и параметры, MoE, Gradient checkpointing, KV caching, Flash Attention.
5. How to Parallelize a Transformer for Training
https://jax-ml.github.io/scaling-book/training/
Обсуждение разных видов параллелизма на примере трансформера: data parallelism, fully-sharded data parallelism (FSDP), tensor parallelism, pipeline parallelism.
6. Training LLaMA 3 on TPUs
https://jax-ml.github.io/scaling-book/applied-training/
Как применить все эти знания к обучению реальной модели (Llama 3) на TPU v5p. Что такое Llama 3, как отшардить модель LLaMA 3-70B.
7. All About Transformer Inference
https://jax-ml.github.io/scaling-book/inference/
В чём особенности инференса для трансформеров, где боттлнеки, что с памятью, что с latency. MHA, MQA, GQA (про MLA ещё нет: https://t.me/gonzo_ML/3292). KV cache, распределение инференса по разным ускорителям, фазы инференса (prefill, generation), шардирование KV-кэша, _много_ оптимизаций инференса.
8. Serving LLaMA 3-70B on TPUs
https://jax-ml.github.io/scaling-book/applied-inference/
Как применить все эти знания к инференсу реальной модели, той же самой Llama 3-70B.
9. How to Profile TPU Programs
https://jax-ml.github.io/scaling-book/profiling/
Как профилировать код на TPU и искать боттлнеки. Как работает компилятор XLA, что такое HLO (я много это разбираю в главе 5 своей книги, про компиляцию), что такое JAX TPU profiler, Trace Viewer, Graph Viewer, как делать профилирование памяти.
10. Programming TPUs in JAX
https://jax-ml.github.io/scaling-book/jax-stuff/
🔥37👍4🤡4👎1💩1