Love. Death. Transformers.
24.4K subscribers
4.48K photos
521 videos
79 files
2.94K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Forwarded from Vikhr models
⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .


🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
😍53👍19🔥10🤡2
Forwarded from ML Underhood
Как в Яндексе заменили сложную разметку на LLM

В конце прошлой осени Команда качества поиска одной из первых в Яндексе смогла существенно удешевить сложную асессорскую разметку за счёт генеративной модели. Татьяна Климук, руководитель Службы исследований и качества ранжирования, рассказала, как работали над технологией.

Яндекс использует услуги тысяч асессоров, которые каждый день выполняют десятки тысяч заданий по оценке выдачи с точки зрения качества и релевантности. Это дорогой, долгий и сложный процесс.

Идея проекта в том, чтобы отдать рутинную работу по разметке сильной нейронке. При этом мы не отказываемся от асессоров, а переключаем их на разметку более важных и сложных кейсов, а также поручаем контролировать корректность работы модели.

Архитектура

Мы начали с экспериментов с базовым претрейном от YandexGPT. На вход подавали сжатую инструкцию, запрос и контент документа, на выходе получали решение о принадлежности к одной из категорий релевантности.

Однако промптинг даже SoTA-моделей пока не даёт нужного качества на нестандартных кейсах. Инструкция оказывается для них настолько сложной, что без дообучения ни одна модель не справляется с ней. Поэтому на старте получилось выжать только 55% качества асессоров.

Тогда мы сделали ряд улучшений:

— Взяли претрейн от Нейро, который лучше понимает поисковый домен и легче обучается решать поисковые задачи.
— Обучались не просто на метку класса, но и на подготовленные Chain-of-Thoughts, чтобы научить модель больше думать перед тем, как она даёт ответ.
— Добавили внешние данные — знания, необходимые для понимания контекста, которые нельзя извлечь из текста. Пример таких знаний — то, какие страницы в сети официальные, а какие — нет.
— Подавали данные для обучения в нужном порядке — от более мусорных к более качественным.

Так мы добились качества 102% относительно разметки асессоров, что уже было неплохо. Но оставался риск «сломать» Поиск — поэтому нужно было проверить модель на разных классах запросов, исключить риск деградации со временем и учесть другие нюансы.

Решение

В итоге мы придумали решение, которое использует оценку как от людей, так и от нейросети. Мы стали извлекать из неё не только ответ по инструкции, но ещё и уверенность в этом предсказании. В зависимости от степени уверенности мы принимали решение, использовать ли в задаче человеческий ресурс.

— Если модель уверена в ответе, скорее всего, задача простая и не требует помощи асессоров. С этими кейсами она нередко справляется даже лучше людей. Таких задач оказалось около половины от общей массы.
— Если модель не до конца уверена в ответе, привлекаем её вместо одного из трёх асессоров. Размер этой зоны — около 30%.
— Когда модель говорит, что совсем не уверена в решении, отдаём задачу трём сильным асессорам — как это происходит в стандартном процессе. Таких задач порядка 20%.

Результаты и планы

С помощью этого решения мы получили 105% качества и 60% экономии денег.

Мы уже используем его экспериментально в разметке обучающих и валидационных пулов для моделей ранжирования, но конечный мониторинг интегрального качества поиска пока остаётся на людях.

Планируем продолжать наращивать качество и запускаться на новых разметках. Также в долгосрочных планах — свести процесс к промптингу, когда ты не обучаешь модель, а описываешь задачу текстом. Так мы сможем более гибко менять инструкции разметок без переобучения модели.

Мы рассчитываем, что решение поможет нам перекинуть рутину на нейронки, а людям давать более интересные и сложные задачи.

ML Underhood
👍66🔥25🤮15😁10💊6❤‍🔥2👏2🤡22🍌1
GPT operator здорового человека, без 200 bucks?

Ощущается как оператор здорвого человека, не требует подписки, сразу делает что надо, САМ ПРОХОДИТ КАПЧУ.
Внутри тоже Web agent который сам тыкает кнопки и теоретически может пользоваться любым ui. Хотя модель застревает на Gradio like UI(тут оператор ведет себя чуть лучше)

Из приятного эта штука быстрее чем deepresearch и намного быстрее чем оператор. Хотя и deepresearch проверяет сильно больше информации.

Хотя deepresearch иногда уморительно галюцинирует:
Смотрю на параметры моделей и их возможности, такие как трёхмерная форма и раскладываемость.

Ищу сведения о "MTS AI LLM" или "MTS AI Gusev".

Доклад от deepresearch

https://proxy.convergence.ai/ не умеет шарить конверсейшены, промпт был такой:

make a research about best russian llms, and benchamrk.
🤮22🥱17👍115🔥4❤‍🔥2🤔2🍓22
Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.

https://huggingface.co/blog/open-r1/update-2

Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.

почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k

нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw

-
PS покайфу собираем все что с мл/ии связано в группе https://t.me/researchim
👍33👎2🔥2👏2❤‍🔥1
https://getmentor.dev/#list

могу бесплатно дать совет: не работать в ебучем ИТ и тем более не вкатывать на перегретый рынок(только если реально любите и ничего другого не хотите)
55💊13🥴10💯10👍62
😁769😨3
Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling

Вероятно пока что лучший пример применения its, nvidia говорит - писать кернелы заебно и сложно, точно не потому что у нас их писало два китайских бакалавра, а документация есть только на китайских двачах


Cобственно челы накидывают классический prompt рерайт, отбирают кернелы на основе Kernel bench , обновляют контекст и получают 50% ускорения бесплатно.

И такой воркфлоу выдает 100% точности на level1 kernels(matmul, ln и прочее)
и 96% на level2( conv + bias + ReLU)

Ну и да, в отличие от CodeForces эта штука имеет применение в реальном мире.

nvidia blog
❤‍🔥41🔥18👍2🤡2
Forwarded from Labrats
😁231👍28🔥14💋7💔4❤‍🔥1
Две опции будущего
🍓13731😁23👍104
Forwarded from Denis Sexy IT 🤖
POV человека который знает что хочет от жизни сегодня вечером:
😁104😍38💔13👍4😢3🤡2🥴22❤‍🔥1
Vibe coding in nutshell
😁95❤‍🔥11💩5👍1🌭1
Загадка от подписчика
🥴166😁21👾9❤‍🔥2👎1🔥1🤮1🤡1🍌1
щаща дружбан трампыня придет, снимет В С Е санкции, Илон маск пообещал GigaGrok 4 обученный на Cristofary NEO 2м карт(кластер построят в тундре, чтобы не охлаждать) Хуанг общеает открытие базовой кафедры на физтехе.

Сэм Альтан обещает турне по вузам - от Теплых мужских отношений до Goida Aligment. А Канал Аишная объявят первым офицальным PR каналом oai в России!!
Что это было?(в картинках)
😁1562221🤡12👏5😍5👎3💩2🗿2👍1
Media is too big
VIEW IN TELEGRAM
Нет ничего более страшного чем скучающий ум.

Ребята делают opensource car autopilot, который подключается шнурком по USBC, работает по 1 камере(!)

А ещё вы можете туда добавлять кастомные прошивки.

GitHub
111😨31👍22😁8🔥7❤‍🔥3👎3
Step brother, please have fun

StepFun text2video 30b(e б а т ь) и это опенсурс. И с MIT лицензией.

И очень бодрый motion. Вау.

Архитектруно очень похоже на huynan video.

Выложили distilled и undistilled версии(Можно доучивать на i2v)

Github
🔥71🍌5
🦄39💊1585💯4👍1
Grok3 выиграл арену и пробил 1400 elo

И ещё есть deepresearch

И это не reasoning модель( reasoning в бета версии)
🔥7912👍6