Forwarded from На задворках
Не знаю, неиронично хочется затехать другую методичку, где все начинается с категорий и заканчивается леммой Йонеде. И по приколу расфорсить, что это настоящая методичка для абитуриентов матфака
🤮25🔥14🥴10😁4❤3👍1😢1
Love. Death. Transformers.
Почему не 7Т?
not using ruGPT3.5
not sota
* последовательность постов в другую сторону если что
not sota
* последовательность постов в другую сторону если что
😢8❤2😁2
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 RuBLiMP
Коллеги сделали очень любопытный тест для языковых моделей. Сам тест простой — модель должна определить правильное предложение, выбрав одно из двух.
В каждой паре изменен только один параметр (морфологический, синтаксический или семантический), поэтому такие пары называются минимальными.
Все такие признаки (феномены) поделили на 45 классов и для каждого разметили по 1000 примеров. Таким образом, можно провести подробную диагностику моделей по всем этим признакам на русском языке.
👉 HF | GitHub | Статья
Коллеги сделали очень любопытный тест для языковых моделей. Сам тест простой — модель должна определить правильное предложение, выбрав одно из двух.
В каждой паре изменен только один параметр (морфологический, синтаксический или семантический), поэтому такие пары называются минимальными.
Завтра Олег починит модель и она начнет работать.
Завтра Олег починил модель и она начнет работать.
Все такие признаки (феномены) поделили на 45 классов и для каждого разметили по 1000 примеров. Таким образом, можно провести подробную диагностику моделей по всем этим признакам на русском языке.
👉 HF | GitHub | Статья
🔥51👍2❤1🎄1
Аннушка уже подготовила датасет
Аннушка уже влила в мастер
Аннушка уже поставила трен
Аннушка уже собрала докер
Аннушка уже влила в мастер
Аннушка уже поставила трен
Аннушка уже собрала докер
🔥107😁36🤡11👎9💯5👍1🤔1
Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса
Друзья!
Мне очень нужно в ближайшее время завершить перевод NLLB-seed с английского на русский в @crowd_translate_bot.
Как вы думаете, как можно сподвигнуть достаточно много людей потратить по полчаса своего времени во имя науки?
Мне очень нужно в ближайшее время завершить перевод NLLB-seed с английского на русский в @crowd_translate_bot.
Как вы думаете, как можно сподвигнуть достаточно много людей потратить по полчаса своего времени во имя науки?
❤11👎9🤔1
Пока кто то плодит нищету, миллиардер, амбасадор олимпиадников и просто скамер гоев плодит лысых и низких людей.
😁83 23👍5🤡5 2🤔1🐳1
Love. Death. Transformers.
Пока кто то плодит нищету, миллиардер, амбасадор олимпиадников и просто скамер гоев плодит лысых и низких людей.
Ты дрочишь? Сколько ты дрочишь? Брось, это не серьезно, это какой-то жалкий детский уровень. Я вот лично дрочу не меньше чем дважды в день. Сначала утром, сразу после ледянной ванны, а потом сразу после обеда. Вот так, понимаешь? Я это делаю, не потому что нравится, а потому что мне это надо. Ты только подумай: в голове одни цифры, с утра до ночи: 100 детей.
😁121 29🐳7🤡3🤔2❤1🍌1
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Человечество:
1) делаем автономных роботов от которых не убежать
2) …
3) Профит
1) делаем автономных роботов от которых не убежать
2) …
3) Профит
Love. Death. Transformers.
Новый робот от китайцев из unitree теперь и с колесами!!
бтв китайцы обещали до 30км/ч разогнать его, так что буквально не убежишь))
❤13 12
я не знаю что меня больше радует - скуфы отрицающие ризонинг у ллм или скуфы которые топят за agi за три года.
😁82🥴18🤔6😐4 4💋3❤1👏1
Scaling Exponents Across Parameterizations and Optimizers
Собственно классика работ про параметры, lr и опитимайзеры - нужно прожечь кучу денег(около 10м usd в данном случае) и перебрать пространство гиперпараметров.
Почему это важно? Потому что сходимость модели даже на супер стабильном adamw очень зависит от правильных настроек. Ну и когда вы обучили модель размера 2B на хорошем датамиксе с хорошим LR то хочется получить хотя бы линейны рост качества при скейлелинге до 10B
paper
Собственно классика работ про параметры, lr и опитимайзеры - нужно прожечь кучу денег(около 10м usd в данном случае) и перебрать пространство гиперпараметров.
Почему это важно? Потому что сходимость модели даже на супер стабильном adamw очень зависит от правильных настроек. Ну и когда вы обучили модель размера 2B на хорошем датамиксе с хорошим LR то хочется получить хотя бы линейны рост качества при скейлелинге до 10B
paper
👍27
Forwarded from Мишин Лернинг
🏆 LLaMa 3.1 — 405B модель от Меты заняла 3е на арене
Это невероятный успех для опенсорса!
1 место — GPT-4o & GPT-4o-mini
2 место — Claude 3.5 Sonnet
3 место — Gemini-Advanced & LLaMa 3.1
Это невероятный успех для опенсорса!
1 место — GPT-4o & GPT-4o-mini
2 место — Claude 3.5 Sonnet
3 место — Gemini-Advanced & LLaMa 3.1
❤46👍15🎉10😁5⚡1
Forwarded from epsilon correct
Сегодня выпустили версию на 2.6 миллиарда параметров
https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f
1126 на арене - чуть выше GPT-3.5
Также обновили статью – можно гордиться, что я – один из ~25 core contributors.😛
https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f
1126 на арене - чуть выше GPT-3.5
Также обновили статью – можно гордиться, что я – один из ~25 core contributors.
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Gemma 2 2B Release - a google Collection
The 2.6B parameter version of Gemma 2.
👍30❤5