Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
вот би бил егэ по бенчмаркам....

очередная модель, типа соннет бьет на оффлайн бенчах
👍28😁22
This media is not supported in your browser
VIEW IN TELEGRAM
Подписчик сделал мерч для канала, прикольно....
6🔥153👍268🤮7🤔1😨1
😁144😢18👾4🤔1
АХАХАХАХА мяу
🤪31👍1
Ищу вписку на 4 людей в париже, писать в @transformerslovedeatch


Чат парижо сходки
🤮23😁20🔥7🌭5🤪221
Ежемесячные слухи о том, что "AGI достигнут внутри OpenAI", похожи на историю про мальчика, который кричал "волки" — за исключением того, что деревенские жители продолжают приходить без исключения 30 раз подряд, несмотря на то что в этом районе никогда не было волков.
50😁136🔥16💯7🥴6👍3🤡1
Love. Death. Transformers.
Вот би бил ЕГЭ по мержингу
Вот би бил ЕГЭ по наебу инвесторов на деньги, а стоп....
😁74🔥106👍3
Forwarded from Denis Sexy IT 🤖
Давно порываюсь вам написать про ТГ-сетки которые про ML-пишут и что им не стоит верить, вот пример

Что на самом деле происходит с этой новой моделью Reflection-70B:

1. Пару дней твиттерский показал свою новую языковую 70B-модель которая с рекордами прошла все бенчмарки (по его утверждению это был файнтюн Llama 3.1 70b ) и что такая же 400b будет вот-вот

2. Модель начала вируситься, ее начали качать и оказалось, что она толком не работает потому что там внутри немного битый конфиг ее запуска (это если простыми словами)

3. Автор перезалил модель, сказал что все починил и все работает — но теперь оказалось что нужно использовать только специальный системный промпт чтобы она работала

4. Сообщество начало тестировать, разобрало модель по кусочкам и оказалось, что это файнтюн Llama 70b 3.0, а не 3.1. И причем не файнтюн модели целиком, а просто Lora-адаптер вмерженного в модель (тренируют кусочек модели который замещает часть модели)

5. Автор сказал, я вообще не помню что я там использовал — толи 3.0 толи 3.1, что такое Lora я не знаю, это не важно все — мы тут сейчас все заново поставим тренироваться, уже поставили точнее (зачем перетренивать модель которая по метрикам побила все бенчмарки пару дней назад мы не узнаем)

6. Параллельно с этим, появилась веб-версия этой модели о которой пишет Бекдор — и ее API дали сегодня протестировать сторонней организации, она неплохо справилась и подтвердила что результаты высокие (но модель доступна только по API)

7. Пару часов назад автор публикует новую версию модели Reflection 70b e3 и сразу пишет, что с ней что-то не так: «Веса залились, но мы все еще проверяем, чтобы убедиться, что они правильные, прежде чем мы собираемся закончить день» – зачем заливать модель до тестов? Ответа нет

8. Люди тестирующие веб версию Reflection 70b, обратили внимание, что она очень похожа на Sonnet 3.5 — буквально токен в токен отдает ответы такие же ответы

<играет цирковая музыка, вы находитесь здесь>

Буду держать вас в курсе нашей высокотехнологичной драмы – возможно, чел правда что-то натренил, но пока мы не знаем что.

Ну и для нейронок лучше читать проверенные ML-каналы, сейчас такое время, что все экспертами в АИ стали (я даже не про свой, я их часто сюда репощу)
602915👍76😁5🤡2👎1🤮1💩1
погодите это реально
🗿129🤮67😁32🔥25💩13🤡7🥴73🍓2💊2
- А можно нам больше серверов? У нас стрим видео забивает поток
- Есть одна идейка
😁74🥴11🔥3
если вы сми и хотите написать статью про лучшую ллм ресерч лабу в россии - вас ждут в личку @transformerslovedeatch
🤡65😁3618👍6💩5🍌5🗿211🍓1
This media is not supported in your browser
VIEW IN TELEGRAM
слухи перед каждой презентацией openai все больше напоминают "реальный мамой клянусь" прототип айфона 6 перед презентациями apple лет 10 назад
😁96🤡1173👍2🦄1
Emergent abilitys ожидание: ну мы сделали sota на всех языках
Emergent abilitys реальность:
👏259😐4🤔3🍓2🤡1💋1
Я изучил программу самых известных программ по DataScience и составил собственный бесплатный курс подготовки senior ресерчеров:


⁃ Начинаем курс с пайки и микроэлетроники - 6 месяцев
⁃ Учимся программировать под arduino - 4 месесяца
- Пишем папиру на диалог/любую русскую конфу - 1 неделя
⁃ Идем в нму дрочить листочки на первый семестр 4 месяца
⁃ Идем работать в макдак, паралельно учим python и torch – 6 мес
⁃ Дальше репетитором по математике, паралельно контрибьютим в любой опенсурс по вкусу – 6 мес
⁃ Завершаем курс написанием статьи на а* – 9 мес

На выходе всего за 3 года получаем закаленного резерчера, который всем нужен.
😁163🤡42🍌224👍4🔥4🤮2👎1
Forwarded from AbstractDL
Attention Heads of LLM — A survey

Трансформеры это всё ещё чёрный ящик или уже нет? За последние несколько лет мы сильно приблизились к пониманию функций отдельных компонент языковых моделей, лучше понимаем, как они приходят к тому или иному выводу, и главное — как можно влиять на процес их "размышений", редактировать отдельные факты в памяти и многое другое.

В этой статье собрали в кучку всё, что известно о функциях голов внимания в LLM с очень красивыми схемами и таблицами. Вот только небольшая часть:
- Associative Memories Head
- Truthfulness Head
- Semantic Induction Head
- Global Retrieval Head
- Subword Merge Head

Поэтому, если хотите погрузиться в интерпретируемость трансформеров — очень рекомендую полистать этот обзор.

Статья
🔥31👍15💯2🆒2
https://songcreator.github.io/

Думаю скоро выйдет udio, а потом и sora дома.
🔥27👍4
1.wav
1.3 MB
Прям звучит тбх. Папира, а кода пока нет.
👍11👎7
3😁111💅12🌭2