Love. Death. Transformers.

TRULLY OPEN SOURCE LLM CLICKBAIT

Очередная open source LLM , но с плотностью открытыми данными (4.5т) адекватным data pipeline со spark, фильтры на fast_text.

Правда кодовая база на Megatron прости господи, но не Jax.

По перформансу:

Llama2 < x < mistral 7b

map-neo.github.io

🥴32👍13👎1

7.11K views19:08

Love. Death. Transformers.

Forwarded from Старший Авгур

@saiga_igusev_bot можно добавлять в чаты! Картинки там не поддерживаются, но всю историю чата бот запоминает. Можно использовать для чего угодно: для суммаризации, для справки, для озвучивания мнения. Пока в тестовом режиме, собираю баги.

❤26

6.74K views20:07

Love. Death. Transformers.

Старший Авгур

Claude 3 прекрасен

😁180❤13👏9😇6

7.59K views21:57

Love. Death. Transformers.

Forwarded from Кононюковщина

🤗 Aeonium-v1-Base-4B

Новая модель из серии Aeonium. Все то же самое, что и в 1B, только обучена на большем количестве токенов.

По результатам бенчмарка ruMMLU, это лучшая открытая языковая модель, обученная на русском языке с нуля.

Конечно, до SOTA еще далеко, но первый шаг уже сделан. Instuct-версия будет чуть позже.

@hikonon

👍21🔥3

6.32K views13:43

Love. Death. Transformers.

Forwarded from Душный NLP

⚗️ Что такое дистилляция и как она применяется в LLM — часть I

Чем больше модель, тем сложнее ее инферить и дороже обучать. Решить проблему призвана, в том числе, дистилляция — передача знаний от тяжёлой модели («учителя») более лёгкой («ученика»). Расскажем, какие типы дистилляции существуют и как их используют.

Классический способ предложил Джеффри Хинтон в статье 2015 года. Учёный выдвигает гипотезу, что распределение классов, которые модель предлагает в качестве ответа, само по себе содержит немало знаний. Поэтому имеет смысл тренировать «ученика» не на ответах, а на распределении классов «учителя», используя Softmax с температурой. В качестве лосса использовали кросс-энтропию между двумя распределениями — ответами учителя и ученика.

Одна из первых моделей, которую дистиллировали на претрейне, — DistilBERT. Результат получился впечатляющим: language understanding удалось сохранить на 97%, а скорость по заявлению авторов выросла на 60%. Интересно, что дистиллировали веса, а в архитектуре модели изначально было вдвое меньше энкодер-блоков, чем у базовой BERT — 6 против 12. В основе обучения — перекрестная энтропия ответов «учителя» и «ученика», MLM и L cos — косинусная близость между эмбеддингами на скрытых слоях. Идеи DistilBERT позднее применяли, например, в DistilGPT.

Самый простой из современных методов — имитация модели. Его суть — добиться, чтобы небольшая модель копировала поведение крупной. Для этого «учителя» просят генерировать ответы на разные запросы, а потом на них обучают «ученика».

Маленькие модели отлично подражают большим, но не развивают собственные навыки. Поэтому «ученики» не получают новые знания, зато неплохо справляются с тем, чтобы извлекать имеющиеся. Этот метод подходит, когда нужно натренировать модель под конкретные задачи, например, для суммаризации или разметки данных.

Для дистилляции знаний в «младшую» модель можно использовать метод Chain-of-Thought Prompting. Суть: просить LLM давать не только ответ, но и описывать цепочку рассуждений, которые к нему привели. Как показывают исследования, такой подход существенно увеличивает качество ответов на некоторых датасетах.

К примеру, авторы статьи Distilling Step-by-Step! попросили «ученика» предсказывать не только ответы «учителя», но и обоснования, чередуя запросы. Так маленькая модель тренируется думать как большая LLM, а не просто копирует ответы и поведение — на некоторых датасетах этот подход даёт отличный результат.

Кроме того, можно использовать датасет, составленный по reward-модели. В этом случае «ученик» будет тренироваться не на всех ответах «учителя», а только на тех, которые reward-модель считает хорошими, что тоже может улучшить результаты.

Наконец, можно расширить датасет, на котором учится младшая модель, с помощью генерации с разными параметрами вроде температуры или seed. Набор данных по одному промту получится более разнообразным, а поведение «ученика» в теории должно больше походить на поведение «учителя».

На этом всё. Спасибо, что прочитали! Делитесь опытом и впечатлениями от поста в комментариях! А во второй части текста мы разберём другие методы дистилляции и, конечно, затронем MiniLLM. Оставайтесь на связи!

Разбор помог подготовить ❣ Сергей Воробьев

@stuffyNLP

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥43👍214❤2🤡1

6.25K views14:45

Love. Death. Transformers.

День репостов, админ тильтует от хуево подобранной дозы таблеток от аллергии

💋41💔19🤡3🍌2🤔1

5.93K views14:46

Love. Death. Transformers.

Forwarded from Серж Фаге о XXI Веке (Serge Faguet)

Ниже по ссылке находится всё моё первое произведение в удобном для шеринга формате, можете просто форвардить этот телеграм пост.

https://telegra.ph/Ballada-o-Levieve-Neudachnike-05-24

На прессу и критиков нам похуй, хотя написать об этом принесёт им удачу 🍀

Возможно, вы сочтёте что кому-то может быть ценным услышать мораль нашей сказки. Кому-то кого надо вдохновить встать и защитить свои права. Кому-то кому стоит узнать что некрасивое поведение приводит к реальным последствиям, даже когда человек уверен в своей безнаказанности.

Или кому-то кто разочаровался в современном мире и ищет в нём немножко магии. Кому-то просто на поржать про то, как оно в мире оказывается бывает. Кому-то на включить в MBA курс университета как кейс работы с акционерными вопросами.

Всякое бывает в дворцах мира сего.

А я тем временем отключаю свой Телеграм и отправляюсь загорать на солнце и чтить Шаббат с обнимающей меня mixed-race бразильской моделью. Но, девушки, вы не волнуйтесь, у меня через два года планируется свадьба с семью женщинами из различных культур которые желают стать принцессами, это будет хайлайт высшего общества, и вы всё ещё можете успеть. Мы же все знаем как вы подсели на мем доминантных вампиров-колдунов-миллионеров, а оказывается они есть не только в фильмах.

Семь-и-я, семья, семь жён и я, что вам непонятно, в самом языке Пушкина мне всё прямым текстом видно, а вам неясно как я такое себе позволяю. Внимательнее просто надо быть 🌹

За сим, друзья, мы откланяемся.

Telegraph

Баллада о Левиеве-Неудачнике

ВВЕДЕНИЕ Здесь нет ни одной строки Chat-GPT, хотя-бы поскольку наше произведение нарушает примерно все правила OpenAI и прочитав его, они возможно добавили бы новые. Все имена вымышлены и совпадения случайны. Искусство-с. Но – it is, indeed, based on a true…

💊5015🤡11❤3👍22👎1🤔1🥱1

6.94K views17:23

Love. Death. Transformers.

генетически мутированные выведенные LLM!!!

ноутбук

Google

gen_llm

Colab notebook

3011🔥9💊3🗿2

6.44K viewsedited 21:24

Love. Death. Transformers.

генетически мутированные выведенные LLM!!! ноутбук

предалагаю основать религию в которой после смерти мученик получает веса gpt-4 после за все ебланские эксперименты с опенсорсом

https://arxiv.org/pdf/2404.05961 - челы на серьезном лице сравнивают х10 по параметрам модели и такие: чет лучше кодирует...

почему это хуйня? ну вы блять имажанируйте RPS долбаебов которые 10B+ энкодер потащат в прод не для картинко генерилок?
Имажинировали? Вот и я не понял нахуя оно надо кому то, долбаебизм даже на GPU крутить, энкодер должен крутиться на OpenVino на XEON в миллион RPS

👍24💊11❤3🤔2😁1💩1🥴1

7.41K viewsedited 22:06

Love. Death. Transformers.

😁229🌚13😈6🙈4❤1

8.3K views21:20

Love. Death. Transformers.

Forwarded from Alexander

Привет!
К празднику зарелизил модель "детского" размера ru-rope-t5-small-instruct

Из особенностей:
✔️претрейн задача из UL2 (смесь денойзеров)
✔️заменил attention bias на RoPE, потому что лучше сходится и есть возможность обучать с Flash Attention 2
✔️обучал с контекстом 1024, пунктуация и цифры кодируются по токену на символ
✔️претрейн корпус почти от Вихря, брал с низкой перплексией от FRED 1.7B
✔️файнтюнил на переведенных английских инструкциях, лучше метрики на downstream задачах, но в zero-shot инструкциям не следует
✔️использовал оптимизитор AdamWScale вместо Adafactor, чтобы избежать взрывов лосса (поэтому дистилляция FRED 1.7B давала хуже метрики)
⭐️по метрикам на RussianSuperGlue близко к rut5-base, которая больше в 3 раза (скрин в карточке)

🙏Делал в качестве вузовского проекта, буду рад лайку и обратной связи

huggingface.co

melmoth/ru-rope-t5-small-instruct · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍44❤10💩5🔥1

6.48K views07:17

Love. Death. Transformers.

😁101💯14❤‍🔥2❤1

7.14K views09:50

Love. Death. Transformers.

Не очевидно-полезная фича gpt4o - возможность переводить и читать рукописный текст и речь с разных языков.

А так, подписка - хлам, gpt store набор игрушек на вечер. используйте апишку, будет дешевле и можно свои ragи докидывать.

❤68✍17👍10🤔2💯1

7.84K views16:41

Love. Death. Transformers.

Заеби себя работой сам и заеби других, тогда думать не придется

❤66😐247🎉5👍2🔥2👏2😢2

7.17K viewsedited 23:18

Love. Death. Transformers.

12 июня выйдет новое поколение генерилок вайфу - SD3

❤‍🔥62💊7🤡5🍓2

6.91K views10:18

Love. Death. Transformers.

задача трех мл тел

1) наебать инвесторов
2) поднять бабла
3) tax fraud в дубае

🤔119👍30😐5😁4❤3🍌1

7.6K viewsedited 14:07

Love. Death. Transformers.

Forwarded from ML-легушька (Николай Кутузов)

Какая цель у человека, который приходит в айти?
Кальянчик на двойном яблочке там, томатная гозешка и подружка девочка из вшэ дизайна

🥴102🔥27🤡13😁7❤2👍2💯2🤔1

6.3K views14:30

Love. Death. Transformers.

Forwarded from Мишин Лернинг

1:14

This media is not supported in your browser

VIEW IN TELEGRAM

🪩 Диффузионки позволяют ремастерить игры при помощи текстовых промптов.

Nvidia показала пайплайн ремастеринга текстур в популярном графично-нодовом интерфейсе ComfyAI.

Теперь можно не только апскейлить текстуры с определением свойств материалов для трассировки лучей, но и контролировать стиль при помощи промптов. RTX Remix — инструмент для ремастеринга классических игр с использованием технологий трассировки лучей и DLSS 3.5. И интеграция RTX Remix Toolkit с ComfyUI выглядит обещающей, позволяя модерам задавать стиль текстур с помощью текстовых промптов. Это ускоряет процесс моддинга и упрощает создание качественных текстур.

Теперь маленькие команды модеров могут быстро создавать текстуры высокого разрешения с физически корректными свойствами, освобождая время для доработки ключевых элементов.

А пока ждем обещанный Half-Life 2 RTX. Ну и я лично мечтал бы увидеть Half-Life Alyx с RTX в VR.

🔥38🤡23❤2👍2🤷2

6.12K views10:45

Love. Death. Transformers.

0:01

This media is not supported in your browser

VIEW IN TELEGRAM

Мой батя готовит охуительные world models, вот рецепт примерно усреднённый

😁70❤1

6K viewsedited 10:59

Love. Death. Transformers.

Forwarded from Data Blog

Привет, друзья! 🐥

Я почти вышла на сессию и в свободное время продолжаю перебирать и готовить материалы для курса и будущего диплома.

Сегодня к вам с новой полезной штукой! 🔥

Мы уже акцентировали внимание на том, что результаты одного метода объяснения не эквивалентны результатам другого.

В этом случае встает вопрос: как наиболее продуктивно создавать объяснения, чтобы оценивать их устойчивость?

Один из ответов — добавлять в свой арсенал наиболее универсальные алгоритмы интерпретации, например такие как LIME (Local Interpretable Model-Agnostic Explanations)!

Что это, как использовать, чтобы извлечь максимально много информации и даже математические выкладки: собраны для вас в этом ноутбуке (рус, англ). Благодаря туториалу вы построите LIME с 0 и поймете его библиотечную реализацию!

Также все открытые материалы буду добавлять в этот репозиторий и в материалы курса! 🫶🏻

Не знаю почему, но очень рада тратить кучу часов, исследуя тему. Надеюсь, это принесет вам пользу и поможет сделать более понятные модели!

Со всем самым добрым,
всем запаха сирени! 🪻

Ваш Дата-Автор!

Google

LIME_rus.ipynb

Colab notebook

💅24👍6❤1🔥1💩1😐1

5.73K views16:14

About

Blog

Apps

Platform