Love. Death. Transformers.

есть что то грустное в том что за 5 минут простая кластера он сожрал денег больше чем ты за неделю

62😢39👍5💯4💅4🍌1😘1

6.58K views09:41

Love. Death. Transformers.

https://www.pjreddie.com/ cv авторы yolo выглядит так, а ты и дальше верстай свои LaTexи и будь как все

Продолжу тред людей которых я бы нанимал за ноль секунд

😁14345🔥20💯14🌚5🥴3

8.62K views11:07

Love. Death. Transformers.

Forwarded from MWS AI

🔓 Открываем код: Cotype Nano

Представляем Cotype Nano – открытую большую языковую модель, которая создана для решения бизнес-задач на русском языке. Модель работает локально на персональных устройствах и отлично подходит для разработки чат-ботов и виртуальных помощников.

Что умеет:
🔴Обрабатывать большие объемы данных — до 32,000 токенов (около 45 страниц текста) за раз
🔴Создавать контент и выполнять быстрый и точный перевод между русским и английским языками
🔴Анализировать и классифицировать данные для улучшения клиентского сервиса

➡

Как устроена:
Модель основана на архитектуре трансформера Qwen 2.5, содержит 1,5 млрд параметров и совместима с популярными фреймворками: VLLM, OpenVINO и Hugging Face.

➡

По бенчмаркам Ru Arena Hard Cotype Nano лидирует в своем классе (30.2). Доступна бесплатно, в том числе для коммерческого использования.

➡Узнать больше и скачать модель можно тут.

💻 Подробные технические характеристики — на Хабре.

Please open Telegram to view this post

VIEW IN TELEGRAM

🤡32🔥23👎3😁3🥴3💊3👍2🤮1

6.07K views11:37

Love. Death. Transformers.

Forwarded from Vikhr models

Мы в Вихрях часто делаем модели в стол или оставляем их на время полежать. Собственно в этот раз ребята из MTSa опередили нас с релизом на несколько дней.

Выложили vikhr-qwen2.5-1.5b.

Для обучения использовали GranMaster.

По арене чуть чуть хуже чем Cotype, вознможно потом полирнем SMPO и будет лучше)

model

👍23🔥4😁2🤮1

5.88K views14:07

Love. Death. Transformers.

Ко мне пришли такие люди, набирают кандидатов.

🎓 Стипендиальная программа Impact Academy для технических исследователей безопасности ИИ

Мы — сообщество Unitaware. Ищем амбициозных и талантливых людей в области ML/AI для участия в стипендиальной программе Impact Academy по безопасности ИИ. Это шанс проводить исследования и работать с лидерами индустрии — и получить от них приглашения в топовые AI safety лабы и проекты (например, Center for Human-Compatible Artificial Intelligence, FAR AI и Mila AI Institute)

💼 Что вас ждет?

• Оффлайн программа (3-6 месяцев с марта) в Сингапуре, Англии или США.
• Исследования и коучинг в сфере AI safety.
• Стипендия ~$5000/мес.
• Перспектива работы в ведущих AI-проектах.

👤 Кого мы ищем?

• Отличный английский и опыт в ML/DL (публикации, стажировки, проекты).
• Программирование на уровне ведущей техкомпании.
• Достижения: олимпиады или учеба на топовых кафедрах.
• Интерес к снижению рисков от продвинутых AI-систем.

⏳ Срок подачи: до 31 декабря (лучше до первой недели декабря).

Если заинтересовались или знаете подходящего кандидата, напишите @vakondyrev, это максимизирует шансы при прочих равных. За рекомендацию подходящего кандидата также предусмотрено вознаграждение

9💩23👍6🔥3

6.76K views16:15

Love. Death. Transformers.

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

😁18🤮5🔥2👍1

6.43K views18:01

Love. Death. Transformers.

Video

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

На кейсах со сложным движением нескольких объектов выглядит слегка лучше gen3 и прочих. Вероятно за счёт 4о и прочего будет лучше.

Забейте эта модель все ещё текущего поколения, откровений по качеству генераций не будет.

👍187😁2❤‍🔥1🔥1

6.8K viewsedited 18:45

Love. Death. Transformers.

Forwarded from Vikhr models

благодаря автору @plotquot теперь вихри стали ОЧЕНЬ быстрыми для мака

забрать для M серии мака тут

🔥35😁12🍓5🤮1

6.94K views19:52

Love. Death. Transformers.

мл конспект.pdf

22.9 MB

Вероятно лучший конспект по reinforcement learning который я видел и неожиданно на русском (!)

90🔥46🐳8👍7😍2❤‍🔥1😁1

21.1K viewsedited 21:54

Love. Death. Transformers.

😁188👍12🎉5🔥3🐳1

8.35K views07:48

Love. Death. Transformers.

https://fxtwitter.com/yoavhacohen/status/1859962825709601035 Дожили🥹 blog не о чем, но.

https://huggingface.co/rhymes-ai/Allegro-TI2V

Ещё одна

🔥42

7.19K viewsedited 08:52

Love. Death. Transformers.

Загадка на тему инфры: допустим у нас есть Nvidia gb200 nvl72. Ака стойка на 72 карты. И вот вопрос: а как на нем запускатся? Как на 18 отдельных нодах или как на одной? Если как на одной то как это реализовано системно?

Аппаратно это 18 нод по 4 карты, у них есть обычное количество маршрутиризаторов.

😁25👍4🌭2💯2🔥1

7.16K viewsedited 18:32

Love. Death. Transformers.

https://huggingface.co/Qwen/QwQ-32B-Preview

Почему не uwu

huggingface.co

Qwen/QwQ-32B-Preview · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

61👍10😁3

8.28K views21:08

Love. Death. Transformers.

Если вам хочется time scaling_a то у нас есть Mcts lib

👍26🔥4🤡2🤔1

8.06K viewsedited 09:37

Love. Death. Transformers.

Шаг1 пишем свой фреймворк на jax
Шаг2 учим хуевую LLM со своей архитектурой. Данные? А зачем их чистить?
Шаг3 сосем у oss моделей(тут можно поднять 1б USD пол обещание что мы молодцы)
Шаг4 ✨вы прекрасны, Феррари доставят на следующей неделе✨

Please open Telegram to view this post

VIEW IN TELEGRAM

61😁25🤔6👍1🔥1

22.7K viewsedited 10:53

Love. Death. Transformers.

Адаптация для языков шагает по планете

В самом начале вихрей у нас была амбиция делать модели в том числе для казахского, но мы отказались от этой идеи в связи с трудоемкостью и отсутствием ресурсов. А один из подписчиков решил делать хорошо, позвал друзей, сели и напереводили датасетов на казахский!

kz mmlu
gsm8k
constituion похож на наш датасет из шлепы Law mc
Вопросы к книгам

Обучили роберту

Ждем свои llm для казахского, рад что наш проект вдохновляет других людей делать что то!

linkedln post
автор @stringersolo

huggingface.co

kz-transformers/mmlu-translated-kk · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍41🔥199🥱1

7.86K viewsedited 13:33

Love. Death. Transformers.

😁11319👍3🔥2

11.6K views16:21

Love. Death. Transformers.

Друзья ищут сильного community genai lead

Что нужно делать?

- общатся с аудиторией на русском и английском
- делать много итераций контента, предлагать идеи, смотреть что есть у конкурентов
- ti2i, t2v, i2v и это все - ваши лучшие друзья
- в идеале смотреть что происходит в индустрии, сидеть на тематических реддитах, бордах и сереверах
- Уметь делать хайповый контент, если вы часто делаете штуки которые вирусятся - велком.

Денег платят дохуя, а главное - в usdt хоть на луну, единственное чтобы у вас был хороший интернет и +-6 часов по CET

Если вы думаете что пиздатый кандидат - пишите мне в личку @transformerslovedeatch , с описанием опыта и почему вы пиздатый кандидат.

2🤮22139🌭3👏22👍1🔥1

6.9K viewsedited 18:03

Love. Death. Transformers.

Forwarded from gonzo-обзоры ML статей

The Super Weight in Large Language Models
Mengxia Yu, De Wang, Qi Shan, Colorado Reed, Alvin Wan
Статья: https://arxiv.org/abs/2411.07191
Код: https://github.com/mengxiayu/LLMSuperWeight

Очень прикольная работа про то, что внутри LLM можно найти один единственный вес, зануляя который мы обрушиваем качество работы модели в пропасть. Такие параметры авторы называют супер весами (super weights) и предлагают метод их нахождения за один forward pass.

Внутри обученных LLM находится группа весов-аутлаеров с большой магнитудой, они могут составлять порядка 0.01% от всех весов модели, что в случае миллиардных моделей всё равно сотни тысяч. Это было известно ранее. В текущей работе показывают, что внутри этой группы находится один единственный вес (тот самый super weight, SW), не обязательно самый большой, важность которого превышает суммарную важность тысяч других аутлаеров. Он необходим для качества, без него LLM не может генерить нормальный текст. Перплексия вырастает на несколько порядков, а точность на zero-shot задачах падает до рандома.

Ранее (https://arxiv.org/abs/2402.17762) были найдены супер-активации, критичные для качества. Они существуют в различных слоях, имеют константную магнитуду и всегда обнаруживаются в одинаковой позиции несмотря на вход. Текущая работа находит, что канал активации совпадает с оным для супер веса и сперва активация обнаруживается сразу после супер веса. Прунинг этого супер веса значительно уменьшает активацию, так что вероятно активация вызвана им, а не просто скоррелирована. Такие активации называются супер активациями (super activations, SA).

Предыдущая работа объясняла супер активации через bias terms, но не объясняла как они получаются и почему на одних и тех же местах. Сейчас авторы эмпирически нашли, что до down проекции (down_proj) произведение Адамара (Hadamard product) gate и up проекций (gate_proj, up_proj) создаёт относительно большую активацию. Супер вес далее усиливает её ещё и даёт супер активацию.

Напомню, что MLP блок в Ламе выглядит так:

out = down_proj( act_fn(gate_proj(input)) x up_proj(input) )

SW можно найти, анализируя спайки в распределениях входов и выходов down_proj. Для этого достаточен прямой проход с одним промптом. Авторы нашли супер веса для Llama (7B,13B,30B), Llama 2 (7B,13B), Mistral-7B, OLMo (1B,7B), Phi-3.

Провели эксперименты по обнулению SW, в том числе с восстановлением SA до исходного значения, чтобы проверить влияние SW на другие активации. Это восстанавливает 42% потери, то есть влияние SW на качество выше, чем просто через SA.

По анализу 500 различных промптов из Lambaba validation set видно, что при убирании SW вероятности стоп-слов сильно возрастают (а обычные слова соответственно занижаются). Для “the” это 2×, для “.” -- 5×, и для “,” -- 10×. То есть наличие SW как бы подавляет стоп-слова и позволяет генерировать осмысленный текст.

Другой интересный эксперимент скейлит супер веса с коэффициентами от 0 до 3 (где оригинальный режим работы соответствует значению 1) и оказывается, что при увеличении SW качество модели ещё немного возрастает. Это забавный результат.

Имея это знание, можно предложить специальный метод квантования: Super-outlier aware quantization. Стандартные механизмы квантизации могут быть недостаточно хорошими, так как аутлаеры искажают распределение, влияя на размер шага и увеличивая ошибки квантования. Здесь под super outliers подразумеваются и SW, и SA. Предложенные методы восстанавливают SW и SA после квантований с клиппингом и заменами на медианное значение. Это всё работает лучше дефолтных методов, главный вывод -- надо защищать супер веса. В статье есть подробный разбор экспериментов, кому интересно поглубже. Также новый метод меньше теряет в качестве с увеличением размера блока.

Прикольный результат в общем. Это всё несколько перекликается с темой про лотерейные билеты (https://t.me/gonzo_ML/21), там внутри большой сети обнаруживалась сильно разреженная подсеть, обучая которую можно было достигать качества исходной сети (или даже выше). Интересно, входят ли супер-веса в лотерейный билет? Наверняка.

arXiv.org

The Super Weight in Large Language Models

Recent works have shown a surprising result: a small fraction of Large Language Model (LLM) parameter outliers are disproportionately important to the quality of the model. LLMs contain billions...

🔥50❤‍🔥9👍7🤮2👾1

6K views22:09

Love. Death. Transformers.

🔥24😁4

6.49K views11:04

About

Blog

Apps

Platform