Гридка. Канал о распределенных вычислениях и BOINC
72 subscribers
56 photos
1 video
1 file
25 links
Энтузиасты распределенных вычислений разговаривают о гридах и о BOINC. Общаемся с гостями и вместе исследуем тему.
https://gridcomputnig.mave.digital/
Предложка: @zvasilpublic
Download Telegram
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Llama 3.1 405B, квантизированная до 4 бит, запущенная на двух макбуках (128 гиг оперативки у каждого). Возможно это с помощью exo - тулы, позволяющей запускать модельку распределённо на нескольких девайсах. Поддерживаются практически любые GPU, телефоны, планшеты, макбуки и почти всё о чём можно подумать.

Запустить ламу на домашнем кластере

@ai_newz
Подобными вычислениями занимаются сразу несколько проектов в BOINC, например SiDock, но последний считает только на CPU. Публикация моделей в opensource дает надежды на возможность использования и GPU в будущем:
Forwarded from эйай ньюз
Google DeepMind релизнули веса и код AlphaFold 3

Это модель для предсказания структуры белков, которая облегчает разработку лекарств. За предыдущую версию Демису Хассабису дали нобелевку, а эта, по заявлениям гугла, как минимум на 50% лучше.

Раньше доступ был лишь через AlphaFold Server, с ограничением в 20 запросов в день. Код уже на гитхабе, а веса доступны по запросу, обещают одобрить или отклонить в течении 3 рабочих дней.

Важно: лицензия некоммерческая и очень жёсткая, использование коммерческим организациям и в коммерческих целей запрещено. Также запрещено распространение весов и тренировка своих моделей на аутпутах AF3.

Запускается на видюхах с 16 гигами, но с ограничением длины контекста в 1280. Лучше юзать как минимум A100 на 40 гигабайт. Всякие A6000 тоже в теории подходят, но авторы тестировали точность модели только на H100 и A100.

А у нас есть кто-то кто пользуется AlphaFold в рабочей деятельности? Как вам?

Github
Курс по использованию AlphaFold

@ai_newz
Forwarded from эйай ньюз
INTELLECT-1 - первая децентрализованно натренированная LLM

Наконец-то завершилась первая большая распределённая тренировка, продолжавшаяся больше месяца на трёх континентах - в Европе, Азии и Северной Америке. В результате вышла 10B модель, натренированная на одном триллионе токенов, на что ушло около 80к H100-часов.

В тренировке поучавствовало около 30 людей и организаций, компьютом скинулся даже Hugging Face. Большую часть времени тренировки регистрация была закрыта, а поучаствовать можно было только задеплоив готовый образ на машине с 8xH100 80Gb через Prime Intellect, агрегатор GPU-провайдеров, который и организовал тренировку. В следующих трейнинг ранах обещают открыть доступ к тренировке и с другого железа и не через Prime Intellect, ждём.

Но даже когда тренировать смогут все желающие на любом железе, на консьюмерских видеокартах поучаствовать вряд-ли выйдет - сейчас в 24 гига 4090, для тренировки, влезет максимум модель 3B класса. Но через пару прорывов в распределённой тренировке, Training@home может стать реальностью.

Вышла явно не SOTA - современные модели тренируют, используя на порядок больше данных. Если авторы сильно не налажали, результаты должны быть где-то в районе Llama 2 13B. Не идеально, но в качестве proof of concept более чем достаточно.

Сделали такую распределённую тренировку возможной через слегка модифицированный DiLoCo, а код тренировки открыт и лежит на гитхабе. Сейчас модель тюнят, полный релиз будет где-то на этой неделе. Потом обещают и пейпер.

@ai_newz
Forwarded from эйай ньюз
Дженсен Хуанг после того как распредлённая тренировка станет возможной на консьюмерских видюхах (куртка у него уже есть)

@ai_newz
Forwarded from эйай ньюз
Выложили веса INTELLECT-1, первой модели натренированной децентрализованно

Пару дней назад я уже писал про завершение тренировки, а вот релизнули и веса. Модель оказалась в среднем по бенчам примерно на уровне Llama 2 7B, но, так как сейчас есть куча моделей получше в схожей весовой категории (Llama 3.1, Qwen 2.5, Mistral Nemo, Gemma), юзать её вряд ли кто-то будет. Всё-таки для первой распределённой тренировки такого масштаба результаты отличные.

Вместе с релизом модели выпустили и техрепорт, где рассказывается, как они уменьшили необходимость коммуникации во время тренировки в 400 раз. Помимо использования смеси DiLoCo и FSDP2, они квантизируют градиенты в int8. К сожалению, никаких абляций эффективности такого метода в техрепорте нет. Оно-то точно работает, но насколько хорошо – вопрос, плюс явно можно придумать схемы квантизации получше.

В будущем Prime Intellect планируют расширить масштабы тренировки, оптимизировать стек и добавить экономические стимулы для комьюнити. Как может работать последнее – непонятно, может быть, у вас есть идеи?

Демка
Веса
Техрепорт

@ai_newz
Einstein-@-Home: Итоги поиска гравитационных волн от остатков сверхновых Vela Jr. и G347.3-0.5 в данных LIGO O2 (и с привлечением O3).

В декабрьском томе (за 2024 год) The Astrophysical Journal [1], а также в архиве препринтов arXiv [2] появилась статья с итогами поиска непрерывных гравитационных волн от остатков сверхновых Vela Jr. и G347.3-0.5.

В силу их молодости (в случае G347.3-0.5 - около 1630 лет и от 700 до 5100 лет для Vela Jr.) они должны очень быстро вращаться, из-за чего аплитуда гравитационных волн должна быть больше, чем у нейтронных звёзд - остатков от более ранних сверхновых, а это должно облегчать их обнаружение. Одновременно, знание их небесных координат позволяет значительно уменьшить объём вычислений по сравнению с поиском по всему небу и потратить высвободившийся "вычислительный бюджет" на вытаскивание сигнала из данных за больший интервал времени. Что и было сделано.

Обработка данных велась в 4 этапа. Во время самого первого, проводившегося в Einstein-@-Home, компьютеры участников проекта, выполнявшие обработку блоков данных с LIGO, вернули несколько миллионов кандидатов, несколько выбивавшихся из общего гравитационно-волнового шума. Во время дальнейших этапов, выполнялось по сути, их "складывание с усреднением", которое, в случае действительно существующего сигнала продолжило бы его вытаскивание из общего шума, а случайным помехам позволило бы "утонуть обратно".

Для проверки работоспособности поиска, в данные добавлялись ложные сигналы, которые были обнаружены.

Настоящих сигналов, которые прошли бы все этапы отбора - не нашлось. Но неспешно прочитать статью с описанием поиска и обработки результатов - всё равно было было интересно. Найти её можно как по ссылкам, так и в виде pdf-файла, в этой заметке.

Ссылки:
1. https://iopscience.iop.org/article/10.3847/1538-4357/ad8b9e
2. https://arxiv.org/abs/2408.14573

Источник: https://vk.com/wall-34590225_843

#einstein
#результаты
Please open Telegram to view this post
VIEW IN TELEGRAM
Einstein@home иногда отгружает задачи по 450'000 GFLOPs или даже 1'440'000 GFLOPs (обычные задачи это 17'500)
На RTX 4090 такие большие задачи считаются до двух часов
#einstein
Я поставил в расчет на Einstein по 4 задачи в параллели (настраивается на сайте проекта), потому что длительность расчёта почти не увеличивается, а количество отработанных тасков увеличивается значительно (RTX 4090).
Почему так? Таcки Einstein на GPU что-то долго крутят вначале на почти холодной видеокарте, а при расчете четырех тасков параллельно нагрузка на GPU становится стабильной, TDP 260Ватт. Это, кстати довольно много, но для сравнения PrimeGrid умеет грузить GPU на 450Ватт, сказывется особенность вычислений. Операции с простыми числами будто созданы для обеспечения полной нагрузки на видеокарты.

#einstein
#primegrid
Российский проект RakeSearch имеет неприятную особенность – после перезагрузки задачи начинают считаться заново. Когда задачи считаются в 30+ потоков и среди них есть задачи длительностью до часа, то это приводит к потере до получаса рабочего времени мощного компа.

На скринах пример списка задач до и после перезагрузки.

В общей картине эти потери, конечно, незначительны.
А вот ведущему проекта Эдуарду Ватутину спасибо за регулярные посты о ходе проекта и публикациию результатов в энциклопедии OEIS. Имхо достойно того, чтобы 100% времени наших CPU выделять на RakeSearch.

Вот бы ещё на Apple Silicon и на Linux появились задачи от проекта!

Подписывайтесь на Эдуарда: https://vk.com/id162891802
Выпуск подкаста о проекте

#rakesearch
#silicon
Please open Telegram to view this post
VIEW IN TELEGRAM
Сравниваем
MacStudio на M1 Ultra
и MacBook Pro на M4 Pro

на проекте Einstein@home

У M1 Ultra 20 CPU, но одну таску на 105 000 GFLOPS он далает 2ч15мин на CPU

M4 Pro чип намного более свежий, в ноутбучном исполнении. 12 CPU, но на одну таску уходит по 1ч15мин на CPU

На GPU работает 48 ядер на M1 Ultra против 16 на M4Pro

Но новое поколение решает и более свежий чип делает одной таску на 17 500 GFPOLS за 6 минут вместо 8. Несмотря на ноутбучное исполнение.

#einstein
Да, на ноутбуке тоже можно кранчить.
Если это MacBook Pro на M4, конечно. 😉

На MacBook Air M1 я тоже считаю — там результат хуже всего на 80%, но это спорт для упорных.

👆 И на Pro, и на Air магия Apple позволяет не замечать нагрузку от BOINC при обычной офисной работе.

Теперь к сути — кранчинг на MacBook Pro M4 Pro 12-core за $2000 (24 ГБ RAM, продвинутая система охлаждения):

1. Ограничение вентиляторов: 5000 RPM.
Без ограничения вентиляторы разгоняются до 8000 об/мин и шумят как взлетающий дрон. 5000 об/мин — оптимальный компромисс по шуму и температуре. Использую бесплатную версию Macs Fan Control.
Да, ноутбук троттлит. Нет, в реальной работе это незаметно. Все современные чипы троттлят — это штатный режим.
Да, на маках безопасно крутить вентиляторы 24/7 на таких оборотах — проверено и внимательно перепроверено.

2. Перезапуск BOINC после перезагрузки.
В macOS автозапущенные приложения получают статус «фоновых» и работают в полсилы. Если BOINC не раскручивает вентиляторы — выгружаем и запускаем вручную.
На поиск реальной причины ушла неделя и десяток Deep Research-запросов к GPT.
На скриншотах видно, как GPU-задачи начинают работать на 50% дольше, когда система их ограничивает.

Скидывайте в комментариях, на чём считаете вы.

Статистика на прошке
Статистика на Air