Гридка. Канал о распределенных вычислениях и BOINC

This media is not supported in your browser

Llama 3.1 405B, квантизированная до 4 бит, запущенная на двух макбуках (128 гиг оперативки у каждого). Возможно это с помощью exo - тулы, позволяющей запускать модельку распределённо на нескольких девайсах. Поддерживаются практически любые GPU, телефоны, планшеты, макбуки и почти всё о чём можно подумать.

Запустить ламу на домашнем кластере

@ai_newz

🤔2

173 viewsVasil Zakiev, 18:29

Гридка. Канал о распределенных вычислениях и BOINC

Подобными вычислениями занимаются сразу несколько проектов в BOINC, например SiDock, но последний считает только на CPU. Публикация моделей в opensource дает надежды на возможность использования и GPU в будущем:

106 viewsVasil Zakiev, 04:47

Гридка. Канал о распределенных вычислениях и BOINC

Forwarded from эйай ньюз

Google DeepMind релизнули веса и код AlphaFold 3

Это модель для предсказания структуры белков, которая облегчает разработку лекарств. За предыдущую версию Демису Хассабису дали нобелевку, а эта, по заявлениям гугла, как минимум на 50% лучше.

Раньше доступ был лишь через AlphaFold Server, с ограничением в 20 запросов в день. Код уже на гитхабе, а веса доступны по запросу, обещают одобрить или отклонить в течении 3 рабочих дней.

Важно: лицензия некоммерческая и очень жёсткая, использование коммерческим организациям и в коммерческих целей запрещено. Также запрещено распространение весов и тренировка своих моделей на аутпутах AF3.

Запускается на видюхах с 16 гигами, но с ограничением длины контекста в 1280. Лучше юзать как минимум A100 на 40 гигабайт. Всякие A6000 тоже в теории подходят, но авторы тестировали точность модели только на H100 и A100.

А у нас есть кто-то кто пользуется AlphaFold в рабочей деятельности? Как вам?

Github
Курс по использованию AlphaFold

@ai_newz

🔥2

123 viewsVasil Zakiev, 04:47

Гридка. Канал о распределенных вычислениях и BOINC

Forwarded from эйай ньюз

INTELLECT-1 - первая децентрализованно натренированная LLM

Наконец-то завершилась первая большая распределённая тренировка, продолжавшаяся больше месяца на трёх континентах - в Европе, Азии и Северной Америке. В результате вышла 10B модель, натренированная на одном триллионе токенов, на что ушло около 80к H100-часов.

В тренировке поучавствовало около 30 людей и организаций, компьютом скинулся даже Hugging Face. Большую часть времени тренировки регистрация была закрыта, а поучаствовать можно было только задеплоив готовый образ на машине с 8xH100 80Gb через Prime Intellect, агрегатор GPU-провайдеров, который и организовал тренировку. В следующих трейнинг ранах обещают открыть доступ к тренировке и с другого железа и не через Prime Intellect, ждём.

Но даже когда тренировать смогут все желающие на любом железе, на консьюмерских видеокартах поучаствовать вряд-ли выйдет - сейчас в 24 гига 4090, для тренировки, влезет максимум модель 3B класса. Но через пару прорывов в распределённой тренировке, Training@home может стать реальностью.

Вышла явно не SOTA - современные модели тренируют, используя на порядок больше данных. Если авторы сильно не налажали, результаты должны быть где-то в районе Llama 2 13B. Не идеально, но в качестве proof of concept более чем достаточно.

Сделали такую распределённую тренировку возможной через слегка модифицированный DiLoCo, а код тренировки открыт и лежит на гитхабе. Сейчас модель тюнят, полный релиз будет где-то на этой неделе. Потом обещают и пейпер.

@ai_newz

👍4

109 viewsVasil Zakiev, 12:15

Гридка. Канал о распределенных вычислениях и BOINC

Forwarded from эйай ньюз

Дженсен Хуанг после того как распредлённая тренировка станет возможной на консьюмерских видюхах (куртка у него уже есть)

@ai_newz

😁2

103 viewsVasil Zakiev, 12:22

Гридка. Канал о распределенных вычислениях и BOINC

Forwarded from эйай ньюз

Выложили веса INTELLECT-1, первой модели натренированной децентрализованно

Пару дней назад я уже писал про завершение тренировки, а вот релизнули и веса. Модель оказалась в среднем по бенчам примерно на уровне Llama 2 7B, но, так как сейчас есть куча моделей получше в схожей весовой категории (Llama 3.1, Qwen 2.5, Mistral Nemo, Gemma), юзать её вряд ли кто-то будет. Всё-таки для первой распределённой тренировки такого масштаба результаты отличные.

Вместе с релизом модели выпустили и техрепорт, где рассказывается, как они уменьшили необходимость коммуникации во время тренировки в 400 раз. Помимо использования смеси DiLoCo и FSDP2, они квантизируют градиенты в int8. К сожалению, никаких абляций эффективности такого метода в техрепорте нет. Оно-то точно работает, но насколько хорошо – вопрос, плюс явно можно придумать схемы квантизации получше.

В будущем Prime Intellect планируют расширить масштабы тренировки, оптимизировать стек и добавить экономические стимулы для комьюнити. Как может работать последнее – непонятно, может быть, у вас есть идеи?

Демка
Веса
Техрепорт

@ai_newz

🔥1

146 viewsVasil Zakiev, 12:22

Гридка. Канал о распределенных вычислениях и BOINC

Einstein-@-Home: Итоги поиска гравитационных волн от остатков сверхновых Vela Jr. и G347.3-0.5 в данных LIGO O2 (и с привлечением O3).

В декабрьском томе (за 2024 год) The Astrophysical Journal [1], а также в архиве препринтов arXiv [2] появилась статья с итогами поиска непрерывных гравитационных волн от остатков сверхновых Vela Jr. и G347.3-0.5.

В силу их молодости (в случае G347.3-0.5 - около 1630 лет и от 700 до 5100 лет для Vela Jr.) они должны очень быстро вращаться, из-за чего аплитуда гравитационных волн должна быть больше, чем у нейтронных звёзд - остатков от более ранних сверхновых, а это должно облегчать их обнаружение. Одновременно, знание их небесных координат позволяет значительно уменьшить объём вычислений по сравнению с поиском по всему небу и потратить высвободившийся "вычислительный бюджет" на вытаскивание сигнала из данных за больший интервал времени. Что и было сделано.

Обработка данных велась в 4 этапа. Во время самого первого, проводившегося в Einstein-@-Home, компьютеры участников проекта, выполнявшие обработку блоков данных с LIGO, вернули несколько миллионов кандидатов, несколько выбивавшихся из общего гравитационно-волнового шума. Во время дальнейших этапов, выполнялось по сути, их "складывание с усреднением", которое, в случае действительно существующего сигнала продолжило бы его вытаскивание из общего шума, а случайным помехам позволило бы "утонуть обратно".

Для проверки работоспособности поиска, в данные добавлялись ложные сигналы, которые были обнаружены.

Настоящих сигналов, которые прошли бы все этапы отбора - не нашлось. Но неспешно прочитать статью с описанием поиска и обработки результатов - всё равно было было интересно. Найти её можно как по ссылкам, так и в виде pdf-файла, в этой заметке.

Ссылки:
1. https://iopscience.iop.org/article/10.3847/1538-4357/ad8b9e
2. https://arxiv.org/abs/2408.14573

Источник: https://vk.com/wall-34590225_843

#einstein
#результаты

👍6

148 viewsVasil Zakiev, 07:29

Гридка. Канал о распределенных вычислениях и BOINC

ТГУ модернизировал суперкомпьютер СКИФ для проектов коллайдера NICA.

Томский государственный университет приобрел новое оборудование для своего суперкомпьютера СКИФ Cyberia, который входит в топ-50 суперкомпьютеров России. Это серверы стоимостью более 32 млн рублей, которые включают 640 вычислительных ядер, графические ускорители для запуска алгоритмов искусственного интеллекта, более 2,8 Тб оперативной памяти и высокоскоростная система хранения данных емкостью 90 Тб. Благодаря новой технике физики ТГУ смогут обрабатывать большие объемы данных для проектов отечественного суперколлайдера NICA.

СКИФ Cyberia создали и установили в ТГУ в 2007 году: тогда он считался самым мощным суперкомпьютером СНГ по производительности системы в стандартном тесте Linpack, которая составляла 8,9 TFLOPS. В последующие годы мощности СКИФ Cyberia планомерно увеличивали. В настоящее время суперкомпьютер ТГУ занимает 36 место в списке самых мощных в СНГ, а его пиковая производительность достигает 239 триллионов операций в секунду.

Суперколлайдер NICA (Nuclotron based Ion Collider fAcility) — это ускорительный комплекс, который создается на базе Объединенного института ядерных исследований (Дубна, Россия) с целью изучения свойств плотной барионной материи. С помощью NICA планируется воссоздать и исследовать кварк-глюонную плазму - то особое состояние вещества, в котором пребывала Вселенная в десятитысячные доли секунды после Большого взрыва.

Почему бы не добавить свои модули в проекты распределенных вычислений? Привлечь внимание энтузиастов, расширить свои мощности.

Источник: Новости Томского государственного университета

https://vk.com/wall-65614662_362497

#новости

👍5🔥2

118 viewsVasil Zakiev, edited 08:46

Гридка. Канал о распределенных вычислениях и BOINC

Einstein@home иногда отгружает задачи по 450'000 GFLOPs или даже 1'440'000 GFLOPs (обычные задачи это 17'500)
На RTX 4090 такие большие задачи считаются до двух часов
#einstein

🔥5

744 viewsVasil Zakiev, 09:16

Гридка. Канал о распределенных вычислениях и BOINC

Я поставил в расчет на Einstein по 4 задачи в параллели (настраивается на сайте проекта), потому что длительность расчёта почти не увеличивается, а количество отработанных тасков увеличивается значительно (RTX 4090).
Почему так? Таcки Einstein на GPU что-то долго крутят вначале на почти холодной видеокарте, а при расчете четырех тасков параллельно нагрузка на GPU становится стабильной, TDP 260Ватт. Это, кстати довольно много, но для сравнения PrimeGrid умеет грузить GPU на 450Ватт, сказывется особенность вычислений. Операции с простыми числами будто созданы для обеспечения полной нагрузки на видеокарты.

#einstein
#primegrid

👍5

801 viewsVasil Zakiev, 09:23

Гридка. Канал о распределенных вычислениях и BOINC

Российский проект RakeSearch имеет неприятную особенность – после перезагрузки задачи начинают считаться заново. Когда задачи считаются в 30+ потоков и среди них есть задачи длительностью до часа, то это приводит к потере до получаса рабочего времени мощного компа.

На скринах пример списка задач до и после перезагрузки.

В общей картине эти потери, конечно, незначительны.
А вот ведущему проекта Эдуарду Ватутину спасибо за регулярные посты о ходе проекта и публикациию результатов в энциклопедии OEIS. Имхо достойно того, чтобы 100% времени наших CPU выделять на RakeSearch.

Вот бы ещё на Apple Silicon и на Linux появились задачи от проекта!

Подписывайтесь на Эдуарда: https://vk.com/id162891802
Выпуск подкаста о проекте

#rakesearch
#silicon

🔥3❤2👍2💯1

876 viewsVasil Zakiev, 09:33

Гридка. Канал о распределенных вычислениях и BOINC

19 февраля проект Einstein@home отметил 20 лет от своего рождения.

I want to congratulate all of our Einstein@Home volunteers, developers, and scientists: our project is 20 years old today. We officially launched Einstein@Home on February 19th 2005, exactly 20 years ago, at the annual meeting of the American Association for the Advancement of Science (AAAS) in Washington DC.

Since that time, almost half a million people have contributed computing power to Einstein@Home. Einstein@Home carries out the most sensitive searches for continuous gravitational waves, and continues to set the tightest and most stringent limits on this yet-to-be-discovered population. We have discovered more than 90 new radio and gamma ray pulsars, including a number of extreme and exotic examples. The project has resulted in 38 peer-reviewed publications in scientific journals, and has also played a role in a dozen PhD theses.

A big thank you to everyone involved!

Bruce Allen

Director, Einstein@Home

Мой с близкими вклад в этот проект сейчас это в среднем 3,7 миллиона cubblestones ежедневно.
Работают три RTX 4090, Apple Studio Ultra M1, M4 mini. Macbook M4 pro и ещё несколько серверов, компьютеров и ноутбуков по мелочи.

Проект ищет пульсары в данных LIGO (тот самый, который открыл гравитациоионные волны), космического гамма-телескопа Ферми, радиотелескопов MeerKAT и Arecibo.

#einstein

🔥6⚡1❤1

734 viewsVasil Zakiev, edited 10:40

Гридка. Канал о распределенных вычислениях и BOINC

Сравниваем
MacStudio на M1 Ultra
и MacBook Pro на M4 Pro

на проекте Einstein@home

У M1 Ultra 20 CPU, но одну таску на 105 000 GFLOPS он далает 2ч15мин на CPU

M4 Pro чип намного более свежий, в ноутбучном исполнении. 12 CPU, но на одну таску уходит по 1ч15мин на CPU

На GPU работает 48 ядер на M1 Ultra против 16 на M4Pro

Но новое поколение решает и более свежий чип делает одной таску на 17 500 GFPOLS за 6 минут вместо 8. Несмотря на ноутбучное исполнение.

#einstein

👍3🔥2❤1

808 viewsVasil Zakiev, 18:09

Гридка. Канал о распределенных вычислениях и BOINC

Да, на ноутбуке тоже можно кранчить.

Если это MacBook Pro на M4, конечно. 😉

На MacBook Air M1 я тоже считаю — там результат хуже всего на 80%, но это спорт для упорных.

👆 И на Pro, и на Air магия Apple позволяет не замечать нагрузку от BOINC при обычной офисной работе.

Теперь к сути — кранчинг на MacBook Pro M4 Pro 12-core за $2000 (24 ГБ RAM, продвинутая система охлаждения):

1. Ограничение вентиляторов: 5000 RPM.
Без ограничения вентиляторы разгоняются до 8000 об/мин и шумят как взлетающий дрон. 5000 об/мин — оптимальный компромисс по шуму и температуре. Использую бесплатную версию Macs Fan Control.
Да, ноутбук троттлит. Нет, в реальной работе это незаметно. Все современные чипы троттлят — это штатный режим.
Да, на маках безопасно крутить вентиляторы 24/7 на таких оборотах — проверено и внимательно перепроверено.

2. Перезапуск BOINC после перезагрузки.
В macOS автозапущенные приложения получают статус «фоновых» и работают в полсилы. Если BOINC не раскручивает вентиляторы — выгружаем и запускаем вручную.
На поиск реальной причины ушла неделя и десяток Deep Research-запросов к GPT.
На скриншотах видно, как GPU-задачи начинают работать на 50% дольше, когда система их ограничивает.

Скидывайте в комментариях, на чём считаете вы.

Статистика на прошке
Статистика на Air

🔥2

844 viewsVasil Zakiev, 13:33

About

Blog

Apps

Platform