Гридка. Канал о распределенных вычислениях и BOINC

Выложили веса INTELLECT-1, первой модели натренированной децентрализованно

Пару дней назад я уже писал про завершение тренировки, а вот релизнули и веса. Модель оказалась в среднем по бенчам примерно на уровне Llama 2 7B, но, так как сейчас есть куча моделей получше в схожей весовой категории (Llama 3.1, Qwen 2.5, Mistral Nemo, Gemma), юзать её вряд ли кто-то будет. Всё-таки для первой распределённой тренировки такого масштаба результаты отличные.

Вместе с релизом модели выпустили и техрепорт, где рассказывается, как они уменьшили необходимость коммуникации во время тренировки в 400 раз. Помимо использования смеси DiLoCo и FSDP2, они квантизируют градиенты в int8. К сожалению, никаких абляций эффективности такого метода в техрепорте нет. Оно-то точно работает, но насколько хорошо – вопрос, плюс явно можно придумать схемы квантизации получше.

В будущем Prime Intellect планируют расширить масштабы тренировки, оптимизировать стек и добавить экономические стимулы для комьюнити. Как может работать последнее – непонятно, может быть, у вас есть идеи?

Демка
Веса
Техрепорт

@ai_newz

🔥1

146 viewsVasil Zakiev, 12:22

Гридка. Канал о распределенных вычислениях и BOINC

Einstein-@-Home: Итоги поиска гравитационных волн от остатков сверхновых Vela Jr. и G347.3-0.5 в данных LIGO O2 (и с привлечением O3).

В декабрьском томе (за 2024 год) The Astrophysical Journal [1], а также в архиве препринтов arXiv [2] появилась статья с итогами поиска непрерывных гравитационных волн от остатков сверхновых Vela Jr. и G347.3-0.5.

В силу их молодости (в случае G347.3-0.5 - около 1630 лет и от 700 до 5100 лет для Vela Jr.) они должны очень быстро вращаться, из-за чего аплитуда гравитационных волн должна быть больше, чем у нейтронных звёзд - остатков от более ранних сверхновых, а это должно облегчать их обнаружение. Одновременно, знание их небесных координат позволяет значительно уменьшить объём вычислений по сравнению с поиском по всему небу и потратить высвободившийся "вычислительный бюджет" на вытаскивание сигнала из данных за больший интервал времени. Что и было сделано.

Обработка данных велась в 4 этапа. Во время самого первого, проводившегося в Einstein-@-Home, компьютеры участников проекта, выполнявшие обработку блоков данных с LIGO, вернули несколько миллионов кандидатов, несколько выбивавшихся из общего гравитационно-волнового шума. Во время дальнейших этапов, выполнялось по сути, их "складывание с усреднением", которое, в случае действительно существующего сигнала продолжило бы его вытаскивание из общего шума, а случайным помехам позволило бы "утонуть обратно".

Для проверки работоспособности поиска, в данные добавлялись ложные сигналы, которые были обнаружены.

Настоящих сигналов, которые прошли бы все этапы отбора - не нашлось. Но неспешно прочитать статью с описанием поиска и обработки результатов - всё равно было было интересно. Найти её можно как по ссылкам, так и в виде pdf-файла, в этой заметке.

Ссылки:
1. https://iopscience.iop.org/article/10.3847/1538-4357/ad8b9e
2. https://arxiv.org/abs/2408.14573

Источник: https://vk.com/wall-34590225_843

#einstein
#результаты

👍6

148 viewsVasil Zakiev, 07:29

Гридка. Канал о распределенных вычислениях и BOINC

ТГУ модернизировал суперкомпьютер СКИФ для проектов коллайдера NICA.

Томский государственный университет приобрел новое оборудование для своего суперкомпьютера СКИФ Cyberia, который входит в топ-50 суперкомпьютеров России. Это серверы стоимостью более 32 млн рублей, которые включают 640 вычислительных ядер, графические ускорители для запуска алгоритмов искусственного интеллекта, более 2,8 Тб оперативной памяти и высокоскоростная система хранения данных емкостью 90 Тб. Благодаря новой технике физики ТГУ смогут обрабатывать большие объемы данных для проектов отечественного суперколлайдера NICA.

СКИФ Cyberia создали и установили в ТГУ в 2007 году: тогда он считался самым мощным суперкомпьютером СНГ по производительности системы в стандартном тесте Linpack, которая составляла 8,9 TFLOPS. В последующие годы мощности СКИФ Cyberia планомерно увеличивали. В настоящее время суперкомпьютер ТГУ занимает 36 место в списке самых мощных в СНГ, а его пиковая производительность достигает 239 триллионов операций в секунду.

Суперколлайдер NICA (Nuclotron based Ion Collider fAcility) — это ускорительный комплекс, который создается на базе Объединенного института ядерных исследований (Дубна, Россия) с целью изучения свойств плотной барионной материи. С помощью NICA планируется воссоздать и исследовать кварк-глюонную плазму - то особое состояние вещества, в котором пребывала Вселенная в десятитысячные доли секунды после Большого взрыва.

Почему бы не добавить свои модули в проекты распределенных вычислений? Привлечь внимание энтузиастов, расширить свои мощности.

Источник: Новости Томского государственного университета

https://vk.com/wall-65614662_362497

#новости

👍5🔥2

118 viewsVasil Zakiev, edited 08:46

Гридка. Канал о распределенных вычислениях и BOINC

Einstein@home иногда отгружает задачи по 450'000 GFLOPs или даже 1'440'000 GFLOPs (обычные задачи это 17'500)
На RTX 4090 такие большие задачи считаются до двух часов
#einstein

🔥5

744 viewsVasil Zakiev, 09:16

Гридка. Канал о распределенных вычислениях и BOINC

Я поставил в расчет на Einstein по 4 задачи в параллели (настраивается на сайте проекта), потому что длительность расчёта почти не увеличивается, а количество отработанных тасков увеличивается значительно (RTX 4090).
Почему так? Таcки Einstein на GPU что-то долго крутят вначале на почти холодной видеокарте, а при расчете четырех тасков параллельно нагрузка на GPU становится стабильной, TDP 260Ватт. Это, кстати довольно много, но для сравнения PrimeGrid умеет грузить GPU на 450Ватт, сказывется особенность вычислений. Операции с простыми числами будто созданы для обеспечения полной нагрузки на видеокарты.

#einstein
#primegrid

👍5

801 viewsVasil Zakiev, 09:23

Гридка. Канал о распределенных вычислениях и BOINC

Российский проект RakeSearch имеет неприятную особенность – после перезагрузки задачи начинают считаться заново. Когда задачи считаются в 30+ потоков и среди них есть задачи длительностью до часа, то это приводит к потере до получаса рабочего времени мощного компа.

На скринах пример списка задач до и после перезагрузки.

В общей картине эти потери, конечно, незначительны.
А вот ведущему проекта Эдуарду Ватутину спасибо за регулярные посты о ходе проекта и публикациию результатов в энциклопедии OEIS. Имхо достойно того, чтобы 100% времени наших CPU выделять на RakeSearch.

Вот бы ещё на Apple Silicon и на Linux появились задачи от проекта!

Подписывайтесь на Эдуарда: https://vk.com/id162891802
Выпуск подкаста о проекте

#rakesearch
#silicon

🔥3❤2👍2💯1

876 viewsVasil Zakiev, 09:33

Гридка. Канал о распределенных вычислениях и BOINC

19 февраля проект Einstein@home отметил 20 лет от своего рождения.

I want to congratulate all of our Einstein@Home volunteers, developers, and scientists: our project is 20 years old today. We officially launched Einstein@Home on February 19th 2005, exactly 20 years ago, at the annual meeting of the American Association for the Advancement of Science (AAAS) in Washington DC.

Since that time, almost half a million people have contributed computing power to Einstein@Home. Einstein@Home carries out the most sensitive searches for continuous gravitational waves, and continues to set the tightest and most stringent limits on this yet-to-be-discovered population. We have discovered more than 90 new radio and gamma ray pulsars, including a number of extreme and exotic examples. The project has resulted in 38 peer-reviewed publications in scientific journals, and has also played a role in a dozen PhD theses.

A big thank you to everyone involved!

Bruce Allen

Director, Einstein@Home

Мой с близкими вклад в этот проект сейчас это в среднем 3,7 миллиона cubblestones ежедневно.
Работают три RTX 4090, Apple Studio Ultra M1, M4 mini. Macbook M4 pro и ещё несколько серверов, компьютеров и ноутбуков по мелочи.

Проект ищет пульсары в данных LIGO (тот самый, который открыл гравитациоионные волны), космического гамма-телескопа Ферми, радиотелескопов MeerKAT и Arecibo.

#einstein

🔥6⚡1❤1

734 viewsVasil Zakiev, edited 10:40

Гридка. Канал о распределенных вычислениях и BOINC

Сравниваем
MacStudio на M1 Ultra
и MacBook Pro на M4 Pro

на проекте Einstein@home

У M1 Ultra 20 CPU, но одну таску на 105 000 GFLOPS он далает 2ч15мин на CPU

M4 Pro чип намного более свежий, в ноутбучном исполнении. 12 CPU, но на одну таску уходит по 1ч15мин на CPU

На GPU работает 48 ядер на M1 Ultra против 16 на M4Pro

Но новое поколение решает и более свежий чип делает одной таску на 17 500 GFPOLS за 6 минут вместо 8. Несмотря на ноутбучное исполнение.

#einstein

👍3🔥2❤1

808 viewsVasil Zakiev, 18:09

Гридка. Канал о распределенных вычислениях и BOINC

Да, на ноутбуке тоже можно кранчить.

Если это MacBook Pro на M4, конечно. 😉

На MacBook Air M1 я тоже считаю — там результат хуже всего на 80%, но это спорт для упорных.

👆 И на Pro, и на Air магия Apple позволяет не замечать нагрузку от BOINC при обычной офисной работе.

Теперь к сути — кранчинг на MacBook Pro M4 Pro 12-core за $2000 (24 ГБ RAM, продвинутая система охлаждения):

1. Ограничение вентиляторов: 5000 RPM.
Без ограничения вентиляторы разгоняются до 8000 об/мин и шумят как взлетающий дрон. 5000 об/мин — оптимальный компромисс по шуму и температуре. Использую бесплатную версию Macs Fan Control.
Да, ноутбук троттлит. Нет, в реальной работе это незаметно. Все современные чипы троттлят — это штатный режим.
Да, на маках безопасно крутить вентиляторы 24/7 на таких оборотах — проверено и внимательно перепроверено.

2. Перезапуск BOINC после перезагрузки.
В macOS автозапущенные приложения получают статус «фоновых» и работают в полсилы. Если BOINC не раскручивает вентиляторы — выгружаем и запускаем вручную.
На поиск реальной причины ушла неделя и десяток Deep Research-запросов к GPT.
На скриншотах видно, как GPU-задачи начинают работать на 50% дольше, когда система их ограничивает.

Скидывайте в комментариях, на чём считаете вы.

Статистика на прошке
Статистика на Air

🔥2

844 viewsVasil Zakiev, 13:33

Гридка. Канал о распределенных вычислениях и BOINC

Forwarded from Закиев Василь. (AI)ron manager (Vasil Zakiev)

Codex это Агент-0?

В пятницу OpenAI опубликовали инструмент Codex — облачного агента-программиста, который работает с GitHub-репозиториями. Ему можно поставить задачу, например: «Проверь кодовую базу на следование кодстайлу». Он находит ошибки, предлагает исправления, запускает тесты и сам создаёт pull request.

Плюсы: всё работает быстро, в облаке, можно запускать десятки задач параллельно.
Минусы: Работает только с Github. У агента есть интернет только на этапе настройки окружения — потом его отбирают, поэтому он не может полноценно тестировать всё подряд. Не работает с картинками, значит пока мало полезен для задач по фронтенду.

Я попробовал на практике: добавил небольшое изменение в BOINC — большой open source проект. Вот PR: https://github.com/BOINC/boinc/pull/6329

Интересно, что первичную проверку кода тоже провёл ИИ — GitHub Copilot.

Не скажу, что теперь любой может быть программистом, но окно возможностей точно стало шире. А требования к разработчикам становятся однозначно выше.

Сейчас попробую переписать весь код одного проекта с Node на Python. Если хотите, чтобы я что-то посмотрел на вашем проекте – напишите в комментариях ссылку на репозиторий и дайте доступ на wargoblin.

🔥2

98 viewsVasil Zakiev, 09:28

Гридка. Канал о распределенных вычислениях и BOINC

Channel name was changed to «Гридка. Канал о распределенных вычислениях и BOINC»

09:28

Гридка. Канал о распределенных вычислениях и BOINC

Добровольческие распределённые вычисления – это проекты, в которых тысячи людей по всему миру жертвуют ресурсы своих персональных компьютеров для научных расчетов. К крупнейшим таким проектам относятся платформа BOINC (объединяющая множество исследований) и проект Folding@home (биомедицинические расчёты по белкам). Совокупная активная вычислительная мощность этих сетей весьма значительна, хотя и меняется со временем в зависимости от числа добровольцев.

❤2👍2🔥2🙏1

110 viewsVasil Zakiev, 05:55

About

Blog

Apps

Platform