Записки клодоеба
11 subscribers
29 photos
10 links
Поток сознания на тему ии
Download Telegram
объем памяти - какая влезет модель
скорость памяти - как быстро будет отвечать
а вообще что помещается в память?
сама модель (сколько млрд параметров)
в заданном квантовании(какая точность каждого числа)
+размер контекстного окна.
на картигке размер контекста Llama 3 8B. квантование у нее 4 бита(точность числа после запятой). при этом вес самой модели 4-5gb.
и все это надо в памяти держать.
т.е. всегда какой-то компромисс между:
количество параметров(насколько умная модель)
квантование(насколько точно отвечает)
контекст(сколько она помнит в текущей сессии)
а вот и ответ на вопрос
mac m vs nvidia
Ну и главное: видео-память или оперативка?

Архитектурно видео-память из-за своей способности к множественным параллельным вычислениям наиболее подходит под LLM.
Плюс скорость видео(300-3000 GB/s) в разы быстрее, чем оперативка(~50 GB/s).
Когда модель не помещается в видеопамять - она может частично храниться в оперативке, но между ними узкое горлышко - шина связи(PCIe 4.0 x16 — ~32 GB/s)
А мы помним, что для ответа нужно прогнать ВСЮ модель. т.е. и ту, что в оперативке тоже.
А значит ту часть, что в оперативке нужно загружать в видео.
И потом обратно.
И вот тут архитектура mac m процессоров с объединенной памятью выходит на сцену!
их 64gb дешевле, чем отдельно карточка nvidia сопостовимого объема.
Но немного(или в 2-3 иногда) медленнее.
еще из интересного.
есть модели с записью вида 671B 37B.
раньше модель на каждый токен гоняла все 671 млрд параметров.
а сейчас она поделена на "экспертов" + роутер(определяет к каким нескольким экспертам роутить запрос).
в итоге на каждый токен используется только 37млрд параметров.
это несколько экспертов и роутер.
дешевле тренировать
быстрее и дешевле запросы(токен/сек)
но памяти все равно нужно под все 671млрд.
качество ответа сопоставимое.
еще я тут рассказывал про объем потребляемой памяти.
сами параметры(веса и сдвиг) + контекстное окно.
google в марте сделал оптимизацию - TurboQuant. они поменяли подход к хранению кэша. раньше хранили в 16 квантовании(или 8) + метаданные.
с новой технологией 3 бита на чисто(3 квантование) и не надо метаданных. в итоге в 6 раз примерно снижение.
то есть было Llama 3 8B на контексте 128K жрёт 17 GB только под KV cache. стало ок 3gb. без потери качества!
Почему если на вход нейросетки даем одно и то же, внутри одни и те же веса(а соотв одни и те же вероятности), результат всегда будет разный?
кстати, все эти картинки можно брыть, загонять в тот же claude и продолжать диалог, если покажется интересным.
он поймет и продолжит
Лирическое отступление. Заболел. Бот разжевал че произошло, как повлияла вчерашняя баня,записал симптомы, запомнил в RAG, говорит- видосики - самое то
👍1
валяюсь, болею.
подключил obsidian на рабочий проект.
настроил как память.
сделал карту памяти(буквально древовидная карта)
при принятых изменениях от клода автоматом обновляется память и ее карта.
будем посмотреть теперь зачем это нужно
еще из нейросетевого.
оказалось, что мне нравится возиться с роутингом и сетями.
Шарю пока не очень, книга "компьютерные сети" не осилена и валяется где-то.
Но у меня теперь есть мощный инструмент для настроек - ИИ

А еще у меня есть 4 роутера(3 кинетика и 1 tp-link) и кабель от провайдера в самой дальней комнате.
В комнате где я работаю у компа нестабильно работает wifi, поэтому я настроил mesh сеть и подключил проводом комп от 2 роутера.

А еще настроено split тунелирование.
часть траффика идет прямо, часть через слово из букв, которые нельзя называть.
Как говорится, озон отдельно, ютуб отдельно.
Но если слово из букв моргает - оказывается, что король голый и весь трафик идет прямо.
Если claude это увидит - могут забанить.
Поэтому если моргает - эта часть трафика никуда не идет.
На этот случай у меня есть запасное соединение, которое сейчас не пашет - надо бы настроить. Чтобы когда основное моргнуло - его часть трафика пошла по резервному.
Правда для ckaude это будет выглядеть как геоскачок между разными ip. И это тоже для них красный флаг.
Надо бы подумать как это пофиксить. Может, одну и ту же страну использовать?

Ну и сейчас вот моргнул интернет от провайдера, и я задумался о 2 резервном канале интернета от второго провайдера.
Будет и резерв и скорости добавит.
Но тут нюанс - второй провайдер заведет кабель в коридор. Физически его никак не воткнуть в основной роутер. Придется доставать 3 кинетик, стряхивать с него пыль и добавлять его как mesh устройство + как ввод 2 провайдера.
Ну и настраивать резервирование каналов + шаринг скорости).
А еще tp-link вроде получше и гигабитный, но я пытался его дружить ретранслятором с кинетиком и получилось так себе
Ухххх, интересно!
вот этому учусь.
по его планам - учиться мне до ноября 26 - января 27 года
Задумался тут о подключении codex как альтернатива Claude. Его по идее можно и в Claude code использовать.

Мой Турецкий аккаунт позволяет оплачивать через себя.

Приятно удивлен ценой - 499 лир - это сейчас примерно 10,92$.
Для сравнения моя 100$ подписка Claude обходится в 4990- 109,2$.

upd. а нет, нельзя в клауде подключить chatgpt по подписке, в отличие от deepseek. но можно использовать gpt внутри клода рядом через вот такую штуку
https://github.com/openai/codex-plugin-cc
Сознательно перестал пилить пет проект и теперь не использую всю емкость подписки claude.
решил ее попилить, вот такие подключу на следующий месяц:
claude 20$ -> 799 лир -> 1320 руб сейчас
gpt plus 20$ -> 499 лир -> 825 руб сейчас
perplexity 20$->ХЗ сколько лир -> ~1400 руб сейчас(но я не уверен)

с perplexity вопрос - нужен ли он мне - еще не решил
так же у меня есть
deepseek,
openrouter(но туда больше нельзя внести деньги),
polza.ai

и все это для чего-то да нужно
делаем Батю суровым.
немногословным
angina - это senior angular reviewer
Завтра подключу подписку chatgpt и переключу ангину на него. почитал тут, что очень полезно давать ревьювить одну нейросеть другой
если claude и надо хорошенько подумать
codex от chatgpt!
ща буду в Батю встраивать ревьювером
https://www.claudefucker.ru/
ну все, тесты добил.
навайбкодил сегодня за часа 3 вот такой сайтик просто для фана.
с компьютера возможностей поболее, чем с телефона
сообщения чекаются раз в 5 минут, чтоб ресурсы моего старенького макмини не жрать(на нем сайт крутится)
почему так быстро? без гита, без тестов, без мучительного деплоя, без ревью.
на коленке