Записки клодоеба – Telegram

Записки клодоеба

11 subscribers

29 photos

10 links

Поток сознания на тему ии

Download Telegram

About

Blog

Apps

Platform

Записки клодоеба

Записки клодоеба

объем памяти - какая влезет модель
скорость памяти - как быстро будет отвечать

9 viewsedited 19:08

Записки клодоеба

а вообще что помещается в память?
сама модель (сколько млрд параметров)
в заданном квантовании(какая точность каждого числа)
+размер контекстного окна.
на картигке размер контекста Llama 3 8B. квантование у нее 4 бита(точность числа после запятой). при этом вес самой модели 4-5gb.
и все это надо в памяти держать.
т.е. всегда какой-то компромисс между:
количество параметров(насколько умная модель)
квантование(насколько точно отвечает)
контекст(сколько она помнит в текущей сессии)

9 views19:13

Записки клодоеба

а вот и ответ на вопрос
mac m vs nvidia

9 views19:18

Записки клодоеба

Ну и главное: видео-память или оперативка?

Архитектурно видео-память из-за своей способности к множественным параллельным вычислениям наиболее подходит под LLM.
Плюс скорость видео(300-3000 GB/s) в разы быстрее, чем оперативка(~50 GB/s).
Когда модель не помещается в видеопамять - она может частично храниться в оперативке, но между ними узкое горлышко - шина связи(PCIe 4.0 x16 — ~32 GB/s)
А мы помним, что для ответа нужно прогнать ВСЮ модель. т.е. и ту, что в оперативке тоже.
А значит ту часть, что в оперативке нужно загружать в видео.
И потом обратно.
И вот тут архитектура mac m процессоров с объединенной памятью выходит на сцену!
их 64gb дешевле, чем отдельно карточка nvidia сопостовимого объема.
Но немного(или в 2-3 иногда) медленнее.

8 views19:27

Записки клодоеба

еще из интересного.
есть модели с записью вида 671B 37B.
раньше модель на каждый токен гоняла все 671 млрд параметров.
а сейчас она поделена на "экспертов" + роутер(определяет к каким нескольким экспертам роутить запрос).
в итоге на каждый токен используется только 37млрд параметров.
это несколько экспертов и роутер.
дешевле тренировать
быстрее и дешевле запросы(токен/сек)
но памяти все равно нужно под все 671млрд.
качество ответа сопоставимое.

9 viewsedited 06:59

Записки клодоеба

еще я тут рассказывал про объем потребляемой памяти.
сами параметры(веса и сдвиг) + контекстное окно.
google в марте сделал оптимизацию - TurboQuant. они поменяли подход к хранению кэша. раньше хранили в 16 квантовании(или 8) + метаданные.
с новой технологией 3 бита на чисто(3 квантование) и не надо метаданных. в итоге в 6 раз примерно снижение.
то есть было Llama 3 8B на контексте 128K жрёт 17 GB только под KV cache. стало ок 3gb. без потери качества!

8 views07:08

Записки клодоеба

Почему если на вход нейросетки даем одно и то же, внутри одни и те же веса(а соотв одни и те же вероятности), результат всегда будет разный?

9 views12:11

Записки клодоеба

кстати, все эти картинки можно брыть, загонять в тот же claude и продолжать диалог, если покажется интересным.
он поймет и продолжит

11 views12:36

Записки клодоеба

Лирическое отступление. Заболел. Бот разжевал че произошло, как повлияла вчерашняя баня,записал симптомы, запомнил в RAG, говорит- видосики - самое то

👍1

10 views17:46

Записки клодоеба

валяюсь, болею.
подключил obsidian на рабочий проект.
настроил как память.
сделал карту памяти(буквально древовидная карта)
при принятых изменениях от клода автоматом обновляется память и ее карта.
будем посмотреть теперь зачем это нужно

6 views09:52

Записки клодоеба

еще из нейросетевого.
оказалось, что мне нравится возиться с роутингом и сетями.
Шарю пока не очень, книга "компьютерные сети" не осилена и валяется где-то.
Но у меня теперь есть мощный инструмент для настроек - ИИ

А еще у меня есть 4 роутера(3 кинетика и 1 tp-link) и кабель от провайдера в самой дальней комнате.
В комнате где я работаю у компа нестабильно работает wifi, поэтому я настроил mesh сеть и подключил проводом комп от 2 роутера.

А еще настроено split тунелирование.
часть траффика идет прямо, часть через слово из букв, которые нельзя называть.
Как говорится, озон отдельно, ютуб отдельно.
Но если слово из букв моргает - оказывается, что король голый и весь трафик идет прямо.
Если claude это увидит - могут забанить.
Поэтому если моргает - эта часть трафика никуда не идет.
На этот случай у меня есть запасное соединение, которое сейчас не пашет - надо бы настроить. Чтобы когда основное моргнуло - его часть трафика пошла по резервному.
Правда для ckaude это будет выглядеть как геоскачок между разными ip. И это тоже для них красный флаг.
Надо бы подумать как это пофиксить. Может, одну и ту же страну использовать?

Ну и сейчас вот моргнул интернет от провайдера, и я задумался о 2 резервном канале интернета от второго провайдера.
Будет и резерв и скорости добавит.
Но тут нюанс - второй провайдер заведет кабель в коридор. Физически его никак не воткнуть в основной роутер. Придется доставать 3 кинетик, стряхивать с него пыль и добавлять его как mesh устройство + как ввод 2 провайдера.
Ну и настраивать резервирование каналов + шаринг скорости).
А еще tp-link вроде получше и гигабитный, но я пытался его дружить ретранслятором с кинетиком и получилось так себе
Ухххх, интересно!

6 viewsedited 10:02

Записки клодоеба

вот этому учусь.
по его планам - учиться мне до ноября 26 - января 27 года

6 views12:27

Записки клодоеба

Задумался тут о подключении codex как альтернатива Claude. Его по идее можно и в Claude code использовать.

Мой Турецкий аккаунт позволяет оплачивать через себя.

Приятно удивлен ценой - 499 лир - это сейчас примерно 10,92$.
Для сравнения моя 100$ подписка Claude обходится в 4990- 109,2$.

upd. а нет, нельзя в клауде подключить chatgpt по подписке, в отличие от deepseek. но можно использовать gpt внутри клода рядом через вот такую штуку
https://github.com/openai/codex-plugin-cc

7 viewsedited 18:16

Записки клодоеба

Сознательно перестал пилить пет проект и теперь не использую всю емкость подписки claude.
решил ее попилить, вот такие подключу на следующий месяц:
claude 20$ -> 799 лир -> 1320 руб сейчас
gpt plus 20$ -> 499 лир -> 825 руб сейчас
perplexity 20$->ХЗ сколько лир -> ~1400 руб сейчас(но я не уверен)

с perplexity вопрос - нужен ли он мне - еще не решил
так же у меня есть
deepseek,
openrouter(но туда больше нельзя внести деньги),
polza.ai

и все это для чего-то да нужно

7 viewsedited 08:19

Записки клодоеба

делаем Батю суровым.
немногословным
angina - это senior angular reviewer

8 viewsedited 16:33

Записки клодоеба

Завтра подключу подписку chatgpt и переключу ангину на него. почитал тут, что очень полезно давать ревьювить одну нейросеть другой

8 viewsedited 16:36

Записки клодоеба

если claude и надо хорошенько подумать

8 views17:30

Записки клодоеба

codex от chatgpt!
ща буду в Батю встраивать ревьювером

7 views09:58

Записки клодоеба

https://www.claudefucker.ru/
ну все, тесты добил.
навайбкодил сегодня за часа 3 вот такой сайтик просто для фана.
с компьютера возможностей поболее, чем с телефона
сообщения чекаются раз в 5 минут, чтоб ресурсы моего старенького макмини не жрать(на нем сайт крутится)
почему так быстро? без гита, без тестов, без мучительного деплоя, без ревью.
на коленке

5 viewsedited 13:38