а вообще что помещается в память?
сама модель (сколько млрд параметров)
в заданном квантовании(какая точность каждого числа)
+размер контекстного окна.
на картигке размер контекста Llama 3 8B. квантование у нее 4 бита(точность числа после запятой). при этом вес самой модели 4-5gb.
и все это надо в памяти держать.
т.е. всегда какой-то компромисс между:
количество параметров(насколько умная модель)
квантование(насколько точно отвечает)
контекст(сколько она помнит в текущей сессии)
сама модель (сколько млрд параметров)
в заданном квантовании(какая точность каждого числа)
+размер контекстного окна.
на картигке размер контекста Llama 3 8B. квантование у нее 4 бита(точность числа после запятой). при этом вес самой модели 4-5gb.
и все это надо в памяти держать.
т.е. всегда какой-то компромисс между:
количество параметров(насколько умная модель)
квантование(насколько точно отвечает)
контекст(сколько она помнит в текущей сессии)
Ну и главное: видео-память или оперативка?
Архитектурно видео-память из-за своей способности к множественным параллельным вычислениям наиболее подходит под LLM.
Плюс скорость видео(300-3000 GB/s) в разы быстрее, чем оперативка(~50 GB/s).
Когда модель не помещается в видеопамять - она может частично храниться в оперативке, но между ними узкое горлышко - шина связи(PCIe 4.0 x16 — ~32 GB/s)
А мы помним, что для ответа нужно прогнать ВСЮ модель. т.е. и ту, что в оперативке тоже.
А значит ту часть, что в оперативке нужно загружать в видео.
И потом обратно.
И вот тут архитектура mac m процессоров с объединенной памятью выходит на сцену!
их 64gb дешевле, чем отдельно карточка nvidia сопостовимого объема.
Но немного(или в 2-3 иногда) медленнее.
Архитектурно видео-память из-за своей способности к множественным параллельным вычислениям наиболее подходит под LLM.
Плюс скорость видео(300-3000 GB/s) в разы быстрее, чем оперативка(~50 GB/s).
Когда модель не помещается в видеопамять - она может частично храниться в оперативке, но между ними узкое горлышко - шина связи(PCIe 4.0 x16 — ~32 GB/s)
А мы помним, что для ответа нужно прогнать ВСЮ модель. т.е. и ту, что в оперативке тоже.
А значит ту часть, что в оперативке нужно загружать в видео.
И потом обратно.
И вот тут архитектура mac m процессоров с объединенной памятью выходит на сцену!
их 64gb дешевле, чем отдельно карточка nvidia сопостовимого объема.
Но немного(или в 2-3 иногда) медленнее.
еще из интересного.
есть модели с записью вида 671B 37B.
раньше модель на каждый токен гоняла все 671 млрд параметров.
а сейчас она поделена на "экспертов" + роутер(определяет к каким нескольким экспертам роутить запрос).
в итоге на каждый токен используется только 37млрд параметров.
это несколько экспертов и роутер.
дешевле тренировать
быстрее и дешевле запросы(токен/сек)
но памяти все равно нужно под все 671млрд.
качество ответа сопоставимое.
есть модели с записью вида 671B 37B.
раньше модель на каждый токен гоняла все 671 млрд параметров.
а сейчас она поделена на "экспертов" + роутер(определяет к каким нескольким экспертам роутить запрос).
в итоге на каждый токен используется только 37млрд параметров.
это несколько экспертов и роутер.
дешевле тренировать
быстрее и дешевле запросы(токен/сек)
но памяти все равно нужно под все 671млрд.
качество ответа сопоставимое.
еще я тут рассказывал про объем потребляемой памяти.
сами параметры(веса и сдвиг) + контекстное окно.
google в марте сделал оптимизацию - TurboQuant. они поменяли подход к хранению кэша. раньше хранили в 16 квантовании(или 8) + метаданные.
с новой технологией 3 бита на чисто(3 квантование) и не надо метаданных. в итоге в 6 раз примерно снижение.
то есть было Llama 3 8B на контексте 128K жрёт 17 GB только под KV cache. стало ок 3gb. без потери качества!
сами параметры(веса и сдвиг) + контекстное окно.
google в марте сделал оптимизацию - TurboQuant. они поменяли подход к хранению кэша. раньше хранили в 16 квантовании(или 8) + метаданные.
с новой технологией 3 бита на чисто(3 квантование) и не надо метаданных. в итоге в 6 раз примерно снижение.
то есть было Llama 3 8B на контексте 128K жрёт 17 GB только под KV cache. стало ок 3gb. без потери качества!
Почему если на вход нейросетки даем одно и то же, внутри одни и те же веса(а соотв одни и те же вероятности), результат всегда будет разный?
кстати, все эти картинки можно брыть, загонять в тот же claude и продолжать диалог, если покажется интересным.
он поймет и продолжит
он поймет и продолжит
валяюсь, болею.
подключил obsidian на рабочий проект.
настроил как память.
сделал карту памяти(буквально древовидная карта)
при принятых изменениях от клода автоматом обновляется память и ее карта.
будем посмотреть теперь зачем это нужно
подключил obsidian на рабочий проект.
настроил как память.
сделал карту памяти(буквально древовидная карта)
при принятых изменениях от клода автоматом обновляется память и ее карта.
будем посмотреть теперь зачем это нужно
еще из нейросетевого.
оказалось, что мне нравится возиться с роутингом и сетями.
Шарю пока не очень, книга "компьютерные сети" не осилена и валяется где-то.
Но у меня теперь есть мощный инструмент для настроек - ИИ
А еще у меня есть 4 роутера(3 кинетика и 1 tp-link) и кабель от провайдера в самой дальней комнате.
В комнате где я работаю у компа нестабильно работает wifi, поэтому я настроил mesh сеть и подключил проводом комп от 2 роутера.
А еще настроено split тунелирование.
часть траффика идет прямо, часть через слово из букв, которые нельзя называть.
Как говорится, озон отдельно, ютуб отдельно.
Но если слово из букв моргает - оказывается, что король голый и весь трафик идет прямо.
Если claude это увидит - могут забанить.
Поэтому если моргает - эта часть трафика никуда не идет.
На этот случай у меня есть запасное соединение, которое сейчас не пашет - надо бы настроить. Чтобы когда основное моргнуло - его часть трафика пошла по резервному.
Правда для ckaude это будет выглядеть как геоскачок между разными ip. И это тоже для них красный флаг.
Надо бы подумать как это пофиксить. Может, одну и ту же страну использовать?
Ну и сейчас вот моргнул интернет от провайдера, и я задумался о 2 резервном канале интернета от второго провайдера.
Будет и резерв и скорости добавит.
Но тут нюанс - второй провайдер заведет кабель в коридор. Физически его никак не воткнуть в основной роутер. Придется доставать 3 кинетик, стряхивать с него пыль и добавлять его как mesh устройство + как ввод 2 провайдера.
Ну и настраивать резервирование каналов + шаринг скорости).
А еще tp-link вроде получше и гигабитный, но я пытался его дружить ретранслятором с кинетиком и получилось так себе
Ухххх, интересно!
оказалось, что мне нравится возиться с роутингом и сетями.
Шарю пока не очень, книга "компьютерные сети" не осилена и валяется где-то.
Но у меня теперь есть мощный инструмент для настроек - ИИ
А еще у меня есть 4 роутера(3 кинетика и 1 tp-link) и кабель от провайдера в самой дальней комнате.
В комнате где я работаю у компа нестабильно работает wifi, поэтому я настроил mesh сеть и подключил проводом комп от 2 роутера.
А еще настроено split тунелирование.
часть траффика идет прямо, часть через слово из букв, которые нельзя называть.
Как говорится, озон отдельно, ютуб отдельно.
Но если слово из букв моргает - оказывается, что король голый и весь трафик идет прямо.
Если claude это увидит - могут забанить.
Поэтому если моргает - эта часть трафика никуда не идет.
На этот случай у меня есть запасное соединение, которое сейчас не пашет - надо бы настроить. Чтобы когда основное моргнуло - его часть трафика пошла по резервному.
Правда для ckaude это будет выглядеть как геоскачок между разными ip. И это тоже для них красный флаг.
Надо бы подумать как это пофиксить. Может, одну и ту же страну использовать?
Ну и сейчас вот моргнул интернет от провайдера, и я задумался о 2 резервном канале интернета от второго провайдера.
Будет и резерв и скорости добавит.
Но тут нюанс - второй провайдер заведет кабель в коридор. Физически его никак не воткнуть в основной роутер. Придется доставать 3 кинетик, стряхивать с него пыль и добавлять его как mesh устройство + как ввод 2 провайдера.
Ну и настраивать резервирование каналов + шаринг скорости).
А еще tp-link вроде получше и гигабитный, но я пытался его дружить ретранслятором с кинетиком и получилось так себе
Ухххх, интересно!
Задумался тут о подключении codex как альтернатива Claude. Его по идее можно и в Claude code использовать.
Мой Турецкий аккаунт позволяет оплачивать через себя.
Приятно удивлен ценой - 499 лир - это сейчас примерно 10,92$.
Для сравнения моя 100$ подписка Claude обходится в 4990- 109,2$.
upd. а нет, нельзя в клауде подключить chatgpt по подписке, в отличие от deepseek. но можно использовать gpt внутри клода рядом через вот такую штуку
https://github.com/openai/codex-plugin-cc
Мой Турецкий аккаунт позволяет оплачивать через себя.
Приятно удивлен ценой - 499 лир - это сейчас примерно 10,92$.
Для сравнения моя 100$ подписка Claude обходится в 4990- 109,2$.
upd. а нет, нельзя в клауде подключить chatgpt по подписке, в отличие от deepseek. но можно использовать gpt внутри клода рядом через вот такую штуку
https://github.com/openai/codex-plugin-cc
Сознательно перестал пилить пет проект и теперь не использую всю емкость подписки claude.
решил ее попилить, вот такие подключу на следующий месяц:
claude 20$ -> 799 лир -> 1320 руб сейчас
gpt plus 20$ -> 499 лир -> 825 руб сейчас
perplexity 20$->ХЗ сколько лир -> ~1400 руб сейчас(но я не уверен)
с perplexity вопрос - нужен ли он мне - еще не решил
так же у меня есть
deepseek,
openrouter(но туда больше нельзя внести деньги),
polza.ai
и все это для чего-то да нужно
решил ее попилить, вот такие подключу на следующий месяц:
claude 20$ -> 799 лир -> 1320 руб сейчас
gpt plus 20$ -> 499 лир -> 825 руб сейчас
perplexity 20$->ХЗ сколько лир -> ~1400 руб сейчас(но я не уверен)
с perplexity вопрос - нужен ли он мне - еще не решил
так же у меня есть
deepseek,
openrouter(но туда больше нельзя внести деньги),
polza.ai
и все это для чего-то да нужно
Завтра подключу подписку chatgpt и переключу ангину на него. почитал тут, что очень полезно давать ревьювить одну нейросеть другой
https://www.claudefucker.ru/
ну все, тесты добил.
навайбкодил сегодня за часа 3 вот такой сайтик просто для фана.
с компьютера возможностей поболее, чем с телефона
сообщения чекаются раз в 5 минут, чтоб ресурсы моего старенького макмини не жрать(на нем сайт крутится)
почему так быстро? без гита, без тестов, без мучительного деплоя, без ревью.
на коленке
ну все, тесты добил.
навайбкодил сегодня за часа 3 вот такой сайтик просто для фана.
с компьютера возможностей поболее, чем с телефона
сообщения чекаются раз в 5 минут, чтоб ресурсы моего старенького макмини не жрать(на нем сайт крутится)
почему так быстро? без гита, без тестов, без мучительного деплоя, без ревью.
на коленке