Много букв)
https://note.ivol.pro/p/budzetnyj-ai-server-na-majning-gpu-test-p104-100-dla-loka-1763350701
https://note.ivol.pro/p/budzetnyj-ai-server-na-majning-gpu-test-p104-100-dla-loka-1763350701
note.ivol.pro
Бюджетный AI-сервер на майнинг-GPU: тест P104-100 для локальных LLM
Бюджетный AI-сервер на майнинг-GPU: тест P104-100 для локальных LLM TL;DR: Собрал inference-сервер на 2x P104-100 (8GB) за 5000₽. Qwen3-30B выдает 23 т/с,...
👍1
Если у вас Windows — https://whispertyping.com
Отличная программа для транскрибации.
Перебрал множество разных программ: то вставка не работает, то после пары фраз — плати))
Думал свою написать, но пока нет времени разбираться.
Суть программы. Зажимаешь две кнопки, диктуешь, и все, что ты надиктовал, вставляется там, где у тебя сейчас курсор, либо в буфер обмена.
Отличная программа для транскрибации.
Перебрал множество разных программ: то вставка не работает, то после пары фраз — плати))
Думал свою написать, но пока нет времени разбираться.
Суть программы. Зажимаешь две кнопки, диктуешь, и все, что ты надиктовал, вставляется там, где у тебя сейчас курсор, либо в буфер обмена.
🐳2
https://note.ivol.pro/p/test-p102-100-10gb-v-2-raza-bystree-p104-za-te-ze-den-gi-1763424888
и еще статья подробностей
и еще статья подробностей
note.ivol.pro
Тест P102-100 (10GB): в 2 раза быстрее P104 почти за те же деньги)
TL;DR: Поменял 2x P104-100 (8GB) на 2x P102-100 (10GB) по 2500₽/карта. Qwen3-30B — 49 т/с (было 23), GPT-OSS — 52 т/с (было 42). Разница колоссальная: в 2x...
Сегодня вроде как Gemini 3 выйдет, по метрикам это прям 🔥
Ждем )🤞
И Grok 4.1 вышел, но его все еще нет на Api
Ждем )🤞
И Grok 4.1 вышел, но его все еще нет на Api
👍1
Вчера весь день убил на тесты. 🤦♂️
Задача была простая: накатить gpt-oss-20b-heretic. Хотел модели с полностью снятыми ограничениями, чтобы можно было задавать вообще любые вопросы без цензуры.
Итог?
Ни хрена не вышло. 5 штук перепробовал — ни одна модель не захотела нормально работать на моих железках - x2 p102-100 . Тупили страшно, падали, просто отказывались запускаться. Короче, нервы потрачены.
НО! Внезапно спасла ситуация вот эта находка:
👉 huihui_ai/qwen3-abliterated:30b-a3b
Вот она взлетела вообще великолепно. 🔥
Поспрашивал её про всякое... кхм, запрещенное. И знаете что? Она не читает мораль. Обычно AI сразу включают режим "я не могу, это неэтично, бла-бла-бла". А эта ведет диалог абсолютно свободно о чем угодно. Никаких тормозов.
А самое крутое — скорость. 52 токена в секунду! 🚀
Для 30B модели локально — это прям огонь. Летает.
Пу-пу-пу... С одной стороны, все пытаются ограничить AI, гайки закручивают, чтобы модель лишнего не сболтнула. А с другой — вот, пожалуйста. Полная свобода и доступ к любой информации здесь и сейчас.
В общем, забирайте и тестируйте, пока работает.
Задача была простая: накатить gpt-oss-20b-heretic. Хотел модели с полностью снятыми ограничениями, чтобы можно было задавать вообще любые вопросы без цензуры.
Итог?
Ни хрена не вышло. 5 штук перепробовал — ни одна модель не захотела нормально работать на моих железках - x2 p102-100 . Тупили страшно, падали, просто отказывались запускаться. Короче, нервы потрачены.
НО! Внезапно спасла ситуация вот эта находка:
👉 huihui_ai/qwen3-abliterated:30b-a3b
Вот она взлетела вообще великолепно. 🔥
Поспрашивал её про всякое... кхм, запрещенное. И знаете что? Она не читает мораль. Обычно AI сразу включают режим "я не могу, это неэтично, бла-бла-бла". А эта ведет диалог абсолютно свободно о чем угодно. Никаких тормозов.
А самое крутое — скорость. 52 токена в секунду! 🚀
Для 30B модели локально — это прям огонь. Летает.
Пу-пу-пу... С одной стороны, все пытаются ограничить AI, гайки закручивают, чтобы модель лишнего не сболтнула. А с другой — вот, пожалуйста. Полная свобода и доступ к любой информации здесь и сейчас.
В общем, забирайте и тестируйте, пока работает.
🐳2❤1🔥1
🧟♂️ Как оживить любой старый проект?
Слушайте, начал тут ворошить свои архивы. Смотрю на старые наработки, блоки кода... и, честно говоря, иногда ни хрена не понимаю. 😅
Возвращаться к старому проекту — это всегда боль. Сидишь и пытаешься вспомнить: где, как, когда и нафига ты это написал? Куда летят данные? Какая вообще была логика?
Раньше на восстановление контекста уходили часы (и нервы). Сейчас, благодаря нейросетям, это делается на раз-два. Собственно, вот мой алгоритм реанимации, который работает безотказно.
Что нужно сделать:
1. Запросить жесткую документацию
Закидываете проект в нейронку и говорите прямым текстом: "Нужно полностью разобраться. Опиши, как это работает, какие связи, что внутри происходит".
Пусть пишет подробнейшую документацию. Нейронка прошерстит весь код, пройдет по всем закоулкам, изучит вообще все, что возможно..
2. Временно "засрать" код комментариями
Следующий шаг — просите добавить комментарии прямо в код.
Я сам не люблю, когда в файлах "простыни" текста, меня это визуально раздражает. Но! Для разбора старья — это киллер-фича.
Пусть нейронка пропишет везде:
• Почему это вызывается?
• Откуда приходят данные?
• Зачем этот блок вообще нужен?
С этим справляется практически любая модель. Она тупо идет по коду, видит цепочку вызовов и дает описание.
Итог:
У вас перед глазами код, где каждая строчка разжевана. Разобрались, вспомнили логику? Одной командой просите нейронку убрать все комментарии — и у вас снова чистый код.
Короче, пользуйтесь. Экономит кучу времени. 🔥
Слушайте, начал тут ворошить свои архивы. Смотрю на старые наработки, блоки кода... и, честно говоря, иногда ни хрена не понимаю. 😅
Возвращаться к старому проекту — это всегда боль. Сидишь и пытаешься вспомнить: где, как, когда и нафига ты это написал? Куда летят данные? Какая вообще была логика?
Раньше на восстановление контекста уходили часы (и нервы). Сейчас, благодаря нейросетям, это делается на раз-два. Собственно, вот мой алгоритм реанимации, который работает безотказно.
Что нужно сделать:
1. Запросить жесткую документацию
Закидываете проект в нейронку и говорите прямым текстом: "Нужно полностью разобраться. Опиши, как это работает, какие связи, что внутри происходит".
Пусть пишет подробнейшую документацию. Нейронка прошерстит весь код, пройдет по всем закоулкам, изучит вообще все, что возможно..
2. Временно "засрать" код комментариями
Следующий шаг — просите добавить комментарии прямо в код.
Я сам не люблю, когда в файлах "простыни" текста, меня это визуально раздражает. Но! Для разбора старья — это киллер-фича.
Пусть нейронка пропишет везде:
• Почему это вызывается?
• Откуда приходят данные?
• Зачем этот блок вообще нужен?
С этим справляется практически любая модель. Она тупо идет по коду, видит цепочку вызовов и дает описание.
Итог:
У вас перед глазами код, где каждая строчка разжевана. Разобрались, вспомнили логику? Одной командой просите нейронку убрать все комментарии — и у вас снова чистый код.
Короче, пользуйтесь. Экономит кучу времени. 🔥
✍1❤1
Есть интересная идейка. Хочу собрать собственный сервер для LLM, буквально из говна и палок (ну почти), чтобы гонять жирные модели на 50+ гигов. Бюджет — смешной, эффективность — посмотрим.
Что имеем на старте?
• Цель: Запустить 6 карт (ориентируюсь на P102-100 ).
• Железо: Материнка уже есть, поддерживает 6 слотов. Блок питания на 1800W тоже в наличии — там выходы идеально под 6 карт.
• Корпус: Нашел на Авито майнинговый кейс. Сейчас всё, что касается майнинга, стоит копейки. Грех не воспользоваться.
Собственно, в чем план:
В начале все протестировать на том, что уже есть. И если эксперимент будет удачный, то получится докупить определенные части, и собрать всё это "на коленке" тысяч за 50-70 рублей.
Но есть нюанс (куда же без него):
Карты хотят PCI-E x4 для максимальной скорости, а обычные майнинговые райзера выдают только x1. Это, конечно, бутылочное горлышко, скорость загрузки моделей может пострадать. Но для первого теста — сойдет. (дальше нужно будет удлинители PCI брать или заменить мать.
Зачем мне это надо?
Майнинг — это про "вентиляторы крутятся, деньги мутятся", а тут история другая. Деньги система не печатает, но дает тебе в руки мощнейший инструмент. Я сейчас тестирую Gemini 3 pro и понимаю: через 2-3 года такие будут LLM с такой же производительностью запустятся на обычных машинах. Это повлияет на рынок труда, те же сисадмины, которые раньше сутками чекали логи и мониторили сеть — всё, их работу заберет AI.
По факту, я за 60к собираю машину, которая может заменить целый отдел. Жрет она только электричество и только в момент нагрузки. Ну и прикладно можно использовать дома для всего, но это уже после сборки.
Завтра будет тест с райзерами x1.
Будет 4 карты. 2 p102-100 и 2 p104-100
Ну что, погнали собирать? О результатах отпишусь. Если всё отвалится — тоже расскажу честно 😅
Сервер пока передумал продавать))
🤓 Такая корова нужна самому)
Что имеем на старте?
• Цель: Запустить 6 карт (ориентируюсь на P102-100 ).
• Железо: Материнка уже есть, поддерживает 6 слотов. Блок питания на 1800W тоже в наличии — там выходы идеально под 6 карт.
• Корпус: Нашел на Авито майнинговый кейс. Сейчас всё, что касается майнинга, стоит копейки. Грех не воспользоваться.
Собственно, в чем план:
В начале все протестировать на том, что уже есть. И если эксперимент будет удачный, то получится докупить определенные части, и собрать всё это "на коленке" тысяч за 50-70 рублей.
Но есть нюанс (куда же без него):
Карты хотят PCI-E x4 для максимальной скорости, а обычные майнинговые райзера выдают только x1. Это, конечно, бутылочное горлышко, скорость загрузки моделей может пострадать. Но для первого теста — сойдет. (дальше нужно будет удлинители PCI брать или заменить мать.
Зачем мне это надо?
Майнинг — это про "вентиляторы крутятся, деньги мутятся", а тут история другая. Деньги система не печатает, но дает тебе в руки мощнейший инструмент. Я сейчас тестирую Gemini 3 pro и понимаю: через 2-3 года такие будут LLM с такой же производительностью запустятся на обычных машинах. Это повлияет на рынок труда, те же сисадмины, которые раньше сутками чекали логи и мониторили сеть — всё, их работу заберет AI.
По факту, я за 60к собираю машину, которая может заменить целый отдел. Жрет она только электричество и только в момент нагрузки. Ну и прикладно можно использовать дома для всего, но это уже после сборки.
Завтра будет тест с райзерами x1.
Будет 4 карты. 2 p102-100 и 2 p104-100
Ну что, погнали собирать? О результатах отпишусь. Если всё отвалится — тоже расскажу честно 😅
Сервер пока передумал продавать))
🤓 Такая корова нужна самому)
👍5🔥1🐳1
P102 + P104 (36 GB VRAM). Одна карта подключена через нормальный PCIe, часть — через USB-райзера (x1).
Решил не мелочиться и скачал версии в Q8 (8 бит). Это почти оригинальное качество
1️⃣ Qwen3:30b-a3b-q8_0 (31ГБ)
🚀 Скорость: 26.84 ток/сек
2️⃣ Qwen3:32b-q8_0 (33ГБ)
🐢 Скорость: 6.66 ток/сек
А вот тут архитектура уперлась в шину. Разница в 2 ГБ веса, а падение скорости в 4 раза.
3️⃣ qwen3:30b-a3b-thinking-2507-q8_0 (30.3ГБ)
🚀 Скорость: 26.26 ток/сек
Вывод:
Железо за копейки ТАЩИТ, если правильно подобрать модель. 26 токенов в секунду на Q8 — это уровень Enterprise-серверов, который я получил у себя на балконе.
Железо за копейки ТАЩИТ, если правильно подобрать модель. 26 токенов в секунду на Q8 — это уровень Enterprise-серверов, который я получил у себя на балконе.
Решил не мелочиться и скачал версии в Q8 (8 бит). Это почти оригинальное качество
1️⃣ Qwen3:30b-a3b-q8_0 (31ГБ)
🚀 Скорость: 26.84 ток/сек
2️⃣ Qwen3:32b-q8_0 (33ГБ)
🐢 Скорость: 6.66 ток/сек
А вот тут архитектура уперлась в шину. Разница в 2 ГБ веса, а падение скорости в 4 раза.
3️⃣ qwen3:30b-a3b-thinking-2507-q8_0 (30.3ГБ)
🚀 Скорость: 26.26 ток/сек
Вывод:
Железо за копейки ТАЩИТ, если правильно подобрать модель. 26 токенов в секунду на Q8 — это уровень Enterprise-серверов, который я получил у себя на балконе.
Железо за копейки ТАЩИТ, если правильно подобрать модель. 26 токенов в секунду на Q8 — это уровень Enterprise-серверов, который я получил у себя на балконе.
👍1🔥1🐳1
Короче, третий день уже плотно тестирую GPT-5.1 в кодинге. 🧑💻
В принципе, мне нравится, как он работает. Стек стандартный: гоняю его на PHP и JS, немного CSS по мелочи.
Что по факту:
• Качество кода — вполне приемлемое.
• Нормально переваривает достаточно большие участки.
• Не путается, контекст держит, достаточно умный.
Собственно, я бы его сравнил с Claude 4.5. Хотя Клод, конечно, все еще впереди. Чувствуется разница.
Но есть один жирный минус. Тупит страшно! 🐢 Работает прям очень медленно. По сравнению с Grok-4-fast и code версия.
Там вышел еще GPT-5.1-codex-чего-то там) сегодня. Как добавят - протестирую.
В принципе, мне нравится, как он работает. Стек стандартный: гоняю его на PHP и JS, немного CSS по мелочи.
Что по факту:
• Качество кода — вполне приемлемое.
• Нормально переваривает достаточно большие участки.
• Не путается, контекст держит, достаточно умный.
Собственно, я бы его сравнил с Claude 4.5. Хотя Клод, конечно, все еще впереди. Чувствуется разница.
Но есть один жирный минус. Тупит страшно! 🐢 Работает прям очень медленно. По сравнению с Grok-4-fast и code версия.
Там вышел еще GPT-5.1-codex-чего-то там) сегодня. Как добавят - протестирую.
✍1🤝1
Как искать модели на сайте ollama.com?
Поиск на сайте работает криво очень, проще искать по тегам.
Схема такая: не мучайте поисковую строку, а просто подставляйте название модели прямо в URL через теги. Вас сразу перекинет на страницу со всеми вариантами для скачивания (размеры, версии и прочее).
Вот живой пример на новой Qwen3-VL:
👉 https://ollama.com/library/qwen3-vl/tags
Поиск на сайте работает криво очень, проще искать по тегам.
Схема такая: не мучайте поисковую строку, а просто подставляйте название модели прямо в URL через теги. Вас сразу перекинет на страницу со всеми вариантами для скачивания (размеры, версии и прочее).
Вот живой пример на новой Qwen3-VL:
👉 https://ollama.com/library/qwen3-vl/tags
Ollama
Tags · qwen3-vl
The most powerful vision-language model in the Qwen model family to date.
✍2
Слушайте, я вообще не понимаю этой эйфории по поводу Gemini 3 Pro и создания игр. 🤷♂️
Все ленты забиты: «Смотрите, нейронка написала игру с первого раза!». Окей, пишет. Ну и что?
По-моему, для современных моделей написать примитивную игрушку — это равносильно
Но давайте честно. Попробуйте дать ей серьезную задачу. Реальный, сложный проект. Ни одна нейросеть с этим сейчас не справляется, какая бы она нахрен умная ни была.
Почему? Потому что в серьезных продуктах сначала идет:
1. Архитектура.
2. Понимание, как это устроено внутри.
3. Думание наперед: нагрузка, сценарии пользователей, масштабирование.
Просто «вайбкодить» что-то простенькое — да, это легко.
Вот где реально огонь — это HTML-страницы и лендинги. 🔥
Раньше это была целая история: дизайнер, верстальщик, куча времени и денег. Сейчас — один промпт, и у тебя готовый код. Залил на любой дешманский хостинг, потому что исполнять там нечего, и готово за секунды. Тут реально разбираться в коде не нужно.
Какой тут вывод?
Халява работает только на простых вещах. Чтобы разработать что-то сложнее «змейки» или одностраничника, по-прежнему нужен человек, который знает всю внутреннюю кухню. Иначе останетесь с кучей кода, который непонятно как поддерживать.
Все ленты забиты: «Смотрите, нейронка написала игру с первого раза!». Окей, пишет. Ну и что?
По-моему, для современных моделей написать примитивную игрушку — это равносильно
Hello World в программировании. Это, блин, просто базовые настройки. Стартовый набор. Она и должна это делать без ошибок.Но давайте честно. Попробуйте дать ей серьезную задачу. Реальный, сложный проект. Ни одна нейросеть с этим сейчас не справляется, какая бы она нахрен умная ни была.
Почему? Потому что в серьезных продуктах сначала идет:
1. Архитектура.
2. Понимание, как это устроено внутри.
3. Думание наперед: нагрузка, сценарии пользователей, масштабирование.
Просто «вайбкодить» что-то простенькое — да, это легко.
Вот где реально огонь — это HTML-страницы и лендинги. 🔥
Раньше это была целая история: дизайнер, верстальщик, куча времени и денег. Сейчас — один промпт, и у тебя готовый код. Залил на любой дешманский хостинг, потому что исполнять там нечего, и готово за секунды. Тут реально разбираться в коде не нужно.
Какой тут вывод?
Халява работает только на простых вещах. Чтобы разработать что-то сложнее «змейки» или одностраничника, по-прежнему нужен человек, который знает всю внутреннюю кухню. Иначе останетесь с кучей кода, который непонятно как поддерживать.
👍3
Как выжать максимум из AI, если деньги не проблема
Вижу сейчас море статей в духе «Как запилить игру, сайт, стартап за 3 копейки». А у меня другой вопрос — что делать, если деньги есть и нужна максимальная эффективность?
Если делать серьезные вещи, а не «на коленке», забудьте про чатики в Телеграме и бесплатные веб-версии. По-серьезному делать так:
1. Среда разработки
Чат OpenWebUI через API. Чтобы можно было переключать модели на лету.
2. Архитектор (Opus)
Сначала идем к Opus 4.1. Рассказываем ему идею целиком. Его задача — не код писать, а построить архитектуру. Просите расписать всё максимально подробно. Он выдает структуру проекта, которую потом не стыдно показать людям. Если покажете это программисту — он скажет просто сумму и начнет работать.
3. Рабочие лошадки (VS Code + KiloCode)
Забираем архитектуру и идем в VS Code. Я использую KiloCode. Тут подключаем тяжелую артиллерию. Кого нанимаем за наши кровные?
• Gemini 3 Pro — в чистом программировании он крут
• Claude 4.5 — если проект сложный, он великолепно держит контекст и строит связи
• GPT-5.1 — на подхвате, чуть медленный
По факту, вы нанимаете команду хороших программистов за серьезные деньги. Но вот что нужно учесть.
Сразу делаем жесткие правила:
1. Git поднят сразу. Это база.
2. Коммиты после каждого чиха. AI должен писать подробный лог: что изменил, зачем, как это влияет на структуру.
3. Документация — СРАЗУ на каждый класс и метод. Очень важно. На каждый модуль требуем описание: что входит, что выходит, логика работы.
4. ОБЯЗАТЕЛЬНАЯ длина файлов. Не более 500 строк кода.
ВСЕ МОДЕЛИ тупят, даже Opus, и по какой-то причине дописывают лишние символы или дублируют код.
Да, кода будет очень много. Объем дикий. Но благодаря докам и коммитам поддерживать это будет легко. Иначе через неделю проект превратится в тыкву, а вы будете сидеть и думать: «И что с этим делать?» И даже самая умная модель не разберется и запорет проект.
Не экономьте на моделях, если хотите результат 🔥
Вижу сейчас море статей в духе «Как запилить игру, сайт, стартап за 3 копейки». А у меня другой вопрос — что делать, если деньги есть и нужна максимальная эффективность?
Если делать серьезные вещи, а не «на коленке», забудьте про чатики в Телеграме и бесплатные веб-версии. По-серьезному делать так:
1. Среда разработки
Чат OpenWebUI через API. Чтобы можно было переключать модели на лету.
2. Архитектор (Opus)
Сначала идем к Opus 4.1. Рассказываем ему идею целиком. Его задача — не код писать, а построить архитектуру. Просите расписать всё максимально подробно. Он выдает структуру проекта, которую потом не стыдно показать людям. Если покажете это программисту — он скажет просто сумму и начнет работать.
3. Рабочие лошадки (VS Code + KiloCode)
Забираем архитектуру и идем в VS Code. Я использую KiloCode. Тут подключаем тяжелую артиллерию. Кого нанимаем за наши кровные?
• Gemini 3 Pro — в чистом программировании он крут
• Claude 4.5 — если проект сложный, он великолепно держит контекст и строит связи
• GPT-5.1 — на подхвате, чуть медленный
По факту, вы нанимаете команду хороших программистов за серьезные деньги. Но вот что нужно учесть.
Сразу делаем жесткие правила:
1. Git поднят сразу. Это база.
2. Коммиты после каждого чиха. AI должен писать подробный лог: что изменил, зачем, как это влияет на структуру.
3. Документация — СРАЗУ на каждый класс и метод. Очень важно. На каждый модуль требуем описание: что входит, что выходит, логика работы.
4. ОБЯЗАТЕЛЬНАЯ длина файлов. Не более 500 строк кода.
ВСЕ МОДЕЛИ тупят, даже Opus, и по какой-то причине дописывают лишние символы или дублируют код.
Да, кода будет очень много. Объем дикий. Но благодаря докам и коммитам поддерживать это будет легко. Иначе через неделю проект превратится в тыкву, а вы будете сидеть и думать: «И что с этим делать?» И даже самая умная модель не разберется и запорет проект.
Не экономьте на моделях, если хотите результат 🔥
1🔥2🐳2👍1
Прокачал сервис — https://time.ivol.pro
Теперь внизу можно включить режим Pomodoro. Устанавливаете рабочие часы — и получаете предупреждения, чтобы не перерабатывать. Визуально понятно, когда время на задачу истекает и пора сделать перерыв.
Внутри есть два стиля: «Кружка» и «Оборона». Попробуйте оба варианта — какой больше зайдет. 😎
Зачем это нужно?
Когда погружаешься в код или настройку автоматизаций, легко потерять счет времени и очнуться только вечером с «квадратной» головой. Этот инструмент помогает держать здоровый ритм.
Визуальный таймер создает правильный фокус: вы видите, сколько осталось до конца спринта, и меньше отвлекаетесь. А четкие интервалы отдыха не дают мозгу перегреться. Это простой способ работать интенсивно, но без выгорания — чтобы к концу дня оставались силы на жизнь и семью.
Теперь внизу можно включить режим Pomodoro. Устанавливаете рабочие часы — и получаете предупреждения, чтобы не перерабатывать. Визуально понятно, когда время на задачу истекает и пора сделать перерыв.
Внутри есть два стиля: «Кружка» и «Оборона». Попробуйте оба варианта — какой больше зайдет. 😎
Зачем это нужно?
Когда погружаешься в код или настройку автоматизаций, легко потерять счет времени и очнуться только вечером с «квадратной» головой. Этот инструмент помогает держать здоровый ритм.
Визуальный таймер создает правильный фокус: вы видите, сколько осталось до конца спринта, и меньше отвлекаетесь. А четкие интервалы отдыха не дают мозгу перегреться. Это простой способ работать интенсивно, но без выгорания — чтобы к концу дня оставались силы на жизнь и семью.
👍3❤1😁1