TechnoBlog of Ivan Olyansky
224 subscribers
421 photos
54 videos
14 files
241 links
TechnoBlog обо всем)
ai.ivol.pro - ИИ разработка
ivol.pro - все проекты

@ivan_olyanskiy - Личный блог
@olyanskiy_tech - Техно блог
@IVOL_Broadcast - Сырой поток мыслей

Боты:
@vpn_c_bot - VPN
Связь со мной тут @oiv_an
Download Telegram
Наконец пришли 2 карты p102-100 по 10гб
gpt-oss:20b

Скорость 52 т/с
По ходу картам майнинга можно дать второй шанс)
👍1
TechnoBlog of Ivan Olyansky
qwen3:30b-a3b-q4_K_M 17.3 Гб 2 карты p104-100. Карты для майнинга изначально, по 8 гб. Вся система кушает почти 400W скорость 22т/с - очень приятно работает. С такой моделью уже можно много чего придумать. + ограничил по вольтажу до 120W на карту. UPD.…
qwen3:30b-a3b-q4_K_M 49.3 т/с
qwen3:14b-q4_K_M 24,39 т/с (на одной карте работает)

phi3:14b-medium-128k-instruct-q5_K_M 22.65 т/с (тоже на одной карте запустилась )

mistral-small:24b 13.4 Гб. 15 т/с

gpt-oss:20b 52 т/с


Разница конечно колоссальная!
особенно Qwen3-30B-A3B-Q4_K_M в 2 раза быстрее.
карты нашел по 2500 с доставкой)

UPD
qwen3-coder:latest 52.82 т/с

карты по мощности чуть заглушил до 180W, что на скорости почти ни как не отразилось.
👍2
Если у вас Windows — https://whispertyping.com

Отличная программа для транскрибации.

Перебрал множество разных программ: то вставка не работает, то после пары фраз — плати))

Думал свою написать, но пока нет времени разбираться.

Суть программы. Зажимаешь две кнопки, диктуешь, и все, что ты надиктовал, вставляется там, где у тебя сейчас курсор, либо в буфер обмена.
🐳2
😁4
Сегодня вроде как Gemini 3 выйдет, по метрикам это прям 🔥
Ждем )🤞

И Grok 4.1 вышел, но его все еще нет на Api
👍1
Вчера весь день убил на тесты. 🤦‍♂️

Задача была простая: накатить gpt-oss-20b-heretic. Хотел модели с полностью снятыми ограничениями, чтобы можно было задавать вообще любые вопросы без цензуры.

Итог?
Ни хрена не вышло. 5 штук перепробовал — ни одна модель не захотела нормально работать на моих железках - x2 p102-100 . Тупили страшно, падали, просто отказывались запускаться. Короче, нервы потрачены.

НО! Внезапно спасла ситуация вот эта находка:
👉 huihui_ai/qwen3-abliterated:30b-a3b

Вот она взлетела вообще великолепно. 🔥
Поспрашивал её про всякое... кхм, запрещенное. И знаете что? Она не читает мораль. Обычно AI сразу включают режим "я не могу, это неэтично, бла-бла-бла". А эта ведет диалог абсолютно свободно о чем угодно. Никаких тормозов.


А самое крутое — скорость. 52 токена в секунду! 🚀
Для 30B модели локально — это прям огонь. Летает.

Пу-пу-пу... С одной стороны, все пытаются ограничить AI, гайки закручивают, чтобы модель лишнего не сболтнула. А с другой — вот, пожалуйста. Полная свобода и доступ к любой информации здесь и сейчас.

В общем, забирайте и тестируйте, пока работает.
🐳21🔥1
🧟‍♂️ Как оживить любой старый проект?

Слушайте, начал тут ворошить свои архивы. Смотрю на старые наработки, блоки кода... и, честно говоря, иногда ни хрена не понимаю. 😅

Возвращаться к старому проекту — это всегда боль. Сидишь и пытаешься вспомнить: где, как, когда и нафига ты это написал? Куда летят данные? Какая вообще была логика?

Раньше на восстановление контекста уходили часы (и нервы). Сейчас, благодаря нейросетям, это делается на раз-два. Собственно, вот мой алгоритм реанимации, который работает безотказно.

Что нужно сделать:

1. Запросить жесткую документацию
Закидываете проект в нейронку и говорите прямым текстом: "Нужно полностью разобраться. Опиши, как это работает, какие связи, что внутри происходит".
Пусть пишет подробнейшую документацию. Нейронка прошерстит весь код, пройдет по всем закоулкам, изучит вообще все, что возможно..

2. Временно "засрать" код комментариями
Следующий шаг — просите добавить комментарии прямо в код.
Я сам не люблю, когда в файлах "простыни" текста, меня это визуально раздражает. Но! Для разбора старья — это киллер-фича.

Пусть нейронка пропишет везде:
• Почему это вызывается?
• Откуда приходят данные?
• Зачем этот блок вообще нужен?

С этим справляется практически любая модель. Она тупо идет по коду, видит цепочку вызовов и дает описание.

Итог:
У вас перед глазами код, где каждая строчка разжевана. Разобрались, вспомнили логику? Одной командой просите нейронку убрать все комментарии — и у вас снова чистый код.

Короче, пользуйтесь. Экономит кучу времени. 🔥
11
Есть интересная идейка. Хочу собрать собственный сервер для LLM, буквально из говна и палок (ну почти), чтобы гонять жирные модели на 50+ гигов. Бюджет — смешной, эффективность — посмотрим.

Что имеем на старте?

• Цель: Запустить 6 карт (ориентируюсь на P102-100 ).

• Железо: Материнка уже есть, поддерживает 6 слотов. Блок питания на 1800W тоже в наличии — там выходы идеально под 6 карт.

• Корпус: Нашел на Авито майнинговый кейс. Сейчас всё, что касается майнинга, стоит копейки. Грех не воспользоваться.

Собственно, в чем план:

В начале все протестировать на том, что уже есть. И если эксперимент будет удачный, то получится докупить определенные части, и собрать всё это "на коленке" тысяч за 50-70 рублей.

Но есть нюанс (куда же без него):


Карты хотят PCI-E x4 для максимальной скорости, а обычные майнинговые райзера выдают только x1. Это, конечно, бутылочное горлышко, скорость загрузки моделей может пострадать. Но для первого теста — сойдет. (дальше нужно будет удлинители PCI брать или заменить мать.

Зачем мне это надо?

Майнинг — это про "вентиляторы крутятся, деньги мутятся", а тут история другая. Деньги система не печатает, но дает тебе в руки мощнейший инструмент. Я сейчас тестирую Gemini 3 pro и понимаю: через 2-3 года такие будут LLM с такой же производительностью запустятся на обычных машинах. Это повлияет на рынок труда, те же сисадмины, которые раньше сутками чекали логи и мониторили сеть — всё, их работу заберет AI.

По факту, я за 60к собираю машину, которая может заменить целый отдел. Жрет она только электричество и только в момент нагрузки. Ну и прикладно можно использовать дома для всего, но это уже после сборки.

Завтра будет тест с райзерами x1.
Будет 4 карты. 2 p102-100 и 2 p104-100

Ну что, погнали собирать? О результатах отпишусь. Если всё отвалится — тоже расскажу честно 😅

Сервер пока передумал продавать))
🤓 Такая корова нужна самому)
👍5🔥1🐳1
P102 + P104 (36 GB VRAM). Одна карта подключена через нормальный PCIe, часть — через USB-райзера (x1).

Решил не мелочиться и скачал версии в Q8 (8 бит). Это почти оригинальное качество

1️⃣ Qwen3:30b-a3b-q8_0 (31ГБ)
🚀 Скорость: 26.84 ток/сек


2️⃣ Qwen3:32b-q8_0 (33ГБ)
🐢 Скорость: 6.66 ток/сек
А вот тут архитектура уперлась в шину. Разница в 2 ГБ веса, а падение скорости в 4 раза.


3️⃣ qwen3:30b-a3b-thinking-2507-q8_0 (30.3ГБ)
🚀 Скорость: 26.26 ток/сек


Вывод:
Железо за копейки ТАЩИТ, если правильно подобрать модель. 26 токенов в секунду на Q8 — это уровень Enterprise-серверов, который я получил у себя на балконе.


Железо за копейки ТАЩИТ, если правильно подобрать модель. 26 токенов в секунду на Q8 — это уровень Enterprise-серверов, который я получил у себя на балконе.
👍1🔥1🐳1
В общем, жду карты P102-100, чтобы протестить сразу 4-6 одинаковых карт.

Даже сейчас уже ясно: из говна и палок можно собрать достаточно умную машину для дома 😄
Собрал все обратно - 2 p102-100

qwen3-vl:8b-thinking-bf16 11.39 t/s 16.3 Gb
qwen3-vl:30b-a3b-thinking-q4_K_M 21,45 t/s 18,2 Gb
qwen3-vl:30b-a3b-instruct-q4_K_M 24,59 t/s 18,2 Gb


Все модели отлично понимают изображения.
🔥1
Короче, третий день уже плотно тестирую GPT-5.1 в кодинге. 🧑‍💻

В принципе, мне нравится, как он работает. Стек стандартный: гоняю его на PHP и JS, немного CSS по мелочи.

Что по факту:
• Качество кода — вполне приемлемое.
• Нормально переваривает достаточно большие участки.
• Не путается, контекст держит, достаточно умный.

Собственно, я бы его сравнил с Claude 4.5. Хотя Клод, конечно, все еще впереди. Чувствуется разница.

Но есть один жирный минус. Тупит страшно! 🐢 Работает прям очень медленно. По сравнению с Grok-4-fast и code версия.
Там вышел еще GPT-5.1-codex-чего-то там) сегодня. Как добавят - протестирую.
1🤝1
Как искать модели на сайте ollama.com?

Поиск на сайте работает криво очень, проще искать по тегам.

Схема такая: не мучайте поисковую строку, а просто подставляйте название модели прямо в URL через теги. Вас сразу перекинет на страницу со всеми вариантами для скачивания (размеры, версии и прочее).

Вот живой пример на новой Qwen3-VL:
👉 https://ollama.com/library/qwen3-vl/tags
2
Слушайте, я вообще не понимаю этой эйфории по поводу Gemini 3 Pro и создания игр. 🤷‍♂️

Все ленты забиты: «Смотрите, нейронка написала игру с первого раза!». Окей, пишет. Ну и что?

По-моему, для современных моделей написать примитивную игрушку — это равносильно Hello World в программировании. Это, блин, просто базовые настройки. Стартовый набор. Она и должна это делать без ошибок.

Но давайте честно. Попробуйте дать ей серьезную задачу. Реальный, сложный проект. Ни одна нейросеть с этим сейчас не справляется, какая бы она нахрен умная ни была.

Почему? Потому что в серьезных продуктах сначала идет:
1. Архитектура.
2. Понимание, как это устроено внутри.
3. Думание наперед: нагрузка, сценарии пользователей, масштабирование.

Просто «вайбкодить» что-то простенькое — да, это легко.

Вот где реально огонь — это HTML-страницы и лендинги. 🔥
Раньше это была целая история: дизайнер, верстальщик, куча времени и денег. Сейчас — один промпт, и у тебя готовый код. Залил на любой дешманский хостинг, потому что исполнять там нечего, и готово за секунды. Тут реально разбираться в коде не нужно.

Какой тут вывод?
Халява работает только на простых вещах. Чтобы разработать что-то сложнее «змейки» или одностраничника, по-прежнему нужен человек, который знает всю внутреннюю кухню. Иначе останетесь с кучей кода, который непонятно как поддерживать.
👍3