Иван Закутний про

Китайцы выкатили очередной Хуньян резонер, турбо декодер блин!

Попробуй тут https://llm.hunyuan.tencent.com/#/chat/hy-t1

🌭3

181 views09:08

Иван Закутний про

Попросил ChatGPT нарисовать как он видит свои мозги будущего, работающие на базе квантовых вычислений под криогенными температурами.

Навеяно свежими исследованиями.

Буквы он конечно хорошо стал копировать на изображение. Можно плакаты на техно рейвы генерировать 💃

Please open Telegram to view this post

VIEW IN TELEGRAM

🌭2

207 viewsedited 07:20

Иван Закутний про

Ответил тут где то в комментах на вопрос «вы deep research пользуетесь вообще».

Мой ответ, tldr – уже практически нет.

Я перестал пользоваться дип ресерчем, не каким то конкретным, а вообще полностью с тех пор как купил Kagi поисковик. Perplexity похоронил и подавно.

И не то чтобы я Kagi «ассистента» пытаюсь пиарить (хотя он и не плох).

Мне в общем и целом бесконтрольный ресерчер оказался не нужен, особенно из за того что в лучшем случае 1/4 выхлопа раздутая вода.

Мой новый флоу в этом деле такой:

1) ищу через Kagi все нужные пейперы / новости / nameyourthing

2) пихаю в NotebookLM и радуюсь предметному, конструктивному, и главное управляемому мной самим ресерчу 😏

Please open Telegram to view this post

VIEW IN TELEGRAM

3🌭1

232 views13:49

Иван Закутний про

Я вообще конечно спать собирался, но тут Decompute AI какого-то жесткого хайпа нагнал...

Что только не пишут:
- first on-device AI agent creation platform
- without needing extensive AI expertise 😦
- Privacy by Design Your data never leaves your device

кхек-кхек, ну давайте смотреть маководы

Please open Telegram to view this post

VIEW IN TELEGRAM

2🌭1

217 views20:10

Иван Закутний про

Я вообще конечно спать собирался, но тут Decompute AI какого-то жесткого хайпа нагнал... Что только не пишут: - first on-device AI agent creation platform - without needing extensive AI expertise 😦 - Privacy by Design Your data never leaves your device кхек…

А, оно не работает; Можно все таки на боковую. 💤

Please open Telegram to view this post

VIEW IN TELEGRAM

3🌭1

197 views20:17

Иван Закутний про

PM: Сеньор Павел, сколько тебе потребуется времени чтобы добавить третий SSO провайдер?

Павел: нууууууу… полтора спринта как минимум! *** Итак, Сеньор Павел:

Anonymous Quiz

22%

Лентяй и мог бы сделать за час с курсором! 🤬

52%

Трудяга работяга, я бы на 2 спринта планировал… 😑

26%

Сеньор Павел адепт закона Хофштадтера! 👮

3🌭1

27 voters207 views05:14

Иван Закутний про

Наконец то бенчмарки от Рината!

По поводу девы 3.5 – спустя эти пару недель работы на ней в курсоре субъективные ощущения такие – точно не хуже соннета, и работает… быстрее!!! Вообще назад не переключался.

Картина очень интересная.

2🌭1

174 views11:36

Иван Закутний про

Forwarded from LLM под капотом

LLM Benchmarks - прогресс у Google

За месяц накопились новые бенчмарки. Поэтому вот сразу пачка обновлений.

Gemini-2.5-pro-preview - это платная и самая большая модель Google. Она так хороша, как про нее говорят. В моем LLM бенчмарке на продуктовых задачах она побила OpenAI o1 и Anthropic Claude 3.7 Sonnet, заняв второе место. При этом она работала без Structured Outputs (ибо у Google он пока реализован шиворот навыворот)

DeepSeek-V3-0324 - это новая версия DeepSeek Chat (не путать с r1). Они смогли последовательно улучшить качество предыдущей chat версии. Прогресс не стоит на месте. Посмотрим, как у них будет дальше с новыми моделями.

Llama 4 модели - появились на радаре, но пока не обладают выдающимися способностями. Но это типичная картина, которая повторялась со всеми версиями Llama. Meta выпускает мощные foundational модели, которые потом тюнятся под конкретные задачи. Ждем r1 distill.

Gemma-3-27B-it - а вот тут уже очень интересно становится. Эта локальная мультимодальная модель от Google Deepmind. Это первая модель такого небольшого размера, которая забралась так высоко. Заявляется контекст 128k, поддержка 140 языков и function calling.

Возможно благодаря последнему модель смогла вытянуть достойный результат без поддержки Structured Output. Лучше всего она показала себя в инженерных задачах на работу со сложным кодом.

Ее младшая сестренка - gemma-3-12b-it тоже отличилась и заняла место на уровне лучших моделей в пару раз больше.

Что-то такое интересное Google DeepMind нащупали, что дает им возможность клепать хорошие модели по всем уровням (еще и на TPU). Будем ждать от них новых релизов.

Ваш, @llm_under_hood 🤗

PS: Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые задают последние полтора года. Пожалуйста, прочитайте его, прежде чем оставлять свой первый комментарий.

4🌭2

181 views11:36

Иван Закутний про

Разрыв между ментальными представлениями и реальностью который я рассматривал ранее (тут и здесь) это не только про бытовые когнитивные искажения и бытовые идеи отстающие от реальности (бытовые тут в том числе и "рабочие/проектные"), но и про концепции более научные.

Например плоды теоретической математики остаются больше похожими на очень сложную художественную литературу ровно до тех пор, пока эта математика не начинает применяться для измерений реального мира и влияния на этот мир.

Там где хорошая математика начинает проникать в реальность все становится эффективнее. Чисто интуитивно сравните степень заземленности математики самой по себе, и например математики используемой в физике. Разница очевидна: во втором случае абстрактные концепции непосредственно описывают и предсказывают реальные явления.

Возможно отсутствие хорошего заземления в реальность это одна из причин по которым большую часть математических трудов может быть так сложно изучать – они же вакууме самой математики, а значит сложнее строить ассоциации в мозгах, ибо более высокие математические концепции завязаны на другие более "простые", которые нифига не простые.

Как и с физикой, примерно то же самое происходит с computer science. На первый взгляд кажется, что это какая-то неприкладная теория.

Что может быть практического в изоморфизмах, гомоморфизмах, теории типов или теории категорий? И прочих непривычных для обсуждения в широких кругах концепциях, о которых я периодически пишу? вот и сейчас, например 🙂

Да практически все 💪

Прелесть в том, что часто это та самая хорошая математика, которая проникает в реальность, если с ней немного разобраться.

Потому что computer science в принципе как область почти во всех исследованиях сразу направлена на реальный мир – как бы вчисления оптимизировать? какая мат. модель подойдет лучше? Как бы нам шифрование усилить в целях безопасности?
И так далее.

Чисто в прикладном смысле для программных инженеров ценность изучения этих темок проявляется в виде способности мозгов распознавать интересные отношения между одним куском кода и другим, или между структурами данных и операциями над ними.

Эта "неприкладная теория" трансформируется в совершенно прикладной навык — например, способность отрефакторить говняный API во вполне вменяемый, или создать элегантную абстракцию, которая упрощает сложную систему.

Когда мы понимаем изоморфизмы, мы можем увидеть ~~и зарыдать~~ как преобразовать реляционные "объекты" базы данных в объектные структуры в коде и обратно (ORM'ки).

Когда мы осваиваем теорию типов, мы вдруг становимся способны создавать более надёжные и безопасные программы, в том числе на динамически типизируемых языках 👉

Ставь Бейтмана если тема интересна, но ничего не понятно и надо больше примеров на пальцах.
Ставь Гарольда если готов скинуться админу на лечение.

Please open Telegram to view this post

VIEW IN TELEGRAM

🌭2211

180 viewsedited 06:57

Иван Закутний про

Фраза – "Ты то, что ты ешь" приписывается Гиппократу, и в целом довольно толковая.

Чтобы быть здоровым, надо здорОво кушать (не здОрово!)

В моей нейронной сети схожей всплывает старинный CS принцип GIGO – garbage in, garbage out, который стал крайне актуальным к упоминанию в ML.

Наверное один из самых важных (если не самый) этапов в обучении нейросетей – это подготовка датасета.

Учишь на фигне – выдавать, вероятнее всего, и будет фигню.

***

Каким-то интуитивным макаром в последние годы я пришел к образу жизни в котором фигню практически перестал поглощать.

Смотрим мы вот с женой сериал какой нибудь (иногда-периодически :) а я на 70% внимания в чтении чего нибудь из инженерных рассылок, или избранных каналов в телеге, или моих заметок – вычитываю и "подгружаю" в мозги для дополнительной обработки в фоне.

Ну или на худой и частый конец – все вместе + брейншторм этих идей вместе с какой нибудь thinking нейросетью.

Процесс не очень эффективный, потому что в ухо все равно бубнит условная "фигня" из наушника и отвлекает, поэтому очень важно хоть сколько нибудь ценные мысли / находки сразу фиксировать в заметках/экзокортексе. По этой причине очень удобно с нейросетями - все диалоги сохранены, и самые ценные утром можно извлечь и дорабатывать.

Так вот, говорит она – "не отдыхаешь вообще".

Не знаю что ответить кроме как – "Отдыхаю я обычно когда сплю", и морда кирпичом :)

Я вас, конечно же, не призываю так же жить, лишь хочу донести мысль о том что GIGO – это целиком про нашу жизнь, и далеко не только про I/O жизнеобеспечения :)

Беллетристика, фантастика и прочая литература – это уже лучше чем тикток смотреть, так что тоже не обесцениваю. Научиться чему то новому можно, как минимум – пополнить словарный запас, тут книга книге большая рознь. Тикток же сделает из вас идиота с вероятностью примерно 100%

Просто проверяйте сами – по своим целям.

Если у вас амбиции ВО (^__________^)_Y, а в ваши "пайплайны" на вход заходит во - 🐠, да еще паршивого качества, то надо пересмотреть, иначе случится какая нибудь депрессия или вроде того.

Ну да, а еще этот пост прогрев-напоминалка к методичке по тайм трекингу, которую я обещал на прошлой неделе, но задержал из за простудного заболевания

😷

Очень сложно без метрик понять сколько времени и на какую фигню мы инвестируем на самом деле.

Методичка скоро будет, и надеюсь может быть даже кому то поможет!

---

Для покрепления – LIMO
Оказалось что довольно выские показатели в ризонинге моделей можно достичь датасетом в 100 раз меньше, чем использовался до этого, и конечно же – очистив от ерунды, оставив только hq материалы.

---

морда кирпичом отсюда

Please open Telegram to view this post

VIEW IN TELEGRAM

🌭11

214 viewsedited 11:36

Иван Закутний про

// off top

Text2voice?
Text2image?
Text2Code?
Text2Video?

Это все мы видели.

Как на счет Text2Robot?

https://interestingengineering.com/innovation/robots-from-text-using-ai

По-моему у нас в старости точно роботы-сиделки будут 🪨

Please open Telegram to view this post

VIEW IN TELEGRAM

🌭21

170 views17:01

Иван Закутний про

Не могу не побурчать.

Вычитал в течрадаре (тот что Фаулер раз в пол года выкатывает) про приложуху - AnythingLLM.

Такой RAG комбайн с симпатичным интерфейсом.

Заявлено как no code и easy peezy configurable.
Ну… оно вроде так и есть - можно врубить быстро поиск в сети, накликать свой воркфлоу какой-то, выбрать чем молотить и где хранить эмбеддинги.

В лучших традициях поддерживаются разные форматы, парсинг по ссылке и тд.

Все выглядит очень неплохо, за исключением одного большого НО, да такого, которое делает приложение вообще не юзабельным для тех у кого уже есть своя база заметок.

Тупо нельзя добавить в воркспейс директорию ЦЕЛИКОМ, в смысле рекурсивно.

На скрине ответ от представителя команды разработки на issue тред где все это очень просят.

—

DDD, BDD, моделирование системы и нужд пользователей?

Это ведь самая очевидная фича, самая нужная, практически ключевая для персонального RAG!

Выходит что проект в текущем его состоянии полезен скорее как что-то типа локального NotebookLM, для какого нибудь школьника или студента который только Учится учИться.

// придется походу свой пилить все таки ⚰️

Please open Telegram to view this post

VIEW IN TELEGRAM

3🌭11

202 views08:59

Иван Закутний про

Попробовал вчера дЫп РыСорч от Гугла – на днях выкатили на базе прекрасной Gemini 2.5 pro.

Gemini Advanced подписка – надо.

TLDR – пока, на мое скромное ИМХО, выглядит получше чем дыпрысорч ChatGPT. Источники выбирает «умнее» (меньше откровенного мусора), результат выдает с большей полезной нагрузкой (меньше воды, а та что есть - отдает академической тошнотой и оформлена отдельными блоками которые просто пропустить)

Особенно хорошо, видимо благодаря размеру контекста 2.5 pro, в том же диалоге продолжать уточнять дип ресерч новыми промптами. После пяти итераций оно все еще «помнило» важные уточнения с самого первого запроса.

Точечный kagi поиск + NotebookLM все еще ощущается много лучше.

🌭1

194 views07:56

Иван Закутний про

Совсем короткая заметка про настоящее и будущее, разработки и вообще.

А вообще это я красуюсь своим новым бложиком - сайтиком который доводил до ума насколько мог последние пару дней.

Все что не поддерживает маркдаун как база для блога и мышления письмом идет на фиг – сабстак, телеграф (этот вообще не индексируется поисковиками к тому же).

Новый блог я решил доделать потому что пост-методичка по тайм трекингу был готов еще в субботу, но неожиданно оказался письмом любви на 25 с лишним тысяч знаков.

Очень уж мне не хотелось пихать его в телеграф…

Скоро выложу 🌟

Please open Telegram to view this post

VIEW IN TELEGRAM

Ivan Zakutnii

AI работает пока я моюсь в душе

Короткая заметка о настоящем и будущем.

5🌭1

185 views06:58

Иван Закутний про

P.s.

Большую часть старых постов на Английском я перенес в новый блог (в английскую версию).

Врядли буду переводить на русский, но в будущем пайплайн такой – пост на русском + LLM перевод натянутый промптами на мой стиль письма –> дроп в телегу –> зеркалирование куда вздумается.

Но все самое свежее сразу в этот канал для вас :)

Если нужны переводы старых постов – сделаю, но с вас 10 бейтманов.

44🌭1

193 views07:02

Иван Закутний про

Не кажется ли вам странным что AI стартапы сами плотно не используют AI системы для создания хорошего UX?

Ну например, я вот долблю пятный день в почту ar@openai.com по налогов. Мог бы и с ботом 🙊

Anonymous Poll

61%

Им бы только токены считать 💰

39%

sama дал – sama взял, смирись, смерд 🤴

🌭1

18 voters189 views08:24

Иван Закутний про

Если вам вдруг нечем заняться, то вот вам обещанный лонгрид про продуктивность, трекание времени и собранность.

Раздулось на 32 тыщи знаков 😨

Тык вышло, извиняйте. Тема обширная, и слишком эмоциональная. Меня этот эксперимент сильно вскрыл и дал мощный толчок в повышении работоспособности в целом.

Мало того, я работать то вроде меньше (или больше) не стал, но я наконец начал что-то двигать, вышкреб весь мусор из TODO, в целом перееоценил приоритеты!

Извиняйте, если есть сумбурные места. Критиковать в комментариях.

А если ты вдруг 32к знаков даже за два захода осилить не можешь, ну чтож... Эта статья как раз и в том числе для тебя!

P.S. Про много связанных, но менее раскрытых тем - вроде приоретизации задач, дофаминовой ловушки информационных помоек, и вообще про инженерную продуктивность я обязательно разгоню в будущем.

🍞 - это хлеб.

Please open Telegram to view this post

VIEW IN TELEGRAM

Ivan Zakutnii

Продуктивность через первичные метрики: как наконец-то понять, куда уходит ваше время

Большой разобор о том как вырваться из дофаминовой матрицы и так называемой прокрастинации

32🌭1

232 views16:55

Иван Закутний про

Ну че, Thenkeng?
https://arxiv.org/abs/2504.09858

Что с этим делать, не совсем понятно.
Как пользователь клиентов я не то чтобы Thenkeng моделями часто пользуюсь, как пользователь API... ну как то все подряд

Короче говоря, да – Custom CoT это внатуре SoTA паттерн, и теперь стало еще понятнее почему оно так эффективно выходит.

Сакановский AI-Scientist которого на гитхаб выкинули недавно, reasoning модель (4o) использует только для генерации финальных отчетов.

Уот и думой 🤔

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

Reasoning Models Can Be Effective Without Thinking

Recent LLMs have significantly improved reasoning capabilities, primarily by including an explicit, lengthy Thinking process as part of generation. In this paper, we question whether this explicit...

🌭11

187 viewsedited 05:49

Иван Закутний про

Один из лучших тестов, которые я когда-либо проходил (давным-давно), – это задача в крайне сжатый срок (10-15 минут) прочитать кусок сложной и незнакомой документации X, а после связно о нём порассуждать с испытателем.

Было это давно, тиктоков и трансформеров еще не было.

А актуальность такого испытания не только не утратилась, а кажется, что ещё больше выросла.

Способность быстро прочитать техническую документацию из незнакомой предметной области и хоть сколько-нибудь её понять, в смысле хотя бы как-то уловить основные онтологические элементы, – это уже показатель того, что в неокортексе что-то связное происходит.

Вспомнил я об этом тесте с некоторым содроганием, осознав, насколько часто я натыкаюсь на людей, не способных осилить и прожевать 3-5к знаков.

Господа, мы в дерьме 👁

Please open Telegram to view this post

VIEW IN TELEGRAM

🌭711

163 views18:24

Иван Закутний про

Пост Андрея в твиттере от 24 февраля этого года в переводе Claude 3.7

Агентность > Интеллект

Я интуитивно неправильно понимал это десятилетиями, думаю, из-за повсеместного культурного почитания интеллекта, различных развлечений/медиа, одержимости IQ и т.д. Агентность значительно мощнее и значительно реже встречается. Нанимаете ли вы людей за агентность? Обучаем ли мы агентности? Действуете ли вы так, как если бы у вас была агентность в 10 раз больше?

Объяснение Grok примерно верно:

"Агентность как черта личности относится к способности человека проявлять инициативу, принимать решения и контролировать свои действия и окружение. Речь идет о проактивности, а не реактивности — человек с высокой агентностью не просто позволяет жизни случаться с ним; он формирует её. Представьте это как сочетание самоэффективности, решимости и чувства ответственности за свой путь.

Люди с сильной агентностью обычно ставят цели и уверенно преследуют их, даже перед лицом препятствий. Они из тех, кто говорит: "Я разберусь", а затем действительно делает это. С другой стороны, человек с низкой агентностью может чувствовать себя скорее пассажиром в собственной жизни, ожидая, пока внешние силы — удача, другие люди или обстоятельства — определят, что произойдет дальше.

Это не совсем то же самое, что напористость или амбициозность, хотя может пересекаться. Агентность более тихая, более внутренняя — это вера в то, что вы *можете* действовать, в сочетании с волей доводить дело до конца. Психологи часто связывают это с концепцией локуса контроля: люди с высокой агентностью склоняются к внутреннему локусу, чувствуя, что они управляют своей судьбой, в то время как люди с низкой агентностью могут склоняться к внешнему, видя жизнь как нечто, что происходит *с* ними."

Ваши соображения?
Обратите внимание что интеллект перед агентностью не уничижается, не обсесценивается.

Проактивность без интеллекта это, вполне вероятно, разрушительный идиотизм.

🌭22

161 views04:00

About

Blog

Apps

Platform