Иван Закутний про
196 subscribers
130 photos
3 videos
161 links
Авторский канал про инженерию умных систем.
По всем вопросам: @m0n0x41d
Download Telegram
PM: Сеньор Павел, сколько тебе потребуется времени чтобы добавить третий SSO провайдер?

Павел: нууууууу… полтора спринта как минимум! *** Итак, Сеньор Павел:
Anonymous Quiz
22%
Лентяй и мог бы сделать за час с курсором! 🤬
52%
Трудяга работяга, я бы на 2 спринта планировал… 😑
26%
Сеньор Павел адепт закона Хофштадтера! 👮
3🌭1
Наконец то бенчмарки от Рината!

По поводу девы 3.5 – спустя эти пару недель работы на ней в курсоре субъективные ощущения такие – точно не хуже соннета, и работает… быстрее!!! Вообще назад не переключался.

Картина очень интересная.
2🌭1
LLM Benchmarks - прогресс у Google

За месяц накопились новые бенчмарки. Поэтому вот сразу пачка обновлений.

Gemini-2.5-pro-preview - это платная и самая большая модель Google. Она так хороша, как про нее говорят. В моем LLM бенчмарке на продуктовых задачах она побила OpenAI o1 и Anthropic Claude 3.7 Sonnet, заняв второе место. При этом она работала без Structured Outputs (ибо у Google он пока реализован шиворот навыворот)

DeepSeek-V3-0324 - это новая версия DeepSeek Chat (не путать с r1). Они смогли последовательно улучшить качество предыдущей chat версии. Прогресс не стоит на месте. Посмотрим, как у них будет дальше с новыми моделями.

Llama 4 модели - появились на радаре, но пока не обладают выдающимися способностями. Но это типичная картина, которая повторялась со всеми версиями Llama. Meta выпускает мощные foundational модели, которые потом тюнятся под конкретные задачи. Ждем r1 distill.

Gemma-3-27B-it - а вот тут уже очень интересно становится. Эта локальная мультимодальная модель от Google Deepmind. Это первая модель такого небольшого размера, которая забралась так высоко. Заявляется контекст 128k, поддержка 140 языков и function calling.

Возможно благодаря последнему модель смогла вытянуть достойный результат без поддержки Structured Output. Лучше всего она показала себя в инженерных задачах на работу со сложным кодом.

Ее младшая сестренка - gemma-3-12b-it тоже отличилась и заняла место на уровне лучших моделей в пару раз больше.

Что-то такое интересное Google DeepMind нащупали, что дает им возможность клепать хорошие модели по всем уровням (еще и на TPU). Будем ждать от них новых релизов.

Ваш, @llm_under_hood 🤗


PS: Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые задают последние полтора года. Пожалуйста, прочитайте его, прежде чем оставлять свой первый комментарий.
4🌭2
Разрыв между ментальными представлениями и реальностью который я рассматривал ранее (тут и здесь) это не только про бытовые когнитивные искажения и бытовые идеи отстающие от реальности (бытовые тут в том числе и "рабочие/проектные"), но и про концепции более научные.

Например плоды теоретической математики остаются больше похожими на очень сложную художественную литературу ровно до тех пор, пока эта математика не начинает применяться для измерений реального мира и влияния на этот мир.

Там где хорошая математика начинает проникать в реальность все становится эффективнее. Чисто интуитивно сравните степень заземленности математики самой по себе, и например математики используемой в физике. Разница очевидна: во втором случае абстрактные концепции непосредственно описывают и предсказывают реальные явления.

Возможно отсутствие хорошего заземления в реальность это одна из причин по которым большую часть математических трудов может быть так сложно изучать – они же вакууме самой математики, а значит сложнее строить ассоциации в мозгах, ибо более высокие математические концепции завязаны на другие более "простые", которые нифига не простые.


Как и с физикой, примерно то же самое происходит с computer science. На первый взгляд кажется, что это какая-то неприкладная теория.

Что может быть практического в изоморфизмах, гомоморфизмах, теории типов или теории категорий? И прочих непривычных для обсуждения в широких кругах концепциях, о которых я периодически пишу? вот и сейчас, например 🙂

Да практически все 💪

Прелесть в том, что часто это та самая хорошая математика, которая проникает в реальность, если с ней немного разобраться.

Потому что computer science в принципе как область почти во всех исследованиях сразу направлена на реальный мир – как бы вчисления оптимизировать? какая мат. модель подойдет лучше? Как бы нам шифрование усилить в целях безопасности?
И так далее.


Чисто в прикладном смысле для программных инженеров ценность изучения этих темок проявляется в виде способности мозгов распознавать интересные отношения между одним куском кода и другим, или между структурами данных и операциями над ними.

Эта "неприкладная теория" трансформируется в совершенно прикладной навык — например, способность отрефакторить говняный API во вполне вменяемый, или создать элегантную абстракцию, которая упрощает сложную систему.

Когда мы понимаем изоморфизмы, мы можем увидеть и зарыдать как преобразовать реляционные "объекты" базы данных в объектные структуры в коде и обратно (ORM'ки).

Когда мы осваиваем теорию типов, мы вдруг становимся способны создавать более надёжные и безопасные программы, в том числе на динамически типизируемых языках 👉

Ставь Бейтмана если тема интересна, но ничего не понятно и надо больше примеров на пальцах.
Ставь Гарольда если готов скинуться админу на лечение.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭2211
Фраза – "Ты то, что ты ешь" приписывается Гиппократу, и в целом довольно толковая.

Чтобы быть здоровым, надо здорОво кушать (не здОрово!)

В моей нейронной сети схожей всплывает старинный CS принцип GIGO – garbage in, garbage out, который стал крайне актуальным к упоминанию в ML.

Наверное один из самых важных (если не самый) этапов в обучении нейросетей – это подготовка датасета.

Учишь на фигне – выдавать, вероятнее всего, и будет фигню.

***

Каким-то интуитивным макаром в последние годы я пришел к образу жизни в котором фигню практически перестал поглощать.

Смотрим мы вот с женой сериал какой нибудь (иногда-периодически :) а я на 70% внимания в чтении чего нибудь из инженерных рассылок, или избранных каналов в телеге, или моих заметок – вычитываю и "подгружаю" в мозги для дополнительной обработки в фоне.

Ну или на худой и частый конец – все вместе + брейншторм этих идей вместе с какой нибудь thinking нейросетью.

Процесс не очень эффективный, потому что в ухо все равно бубнит условная "фигня" из наушника и отвлекает, поэтому очень важно хоть сколько нибудь ценные мысли / находки сразу фиксировать в заметках/экзокортексе. По этой причине очень удобно с нейросетями - все диалоги сохранены, и самые ценные утром можно извлечь и дорабатывать.

Так вот, говорит она – "не отдыхаешь вообще".

Не знаю что ответить кроме как – "Отдыхаю я обычно когда сплю", и морда кирпичом :)

Я вас, конечно же, не призываю так же жить, лишь хочу донести мысль о том что GIGO – это целиком про нашу жизнь, и далеко не только про I/O жизнеобеспечения :)

Беллетристика, фантастика и прочая литература – это уже лучше чем тикток смотреть, так что тоже не обесцениваю. Научиться чему то новому можно, как минимум – пополнить словарный запас, тут книга книге большая рознь. Тикток же сделает из вас идиота с вероятностью примерно 100%

Просто проверяйте сами – по своим целям.

Если у вас амбиции ВО (^__________^)_Y, а в ваши "пайплайны" на вход заходит во - 🐠, да еще паршивого качества, то надо пересмотреть, иначе случится какая нибудь депрессия или вроде того.

Ну да, а еще этот пост прогрев-напоминалка к методичке по тайм трекингу, которую я обещал на прошлой неделе, но задержал из за простудного заболевания
😷

Очень сложно без метрик понять сколько времени и на какую фигню мы инвестируем на самом деле.

Методичка скоро будет, и надеюсь может быть даже кому то поможет!

---

Для покрепления – LIMO
Оказалось что довольно выские показатели в ризонинге моделей можно достичь датасетом в 100 раз меньше, чем использовался до этого, и конечно же – очистив от ерунды, оставив только hq материалы.

---

морда кирпичом отсюда
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭11
// off top

Text2voice?
Text2image?
Text2Code?
Text2Video?

Это все мы видели.

Как на счет Text2Robot?

https://interestingengineering.com/innovation/robots-from-text-using-ai

По-моему у нас в старости точно роботы-сиделки будут 🪨
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭21
Не могу не побурчать.

Вычитал в течрадаре (тот что Фаулер раз в пол года выкатывает) про приложуху - AnythingLLM.

Такой RAG комбайн с симпатичным интерфейсом.

Заявлено как no code и easy peezy configurable.
Ну… оно вроде так и есть - можно врубить быстро поиск в сети, накликать свой воркфлоу какой-то, выбрать чем молотить и где хранить эмбеддинги.

В лучших традициях поддерживаются разные форматы, парсинг по ссылке и тд.

Все выглядит очень неплохо, за исключением одного большого НО, да такого, которое делает приложение вообще не юзабельным для тех у кого уже есть своя база заметок.

Тупо нельзя добавить в воркспейс директорию ЦЕЛИКОМ, в смысле рекурсивно.

На скрине ответ от представителя команды разработки на issue тред где все это очень просят.



DDD, BDD, моделирование системы и нужд пользователей?

Это ведь самая очевидная фича, самая нужная, практически ключевая для персонального RAG!

Выходит что проект в текущем его состоянии полезен скорее как что-то типа локального NotebookLM, для какого нибудь школьника или студента который только Учится учИться.

// придется походу свой пилить все таки ⚰️
Please open Telegram to view this post
VIEW IN TELEGRAM
3🌭11
Попробовал вчера дЫп РыСорч от Гугла – на днях выкатили на базе прекрасной Gemini 2.5 pro.

Gemini Advanced подписка – надо.

TLDR – пока, на мое скромное ИМХО, выглядит получше чем дыпрысорч ChatGPT. Источники выбирает «умнее» (меньше откровенного мусора), результат выдает с большей полезной нагрузкой (меньше воды, а та что есть - отдает академической тошнотой и оформлена отдельными блоками которые просто пропустить)

Особенно хорошо, видимо благодаря размеру контекста 2.5 pro, в том же диалоге продолжать уточнять дип ресерч новыми промптами. После пяти итераций оно все еще «помнило» важные уточнения с самого первого запроса.

Точечный kagi поиск + NotebookLM все еще ощущается много лучше.
🌭1
Совсем короткая заметка про настоящее и будущее, разработки и вообще.

А вообще это я красуюсь своим новым бложиком - сайтиком который доводил до ума насколько мог последние пару дней.

Все что не поддерживает маркдаун как база для блога и мышления письмом идет на фиг – сабстак, телеграф (этот вообще не индексируется поисковиками к тому же).

Новый блог я решил доделать потому что пост-методичка по тайм трекингу был готов еще в субботу, но неожиданно оказался письмом любви на 25 с лишним тысяч знаков.

Очень уж мне не хотелось пихать его в телеграф…

Скоро выложу 🌟
Please open Telegram to view this post
VIEW IN TELEGRAM
5🌭1
Иван Закутний про
Совсем короткая заметка про настоящее и будущее, разработки и вообще. А вообще это я красуюсь своим новым бложиком - сайтиком который доводил до ума насколько мог последние пару дней. Все что не поддерживает маркдаун как база для блога и мышления письмом…
P.s.

Большую часть старых постов на Английском я перенес в новый блог (в английскую версию).

Врядли буду переводить на русский, но в будущем пайплайн такой – пост на русском + LLM перевод натянутый промптами на мой стиль письма –> дроп в телегу –> зеркалирование куда вздумается.

Но все самое свежее сразу в этот канал для вас :)

Если нужны переводы старых постов – сделаю, но с вас 10 бейтманов.
44🌭1
Не кажется ли вам странным что AI стартапы сами плотно не используют AI системы для создания хорошего UX?

Ну например, я вот долблю пятный день в почту ar@openai.com по налогов. Мог бы и с ботом 🙊
Anonymous Poll
61%
Им бы только токены считать 💰
39%
sama дал – sama взял, смирись, смерд 🤴
🌭1
Если вам вдруг нечем заняться, то вот вам обещанный лонгрид про продуктивность, трекание времени и собранность.

Раздулось на 32 тыщи знаков 😨

Тык вышло, извиняйте. Тема обширная, и слишком эмоциональная. Меня этот эксперимент сильно вскрыл и дал мощный толчок в повышении работоспособности в целом.

Мало того, я работать то вроде меньше (или больше) не стал, но я наконец начал что-то двигать, вышкреб весь мусор из TODO, в целом перееоценил приоритеты!

Извиняйте, если есть сумбурные места. Критиковать в комментариях.

А если ты вдруг 32к знаков даже за два захода осилить не можешь, ну чтож... Эта статья как раз и в том числе для тебя!

P.S. Про много связанных, но менее раскрытых тем - вроде приоретизации задач, дофаминовой ловушки информационных помоек, и вообще про инженерную продуктивность я обязательно разгоню в будущем.

🍞 - это хлеб.
Please open Telegram to view this post
VIEW IN TELEGRAM
32🌭1
Ну че, Thenkeng?
https://arxiv.org/abs/2504.09858

Что с этим делать, не совсем понятно.
Как пользователь клиентов я не то чтобы Thenkeng моделями часто пользуюсь, как пользователь API... ну как то все подряд

Короче говоря, да – Custom CoT это внатуре SoTA паттерн, и теперь стало еще понятнее почему оно так эффективно выходит.

Сакановский AI-Scientist которого на гитхаб выкинули недавно, reasoning модель (4o) использует только для генерации финальных отчетов.

Уот и думой 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭11
Один из лучших тестов, которые я когда-либо проходил (давным-давно), – это задача в крайне сжатый срок (10-15 минут) прочитать кусок сложной и незнакомой документации X, а после связно о нём порассуждать с испытателем.

Было это давно, тиктоков и трансформеров еще не было.

А актуальность такого испытания не только не утратилась, а кажется, что ещё больше выросла.

Способность быстро прочитать техническую документацию из незнакомой предметной области и хоть сколько-нибудь её понять, в смысле хотя бы как-то уловить основные онтологические элементы, – это уже показатель того, что в неокортексе что-то связное происходит.

Вспомнил я об этом тесте с некоторым содроганием, осознав, насколько часто я натыкаюсь на людей, не способных осилить и прожевать 3-5к знаков.

Господа, мы в дерьме 👁
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭711
Пост Андрея в твиттере от 24 февраля этого года в переводе Claude 3.7

Агентность > Интеллект

Я интуитивно неправильно понимал это десятилетиями, думаю, из-за повсеместного культурного почитания интеллекта, различных развлечений/медиа, одержимости IQ и т.д. Агентность значительно мощнее и значительно реже встречается. Нанимаете ли вы людей за агентность? Обучаем ли мы агентности? Действуете ли вы так, как если бы у вас была агентность в 10 раз больше?

Объяснение Grok примерно верно:

"Агентность как черта личности относится к способности человека проявлять инициативу, принимать решения и контролировать свои действия и окружение. Речь идет о проактивности, а не реактивности — человек с высокой агентностью не просто позволяет жизни случаться с ним; он формирует её. Представьте это как сочетание самоэффективности, решимости и чувства ответственности за свой путь.

Люди с сильной агентностью обычно ставят цели и уверенно преследуют их, даже перед лицом препятствий. Они из тех, кто говорит: "Я разберусь", а затем действительно делает это. С другой стороны, человек с низкой агентностью может чувствовать себя скорее пассажиром в собственной жизни, ожидая, пока внешние силы — удача, другие люди или обстоятельства — определят, что произойдет дальше.

Это не совсем то же самое, что напористость или амбициозность, хотя может пересекаться. Агентность более тихая, более внутренняя — это вера в то, что вы *можете* действовать, в сочетании с волей доводить дело до конца. Психологи часто связывают это с концепцией локуса контроля: люди с высокой агентностью склоняются к внутреннему локусу, чувствуя, что они управляют своей судьбой, в то время как люди с низкой агентностью могут склоняться к внешнему, видя жизнь как нечто, что происходит *с* ними."​​​​​​​​​​​​​​​​

Ваши соображения?
Обратите внимание что интеллект перед агентностью не уничижается, не обсесценивается.

Проактивность без интеллекта это, вполне вероятно, разрушительный идиотизм.
🌭22
Наткнулся на SQ3R (deep research нашел 🤤).

В общем и целом это такая техника для более глубокого изучения через чтение.

До этого я принял только одно, и самое главное правило — прочитал – запиши своими словами хоть что-то. Не можешь? Читай снова.

SQ3R задает ритм для того чтобы читать внимательнее и глубже.

Работает так:

S - Survey: быстро сканируем заголовки, подзаголовки, цитаты и все выделения которые автор применил. Если текст – простыня вообще без форматирования, но представляет ценность для изучения, то просто наискосок бегло читаем.

Q - Question:
На базе сканирования надо сформулировать хотя бы 2-3 вопроса, на которые мозги автоматически начнут искать ответ при чтении. Если вопросы вообще не формируются – сканирование не получилось.


R - Read: читаем текст, внимательно и в поиске ответов на вопросы. Тут еще можно накинуть что читать надо осознанно и проактивно, не ломится напролом, если встречаются непонятные слова или аббривеатуры, а останавливаться и отдельно из гуглить / прояснять с нейросетью.

R - Recite:
Закрываем книгу / материал и пересказываем своими словами. Тут источники описывающие метод не всегда делают явный акцент на том, что надо записывать эти пересказы а не просто проговаривать - и это плохо. Надо записывать еще как! Я баловался с voice2text - это удобно, когда совсем нет возможности записать, но мысль видится ценной и надо ее зафиксировать. Только вот на языке почти всегда как то корявее.
Говорим-думаем быстро, пишем-думаем почти всегда медленнее и глубже. Мышление письмом остается самым важным в изучении, как не крути.
Проговаривать вслух можно, например, рассуждая над куском в момент текста. Но почти всегда эти рассуждения такие интересные что бежишь их все равно записывать 🏃‍♂️


R - Review:
Смотрим на свои заметки и проверяем на все ли вопросы поставленные до чтения ответили? Здесь ключевое – ответить на вопросы только на базе записанного / запомненного.

***

Самая главная хитрость тут - это вопросы.
Составления вопросов это контракт который не оставляет тебе выбора кроме как читать внимательно, и обязательно помыслить о прочитанном и в момент чтения, и после него.

Даже с кое как начинающейся формироваться привычкой мыслить письмом, частенько можно соскачить вконце чтения и ничего не записать – итааааак запомнил. Ага 💀
Please open Telegram to view this post
VIEW IN TELEGRAM
6🌭2
OpenAI добавили в комплишенс и респонсес апихи параметр - flex_processing

Такие запросы будут идти на какие то дремучие подвальные цоды, таймауты могут достигать минут, прямым текстом на 10 намекают. И вообще, говорят, ошибки 408 тоже будьте готовы обрабатывать.

Уот такой вот SLA
🤷‍♂️🤷‍♂️🤷‍♂️

Зато запросы будут биллиться по цене Batched API (вроде как 50% скидка)

Ну…. Не знаю. Я серьезно настроен больше начинать юзать deepseek для своих автоматизашек 🐋
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭3
Особо заторможенные деды только сейчас начали отдуплять, что происходит, да и то не полностью.

У них всё ещё "AI программиста не заменит", но выметает только посредственных.

Ну, с подключением, че.

Выметать посредственных оно начало прошлой осенью, сейчас ситуация такая, что как бы саркастично Альтман ни пошутил насчёт нашей позиции относительно сингулярности – белый пушистый зверёк уже тут, и это не Фенек.

У дедов всё ещё какой-то инфантильный чилл, даже если опомнились и говорят, что: "Ой, а всё-таки надо шевелиться, надо бежать" – понимания, куда бежать, – ноль.

Продолжают рекомендовать какую-то посредственную прикладуху, фреймворки и прочее крудошлепание.

Деды тут – это нарицательное без эйджизма, всякие разрабы / разрабы-блоггеры, среднего возраста которые большей частью карьеры застали мир ДО.

С другой стороны подпирают зуммеры, которые всё правильно делают – в ногу со временем осваивают навык по извлечению максимальной выгоды от AI.

Как у них дела с мозгами будут – вообще непредсказуемо.
работая с AI, либо быстро тупеешь, либо быстро умнеешь, но в любом случае – работать с ним умеешь!

Деды же…

При том есть деды не в нарицательном, а совершенно уважительно буквальном смысле, которые со временем в ногу идут ещё лучше и шире шагом, чем зуммеры, ибо мыслители и рационалисты, сложились такими задолго ДО.

Их дедами то назвать язык не повернётся.

Ищите таких почтенных людей, слушайте их и учитесь думать у них!

А у зуммеров учитесь вайбкодить и флексить.

Это план-капкан 💯​​​​​​​​​​​​​​​​
42🌭11
Это очень интересно, но почему то в телеге об этом вообще не пишет никто?

Оппа, сейчас рекурсивно получим ответ!

Вы помните этот жидкий дрифт меты с четвертой ламмой? На лмарена заняла второе место, во всех остальных бенчах - дно днище 😩

Сейчас стало все ясно. На арену мета катнула подтюненную версию «отвечать так как надо», не правду и не точно, а как надо – вычурную и практически лизоблюдскую ахинею

Можете посмотреть тут

Широкий потребитель не любит правду.

Правда душная — «ой мля да не грузи меня, я еще не обедал» 🌟

Записывайте – идиотизм на тралалейла тралала не закончится 🐶
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭21