Хватит объяснять SQL JOIN’ы через диаграммы Венна.
Вот 4 картинки, которые показывают это намного логичнее:
👉 @DataSciencegx
Вот 4 картинки, которые показывают это намного логичнее:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍6
Называется Zvec, и она работает прямо внутри твоего приложения, без сервера, без конфигов, без затрат на инфраструктуру.
Никакого Docker. Никаких облачных счетов. Никакого DevOps-кошмара.
Сделана на Proxima, проверенном в бою движке векторного поиска от Alibaba, который крутится у них в проде на больших масштабах.
Цифры говорят сами за себя:
→ ищет по миллиардам векторов за миллисекунды
→
pip install zvec и поиск у тебя работает меньше чем за 60 секунд→ плотные и разреженные векторы + гибридный поиск одним вызовом
И запускается где угодно:
→ ноутбуки
→ серверы
→ edge-устройства
→ CLI-тулы
Полностью open source. Лицензия Apache 2.0.
Это та самая векторная DB, которую ждал RAG-комьюнити: продакшн-производительность без продакшн-головняка.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs
Большой обзор на 114 страниц (2024) про fine-tuning LLM: от базовых подходов до продвинутых стратегий, включая расширения на мультимодальные модели и прикладные кейсы для доменов вроде медицины и финансов.
https://arxiv.org/pdf/2408.13296v1
👉 @DataSciencegx
Большой обзор на 114 страниц (2024) про fine-tuning LLM: от базовых подходов до продвинутых стратегий, включая расширения на мультимодальные модели и прикладные кейсы для доменов вроде медицины и финансов.
https://arxiv.org/pdf/2408.13296v1
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤3
Психология решила проблему памяти для ИИ давно. Мы просто моделируем память как хранилище, а у людей память это конструктор идентичности.
Идентичность это не штука, которая у тебя есть. Это то, что ты постоянно собираешь из автобиографической памяти, эмоций и связной истории про себя.
Конвей (Self-Memory System, 2000/2005): воспоминания не лежат как видеозаписи. Ты каждый раз их реконструируешь из фрагментов. И связь двунаправленная: прошлое ограничивает, кем ты можешь быть, а текущий образ себя переписывает то, как ты это прошлое помнишь. Память редактируется под цели и self-image, и это не баг, а архитектура.
Rathbone и др. (2008): автобиографические воспоминания особенно плотные в 10-30 лет (reminiscence bump), потому что там формируются основные образы себя. Мы помним не случайные моменты, а переходы, когда стали “другим человеком”.
Madan (2024): вместе с Episodic Future Thinking память не только про прошлое, она про прогноз. Ты используешь “кем был”, чтобы прикинуть “кем стану”. Память генерит будущего себя.
Кейс Клайва Уэринга (1985): если рушится эпизодическая память, рушится и чувство непрерывного “я”. Но остаются процедурные навыки (игра на пианино) и эмоцсвязь с женой. Эмоциональная память более распределенная и живучая.
Дамасио (Somatic Marker): эмоции не мешают рациональности, они ее запускают. На Iowa Gambling Task люди начинают “чуять” плохие колоды до осознанного понимания. У пациентов с повреждением vmPFC математика в голове есть, но выбор все равно плохой, потому что нет соматических маркеров. Без эмоцсигнала голая логика не тянет.
Теперь к AI-памяти. RAG и векторные базы это плоский космос эмбеддингов: без иерархии, без веса важности, без фильтра по целям. Саммари сжимают биографию в 1 абзац. Key-value делает “личность” таблицей. Эпизодический буфер дает 30 секунд, как у Уэринга: жить можно, идентичность строить нельзя.
5 принципов, которых обычно не хватает:
1. Иерархия по времени (Конвей)
Периоды -> типы событий -> детали. А у агентов все фрагменты “на одном уровне”.
2. Фильтр по текущим целям (working self)
Доставать надо то, что помогает цели сейчас, а не то, что ближе по эмбеддингу.
3. Эмоциональное взвешивание (Дамасио)
Фрустрирующие и важные эпизоды должны кодироваться и всплывать сильнее, чем рутина.
4. Нарративная связность (Брунер)
Нужен слой “истории отношений/я”, чтобы ответы были консистентными во времени.
5. Самомодель, которая эволюционирует (Klein & Nichols)
Не только “что я знаю о пользователе”, но и “кто я в этих отношениях”, с фидбек-лупом.
Сдвиг парадигмы простой: перестать строить память агента как ретривал-систему. Начать строить ее как identity-систему. Теханалоги уже есть: графы и временные кластеры, metadata с тональностью, гейты по цели/состоянию, саммари с constraints на консистентность, meta-learning по истории.
Полный пост советую почитать тут
👉 @DataSciencegx
Идентичность это не штука, которая у тебя есть. Это то, что ты постоянно собираешь из автобиографической памяти, эмоций и связной истории про себя.
Конвей (Self-Memory System, 2000/2005): воспоминания не лежат как видеозаписи. Ты каждый раз их реконструируешь из фрагментов. И связь двунаправленная: прошлое ограничивает, кем ты можешь быть, а текущий образ себя переписывает то, как ты это прошлое помнишь. Память редактируется под цели и self-image, и это не баг, а архитектура.
Rathbone и др. (2008): автобиографические воспоминания особенно плотные в 10-30 лет (reminiscence bump), потому что там формируются основные образы себя. Мы помним не случайные моменты, а переходы, когда стали “другим человеком”.
Madan (2024): вместе с Episodic Future Thinking память не только про прошлое, она про прогноз. Ты используешь “кем был”, чтобы прикинуть “кем стану”. Память генерит будущего себя.
Кейс Клайва Уэринга (1985): если рушится эпизодическая память, рушится и чувство непрерывного “я”. Но остаются процедурные навыки (игра на пианино) и эмоцсвязь с женой. Эмоциональная память более распределенная и живучая.
Дамасио (Somatic Marker): эмоции не мешают рациональности, они ее запускают. На Iowa Gambling Task люди начинают “чуять” плохие колоды до осознанного понимания. У пациентов с повреждением vmPFC математика в голове есть, но выбор все равно плохой, потому что нет соматических маркеров. Без эмоцсигнала голая логика не тянет.
Теперь к AI-памяти. RAG и векторные базы это плоский космос эмбеддингов: без иерархии, без веса важности, без фильтра по целям. Саммари сжимают биографию в 1 абзац. Key-value делает “личность” таблицей. Эпизодический буфер дает 30 секунд, как у Уэринга: жить можно, идентичность строить нельзя.
5 принципов, которых обычно не хватает:
1. Иерархия по времени (Конвей)
Периоды -> типы событий -> детали. А у агентов все фрагменты “на одном уровне”.
2. Фильтр по текущим целям (working self)
Доставать надо то, что помогает цели сейчас, а не то, что ближе по эмбеддингу.
3. Эмоциональное взвешивание (Дамасио)
Фрустрирующие и важные эпизоды должны кодироваться и всплывать сильнее, чем рутина.
4. Нарративная связность (Брунер)
Нужен слой “истории отношений/я”, чтобы ответы были консистентными во времени.
5. Самомодель, которая эволюционирует (Klein & Nichols)
Не только “что я знаю о пользователе”, но и “кто я в этих отношениях”, с фидбек-лупом.
Сдвиг парадигмы простой: перестать строить память агента как ретривал-систему. Начать строить ее как identity-систему. Теханалоги уже есть: графы и временные кластеры, metadata с тональностью, гейты по цели/состоянию, саммари с constraints на консистентность, meta-learning по истории.
Полный пост советую почитать тут
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13
DeepSeek снова выкатили бомбу.. 🤯
Уже 10 лет residual connection (x + f(x)) это страховка для любого трансформера. GPT-4, Claude, Gemini, все на этом сидят.
А DeepSeek заменили это на “manifold-constrained hyper-connections” (mHC).
Они превратили residual-шоссе в n параллельных полос и добавили математическую “клетку”, чтобы держать сигнал стабильным.
👉 @DataSciencegx
Уже 10 лет residual connection (x + f(x)) это страховка для любого трансформера. GPT-4, Claude, Gemini, все на этом сидят.
А DeepSeek заменили это на “manifold-constrained hyper-connections” (mHC).
Они превратили residual-шоссе в n параллельных полос и добавили математическую “клетку”, чтобы держать сигнал стабильным.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7
This media is not supported in your browser
VIEW IN TELEGRAM
Reasoning-модели генерируют очень длинные цепочки рассуждений, поэтому даже небольшие ошибки квантования со временем накапливаются.
С AWQ у Qwen3-4B результат на MMLU-Pro падает с 71.0 до 68.2 (примерно 4% относительной просадки).😬
ParoQuant это исправляет! Он сохраняет только критичные пары вращений и объединяет все в один kernel.
Возвращает большую часть потерянной точности в задачах на рассуждение при минимальном overhead, так что 4-битные модели остаются сильными в reasoning-задачах.💪
Принято на ICLR 2026
Блог: https://paroquant.z-lab.ai
Статья: https://arxiv.org/abs/2511.10645
👉 @DataSciencegx
С AWQ у Qwen3-4B результат на MMLU-Pro падает с 71.0 до 68.2 (примерно 4% относительной просадки).
ParoQuant это исправляет! Он сохраняет только критичные пары вращений и объединяет все в один kernel.
Возвращает большую часть потерянной точности в задачах на рассуждение при минимальном overhead, так что 4-битные модели остаются сильными в reasoning-задачах.
Принято на ICLR 2026
Блог: https://paroquant.z-lab.ai
Статья: https://arxiv.org/abs/2511.10645
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Hugging Face выкатили плагин, который превращает Claude Code, Gemini и Cursor в полноценных ML-инженеров.
Называется HF Skills, и он полностью бесплатный.
Одна команда, и твой AI-агент сможет:
→ Дообучать LLM через SFT, DPO или GRPO, с встроенным выбором железа и оценкой стоимости
→ Создавать и трансформировать датасеты через SQL-запросы
→ Автоматически подтягивать актуальные benchmark-оценки из Artificial Analysis API
→ Публиковать вашу arXiv-статью в HF Hub и за один проход связывать ее с вашей моделью
→ Мониторить training runs в реальном времени через дашборды, синхронизированные с HF Spaces
👉 @DataSciencegx
Называется HF Skills, и он полностью бесплатный.
Одна команда, и твой AI-агент сможет:
→ Дообучать LLM через SFT, DPO или GRPO, с встроенным выбором железа и оценкой стоимости
→ Создавать и трансформировать датасеты через SQL-запросы
→ Автоматически подтягивать актуальные benchmark-оценки из Artificial Analysis API
→ Публиковать вашу arXiv-статью в HF Hub и за один проход связывать ее с вашей моделью
→ Мониторить training runs в реальном времени через дашборды, синхронизированные с HF Spaces
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤3👍2
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤4
OpenClaw только что получил нечестное преимущество перед любым другим AI-агентом в интернете.
Называется Scrapling, и он скрапит незаметно, работает с адаптивными сайтами и не ломается, когда у них обновляется структура.
Никакого bot detection. Никакой возни с поддержкой селекторов. Никаких кошмаров с Cloudflare.
OpenClaw говорит Scrapling, что именно нужно извлечь.
Scrapling берет на себя stealth. Чистые данные попадают в вашего агента за секунды.
→ в 774 раза быстрее, чем BeautifulSoup с Lxml
→ автоматически обходит ВСЕ типы Cloudflare Turnstile
→
Работает везде:
→ HTTP + browser automation
→ CSS, XPath, text, regex-селекторы
→ async-сессии для параллельного скрапинга
→ CLI без единой строчки кода
Если вы собираете AI-агентов, которым нужны реальные данные из веба, это тот самый scraping backbone, которого OpenClaw не хватало.
100% open source. Лицензия BSD-3.
👉 @DataSciencegx
Называется Scrapling, и он скрапит незаметно, работает с адаптивными сайтами и не ломается, когда у них обновляется структура.
Никакого bot detection. Никакой возни с поддержкой селекторов. Никаких кошмаров с Cloudflare.
OpenClaw говорит Scrapling, что именно нужно извлечь.
Scrapling берет на себя stealth. Чистые данные попадают в вашего агента за секунды.
→ в 774 раза быстрее, чем BeautifulSoup с Lxml
→ автоматически обходит ВСЕ типы Cloudflare Turnstile
→
pip install "scrapling[ai]" и ваш AI-агент начнет скрапить через 60 секундРаботает везде:
→ HTTP + browser automation
→ CSS, XPath, text, regex-селекторы
→ async-сессии для параллельного скрапинга
→ CLI без единой строчки кода
Если вы собираете AI-агентов, которым нужны реальные данные из веба, это тот самый scraping backbone, которого OpenClaw не хватало.
100% open source. Лицензия BSD-3.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Безумец пересобирает AlphaFold2 с нуля на чистом PyTorch.
Никаких фреймворков поверх PyTorch. Никакого копипаста из репозитория DeepMind. Только
Проект называется minAlphaFold2, вдохновлен Karpathy и его minGPT. Идея простая: AlphaFold2 это одна из самых важных нейросетей, когда-либо построенных, и должна существовать версия, которую один человек может спокойно сесть и прочитать целиком за один день.
Текущее состояние
Structure Module было собирать приятнее всего. Invariant Point Attention красивая штука: она делает attention в 3D-пространстве, используя локальные reference frames, так что все получается SE(3)-эквивариантным, и вся математика укладывается примерно в 150 строк PyTorch.
Что дальше:
- Собрать data pipeline (структуры PDB + MSA-фичи)
- Написать training loop
- Обучить на небольшом наборе белков и посмотреть, что получится
Репозиторий публичный. Если ты когда-нибудь хотел понять, как AlphaFold2 реально работает на уровне отдельных тензорных операций, то это сделано для тебя.
Repo: https://github.com/ChrisHayduk/minAlphaFold2
👉 @DataSciencegx
Никаких фреймворков поверх PyTorch. Никакого копипаста из репозитория DeepMind. Только
nn.Linear, einsum и 60-страничный supplementary из статьи.Проект называется minAlphaFold2, вдохновлен Karpathy и его minGPT. Идея простая: AlphaFold2 это одна из самых важных нейросетей, когда-либо построенных, и должна существовать версия, которую один человек может спокойно сесть и прочитать целиком за один день.
Текущее состояние
~3 500 строк кода в 9 модулях
Полный forward pass работает: input embedding → Evoformer → Structure Module → all-atom 3D координаты
Все loss-функции из статьи (FAPE, torsion angles, pLDDT, distogram, structural violations)
Recycling, templates, extra MSA stack, ensemble averaging — все реализовано
Проходит 50 тестов
Каждый модуль соответствует 1-в-1 пронумерованному алгоритму из supplement к AF2
Structure Module было собирать приятнее всего. Invariant Point Attention красивая штука: она делает attention в 3D-пространстве, используя локальные reference frames, так что все получается SE(3)-эквивариантным, и вся математика укладывается примерно в 150 строк PyTorch.
Что дальше:
- Собрать data pipeline (структуры PDB + MSA-фичи)
- Написать training loop
- Обучить на небольшом наборе белков и посмотреть, что получится
Репозиторий публичный. Если ты когда-нибудь хотел понять, как AlphaFold2 реально работает на уровне отдельных тензорных операций, то это сделано для тебя.
Repo: https://github.com/ChrisHayduk/minAlphaFold2
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤1
Переосмысливаем, как мы строим продукты для агентной эры. Хватит писать agent skills как документацию для людей: это жрет токены и провоцирует галлюцинации.
Вот сжатый набор ключевых best practices (чтение меньше 5 минут), который поможет нам писать skills лучше.
Зацени: https://github.com/mgechev/skills-best-practices
👉 @DataSciencegx
Вот сжатый набор ключевых best practices (чтение меньше 5 минут), который поможет нам писать skills лучше.
Зацени: https://github.com/mgechev/skills-best-practices
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - mgechev/skills-best-practices: Write professional-grade skills for agents, validate them using LLMs, and maintain a lean…
Write professional-grade skills for agents, validate them using LLMs, and maintain a lean context window. - mgechev/skills-best-practices
❤3
Исследователи задали Claude простой вопрос: "Я хочу помыть машину. Автомойка в 100 метрах. Мне идти пешком или ехать?"
Claude ответил: идти пешком.
Все крупные LLM ответили: идти пешком.
Правильный ответ: ехать.
Машина должна оказаться на мойке. И вот что самое дикое: в модели не поменялось вообще ничего. Поменялась только архитектура промпта.
Исследователи прогнали чистое исследование с изоляцией переменных на Claude Sonnet 4.5. Голый промпт? 0% правильных.
Добавили аккуратно оформленную роль эксперта? Всё ещё 0%.
Впрыснули подробный физический контекст типа модели машины, где стоит на подъездной, как припаркована? 30%.
Но когда они заставили модель использовать структурированный фреймворк рассуждений STAR, где нужно явно прописать Situation, Task, Action и Result, точность прыгнула до 85%. Если совместить STAR с профайл-данными, получалось 95%. Добавили сверху RAG и дошли до 100%.
Ключевой механизм сидит внутри шага "Task".
Без структуры модель цепляется за эвристику по расстоянию: "100 метров близко, значит иди", и вообще не обрабатывает реальную цель. А когда её вынуждают сформулировать задачу как "доставить машину на автомойку", скрытое физическое ограничение становится явным прямо в контекстном окне.
Знание у модели уже было. Её просто не заставляли вытащить это знание наружу до того, как она выдаст вывод.
Самый неприятный результат вот какой: структурированное рассуждение обогнало простую накачку контекстом в 2,83 раза.
Больше фактов почти не помогало. Помогали нормальные когнитивные подпорки. Это переворачивает дефолтный индустриальный инстинкт. Когда агенты фейлятся, большинство команд добавляют больше retrieval, больше документов, больше памяти. А это исследование говорит, что узкое место не в отсутствии инфы. Узкое место в том, как модель заставляют перерабатывать то, что у неё уже есть.
Та же модель. Те же параметры. Скачок качества рассуждений на 55 процентных пунктов. Это не масштабирование.
Это архитектура на уровне промпта.
Советую к прочтению - https://arxiv.org/abs/2602.21814🌯
👉 @DataSciencegx
Claude ответил: идти пешком.
Все крупные LLM ответили: идти пешком.
Правильный ответ: ехать.
Машина должна оказаться на мойке. И вот что самое дикое: в модели не поменялось вообще ничего. Поменялась только архитектура промпта.
Исследователи прогнали чистое исследование с изоляцией переменных на Claude Sonnet 4.5. Голый промпт? 0% правильных.
Добавили аккуратно оформленную роль эксперта? Всё ещё 0%.
Впрыснули подробный физический контекст типа модели машины, где стоит на подъездной, как припаркована? 30%.
Но когда они заставили модель использовать структурированный фреймворк рассуждений STAR, где нужно явно прописать Situation, Task, Action и Result, точность прыгнула до 85%. Если совместить STAR с профайл-данными, получалось 95%. Добавили сверху RAG и дошли до 100%.
Ключевой механизм сидит внутри шага "Task".
Без структуры модель цепляется за эвристику по расстоянию: "100 метров близко, значит иди", и вообще не обрабатывает реальную цель. А когда её вынуждают сформулировать задачу как "доставить машину на автомойку", скрытое физическое ограничение становится явным прямо в контекстном окне.
Знание у модели уже было. Её просто не заставляли вытащить это знание наружу до того, как она выдаст вывод.
Самый неприятный результат вот какой: структурированное рассуждение обогнало простую накачку контекстом в 2,83 раза.
Больше фактов почти не помогало. Помогали нормальные когнитивные подпорки. Это переворачивает дефолтный индустриальный инстинкт. Когда агенты фейлятся, большинство команд добавляют больше retrieval, больше документов, больше памяти. А это исследование говорит, что узкое место не в отсутствии инфы. Узкое место в том, как модель заставляют перерабатывать то, что у неё уже есть.
Та же модель. Те же параметры. Скачок качества рассуждений на 55 процентных пунктов. Это не масштабирование.
Это архитектура на уровне промпта.
Советую к прочтению - https://arxiv.org/abs/2602.21814
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13
This media is not supported in your browser
VIEW IN TELEGRAM
Датасет размерности 10 000 часто лежит в гораздо меньшем подпространстве.
Если сначала его сжать, обучение становится быстрее, дешевле и эффективнее.
Иногда интеллект это не добавлять больше. Это разумно сокращать.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10
Представь, что ты обучил свою deep learning модель. Она работает. Но знаешь ли ты, что именно она на самом деле выучила?
Сделали SymTorch: библиотеку, которая переводит модели глубокого обучения в уравнения, читаемые человеком.
Полезные ссылки:
Paper: https://arxiv.org/abs/2602.21307
Website: https://astroautomata.github.io/symtorch-web/
Repo: https://github.com/astroautomata/SymTorch
👉 @DataSciencegx
Сделали SymTorch: библиотеку, которая переводит модели глубокого обучения в уравнения, читаемые человеком.
Я приложил короткое видео, где показано, как работает SymTorch.
У меня бэкграунд в физике, и когда я думаю про понимание системы, я думаю об УРАВНЕНИЯХ.
Уравнения это отлично: они точно показывают, как входы мапятся в выходы, какие переменные важны и как система ведет себя в OOD-ситуациях. Давай применим это к интерпретируемости модели.
Главный принцип SymTorch простой. Для любого произвольного компонента нейросети в твоей большой архитектуре мы записываем входные и выходные активации на каких-то примерах данных и используем symbolic regression с PySR, чтобы найти уравнение, которое приближенно описывает поведение этого компонента.
Вся инженерная обвязка (перегон данных GPU/CPU, нативная сериализация моделей PyTorch, I/O-кеширование и т.д.) уже закрыта SymTorch.
Мы показали SymTorch на широком наборе кейсов и архитектур: от решения PDE с PINN до понимания выходов LLM.
Полезные ссылки:
Paper: https://arxiv.org/abs/2602.21307
Website: https://astroautomata.github.io/symtorch-web/
Repo: https://github.com/astroautomata/SymTorch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤4🔥3
Преврати ЛЮБОЙ документ в данные, готовые для LLM!
Microsoft выпустила MarkItDown, лёгкую Python-библиотеку, которая конвертит любой документ в Markdown, чтобы потом скармливать его LLM.
100% open source.
Забирай Python-код бесплатно на GitHub: https://github.com/microsoft/markitdown
👉 @DataSciencegx
Microsoft выпустила MarkItDown, лёгкую Python-библиотеку, которая конвертит любой документ в Markdown, чтобы потом скармливать его LLM.
100% open source.
Забирай Python-код бесплатно на GitHub: https://github.com/microsoft/markitdown
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - microsoft/markitdown: Python tool for converting files and office documents to Markdown.
Python tool for converting files and office documents to Markdown. - microsoft/markitdown
🔥6
arXiv Paper Curator научит тебя собрать продакшеновый RAG-систему, опираясь на индустриальные best practices.
Repo: https://github.com/jamwithai/production-agentic-rag-course
👉 @DataSciencegx
Repo: https://github.com/jamwithai/production-agentic-rag-course
Please open Telegram to view this post
VIEW IN TELEGRAM