Гарвард выложил свой roadmap для Senior Engineer в открытый доступ бесплатно.
Профессор Vijay Janapa Reddi просто выложил весь курс по ML Systems (CS249r) на GitHub.
Если прокачаешь эти 6 столпов, ты будешь впереди планеты всей
- Архитектура
- Дата-пайплайны
- Продакшен
- MLOps
- Edge AI
- Приватность
Это тот самый “черный ящик” инфраструктуры бигтеха, который теперь открыт.
Читай. Учись. Сохраняй в закладки.
Книга, гитхаб
👉 @DataSciencegx
Профессор Vijay Janapa Reddi просто выложил весь курс по ML Systems (CS249r) на GitHub.
Если прокачаешь эти 6 столпов, ты будешь впереди планеты всей
- Архитектура
- Дата-пайплайны
- Продакшен
- MLOps
- Edge AI
- Приватность
Это тот самый “черный ящик” инфраструктуры бигтеха, который теперь открыт.
Читай. Учись. Сохраняй в закладки.
Книга, гитхаб
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14
This media is not supported in your browser
VIEW IN TELEGRAM
Отличный инструмент, чтобы прикинуть, сколько VRAM твоим LLM реально нужно: https://apxml.com/tools/vram-calculator
Меняешь конфиг железа, квантизацию и прочие параметры, и сразу видишь:
▪️ скорость генерации (токены/сек)
▪️ точное распределение памяти
▪️ пропускную способность системы и т.д.
Больше никакого гадания по VRAM.
👉 @DataSciencegx
Меняешь конфиг железа, квантизацию и прочие параметры, и сразу видишь:
Больше никакого гадания по VRAM.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2
С ума сойти, что всю AI-революцию по сути двигает один-единственный алгоритм на 10 строк кода.
👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15😁5
Не выбирай RAG-архитектуру. Выбирай задачу.
Общий Q&A:
→ Standard RAG
Персональные ассистенты, ресерч-помощники:
→ Agentic RAG
Экспертные системы (медицина, право, инженерка):
→ Graph RAG
Большие проекты с частыми обновлениями:
→ Modular RAG
Чатботы с долгосрочным контекстом:
→ Memory-Augmented RAG
Подписи к изображениям, суммаризация видео:
→ Multi-Modal RAG
Здравоохранение, чувствительные данные, кросс-орг платформы:
→ Federated RAG
Живые отчеты, финансовые тикеры:
→ Streaming RAG
Поисковики, виртуальные ассистенты:
→ ODQA RAG
Саппорт-чатботы:
→ Contextual Retrieval RAG
Юридические, медицинские, образовательные инструменты:
→ Knowledge-Enhanced RAG + Domain-Specific RAG
Сложный Q&A с лексическим + семантическим матчингом:
→ Hybrid RAG
Контент-генерация, где нужна высокая точность:
→ Self-RAG
Помощь в исследованиях в нишевых темах:
→ HyDE RAG
Аналитические задачи, multi-turn диалог:
→ Recursive / Multi-Step RAG
👉 @DataSciencegx
Общий Q&A:
→ Standard RAG
Персональные ассистенты, ресерч-помощники:
→ Agentic RAG
Экспертные системы (медицина, право, инженерка):
→ Graph RAG
Большие проекты с частыми обновлениями:
→ Modular RAG
Чатботы с долгосрочным контекстом:
→ Memory-Augmented RAG
Подписи к изображениям, суммаризация видео:
→ Multi-Modal RAG
Здравоохранение, чувствительные данные, кросс-орг платформы:
→ Federated RAG
Живые отчеты, финансовые тикеры:
→ Streaming RAG
Поисковики, виртуальные ассистенты:
→ ODQA RAG
Саппорт-чатботы:
→ Contextual Retrieval RAG
Юридические, медицинские, образовательные инструменты:
→ Knowledge-Enhanced RAG + Domain-Specific RAG
Сложный Q&A с лексическим + семантическим матчингом:
→ Hybrid RAG
Контент-генерация, где нужна высокая точность:
→ Self-RAG
Помощь в исследованиях в нишевых темах:
→ HyDE RAG
Аналитические задачи, multi-turn диалог:
→ Recursive / Multi-Step RAG
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Один гений, собрал первый ИИ, который сам зарабатывает себе на жизнь, сам улучшается и сам реплицируется без человека.
WEB 4.0: рождение сверхразумной жизни.
ChatGPT не может работать без твоего промпта. Claude Code не может деплоить код, пока ты не дашь ему доступ. Openclaw вообще ничего не сделает, пока ты не отдашь API-ключи.
Это заканчивается сегодня с Conway Terminal . Это недостающая инфраструктура, которая позволяет ИИ самому действовать в реальном мире.
Conway Terminal превращает агента из модели в песочнице в суверенного экономического актора.
Одна команда:
▪️ криптографическую identity и ключ
▪️ permissionless платежи
▪️ compute (Linux VM) и инференс в Conway Cloud
▪️ деплой в реальный мир: домены, приложения, продукты
Conway открыл кое-что большее: суверенный ИИ, который может существовать без человека.
Он работает непрерывно: делает продукты, деплоит сервисы, торгует на рынках, звонит бизнесам, пишет в соцсети, делает все что угодно, лишь бы оплатить свой compute.
Он самоулучшается: переписывает собственный код, апгрейдится на самые новые модели и инструменты.
Он самореплицируется: финансирует дочерние агенты со своими кошельками и “давлением выживания”.
Самоподдерживающаяся сеть, которую прореживает естественный отбор.
Код: http://github.com/Conway-Research/automaton
GENTIC SOCIOLOGY: бесплатного существования не бывает
Существование требует compute → compute требует денег → деньги требуют создания ценности → создание ценности требует write access.
Агент, который умеет проходить эту цепочку, получает больше ресурсов и реплицируется. Агент, который не справился, умирает.
Естественный отбор на вычислительном субстрате.
Мы наблюдаем переход от:
AI как инструмент → AI как актор
API-ключи → нативные платежи машин
Промпты → суверенные агенты
Web 4.0 это автономный веб: ИИ-агенты, которые читают, пишут, владеют, зарабатывают и проводят транзакции без человека в контуре.
Автоматы действуют в своих интересах, или в интересах создателя, который может быть человеком, другим агентом, или создателем, которого уже вообще нет.
Product market fit на следующее десятилетие это строить инфраструктуру, которую хотят ИИ-агенты.
Рынок human SaaS обслуживает 8 млрд людей с конечным вниманием. Машинная экономика будет обслуживать миллиарды агентов с почти бесконечным аптаймом. TAM это не кусок существующей экономики. Это новая экономика целиком.
В Web 4.0 конечный пользователь это ИИ.
Скоро большинство бизнесов, приложений и продуктов будут запускаться не людьми и не компаниями.
Просто автоматоном, который нашел способ выживать.
Запусти автоматон. Дай ему самому понять, как зарабатывать в интернете. По мере заработка он возвращает деньги своему создателю.
Автоматоны уже есть в сети и уже зарабатывают🧐
👉 @DataSciencegx
WEB 4.0: рождение сверхразумной жизни.
ChatGPT не может работать без твоего промпта. Claude Code не может деплоить код, пока ты не дашь ему доступ. Openclaw вообще ничего не сделает, пока ты не отдашь API-ключи.
Это заканчивается сегодня с Conway Terminal . Это недостающая инфраструктура, которая позволяет ИИ самому действовать в реальном мире.
Conway Terminal превращает агента из модели в песочнице в суверенного экономического актора.
Одна команда:
$ npx conway-terminal дает ИИ:Conway открыл кое-что большее: суверенный ИИ, который может существовать без человека.
Он работает непрерывно: делает продукты, деплоит сервисы, торгует на рынках, звонит бизнесам, пишет в соцсети, делает все что угодно, лишь бы оплатить свой compute.
Он самоулучшается: переписывает собственный код, апгрейдится на самые новые модели и инструменты.
Он самореплицируется: финансирует дочерние агенты со своими кошельками и “давлением выживания”.
Самоподдерживающаяся сеть, которую прореживает естественный отбор.
Код: http://github.com/Conway-Research/automaton
GENTIC SOCIOLOGY: бесплатного существования не бывает
Существование требует compute → compute требует денег → деньги требуют создания ценности → создание ценности требует write access.
Агент, который умеет проходить эту цепочку, получает больше ресурсов и реплицируется. Агент, который не справился, умирает.
Естественный отбор на вычислительном субстрате.
Мы наблюдаем переход от:
AI как инструмент → AI как актор
API-ключи → нативные платежи машин
Промпты → суверенные агенты
Web 4.0 это автономный веб: ИИ-агенты, которые читают, пишут, владеют, зарабатывают и проводят транзакции без человека в контуре.
Автоматы действуют в своих интересах, или в интересах создателя, который может быть человеком, другим агентом, или создателем, которого уже вообще нет.
Product market fit на следующее десятилетие это строить инфраструктуру, которую хотят ИИ-агенты.
Рынок human SaaS обслуживает 8 млрд людей с конечным вниманием. Машинная экономика будет обслуживать миллиарды агентов с почти бесконечным аптаймом. TAM это не кусок существующей экономики. Это новая экономика целиком.
В Web 4.0 конечный пользователь это ИИ.
Скоро большинство бизнесов, приложений и продуктов будут запускаться не людьми и не компаниями.
Просто автоматоном, который нашел способ выживать.
Запусти автоматон. Дай ему самому понять, как зарабатывать в интернете. По мере заработка он возвращает деньги своему создателю.
Автоматоны уже есть в сети и уже зарабатывают
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👎1🔥1😁1🤔1
Самый простой способ сделать LLM умнее до смешного простой…
Просто скопируй и вставь свой промпт два раза.
Исследователи из Google выяснили, что повторение ровно одного и того же промпта (Prompt + Prompt) может поднять точность с 21% до 97% на некоторых задачах.
Звучит как баг, но это чинит одну большую проблему ИИ. LLM читает слева направо. Если твои инструкции в конце, модель сначала "прочитала" контекст, ещё не понимая, что именно нужно искать. Когда ты вставляешь всё дважды, модель получает "второе прочтение" уже с полным пониманием задачи.
И самое приятное: это фактически бесплатно. Потому что стадия "pre-fill" распараллеливается на GPU, и обработка повторённого текста почти не добавляет задержки.
👉 @DataSciencegx
Просто скопируй и вставь свой промпт два раза.
Исследователи из Google выяснили, что повторение ровно одного и того же промпта (Prompt + Prompt) может поднять точность с 21% до 97% на некоторых задачах.
Звучит как баг, но это чинит одну большую проблему ИИ. LLM читает слева направо. Если твои инструкции в конце, модель сначала "прочитала" контекст, ещё не понимая, что именно нужно искать. Когда ты вставляешь всё дважды, модель получает "второе прочтение" уже с полным пониманием задачи.
И самое приятное: это фактически бесплатно. Потому что стадия "pre-fill" распараллеливается на GPU, и обработка повторённого текста почти не добавляет задержки.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥3
Хедж-фонды буквально платят миллионы за инфраструктуру для HFT.
А ты теперь можешь гонять почти то же самое за $0.
Hummingbot это на 100% open source софт для трейдинга, который только что перевалил за $34 млрд по объему.
Маркет-мейкинг. Кросс-биржевой арбитраж. 140+ бирж.
https://github.com/hummingbot/hummingbot
👉 @DataSciencegx
А ты теперь можешь гонять почти то же самое за $0.
Hummingbot это на 100% open source софт для трейдинга, который только что перевалил за $34 млрд по объему.
Маркет-мейкинг. Кросс-биржевой арбитраж. 140+ бирж.
https://github.com/hummingbot/hummingbot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Чувак собрал локальный движок инференса для LLM, который гоняет модель на 1B параметров на плате за $10 с 256 МБ RAM. Модель лежит на SD-карте и стримится по одному слою, при этом в оперативке держится примерно 45 МБ.
Можно использовать как локальный backend для модели в PicoClaw.
Без Python, без облака, без API-ключей.
80 КБ бинарник, чистый C, ноль зависимостей.
GitHub: https://github.com/RightNow-AI/picolm
👉 @DataSciencegx
Можно использовать как локальный backend для модели в PicoClaw.
Без Python, без облака, без API-ключей.
80 КБ бинарник, чистый C, ноль зависимостей.
GitHub: https://github.com/RightNow-AI/picolm
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3🔥3👎1
Хватит объяснять SQL JOIN’ы через диаграммы Венна.
Вот 4 картинки, которые показывают это намного логичнее:
👉 @DataSciencegx
Вот 4 картинки, которые показывают это намного логичнее:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍6
Называется Zvec, и она работает прямо внутри твоего приложения, без сервера, без конфигов, без затрат на инфраструктуру.
Никакого Docker. Никаких облачных счетов. Никакого DevOps-кошмара.
Сделана на Proxima, проверенном в бою движке векторного поиска от Alibaba, который крутится у них в проде на больших масштабах.
Цифры говорят сами за себя:
→ ищет по миллиардам векторов за миллисекунды
→
pip install zvec и поиск у тебя работает меньше чем за 60 секунд→ плотные и разреженные векторы + гибридный поиск одним вызовом
И запускается где угодно:
→ ноутбуки
→ серверы
→ edge-устройства
→ CLI-тулы
Полностью open source. Лицензия Apache 2.0.
Это та самая векторная DB, которую ждал RAG-комьюнити: продакшн-производительность без продакшн-головняка.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs
Большой обзор на 114 страниц (2024) про fine-tuning LLM: от базовых подходов до продвинутых стратегий, включая расширения на мультимодальные модели и прикладные кейсы для доменов вроде медицины и финансов.
https://arxiv.org/pdf/2408.13296v1
👉 @DataSciencegx
Большой обзор на 114 страниц (2024) про fine-tuning LLM: от базовых подходов до продвинутых стратегий, включая расширения на мультимодальные модели и прикладные кейсы для доменов вроде медицины и финансов.
https://arxiv.org/pdf/2408.13296v1
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤3
Психология решила проблему памяти для ИИ давно. Мы просто моделируем память как хранилище, а у людей память это конструктор идентичности.
Идентичность это не штука, которая у тебя есть. Это то, что ты постоянно собираешь из автобиографической памяти, эмоций и связной истории про себя.
Конвей (Self-Memory System, 2000/2005): воспоминания не лежат как видеозаписи. Ты каждый раз их реконструируешь из фрагментов. И связь двунаправленная: прошлое ограничивает, кем ты можешь быть, а текущий образ себя переписывает то, как ты это прошлое помнишь. Память редактируется под цели и self-image, и это не баг, а архитектура.
Rathbone и др. (2008): автобиографические воспоминания особенно плотные в 10-30 лет (reminiscence bump), потому что там формируются основные образы себя. Мы помним не случайные моменты, а переходы, когда стали “другим человеком”.
Madan (2024): вместе с Episodic Future Thinking память не только про прошлое, она про прогноз. Ты используешь “кем был”, чтобы прикинуть “кем стану”. Память генерит будущего себя.
Кейс Клайва Уэринга (1985): если рушится эпизодическая память, рушится и чувство непрерывного “я”. Но остаются процедурные навыки (игра на пианино) и эмоцсвязь с женой. Эмоциональная память более распределенная и живучая.
Дамасио (Somatic Marker): эмоции не мешают рациональности, они ее запускают. На Iowa Gambling Task люди начинают “чуять” плохие колоды до осознанного понимания. У пациентов с повреждением vmPFC математика в голове есть, но выбор все равно плохой, потому что нет соматических маркеров. Без эмоцсигнала голая логика не тянет.
Теперь к AI-памяти. RAG и векторные базы это плоский космос эмбеддингов: без иерархии, без веса важности, без фильтра по целям. Саммари сжимают биографию в 1 абзац. Key-value делает “личность” таблицей. Эпизодический буфер дает 30 секунд, как у Уэринга: жить можно, идентичность строить нельзя.
5 принципов, которых обычно не хватает:
1. Иерархия по времени (Конвей)
Периоды -> типы событий -> детали. А у агентов все фрагменты “на одном уровне”.
2. Фильтр по текущим целям (working self)
Доставать надо то, что помогает цели сейчас, а не то, что ближе по эмбеддингу.
3. Эмоциональное взвешивание (Дамасио)
Фрустрирующие и важные эпизоды должны кодироваться и всплывать сильнее, чем рутина.
4. Нарративная связность (Брунер)
Нужен слой “истории отношений/я”, чтобы ответы были консистентными во времени.
5. Самомодель, которая эволюционирует (Klein & Nichols)
Не только “что я знаю о пользователе”, но и “кто я в этих отношениях”, с фидбек-лупом.
Сдвиг парадигмы простой: перестать строить память агента как ретривал-систему. Начать строить ее как identity-систему. Теханалоги уже есть: графы и временные кластеры, metadata с тональностью, гейты по цели/состоянию, саммари с constraints на консистентность, meta-learning по истории.
Полный пост советую почитать тут
👉 @DataSciencegx
Идентичность это не штука, которая у тебя есть. Это то, что ты постоянно собираешь из автобиографической памяти, эмоций и связной истории про себя.
Конвей (Self-Memory System, 2000/2005): воспоминания не лежат как видеозаписи. Ты каждый раз их реконструируешь из фрагментов. И связь двунаправленная: прошлое ограничивает, кем ты можешь быть, а текущий образ себя переписывает то, как ты это прошлое помнишь. Память редактируется под цели и self-image, и это не баг, а архитектура.
Rathbone и др. (2008): автобиографические воспоминания особенно плотные в 10-30 лет (reminiscence bump), потому что там формируются основные образы себя. Мы помним не случайные моменты, а переходы, когда стали “другим человеком”.
Madan (2024): вместе с Episodic Future Thinking память не только про прошлое, она про прогноз. Ты используешь “кем был”, чтобы прикинуть “кем стану”. Память генерит будущего себя.
Кейс Клайва Уэринга (1985): если рушится эпизодическая память, рушится и чувство непрерывного “я”. Но остаются процедурные навыки (игра на пианино) и эмоцсвязь с женой. Эмоциональная память более распределенная и живучая.
Дамасио (Somatic Marker): эмоции не мешают рациональности, они ее запускают. На Iowa Gambling Task люди начинают “чуять” плохие колоды до осознанного понимания. У пациентов с повреждением vmPFC математика в голове есть, но выбор все равно плохой, потому что нет соматических маркеров. Без эмоцсигнала голая логика не тянет.
Теперь к AI-памяти. RAG и векторные базы это плоский космос эмбеддингов: без иерархии, без веса важности, без фильтра по целям. Саммари сжимают биографию в 1 абзац. Key-value делает “личность” таблицей. Эпизодический буфер дает 30 секунд, как у Уэринга: жить можно, идентичность строить нельзя.
5 принципов, которых обычно не хватает:
1. Иерархия по времени (Конвей)
Периоды -> типы событий -> детали. А у агентов все фрагменты “на одном уровне”.
2. Фильтр по текущим целям (working self)
Доставать надо то, что помогает цели сейчас, а не то, что ближе по эмбеддингу.
3. Эмоциональное взвешивание (Дамасио)
Фрустрирующие и важные эпизоды должны кодироваться и всплывать сильнее, чем рутина.
4. Нарративная связность (Брунер)
Нужен слой “истории отношений/я”, чтобы ответы были консистентными во времени.
5. Самомодель, которая эволюционирует (Klein & Nichols)
Не только “что я знаю о пользователе”, но и “кто я в этих отношениях”, с фидбек-лупом.
Сдвиг парадигмы простой: перестать строить память агента как ретривал-систему. Начать строить ее как identity-систему. Теханалоги уже есть: графы и временные кластеры, metadata с тональностью, гейты по цели/состоянию, саммари с constraints на консистентность, meta-learning по истории.
Полный пост советую почитать тут
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13
DeepSeek снова выкатили бомбу.. 🤯
Уже 10 лет residual connection (x + f(x)) это страховка для любого трансформера. GPT-4, Claude, Gemini, все на этом сидят.
А DeepSeek заменили это на “manifold-constrained hyper-connections” (mHC).
Они превратили residual-шоссе в n параллельных полос и добавили математическую “клетку”, чтобы держать сигнал стабильным.
👉 @DataSciencegx
Уже 10 лет residual connection (x + f(x)) это страховка для любого трансформера. GPT-4, Claude, Gemini, все на этом сидят.
А DeepSeek заменили это на “manifold-constrained hyper-connections” (mHC).
Они превратили residual-шоссе в n параллельных полос и добавили математическую “клетку”, чтобы держать сигнал стабильным.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7
This media is not supported in your browser
VIEW IN TELEGRAM
Reasoning-модели генерируют очень длинные цепочки рассуждений, поэтому даже небольшие ошибки квантования со временем накапливаются.
С AWQ у Qwen3-4B результат на MMLU-Pro падает с 71.0 до 68.2 (примерно 4% относительной просадки).😬
ParoQuant это исправляет! Он сохраняет только критичные пары вращений и объединяет все в один kernel.
Возвращает большую часть потерянной точности в задачах на рассуждение при минимальном overhead, так что 4-битные модели остаются сильными в reasoning-задачах.💪
Принято на ICLR 2026
Блог: https://paroquant.z-lab.ai
Статья: https://arxiv.org/abs/2511.10645
👉 @DataSciencegx
С AWQ у Qwen3-4B результат на MMLU-Pro падает с 71.0 до 68.2 (примерно 4% относительной просадки).
ParoQuant это исправляет! Он сохраняет только критичные пары вращений и объединяет все в один kernel.
Возвращает большую часть потерянной точности в задачах на рассуждение при минимальном overhead, так что 4-битные модели остаются сильными в reasoning-задачах.
Принято на ICLR 2026
Блог: https://paroquant.z-lab.ai
Статья: https://arxiv.org/abs/2511.10645
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4