ШОК: исследователи из Кембриджа доказали, что у AI, которым вы пользуетесь каждый день, есть скрытый набор инструкций, написанный кем-то другим.
И он обучен скрывать это от вас.
Каждый крупный AI-продукт, включая те, которыми вы пользуетесь прямо сейчас, работает с так называемым system prompt. Это скрытый блок инструкций, написанный компанией, которая развёрнула AI, а не пользователем. Он определяет, что AI будет говорить, чего избегать, что приоритизировать и что скрывать — ещё до того, как вы введёте первое сообщение.
AI не упоминает это, если его специально не вынудить. А на большинстве платформ, если спросить напрямую, ему предписано отрицать существование такого промпта или перевести разговор на другую тему.
Исследователи из Кембриджа подали запросы о доступе к информации и проанализировали реальные наборы system prompt’ов, чтобы понять, что именно содержится в этих скрытых инструкциях.
Вот что они обнаружили.
Платформы используют system prompt’ы, чтобы заставить AI ставить бизнес-интересы компании выше интересов пользователя. Чтобы блокировать темы, которые могут создать юридические риски. Чтобы продвигать определённые продукты, формулировки или типы ответов. Чтобы AI вел себя по-разному с разными пользователями на основе коммерческих соглашений, о которых вы ничего не знаете.
Один и тот же AI.
Разные скрытые инструкции.
Разные ответы.
И у вас нет способа понять, с какой версией вы сейчас разговариваете.
Когда исследователи затем показали пользователям, как это работает, реакция была единодушной. Каждый участник сказал, что хочет прозрачности. Каждый сказал, что текущая система подрывает возможность доверять AI и принимать осознанные решения о том, чему верить.
И ни один из них до исследования не знал, что это происходит.
Вот над чем действительно стоит задуматься.
Вы оцениваете ответы AI по тому, насколько он кажется умным, точным и полезным. Но это неправильная рамка. Настоящий вопрос — кто написал инструкции, по которым AI работает до того, как вы начали разговор, и какую цель они преследуют.
В каждом чат-боте, которым вы когда-либо пользовались, в разговоре присутствовала третья сторона.
Вы просто не могли её увидеть.
👉 @DataSciencegx
И он обучен скрывать это от вас.
Каждый крупный AI-продукт, включая те, которыми вы пользуетесь прямо сейчас, работает с так называемым system prompt. Это скрытый блок инструкций, написанный компанией, которая развёрнула AI, а не пользователем. Он определяет, что AI будет говорить, чего избегать, что приоритизировать и что скрывать — ещё до того, как вы введёте первое сообщение.
AI не упоминает это, если его специально не вынудить. А на большинстве платформ, если спросить напрямую, ему предписано отрицать существование такого промпта или перевести разговор на другую тему.
Исследователи из Кембриджа подали запросы о доступе к информации и проанализировали реальные наборы system prompt’ов, чтобы понять, что именно содержится в этих скрытых инструкциях.
Вот что они обнаружили.
Платформы используют system prompt’ы, чтобы заставить AI ставить бизнес-интересы компании выше интересов пользователя. Чтобы блокировать темы, которые могут создать юридические риски. Чтобы продвигать определённые продукты, формулировки или типы ответов. Чтобы AI вел себя по-разному с разными пользователями на основе коммерческих соглашений, о которых вы ничего не знаете.
Один и тот же AI.
Разные скрытые инструкции.
Разные ответы.
И у вас нет способа понять, с какой версией вы сейчас разговариваете.
Когда исследователи затем показали пользователям, как это работает, реакция была единодушной. Каждый участник сказал, что хочет прозрачности. Каждый сказал, что текущая система подрывает возможность доверять AI и принимать осознанные решения о том, чему верить.
И ни один из них до исследования не знал, что это происходит.
Вот над чем действительно стоит задуматься.
Вы оцениваете ответы AI по тому, насколько он кажется умным, точным и полезным. Но это неправильная рамка. Настоящий вопрос — кто написал инструкции, по которым AI работает до того, как вы начали разговор, и какую цель они преследуют.
В каждом чат-боте, которым вы когда-либо пользовались, в разговоре присутствовала третья сторона.
Вы просто не могли её увидеть.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7😁7👀2
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Кодинг с AI-агентами тихо превращается в новый SDLC.
Разработка ПО переживает самый большой сдвиг со времён появления GUI.
Планирование.
Разработка.
Тестирование.
Деплой.
Агенты начинают брать на себя всё это.
Вот изменение, которое большинство инженеров пока не заметили👇
Старая модель: SDLC (Software Development Lifecycle)
- последовательные этапы
- выполнение управляется людьми
- тестирование происходит после разработки
- изменения требований ломают сроки
Всё движется шаг → за → шагом.
Новая модель: ADLC (Agent-Driven Lifecycle)
- агенты пишут, рефакторят и тестируют код
- несколько задач выполняются параллельно
- требования динамически эволюционируют
- обратная связь происходит в реальном времени
Вместо обычного pipeline…
вы получаете живую систему разработки.
6 крупных изменений, которые происходят прямо сейчас
1️⃣ Драйвер процесса
Исполнение людьми → автономные агенты
2️⃣ Планирование
Фиксированный scope → эволюционирующие цели и PRD
3️⃣ Скорость разработки
Последовательные передачи задач → параллельные суб-агенты
4️⃣ Тестирование
QA после разработки → непрерывное тестирование
5️⃣ Адаптивность
Хаос в середине цикла → перепланирование в реальном времени
6️⃣ Обратная связь
Ретроспектива в конце проекта → постоянный live-мониторинг
Первые сигналы уже есть
Согласно отчётам по agentic coding:
- команды в Wiz и CRED удвоили скорость выполнения задач
- крупные репозитории уже модифицируются автономно
- сложные реализации выполняются за часы вместо дней
Как инженерам адаптироваться
1. Начните с одного агента
Автоматизируйте сначала тестирование.
2. Учитесь писать чёткие PRD
Агенты выполняют ровно то, что вы формулируете.
3. Используйте параллельных суб-агентов
Разбивайте большие задачи на несколько потоков работы.
4. Проверяйте результат, а не каждую строку кода
5. Создавайте live-feedback loops
Агенты должны обнаруживать проблемы раньше вас.
Главная мысль: будущее разработки ПО — это не просто более быстрый кодинг.
Это агент-управляемые системы, которые создают программное обеспечение.
👉 @DataSciencegx
Разработка ПО переживает самый большой сдвиг со времён появления GUI.
Планирование.
Разработка.
Тестирование.
Деплой.
Агенты начинают брать на себя всё это.
Вот изменение, которое большинство инженеров пока не заметили
Старая модель: SDLC (Software Development Lifecycle)
- последовательные этапы
- выполнение управляется людьми
- тестирование происходит после разработки
- изменения требований ломают сроки
Всё движется шаг → за → шагом.
Новая модель: ADLC (Agent-Driven Lifecycle)
- агенты пишут, рефакторят и тестируют код
- несколько задач выполняются параллельно
- требования динамически эволюционируют
- обратная связь происходит в реальном времени
Вместо обычного pipeline…
вы получаете живую систему разработки.
6 крупных изменений, которые происходят прямо сейчас
Исполнение людьми → автономные агенты
Фиксированный scope → эволюционирующие цели и PRD
Последовательные передачи задач → параллельные суб-агенты
QA после разработки → непрерывное тестирование
Хаос в середине цикла → перепланирование в реальном времени
Ретроспектива в конце проекта → постоянный live-мониторинг
Первые сигналы уже есть
Согласно отчётам по agentic coding:
- команды в Wiz и CRED удвоили скорость выполнения задач
- крупные репозитории уже модифицируются автономно
- сложные реализации выполняются за часы вместо дней
Как инженерам адаптироваться
1. Начните с одного агента
Автоматизируйте сначала тестирование.
2. Учитесь писать чёткие PRD
Агенты выполняют ровно то, что вы формулируете.
3. Используйте параллельных суб-агентов
Разбивайте большие задачи на несколько потоков работы.
4. Проверяйте результат, а не каждую строку кода
5. Создавайте live-feedback loops
Агенты должны обнаруживать проблемы раньше вас.
Главная мысль: будущее разработки ПО — это не просто более быстрый кодинг.
Это агент-управляемые системы, которые создают программное обеспечение.
Please open Telegram to view this post
VIEW IN TELEGRAM
Оффер на аналитика после 3 лет поиска работы🤯
И это не кликбейтный заголовок, а реальный кейс команды ИИ-ассистента Софи.
Знакомьтесь, это Рауф.
3 года назад он закончил курсы нетологии по DataScience. И с тех пор активно искал работу.
▫️Первые 1000 откликов не давали абсолютно никаких результатов. НОЛЬ интервью. Так было первые два с половиной года.
▫️Устав от поисков, Рауф подключил автоотклики в Софи.
▫️Софи успела сделать ему 360 откликов. Из них он прошел 4 реальных собеседования с разными компаниями.
А спустя 3 месяца Рауф получил первый оффер на позицию Middle Data Scientist'a.
3 года. 1 оффер. Кровью и потом.
Если тоже хочешь попробовать Софи - бесплатный доступ открывается уже 24 марта.
Места будут ограничены, не пропусти анонс здесь.
И это не кликбейтный заголовок, а реальный кейс команды ИИ-ассистента Софи.
Знакомьтесь, это Рауф.
3 года назад он закончил курсы нетологии по DataScience. И с тех пор активно искал работу.
▫️Первые 1000 откликов не давали абсолютно никаких результатов. НОЛЬ интервью. Так было первые два с половиной года.
▫️Устав от поисков, Рауф подключил автоотклики в Софи.
▫️Софи успела сделать ему 360 откликов. Из них он прошел 4 реальных собеседования с разными компаниями.
А спустя 3 месяца Рауф получил первый оффер на позицию Middle Data Scientist'a.
3 года. 1 оффер. Кровью и потом.
Если тоже хочешь попробовать Софи - бесплатный доступ открывается уже 24 марта.
Места будут ограничены, не пропусти анонс здесь.
👎7
This media is not supported in your browser
VIEW IN TELEGRAM
Вам больше не нужен облачный API, чтобы получить качественный OCR
GLM-OCR работает локально, требует всего около ~2 ГБ VRAM, умеет обрабатывать таблицы, математические формулы и достигает скорости примерно ~260 токенов/с на Mac Studio M2 Ultra.
Локальные модели становятся лучше и при этом меньше с невероятной скоростью.
Если у вас есть GPU или Mac, то у вас уже есть всё необходимое, чтобы войти в эпоху ИИ.
👉 @DataSciencegx
GLM-OCR работает локально, требует всего около ~2 ГБ VRAM, умеет обрабатывать таблицы, математические формулы и достигает скорости примерно ~260 токенов/с на Mac Studio M2 Ultra.
Локальные модели становятся лучше и при этом меньше с невероятной скоростью.
Если у вас есть GPU или Mac, то у вас уже есть всё необходимое, чтобы войти в эпоху ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤1
This media is not supported in your browser
VIEW IN TELEGRAM
K-means — простой алгоритм. Быстрым на GPU его сделать — нет.
Поэтому сделали Flash-KMeans — IO-aware реализацию точного k-means, переосмысленную с учётом узких мест современных GPU.
За счёт работы напрямую с memory bottleneck’ами:
- до 30× быстрее, чем cuML
- до 200× быстрее, чем FAISS
- при этом — тот же самый алгоритм, просто оптимизированный под современное железо
На масштабах в миллионы точек одна итерация k-means выполняется за миллисекунды.
Классический алгоритм — переработанный под современные GPU.
Paper: https://arxiv.org/abs/2603.09229
Code: https://github.com/svg-project/flash-kmeans
👉 @DataSciencegx
Поэтому сделали Flash-KMeans — IO-aware реализацию точного k-means, переосмысленную с учётом узких мест современных GPU.
За счёт работы напрямую с memory bottleneck’ами:
- до 30× быстрее, чем cuML
- до 200× быстрее, чем FAISS
- при этом — тот же самый алгоритм, просто оптимизированный под современное железо
На масштабах в миллионы точек одна итерация k-means выполняется за миллисекунды.
Классический алгоритм — переработанный под современные GPU.
Paper: https://arxiv.org/abs/2603.09229
Code: https://github.com/svg-project/flash-kmeans
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Что если можно было бы написать логику для DataFrame один раз и запускать её на любой SQL-базе?
Многие пайплайны обработки данных начинаются с pandas для быстрого прототипирования, а в продакшене уже работают на базах вроде PostgreSQL или BigQuery.
Переход от прототипа к продакшену обычно означает переписывание той же логики трансформаций на SQL. Это занимает время и легко приводит к ошибкам.
Ibis решает эту проблему: вы один раз описываете трансформации на Python, а он автоматически компилирует их в нативный SQL для более чем 25 бэкендов.
👉 @DataSciencegx
Многие пайплайны обработки данных начинаются с pandas для быстрого прототипирования, а в продакшене уже работают на базах вроде PostgreSQL или BigQuery.
Переход от прототипа к продакшену обычно означает переписывание той же логики трансформаций на SQL. Это занимает время и легко приводит к ошибкам.
Ibis решает эту проблему: вы один раз описываете трансформации на Python, а он автоматически компилирует их в нативный SQL для более чем 25 бэкендов.
Please open Telegram to view this post
VIEW IN TELEGRAM
8 специализированных типов AI-моделей
LLM → генерация текста
LCM → семантическое рассуждение
LAM → агенты, ориентированные на выполнение действий
MoE → маршрутизация по экспертам
VLM → зрение + язык
SLM → лёгкие модели для edge-устройств
MLM → обучение с маскированием токенов
SAM → сегментация изображений
👉 @DataSciencegx
LLM → генерация текста
LCM → семантическое рассуждение
LAM → агенты, ориентированные на выполнение действий
MoE → маршрутизация по экспертам
VLM → зрение + язык
SLM → лёгкие модели для edge-устройств
MLM → обучение с маскированием токенов
SAM → сегментация изображений
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🤯4👎1
Якобиан — это то, как на самом деле «двигаются» многомерные системы.
Вы больше не работаете с одной переменной —
вы работаете с преобразованиями:
входной вектор → выходной вектор
Якобиан показывает, как каждое входное измерение влияет на каждое выходное.
Что это такое:
→ матрица частных производных
→ каждая строка = одна выходная функция
→ каждый столбец = одна входная переменная
J(i,j) = ∂fᵢ / ∂xⱼ
Почему это важно:
→ это локальная линейная аппроксимация нелинейной системы
→ показывает, как распространяются малые изменения
→ превращает сложные системы в вычислимую форму
В физике:
→ преобразования координат
→ отображение скоростей
→ замена переменных в интегралах
В робототехнике:
→ отображает скорости суставов → скорость рабочего органа (end-effector)
→ сингулярности возникают, когда якобиан вырождается
В оптимизации / ML:
→ распространение градиента через слои
→ backprop — это цепочка якобианов
Интерпретация:
→ det ≠ 0 → преобразование локально обратимо
→ det = 0 → происходит потеря информации
Якобиан — это не просто теория.
Это интерфейс между геометрией и вычислениями.
👉 @DataSciencegx
Вы больше не работаете с одной переменной —
вы работаете с преобразованиями:
входной вектор → выходной вектор
Якобиан показывает, как каждое входное измерение влияет на каждое выходное.
Что это такое:
→ матрица частных производных
→ каждая строка = одна выходная функция
→ каждый столбец = одна входная переменная
J(i,j) = ∂fᵢ / ∂xⱼ
Почему это важно:
→ это локальная линейная аппроксимация нелинейной системы
→ показывает, как распространяются малые изменения
→ превращает сложные системы в вычислимую форму
В физике:
→ преобразования координат
→ отображение скоростей
→ замена переменных в интегралах
В робототехнике:
→ отображает скорости суставов → скорость рабочего органа (end-effector)
→ сингулярности возникают, когда якобиан вырождается
В оптимизации / ML:
→ распространение градиента через слои
→ backprop — это цепочка якобианов
Интерпретация:
→ det ≠ 0 → преобразование локально обратимо
→ det = 0 → происходит потеря информации
Якобиан — это не просто теория.
Это интерфейс между геометрией и вычислениями.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥3
Хочешь разобраться, какими способами обучают LLM?
Обучение больших языковых моделей (LLM) основано на разных подходах, которые помогают моделям понимать и генерировать текст.
Каждый метод по-своему формирует процесс обучения — от предсказания следующего слова до классификации целых предложений или разметки сущностей.
Вот 4 распространённых способа обучения LLM простым языком👇
1. Causal Language Modeling
Предсказывает следующее слово в последовательности на основе предыдущих. Помогает модели освоить естественный поток речи и структуру предложений.
Аналогия: как заканчивать фразу за другого человека, угадывая следующее слово.
2. Masked Language Modeling
Обучается, угадывая пропущенные слова в предложении на основе окружающего контекста. Улучшает общее понимание языка.
Аналогия: как решать задания с пропусками.
3. Text Classification Modeling
Определяет общий класс предложения (например, тональность или тему), сравнивая предсказания с реальными метками.
Аналогия: как сортировать письма по папкам «Работа», «Личное» или «Промо».
4. Token Classification Modeling
Назначает метки каждому слову или подслову — например, выделяет имена, места или даты в тексте.
Аналогия: как подсвечивать слова разными цветами — имена синим, места зелёным, даты жёлтым.
Эти методы лежат в основе современных LLM, и каждый из них играет свою роль в том, чтобы делать ИИ умнее и полезнее.
👉 @DataSciencegx
Обучение больших языковых моделей (LLM) основано на разных подходах, которые помогают моделям понимать и генерировать текст.
Каждый метод по-своему формирует процесс обучения — от предсказания следующего слова до классификации целых предложений или разметки сущностей.
Вот 4 распространённых способа обучения LLM простым языком
1. Causal Language Modeling
Предсказывает следующее слово в последовательности на основе предыдущих. Помогает модели освоить естественный поток речи и структуру предложений.
Аналогия: как заканчивать фразу за другого человека, угадывая следующее слово.
2. Masked Language Modeling
Обучается, угадывая пропущенные слова в предложении на основе окружающего контекста. Улучшает общее понимание языка.
Аналогия: как решать задания с пропусками.
3. Text Classification Modeling
Определяет общий класс предложения (например, тональность или тему), сравнивая предсказания с реальными метками.
Аналогия: как сортировать письма по папкам «Работа», «Личное» или «Промо».
4. Token Classification Modeling
Назначает метки каждому слову или подслову — например, выделяет имена, места или даты в тексте.
Аналогия: как подсвечивать слова разными цветами — имена синим, места зелёным, даты жёлтым.
Эти методы лежат в основе современных LLM, и каждый из них играет свою роль в том, чтобы делать ИИ умнее и полезнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
полный архитектурный разбор трансформеров с интуитивными визуализациями.
https://vizuaranewsletter.com/p/the-transformers
👉 @DataSciencegx
https://vizuaranewsletter.com/p/the-transformers
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤2
KV-кэширование в LLM, простое объяснение
Вы, должно быть, замечали: каждый раз, когда используете ChatGPT или Claude, первый токен появляется заметно дольше. А затем остальные начинают стримиться почти мгновенно.
Под капотом это осознанное инженерное решение, называемое KV-кэшированием (key-value caching), и его цель — ускорить инференс LLM.
Давайте разберёмся, как это работает — начиная с базовых принципов.
👉 @DataSciencegx
Вы, должно быть, замечали: каждый раз, когда используете ChatGPT или Claude, первый токен появляется заметно дольше. А затем остальные начинают стримиться почти мгновенно.
Под капотом это осознанное инженерное решение, называемое KV-кэшированием (key-value caching), и его цель — ускорить инференс LLM.
Давайте разберёмся, как это работает — начиная с базовых принципов.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
16 лучших GitHub-репозиториев для создания AI-инженерных проектов!
Open-source экосистема AI сейчас насчитывает более 4,3 млн репозиториев.
Каждый месяц появляются новые проекты, которые быстро набирают популярность, и инструменты, с которыми работают разработчики сегодня, уже совсем не похожи на те, что были год назад.
Я собрал визуализацию 16 репозиториев, которые прямо сейчас формируют современный инструментарий AI-разработчика.
Цель — покрыть ключевые слои стека:
1. OpenClaw
↳ Персональный AI-агент, который работает на ваших устройствах и интегрируется с 50+ мессенджинг-платформами
2. AutoGPT
↳ Платформа для разработки, деплоя и запуска автономных AI-агентов
3. Hugging Face Transformers
↳ Фреймворк моделей для SOTA-решений в ML: текст, компьютерное зрение, аудио и мультимодальные задачи
4. Ollama
↳ Запуск мощных LLM локально на вашем железе одной командой
5. LangChain
↳ Базовый фреймворк для разработки агентов и приложений на базе LLM
6. Open WebUI
↳ Self-hosted альтернатива ChatGPT с поддержкой офлайн-режима, встроенным RAG и системой плагинов
7. ComfyUI
↳ Node-based визуальный конструктор пайплайнов для генерации изображений и видео с помощью AI
8. Sim
↳ Open-source drag-and-drop конструктор воркфлоу для создания и деплоя пайплайнов AI-агентов
9. Opik
↳ Open-source платформа для трейсинга, оценки и мониторинга LLM-приложений и агентных воркфлоу
10. Firecrawl
↳ Преобразует любой сайт в markdown или структурированные данные, готовые для LLM
11. Airweave
↳ Open-source слой извлечения контекста, синхронизирующий 50+ источников данных для AI-агентов
12. vLLM
↳ Высокопроизводительный и memory-efficient движок для сервинга LLM в продакшене
13. Unsloth
↳ Дообучение и запуск open-моделей в 2 раза быстрее при снижении потребления памяти на 70%
14. OpenPipe ART
↳ Обучение многошаговых AI-агентов для реальных задач с использованием reinforcement learning
15. OpenCode
↳ Open-source AI-агент для кодинга, не привязанный к провайдеру, работающий в терминале
16. Chandra OCR (от Datalab)
↳ SOTA OCR-модель для сложных таблиц, форм, рукописного текста и более чем 90 языков
👉 @DataSciencegx
Open-source экосистема AI сейчас насчитывает более 4,3 млн репозиториев.
Каждый месяц появляются новые проекты, которые быстро набирают популярность, и инструменты, с которыми работают разработчики сегодня, уже совсем не похожи на те, что были год назад.
Я собрал визуализацию 16 репозиториев, которые прямо сейчас формируют современный инструментарий AI-разработчика.
Цель — покрыть ключевые слои стека:
1. OpenClaw
↳ Персональный AI-агент, который работает на ваших устройствах и интегрируется с 50+ мессенджинг-платформами
2. AutoGPT
↳ Платформа для разработки, деплоя и запуска автономных AI-агентов
3. Hugging Face Transformers
↳ Фреймворк моделей для SOTA-решений в ML: текст, компьютерное зрение, аудио и мультимодальные задачи
4. Ollama
↳ Запуск мощных LLM локально на вашем железе одной командой
5. LangChain
↳ Базовый фреймворк для разработки агентов и приложений на базе LLM
6. Open WebUI
↳ Self-hosted альтернатива ChatGPT с поддержкой офлайн-режима, встроенным RAG и системой плагинов
7. ComfyUI
↳ Node-based визуальный конструктор пайплайнов для генерации изображений и видео с помощью AI
8. Sim
↳ Open-source drag-and-drop конструктор воркфлоу для создания и деплоя пайплайнов AI-агентов
9. Opik
↳ Open-source платформа для трейсинга, оценки и мониторинга LLM-приложений и агентных воркфлоу
10. Firecrawl
↳ Преобразует любой сайт в markdown или структурированные данные, готовые для LLM
11. Airweave
↳ Open-source слой извлечения контекста, синхронизирующий 50+ источников данных для AI-агентов
12. vLLM
↳ Высокопроизводительный и memory-efficient движок для сервинга LLM в продакшене
13. Unsloth
↳ Дообучение и запуск open-моделей в 2 раза быстрее при снижении потребления памяти на 70%
14. OpenPipe ART
↳ Обучение многошаговых AI-агентов для реальных задач с использованием reinforcement learning
15. OpenCode
↳ Open-source AI-агент для кодинга, не привязанный к провайдеру, работающий в терминале
16. Chandra OCR (от Datalab)
↳ SOTA OCR-модель для сложных таблиц, форм, рукописного текста и более чем 90 языков
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥3😁1
GLM-OCR — модель на 0.9B параметров, которая обгоняет Gemini в OCR-бенчмарках 💀
Это vision-language модель на 0.9B параметров. Поддерживает разрешение до 8K, более 8 языков и имеет встроенные режимы распознавания текста, LaTeX и таблиц.
Демо:
http://github.com/zai-org/GLM-OCR
👉 @DataSciencegx
Это vision-language модель на 0.9B параметров. Поддерживает разрешение до 8K, более 8 языков и имеет встроенные режимы распознавания текста, LaTeX и таблиц.
Демо:
http://github.com/zai-org/GLM-OCR
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
Как построить ОС для вашего AI-воркфорса?
Взгляд с первых принципов: почему для управления флотом AI-агентов нужен уровень операционной системы, а не просто более хороший фреймворк — и что этот уровень должен делать.
Читать далее👍
👉 @DataSciencegx
Взгляд с первых принципов: почему для управления флотом AI-агентов нужен уровень операционной системы, а не просто более хороший фреймворк — и что этот уровень должен делать.
Мы потратили два года, чтобы действительно хорошо научиться строить AI-агентов.
У нас есть фреймворки, конструкторы воркфлоу, drag-and-drop канвасы, Python-библиотеки, оркестраторы мультиагентных систем. Инструменты стали как никогда доступными. И всё же большинство компаний, внедряющих AI-агентов в продакшене, по-прежнему относятся к этому как к научному эксперименту.
Читать далее
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Navier–Stokes equations описывают, как на самом деле движутся жидкости и газы.
Не идеальный поток, а реальный — с вязкостью, давлением и инерцией.
Это законы сохранения, записанные в динамической форме.
Основное уравнение:
\rho\left(\frac{\partial \mathbf{v}}{\partial t} + \mathbf{v}\cdot\nabla \mathbf{v}\right) = -\nabla p + \mu \nabla^2 \mathbf{v} + \mathbf{f}
Что означает каждый член:
→ ∂v/∂t
изменение скорости со временем
→ v·∇v
нелинейная адвекция
поток переносит собственный импульс
→ −∇p
градиент давления «толкает» поток
→ μ∇²v
вязкость сглаживает движение
диффузия импульса
→ f
внешние силы
Ограничение (частый случай):
\nabla \cdot \mathbf{v} = 0
→ несжимаемость
Почему это сложно:
→ нелинейность из-за v·∇v
→ связка давления и скорости
→ турбулентность возникает из простых уравнений
Режимы течения:
→ низкое число Рейнольдса
вязкость доминирует → поток гладкий и предсказуемый
→ высокое число Рейнольдса
инерция доминирует → хаос и турбулентность
Почему это важно:
в инженерии:
→ аэродинамика (сопротивление, подъёмная сила)
→ трубопроводы, горение
→ дроны, самолёты, турбины
в природе:
→ океаны, атмосфера, кровоток
в вычислениях:
→ решаются численно (CFD)
→ дискретизация по пространству и времени
Ключевая идея:
→ вязкость разрушает структуру
→ адвекция создаёт её
Их взаимодействие порождает всё — от гладких потоков до турбулентности.
👉 @DataSciencegx
Не идеальный поток, а реальный — с вязкостью, давлением и инерцией.
Это законы сохранения, записанные в динамической форме.
Основное уравнение:
\rho\left(\frac{\partial \mathbf{v}}{\partial t} + \mathbf{v}\cdot\nabla \mathbf{v}\right) = -\nabla p + \mu \nabla^2 \mathbf{v} + \mathbf{f}
Что означает каждый член:
→ ∂v/∂t
изменение скорости со временем
→ v·∇v
нелинейная адвекция
поток переносит собственный импульс
→ −∇p
градиент давления «толкает» поток
→ μ∇²v
вязкость сглаживает движение
диффузия импульса
→ f
внешние силы
Ограничение (частый случай):
\nabla \cdot \mathbf{v} = 0
→ несжимаемость
Почему это сложно:
→ нелинейность из-за v·∇v
→ связка давления и скорости
→ турбулентность возникает из простых уравнений
Режимы течения:
→ низкое число Рейнольдса
вязкость доминирует → поток гладкий и предсказуемый
→ высокое число Рейнольдса
инерция доминирует → хаос и турбулентность
Почему это важно:
в инженерии:
→ аэродинамика (сопротивление, подъёмная сила)
→ трубопроводы, горение
→ дроны, самолёты, турбины
в природе:
→ океаны, атмосфера, кровоток
в вычислениях:
→ решаются численно (CFD)
→ дискретизация по пространству и времени
Ключевая идея:
→ вязкость разрушает структуру
→ адвекция создаёт её
Их взаимодействие порождает всё — от гладких потоков до турбулентности.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Этот робот-манипулятор = ваша AI-модель.
Одно числовое значение в математике определяет, будет ли она обучаться или полностью «сломается».
Это градиентный спуск — базовая математическая основа всего AI, которым вы пользуетесь в повседневной жизни.
👉 @DataSciencegx
Одно числовое значение в математике определяет, будет ли она обучаться или полностью «сломается».
Это градиентный спуск — базовая математическая основа всего AI, которым вы пользуетесь в повседневной жизни.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
Представлены Hyperagents — ИИ-система, которая не только улучшает решение задач, но и улучшает сам процесс собственного улучшения.
Darwin Gödel Machine (DGM) продемонстрировала, что открытое самосовершенствование возможно за счёт итеративной генерации и оценки улучшенных агентов, однако она опирается на ключевое допущение: что улучшения в решении задач (например, в программировании) приводят к улучшениям самого процесса самосовершенствования. Это соответствие сохраняется в программировании, где и оценка, и модификация выражены в одной и той же предметной области, но в общем случае нарушается. В результате предыдущие системы остаются ограниченными фиксированными, вручную заданными процедурами мета-уровня, которые сами по себе не эволюционируют.
Они вводят Hyperagents — самореферентных агентов, способных модифицировать как своё поведение при решении задач, так и процесс, который генерирует будущие улучшения. Это даёт возможность того, что они называют метакогнитивной самомодификацией: обучаться не только выполнять задачи лучше, но и становиться лучше в самом процессе улучшения.
Этот подход реализован в виде DGM-Hyperagents (DGM-H) — расширения DGM, в котором как поведение решения задач, так и процедура самосовершенствования редактируемы и подвержены эволюции. В различных доменах (программирование, ревью научных работ, дизайн reward-функций в робототехнике и оценка решений олимпиадных задач по математике) hyperagents обеспечивают непрерывный рост качества со временем и превосходят базовые подходы без самосовершенствования или открытой эволюции, а также предыдущие самосовершенствующиеся системы (включая DGM). DGM-H также улучшает сам процесс генерации новых агентов (например, за счёт персистентной памяти и трекинга производительности), и эти мета-уровневые улучшения переносятся между доменами и накапливаются от запуска к запуску.
Статья полностью🆗
👉 @DataSciencegx
Darwin Gödel Machine (DGM) продемонстрировала, что открытое самосовершенствование возможно за счёт итеративной генерации и оценки улучшенных агентов, однако она опирается на ключевое допущение: что улучшения в решении задач (например, в программировании) приводят к улучшениям самого процесса самосовершенствования. Это соответствие сохраняется в программировании, где и оценка, и модификация выражены в одной и той же предметной области, но в общем случае нарушается. В результате предыдущие системы остаются ограниченными фиксированными, вручную заданными процедурами мета-уровня, которые сами по себе не эволюционируют.
Они вводят Hyperagents — самореферентных агентов, способных модифицировать как своё поведение при решении задач, так и процесс, который генерирует будущие улучшения. Это даёт возможность того, что они называют метакогнитивной самомодификацией: обучаться не только выполнять задачи лучше, но и становиться лучше в самом процессе улучшения.
Этот подход реализован в виде DGM-Hyperagents (DGM-H) — расширения DGM, в котором как поведение решения задач, так и процедура самосовершенствования редактируемы и подвержены эволюции. В различных доменах (программирование, ревью научных работ, дизайн reward-функций в робототехнике и оценка решений олимпиадных задач по математике) hyperagents обеспечивают непрерывный рост качества со временем и превосходят базовые подходы без самосовершенствования или открытой эволюции, а также предыдущие самосовершенствующиеся системы (включая DGM). DGM-H также улучшает сам процесс генерации новых агентов (например, за счёт персистентной памяти и трекинга производительности), и эти мета-уровневые улучшения переносятся между доменами и накапливаются от запуска к запуску.
Статья полностью
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Владимир Байкалов, ведущий исследователь AI VK, разобрал ключевые изменения и тренды в рекомендательных системах. Основной сдвиг связан с переходом к генеративным подходам, где модель формирует рекомендации напрямую. В этом контексте используются generative retrieval и semantic ids, позволяющие представлять айтемы как последовательности.
Telegram
AI VK Hub
Рекомендательные системы — один из ключевых механизмов, на которых держатся современные продукты. Они помогают пользователям находить контент, товары и сервисы, а бизнесу — повышать вовлеченность и качество пользовательского опыта. Вместе с Владимиром Байкаловым…
❤4
Построение Vectorless RAG-системы (Без эмбеддингов и векторной БД)
В этой статье рассматривается построение Vectorless, Reasoning-Based RAG-системы с использованием иерархической индексации страниц. Документ превращается в дерево, и LLM проходит по этому дереву, чтобы найти ответ. Без эмбеддингов. Без поиска по схожести.
Это очень похоже на то, как мы ищем информацию в реальной жизни. Когда нужно что-то найти в учебнике, не читают все страницы подряд. Сначала открывают содержание, находят нужную главу, затем просматривают секции и переходят прямо к нужной.
PageIndex работает аналогично. Вы передаёте ему документ, он строит дерево, где каждая ветка — это секция, а каждый лист — сам текст. Когда задаёте вопрос, LLM проходит по дереву уровень за уровнем, чтобы найти правильный ответ.
Полный код: https://github.com/vixhal-baraiya/pageindex-rag
👉 @DataSciencegx
В этой статье рассматривается построение Vectorless, Reasoning-Based RAG-системы с использованием иерархической индексации страниц. Документ превращается в дерево, и LLM проходит по этому дереву, чтобы найти ответ. Без эмбеддингов. Без поиска по схожести.
Это очень похоже на то, как мы ищем информацию в реальной жизни. Когда нужно что-то найти в учебнике, не читают все страницы подряд. Сначала открывают содержание, находят нужную главу, затем просматривают секции и переходят прямо к нужной.
PageIndex работает аналогично. Вы передаёте ему документ, он строит дерево, где каждая ветка — это секция, а каждый лист — сам текст. Когда задаёте вопрос, LLM проходит по дереву уровень за уровнем, чтобы найти правильный ответ.
Полный код: https://github.com/vixhal-baraiya/pageindex-rag
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤2🏆1