🌍🤖 GigaWorld-0: Модели мира
GigaWorld-0 - это унифицированная платформа для обучения Vision-Language-Action, использующая генерацию видео и 3D моделирование. Она обеспечивает создание разнообразных и реалистичных последовательностей, что делает её мощным инструментом для разработки эмбодированных ИИ.
🚀Основные моменты:
- Интеграция видео и 3D генерации для физической реалистичности.
- Поддержка текстовых подсказок для генерации видео.
- Модели доступны на Hugging Face для быстрого старта.
- Открытый исходный код с лицензией Apache 2.0.
📌 GitHub: https://github.com/open-gigaai/giga-world-0
#python
@Python_Community_ru
GigaWorld-0 - это унифицированная платформа для обучения Vision-Language-Action, использующая генерацию видео и 3D моделирование. Она обеспечивает создание разнообразных и реалистичных последовательностей, что делает её мощным инструментом для разработки эмбодированных ИИ.
🚀Основные моменты:
- Интеграция видео и 3D генерации для физической реалистичности.
- Поддержка текстовых подсказок для генерации видео.
- Модели доступны на Hugging Face для быстрого старта.
- Открытый исходный код с лицензией Apache 2.0.
📌 GitHub: https://github.com/open-gigaai/giga-world-0
#python
@Python_Community_ru
Новая работа MIT: LLM, который видит и меняет состояние Python
В MIT предложили подход, при котором языковая модель работает не только с текстом, а напрямую с живым состоянием Python-кода - переменными, объектами в памяти и текущей точкой выполнения.
Подход называется NIGHTJAR.
Главный результат
В экспериментах NIGHTJAR сократил объем кода в среднем на 39.6% без потери корректности.
В чем была проблема
Обычная LLM:
- читает текст
- генерирует текст
- не видит реальные данные программы
Поэтому типичный пайплайн выглядит так:
- данные сериализуются в текст
- отправляются модели
- ответ парсится
- программа вручную обновляется
Много glue-кода, много мест для ошибок.
Что меняет совместное состояние
Shared state полностью меняет модель взаимодействия:
- LLM может читать и писать переменные
- изменять объекты прямо в памяти
- останавливать и пропускать циклы
- работать с текущим состоянием выполнения
Модель не «рассуждает о коде», она с ним взаимодействует.
Как это реализовано
LLM не получает прямой доступ к памяти.
Она отправляет небольшие команды:
- прочитать переменную
- записать значение
- обновить объект
- выйти из цикла
Python-обработчик выполняет эти команды.
Такой контракт авторы называют natural function interface.
Результаты
На бенчмарке SPSBench с 25 программами:
- корректность осталась на уровне ручной интеграции или выше
- код стал заметно короче
- но время выполнения иногда росло до 4.3 раза
Причина проста - каждое обращение к состоянию может требовать отдельного вызова модели.
Почему это важно
- меньше шаблонного glue-кода
- проще писать сложную логику с участием LLM
- шаг к более тесной интеграции AI и runtime
- фундамент для новых агентных и интерактивных систем
Это не про ускорение.
Это про изменение архитектуры взаимодействия между программой и моделью.
📌 Статья: arxiv.org/abs/2512.14805
#AI #LLM #Python
@Python_Community_ru
В MIT предложили подход, при котором языковая модель работает не только с текстом, а напрямую с живым состоянием Python-кода - переменными, объектами в памяти и текущей точкой выполнения.
Подход называется NIGHTJAR.
Главный результат
В экспериментах NIGHTJAR сократил объем кода в среднем на 39.6% без потери корректности.
В чем была проблема
Обычная LLM:
- читает текст
- генерирует текст
- не видит реальные данные программы
Поэтому типичный пайплайн выглядит так:
- данные сериализуются в текст
- отправляются модели
- ответ парсится
- программа вручную обновляется
Много glue-кода, много мест для ошибок.
Что меняет совместное состояние
Shared state полностью меняет модель взаимодействия:
- LLM может читать и писать переменные
- изменять объекты прямо в памяти
- останавливать и пропускать циклы
- работать с текущим состоянием выполнения
Модель не «рассуждает о коде», она с ним взаимодействует.
Как это реализовано
LLM не получает прямой доступ к памяти.
Она отправляет небольшие команды:
- прочитать переменную
- записать значение
- обновить объект
- выйти из цикла
Python-обработчик выполняет эти команды.
Такой контракт авторы называют natural function interface.
Результаты
На бенчмарке SPSBench с 25 программами:
- корректность осталась на уровне ручной интеграции или выше
- код стал заметно короче
- но время выполнения иногда росло до 4.3 раза
Причина проста - каждое обращение к состоянию может требовать отдельного вызова модели.
Почему это важно
- меньше шаблонного glue-кода
- проще писать сложную логику с участием LLM
- шаг к более тесной интеграции AI и runtime
- фундамент для новых агентных и интерактивных систем
Это не про ускорение.
Это про изменение архитектуры взаимодействия между программой и моделью.
📌 Статья: arxiv.org/abs/2512.14805
#AI #LLM #Python
@Python_Community_ru
📝 Редактирование PDF с помощью ИИ 🚀
Nano PDF - это инструмент командной строки для редактирования PDF-документов с использованием естественного языка. Он позволяет вносить изменения в слайды, добавлять новые и сохранять текстовый слой с помощью OCR. Работает на базе модели Gemini 3 Pro Image.
🚀 Основные моменты:
- Редактирование слайдов по текстовым командам
- Генерация новых слайдов в стиле существующих
- Поддержка многопоточной обработки для повышения скорости
- Сохранение текстового слоя с помощью OCR
📌 GitHub: https://github.com/gavrielc/Nano-PDF
#python
@Python_Community_ru
Nano PDF - это инструмент командной строки для редактирования PDF-документов с использованием естественного языка. Он позволяет вносить изменения в слайды, добавлять новые и сохранять текстовый слой с помощью OCR. Работает на базе модели Gemini 3 Pro Image.
🚀 Основные моменты:
- Редактирование слайдов по текстовым командам
- Генерация новых слайдов в стиле существующих
- Поддержка многопоточной обработки для повышения скорости
- Сохранение текстового слоя с помощью OCR
📌 GitHub: https://github.com/gavrielc/Nano-PDF
#python
@Python_Community_ru
🎤 Инновационная система распознавания речи Fun-ASR
Fun-ASR — мощная модель распознавания речи, обученная на миллионах часов аудиоданных. Она поддерживает 31 язык и обеспечивает высокую точность в сложных условиях, таких как шумные помещения. Модель адаптирована для профессиональных терминов в таких областях, как образование и финансы.
🚀 Основные моменты:
- Высокая точность распознавания до 93% в шумных условиях.
- Поддержка 31 языка с акцентом на восточноазиатские языки.
- Оптимизация для распознавания диалектов и региональных акцентов.
- Способность распознавать текст песен на фоне музыки.
📌 GitHub: https://github.com/FunAudioLLM/Fun-ASR
#python
@Python_Community_ru
Fun-ASR — мощная модель распознавания речи, обученная на миллионах часов аудиоданных. Она поддерживает 31 язык и обеспечивает высокую точность в сложных условиях, таких как шумные помещения. Модель адаптирована для профессиональных терминов в таких областях, как образование и финансы.
🚀 Основные моменты:
- Высокая точность распознавания до 93% в шумных условиях.
- Поддержка 31 языка с акцентом на восточноазиатские языки.
- Оптимизация для распознавания диалектов и региональных акцентов.
- Способность распознавать текст песен на фоне музыки.
📌 GitHub: https://github.com/FunAudioLLM/Fun-ASR
#python
@Python_Community_ru
👍1