Python Community

🌍🤖 GigaWorld-0: Модели мира

GigaWorld-0 - это унифицированная платформа для обучения Vision-Language-Action, использующая генерацию видео и 3D моделирование. Она обеспечивает создание разнообразных и реалистичных последовательностей, что делает её мощным инструментом для разработки эмбодированных ИИ.

🚀Основные моменты:
- Интеграция видео и 3D генерации для физической реалистичности.
- Поддержка текстовых подсказок для генерации видео.
- Модели доступны на Hugging Face для быстрого старта.
- Открытый исходный код с лицензией Apache 2.0.

📌 GitHub: https://github.com/open-gigaai/giga-world-0

#python

@Python_Community_ru

899 views13:26

Python Community

‍Новая работа MIT: LLM, который видит и меняет состояние Python

В MIT предложили подход, при котором языковая модель работает не только с текстом, а напрямую с живым состоянием Python-кода - переменными, объектами в памяти и текущей точкой выполнения.

Подход называется NIGHTJAR.

Главный результат
В экспериментах NIGHTJAR сократил объем кода в среднем на 39.6% без потери корректности.

В чем была проблема
Обычная LLM:
- читает текст
- генерирует текст
- не видит реальные данные программы

Поэтому типичный пайплайн выглядит так:
- данные сериализуются в текст
- отправляются модели
- ответ парсится
- программа вручную обновляется

Много glue-кода, много мест для ошибок.

Что меняет совместное состояние
Shared state полностью меняет модель взаимодействия:
- LLM может читать и писать переменные
- изменять объекты прямо в памяти
- останавливать и пропускать циклы
- работать с текущим состоянием выполнения

Модель не «рассуждает о коде», она с ним взаимодействует.

Как это реализовано
LLM не получает прямой доступ к памяти.
Она отправляет небольшие команды:
- прочитать переменную
- записать значение
- обновить объект
- выйти из цикла

Python-обработчик выполняет эти команды.
Такой контракт авторы называют natural function interface.

Результаты
На бенчмарке SPSBench с 25 программами:
- корректность осталась на уровне ручной интеграции или выше
- код стал заметно короче
- но время выполнения иногда росло до 4.3 раза

Причина проста - каждое обращение к состоянию может требовать отдельного вызова модели.

Почему это важно
- меньше шаблонного glue-кода
- проще писать сложную логику с участием LLM
- шаг к более тесной интеграции AI и runtime
- фундамент для новых агентных и интерактивных систем

Это не про ускорение.
Это про изменение архитектуры взаимодействия между программой и моделью.

📌 Статья: arxiv.org/abs/2512.14805

#AI #LLM #Python

@Python_Community_ru

765 views06:54

Python Community

📝 Редактирование PDF с помощью ИИ 🚀

Nano PDF - это инструмент командной строки для редактирования PDF-документов с использованием естественного языка. Он позволяет вносить изменения в слайды, добавлять новые и сохранять текстовый слой с помощью OCR. Работает на базе модели Gemini 3 Pro Image.

🚀 Основные моменты:
- Редактирование слайдов по текстовым командам
- Генерация новых слайдов в стиле существующих
- Поддержка многопоточной обработки для повышения скорости
- Сохранение текстового слоя с помощью OCR

📌 GitHub: https://github.com/gavrielc/Nano-PDF

#python

@Python_Community_ru

941 views12:41

Python Community

🎤 Инновационная система распознавания речи Fun-ASR

Fun-ASR — мощная модель распознавания речи, обученная на миллионах часов аудиоданных. Она поддерживает 31 язык и обеспечивает высокую точность в сложных условиях, таких как шумные помещения. Модель адаптирована для профессиональных терминов в таких областях, как образование и финансы.

🚀 Основные моменты:
- Высокая точность распознавания до 93% в шумных условиях.
- Поддержка 31 языка с акцентом на восточноазиатские языки.
- Оптимизация для распознавания диалектов и региональных акцентов.
- Способность распознавать текст песен на фоне музыки.

📌 GitHub: https://github.com/FunAudioLLM/Fun-ASR

#python

@Python_Community_ru

👍1

1.06K views12:39

About

Blog

Apps

Platform