Технозаметки Малышева
8.48K subscribers
3.79K photos
1.42K videos
40 files
3.97K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
🚀 GigaChat 2 стал мультимодальным и уже доступен в боте и на сайте

Обновление серьёзное: модель научилась понимать не только текст, но и голос, изображения, ссылки и документы.

Что прокачали:

🔊 Аудио
Теперь GigaChat нативно понимает голос: на вход в модель поступает не просто распознанная речь, а вся аудиозапись целиком. Это позволяет взаимодействовать с моделью не только на русском, но и на английском, точнее понимать запросы с узко-специализированными терминами.

📎 Ссылки и документы
Файлы больше не грузятся в контекст целиком. Вместо этого — метаинформация и function call по требованию. Можно кидать сразу несколько документов и ссылок, и модель будет работать с ними осмысленно.

📽 Видео по ссылке
С YouTube, VK, RuTube — вытаскивается аудио, подаётся в модель целиком. GigaChat понимает, о чём речь, и умеет выдать краткое содержание или ответить на вопрос.

🖼 Зрение
Поддержка OCR, локализация объектов, понимание структуры изображений, обработка сканов документов, математических выражений, графиков.

⚙️ Function calling
Под капотом — гибкая система вызова внешних функций: работа с файлами, парсинг ссылок, интернет-поиск. Всё вызывается по необходимости в зависимости от запроса.

🧠 Контекст вырос, галлюцинаций меньше, лучше следование инструкциям и понимание длинных запросов.

Попробуем. Вот бы ещё все это локально можно было бы запустить, конечно :)

#Gigachat #Сбербанк
------
@tsingular
🔥144🆒3👍2
"Будущее наступило, просто оно неравномерно распределено"

Если бы Гибсон получал % за каждое упоминание своей фразы, за эти 2 дня на Конгрессе он бы неплохо заработал.

Фраза повторяется настолько часто, что иногда её слышно по 3-4 раза за секцию 😀

Можно ставить девизом Конгресса :)

#4CIO #PV2025
------
@tsingular
12👍75😁4
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🤖 Fourier Intelligence выпустила Fourier N1 — первого полностью open-source гуманоидного робота!

Fourier N1 — это компактный робот ростом 1.3 м и весом 38 кг, способный развивать скорость до 3.5 м/с.

За плечами более 1000 часов полевых испытаний.

🌟 Всё открыто: → список комплектующих (BOM)
→ CAD-чертежи и 3D-модели
→ спецификации приводов
→ управляющий код — на GitHub

⚙️ В основе робота — фирменные приводы FSA 2.0, обеспечивающие высокую устойчивость и манёвренность даже на пересечённой местности.

🔜 Github
🔜Документация (включайте автоперевод)

#ai #robots #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
9❤‍🔥4👍2👀2👾2
Media is too big
VIEW IN TELEGRAM
ByteDance показал модель Seaweed-7B для генерации видео

Seaweed создает видео по тексту и изображениям, умеет следовать командам и генерировать видео в реальном времени.

ByteDance видит Seaweed как базовую модель для применения в различных приложениях. Код пока не опубликован.

Больше примеров: https://seaweed.video/
🔥63🤩2
Forwarded from Бэкдор
⚡️ GPT-4.1 вышла — OpenAI представила сразу 3️⃣ модели: GPT 4.1, 4.1 mini, 4.1 nano.

• Это имба для конкретно для разрабов — нейронка очень сильна в написании кода.
• ЗАМЕТНО мощнее GPT-4o
• GPT-4o поддерживает МИЛЛИОН ТОКЕНОВ.
• Будет три модели под разные задачи: впервые будет GPT-4.1 nano — крошечная и очень дешевая моделька

👍 Бэкдор
Please open Telegram to view this post
VIEW IN TELEGRAM
32🔥21
Короче 4.1 nano в 2.5 раза умнее 4o mini

Мигрируем.

Upd: не умнее :)

#OpenAI
------
@tsingular
👍7😁2
Media is too big
VIEW IN TELEGRAM
Сэм Альтман на TED: о будущем OpenAI, AGI и новой эре человечества на русском

Видео идёт 53 минуты, но если нет времени — вот квинтэссенция:

🔹 500 млн пользователей в неделю — ChatGPT продолжает расти экспоненциально.

🔹 Open Source — OpenAI готовит к релизу мощную модель с открытым кодом.

🔹 Честное творчество — разрабатывается система компенсаций для художников, разрешивших использовать свой стиль.

🔹 AI и наука — прорывы в медицине и фундаментальных исследованиях — главная надежда на пользу ИИ.

🔹 Риски — биотерроризм, хаки, модели, способные к самосовершенствованию — это не фантастика, а задачи на сейчас.

🔹 Агентный интеллект — самый опасный и мощный класс AI. Безопасность здесь важнее функционала.

🔹 AGI? — чёткого определения нет. Но кривая развития — экспоненциальна.

🔹 Будущее — «Мой ребёнок будет жить в мире, где люди никогда не будут умнее ИИ», — говорит Альтман. Зато будет материальное изобилие, если всё сделать правильно.

Видео на VK Video и Дзен.

Переведено и озвучено Фабрикой Контента.

@ai_rostov
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🤔4😁2
Forwarded from Denis Sexy IT 🤖
Хехе, https://cursor.com/ тоже добавил 4.1 и сделал ее бесплатной (на какое-то время)

Гонка в которой выигрывает потребитель – лучшая гонка 🌝
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
This media is not supported in your browser
VIEW IN TELEGRAM
MeshGen: AI-агенты для Blender — творите 3D с помощью естественного языка

Наткнулся на интересный инструмент для 3D-моделирования, который может серьезно изменить рабочий процесс дизайнеров и энтузиастов Blender.

MeshGen — это свежий аддон, позволяющий управлять Blender через естественные языковые запросы с помощью AI-агентов.

Ключевые особенности:
• AI как инструмент
• Варианты запуска:
- Локально через llama.cpp или Ollama
- Удаленно через Hugging Face, Anthropic или OpenAI
• Интеграция с LLaMA-Mesh для локального обсуждения и создания 3D-моделей
• Интеграция с Hyper3D для генерации высококачественных 3D-мешей

Техническая начинка:
• Простая установка через ZIP-файл прямо в настройках Blender
• Поддержка локальных моделей на NVIDIA GPU (от 8GB VRAM)
• Возможность выбора между локальными моделями или API-интеграциями
• Полная совместимость с мощными LLM включая Llama-3.3-70B, Claude и GPT-4o

Практическое применение:
• 3D-художникам: быстрое создание концептов через текстовые запросы
• Новичкам: преодоление барьера входа в сложный интерфейс Blender
• Профессионалам: ускорение рутинных операций через языковые команды

Интерфейс интуитивно понятен — достаточно открыть сайдбар (клавиша N), выбрать вкладку MeshGen, ввести запрос (например, "Create a snowman") и нажать Submit.

Проект активно развивается — последний релиз v0.7.1 вышел всего 11 часов назад, содержит 575 звезд на GitHub. Судя по активности коммитов, команда регулярно вносит улучшения.

Если используете Blender и хотите попробовать AI-подход к моделированию — определенно стоит взглянуть.

#MeshGen #Blender #3D
———
@tsingular
🔥321
Forwarded from Ai molodca (Dobrokotov)
Как многие вчера догадались — да, мы тестировали новый Kling 2.0 💥, который я гоняю уже где-то неделю в рамках партнёрской программы.

Что могу сказать? Он очень хорош: понимание промта, количество движения, последовательность — отлично.

😑 Первое видео — тест img-to-video из случайных кадров (включая ваши генерации и, конечно же, Уилла Смита с пастой).

😳 Второе, более интересное — новый режим Multi-Elements (на версии 1.6), который подрезали у Pika, но сделали гораздо лучше. Загружаете видео, референс, пишете что-то вроде "замени/удали/добавь [объект] из футажа 1 на [объект 2]" — и готово.

В целом, что нового:

1. Модель KLING 2.0 с улучшенными базовыми возможностями
Пока что только базовые режимы Text to Video и Image to Video, 720p, без дополнительных контролов (но, возможно, скоро подъедет другая версия 2.0).

2. Multi-Elements (v1.6)
Добавление, замена, удаление объектов в видеосцене — удобно, гибко, быстро.

3. Motion Control (v1.6)
Кастомная анимация персонажей на изображении по промту или референсу.

4. KOLORS 2.0 — обновлённая генерация изображений
Большие улучшения по сравнению с версией 1.5 — по качеству, цвету, деталям.

5. Restyle (KOLORS 2.0)
Смена стилистики изображения — работает чисто и разнообразно.

6. Редактирование изображений
Новые функции Inpaint и Expand для креативного редактирования.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8🆒1
Вышел отчёт AI Index 2025 от Стэнфорда: взрывной рост проникновения AI во все сферы жизни

Стэнфорд выпустил самый полный на сегодня отчёт о развитии искусственного интеллекта.

Интересные факты: 78% компаний используют AI (+23% за год), производительность малых моделей выросла в 280 раз, а разрыв между открытыми и закрытыми моделями сократился до 1,7%.

США лидирует с 40 заметными моделями против 15 китайских, но Китай стремительно сокращает отставание. Инвестиции в США достигли $109 млрд — в 12 раз больше, чем в Китае.
(Т.е.: инвестируя в 12 раз меньше, чем США, Китай умудряется сокращать разрыв. Норм :) )

Интересно, что оптимизм относительно AI сильно зависит от страны: в Китае 83% видят больше пользы чем вреда, а в США только 39%.

Сам отчёт в комментарии.

#AIResearch #StanfordAI #AITrends #аналитика
———
@tsingular
🔥11👍5👌3
🥇 VL-Rethinker — новую парадигму мультимодального вывода, обучаемую напрямую с помощью Reinforcement Learning.

🌟 Новая SOTA на ключевых бенчмарках по vision + math:

🟢 MathVista: 80.3 → 🥇 (+6.4 vs GPT-o1 73.9)
🟢 MathVerse: 61.7 → 🥇 (+4.7 vs GPT-o1 57.0)
🟢 MathVision: 43.9 → 🥇 (+1.7 vs GPT-o1 42.2)

🔥 В чём секрет? GRPO-алгоритм с двумя ключевыми новшествами:

🟠Этап 1: Улучшение логики, с помощью GRPO + SSR (Selective Sample Replay):

Сохраняются только те последовательности действий модели (rollouts), которые дали ненулевое преимущество (advantage).

При повторном обучении приоритет отдается полезным примерам, что помогает стабилизировать обучение.

Почему это важно?
При обычном GRPO-со временем "advantage" может становиться нулевым → градиенты обнуляются → модель перестаёт учиться. SSR решает эту проблему.

🟠 Этап 2: Вынужденное «переосмысление» (Forced Rethinking)
На этом этапе в каждый rollout добавляется специальный триггер, заставляющий модель заново обдумывать ответ, прежде чем его выдать.

Это развивает способность к саморефлексии, улучшает многошаговое рассуждение и точность ответов.

🔥 Модель вынуждена подумать ещё раз перед финальным ответом.
Результат — у модели появляются признаки метапознания: она сама находит ошибки в начальных размышлениях.

✔️ VL-Rethinker-72B — первый VLM, обгоняющий GPT-o1.

Похоже, что будущее за "медленно думающими" и умеющими рефлексировать агентами.

🔜 Paper
🔜 Code
🔜 Website
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥4🔥3👍2🆒2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Пасхалочка.

Интересно, что Veo2 наотрез отказывается генерить видео по промпту "Crypto Easter".

Изыди, говорит, охальник, это супротив моих убеждений и правил. Бесовщина все это!

А вот промпт "Крипто Пасха" кушает как куличики, один за другим.

Ну и кто у нас ортодокс?

И да, на https://aistudio.google.com/u/2/generate-video все еще можно генерить пяток видео бесплатно на новом Google аккаунте.

P.S. Только сейчас понял, что не включал штатовский впн, а генерил на европейском.

@cgevent
🔥4
🪖Пентагон 2.0: Генеративный ИИ на военной службе США

Американские военные активно внедряют генеративный ИИ в разведывательные операции. Судя по материалам MIT Technology Review, мы наблюдаем "вторую фазу" военного применения искусственного интеллекта.

Ключевые факты:
• Подразделение морской пехоты США (15-й экспедиционный отряд) впервые использовало генеративный ИИ для анализа разведданных во время развертывания в Тихом океане для сортировки тысяч разведывательных материалов из открытых источников

• Технология разработана компанией Vannevar Labs, получившей контракт от Пентагона на $99 млн для внедрения этой технологии в больше военных подразделений

• ИИ используется для перевода, анализа настроений и выявления угроз с результатами, доступными через чат-интерфейс

Технические возможности:
• Обработка терабайтов данных на 80 языках из 180 стран
• Анализ профилей в социальных сетях и преодоление брандмауэров в странах вроде Китая
• Использование как OpenAI и Microsoft, так и собственных моделей

Практические результаты:
• Использование ИИ для отслеживания упоминаний подразделения в иностранных СМИ и анализа настроений • Применение ИИ для помощи в составлении ежедневных и еженедельных разведывательных отчетов командованию
• Время на анализ сократилось в разы по сравнению с ручной обработкой

Открытые вопросы:
1.Насколько эффективен "человек в контуре"? С ростом сложности систем ИИ и объема анализируемых данных становится почти невозможно для человека проверить все выводы машины.

2. Как классифицировать информацию? Генеративный ИИ способен соединять точки между несекретными документами и выявлять закономерности, которые сами по себе могли бы считаться секретными.

3. Как высоко по цепочке принятия решений должен продвинуться ИИ? Военные командиры интересуются потенциалом ИИ для улучшения принятия решений на оперативном уровне войны.

Потенциальные риски:
• Известная неточность LLM в критических с точки зрения безопасности приложениях

• Субъективность анализа настроений, который "даже людям трудно правильно оценить только на основе контента"

• Подверженность открытых источников дезинформации и манипуляциям
Несмотря на эти вопросы, полковник Шон Дайнан утверждает, что эксперимент — лишь "верхушка айсберга", и более активное использование генеративного ИИ только начинается.

Мы наблюдаем фундаментальный сдвиг: от простого сбора данных к их интерпретации искусственным интеллектом, что поднимает важные вопросы о будущем военных решений и роли человека в них.

Самое критичное - ИИ принимает решения в таком масштабе, который человек не может перепроверить.
В какой момент дёрнуть стоп-кран, - не понятно.

#Пентагон #military
———
@tsingular
🕊211🤯1💯1😐1👾1
Forwarded from Machinelearning
🌟 Cемейство гибридных моделей Nemotron-H от NVIDIA.

NVIDIA выпустила новое семейство языковых моделей Nemotron-H, сочетающих архитектуры Mamba и Transformer. Эти гибриды обещают до 3х ускорения инференса по сравнению с чистыми Transformer-моделями аналогичного размера (Qwen или Llama).

Семейство поддерживает английский, немецкий, испанский, французский, итальянский, корейский, португальский, русский, японский и китайский языки.

Основной фокус Nemotron-H — баланс между эффективностью и интеллектом: даже при меньшем числе параметров (47–56 млрд.) модели демонстрируют точность, близкую к DeepSeek-V3-671B.

Особенность Nemotron-H — использование FP8 для претрейна. 56B-версию обучали на 20 трлн. токенов с квантованием тензоров «на лету», а сжатую в FP4 модель c 47B можно запускать на потребительской RTX 5090 с поддержкой контекста до 1 млн. токенов. Правда, пришлось пожертвовать частью слоев самовнимания — их заменили на более легкие Mamba-блоки, чтобы ускорить генерацию.

NVIDIA не стала тренировать компактные версии модели с нуля. Вместо этого использовали дистилляцию: 47B-модель получили из 56B, удалив половину «тяжелых» слоев и дообучив на 63 млрд токенов. Результат — почти та же точность, но на 1.2x быстрее.

В бенчмарках Nemotron-H обходит конкурентов в математике и коде: на GSM8k 56B-версия дает 93.7% против 90.9% у Qwen-72B. А 8B-модель, хоть и уступает в MMLU, вырывается вперёд в HumanEval+ (56.1%) — ожидаемо, с учетом ее instruct-оптимизации.

Пока модели доступны на HF как базовые, но NVIDIA обещает добавить инструктивные и мультимодальные версии.

▶️В опенсорсный релиз были выпушены чекпоинты с контекстом 8 тыс. токенов:

🟢Nemotron-H-56B-Base-8K

🟢Nemotron-H-47B-Base-8K

🟢Nemotron-H-8B-Base-8K


📌 Лицензирование: NVIDIA Internal Scientific Research and Development Model License.


🟡Страница проекта
🟡Коллекция на HF
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #NemotronH #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
OpenAI разрабатывает конкурента Twitter — интеллектуальную социальную сеть

Компания Сэма Альтмана создаёт социальную платформу, напоминающую X (экс-Twitter).

Внутренний прототип фокусируется на генерации изображений и представляет собой ленту контента.

Руководитель проекта запрашивает отзывы о разработке у внешних экспертов.

Неясно, будет ли продукт выпущен как отдельное приложение или интегрирован в ChatGPT.

Запуск усилит соперничество между Альтманом и Маском, предлагавшим купить OpenAI за $97.4 млрд.

Обостряется конкуренция с Meta*(запрещённой в РФ), планирующей добавить социальную ленту в свой ИИ-ассистент.

Собственная платформа обеспечит организацию уникальными данными для обучения моделей.

Одна из задумок — помогать авторам публиковать качественный контент с помощью искусственного интеллекта.

Не можешь победить, - создай своё. Норм.

#OpenAI #SocialNetwork #Altman
-------
@tsingular
👍7