ЕС инвестирует €200 млрд в гонку ИИ-вооружений
Европейский Союз анонсировал масштабную программу инвестиций в развитие искусственного интеллекта на €200 млрд.
План включает €50 млрд государственных средств и €150 млрд частных инвестиций через European AI Champions Initiative.
Франция дополнительно выделяет €109 млрд в ответ на американский проект Stargate ($500 млрд).
Основной фокус направлен на создание гигафабрик для обучения крупных языковых моделей.
Параллельно ЕС первым внедряет комплексное регулирование AI Act, вызывая критику США за 'чрезмерный контроль'.
Великобритания и Штаты отказались подписывать декларацию о безопасном развитии технологий на саммите в Париже.
#EU #инвестиции
-------
@tsingular
Европейский Союз анонсировал масштабную программу инвестиций в развитие искусственного интеллекта на €200 млрд.
План включает €50 млрд государственных средств и €150 млрд частных инвестиций через European AI Champions Initiative.
Франция дополнительно выделяет €109 млрд в ответ на американский проект Stargate ($500 млрд).
Основной фокус направлен на создание гигафабрик для обучения крупных языковых моделей.
Параллельно ЕС первым внедряет комплексное регулирование AI Act, вызывая критику США за 'чрезмерный контроль'.
Великобритания и Штаты отказались подписывать декларацию о безопасном развитии технологий на саммите в Париже.
#EU #инвестиции
-------
@tsingular
👍7
YouTube и AI в 2025: что нового рассказал CEO
CEO YouTube Neal Mohan рассказал о планах компании на 2025.
Самое интересное по части AI:
Dream Screen и Dream Track развиваются:
- Скоро интегрируют Veo 2 для генерации видео-бэкграундов в Shorts
- Уже сейчас умеют генерить картинки для фона и музыку
Автоматический перевод голоса:
- 40% просмотров контента с дубляжом приходится на переведенные версии
- Автудубляж станет доступен всем участникам YouTube Partner Program
- Обещают больше языков в течение года
Защита от AI-фейков:
- Разрабатывают инструменты для детекции AI-контента
- Топовые креаторы уже тестируют раннюю версию системы
- Будут внедрять контроль за тем, как AI используется для изображения людей
ML для определения возраста:
- Научатся различать детей и взрослых
- Цель - адаптировать контент под возраст
Что интересно - YouTube не стал делать ставку на генеративный AI как главный тренд. Вместо этого фокус на практических инструментах:
- Помощь в создании тайтлов/превью
- Автоматизация рутины
- Улучшение существующего контента
Кстати, забавно что они до сих пор называют это "early days" для AI. Видимо, реально крутые штуки еще впереди!
ElevenLabs в опасности.
Вообще автоперевод тема, конечно, интересно когда наши добавят?
Рутуб, ВК, Дзен по идее оно уже всё есть в опенсорсе, видеокарты у них есть.
Работы на выходные для MVP :)
#YouTube #ContentCreation
———
@tsingular
CEO YouTube Neal Mohan рассказал о планах компании на 2025.
Самое интересное по части AI:
Dream Screen и Dream Track развиваются:
- Скоро интегрируют Veo 2 для генерации видео-бэкграундов в Shorts
- Уже сейчас умеют генерить картинки для фона и музыку
Автоматический перевод голоса:
- 40% просмотров контента с дубляжом приходится на переведенные версии
- Автудубляж станет доступен всем участникам YouTube Partner Program
- Обещают больше языков в течение года
Защита от AI-фейков:
- Разрабатывают инструменты для детекции AI-контента
- Топовые креаторы уже тестируют раннюю версию системы
- Будут внедрять контроль за тем, как AI используется для изображения людей
ML для определения возраста:
- Научатся различать детей и взрослых
- Цель - адаптировать контент под возраст
Что интересно - YouTube не стал делать ставку на генеративный AI как главный тренд. Вместо этого фокус на практических инструментах:
- Помощь в создании тайтлов/превью
- Автоматизация рутины
- Улучшение существующего контента
Кстати, забавно что они до сих пор называют это "early days" для AI. Видимо, реально крутые штуки еще впереди!
ElevenLabs в опасности.
Вообще автоперевод тема, конечно, интересно когда наши добавят?
Рутуб, ВК, Дзен по идее оно уже всё есть в опенсорсе, видеокарты у них есть.
Работы на выходные для MVP :)
#YouTube #ContentCreation
———
@tsingular
👍8
Forwarded from Сиолошная
Competitive Programming with Large Reasoning Models
OpenAI выпустили скорее не статью, а отчёт о том, как они замеряют прогресс в программировании у моделей, и сравнивают o3 с o1 и o1-ioi (системой, которая была заточена на решение международной олимпиады по информатике; там были свои методы с агрегацией и фильтрацией решений).
Большая часть метрик уже была показана ранее, тут больших сюрпризов нет, просто добавили деталей. Одна из важнейших — это то, как сравнивают решения LLM с решениями людей в соревнованиях, где играет роль время отправки решения и количество ошибок. Недостаточно просто написать код, который прошёл все тесты — нужно это делать как можно быстрее. Понятно, что кластер с 100,000 видеокарт сгенерирует пару сотен решений быстрее, чем человек, так ещё и одновременно для всех задач сразу — как быть?
OpenAI выбрали, как мне кажется, достаточно резонную стратегию (тут и ниже — в контексте оценки рейтинга CodeForces): они использовали медианное время отправки и количество попыток среди всех людей, кто решил задачу. Таким образом полученные оценки слегка занижены относительно того, если бы OpenAI гнались за максимальным скором, и считали, что отправляют решения быстрее всех (или хотя бы как топ-10-20%, а не медианный).
<тут я должен напомнить что при таком замере рейтинг o3 достигает 2724, или 99.8 перцентиль, то есть лучше неё очень малая доля участников>
===
Другая интересная вещь: o3 во время рассуждений может пользоваться инструментами (o1 пока нет), то есть запускать код, который сама пишет, без отправки решения. Почти наверняка модель так обучалась.
На картинке вы видите одну из стратегий, обнаруженную o3 во время тренировки и применяемую тут: для проблем, где проверка нетривиальна, она часто пишет простые решения методом перебора — жертвуя эффективностью ради правильности — затем перекрестно проверяет результаты с помощью своих более оптимизированных алгоритмических реализаций. Этот самодельный механизм проверки позволяет o3 выявлять потенциальные ошибки и повышать надежность своих решений.
Говоря проще код на картинке — это проверка в духе «так, вот тут решение, в котором я точно уверен, а вот моё оптимизированное. Не продолбался ли я где-то? Ща проверим на сотне случайных примеров». И всё это в рамках цепочки рассуждений.
Благодаря DeepSeek R1 мы знаем, что OpenAI не врали, когда говорили, что модель сама по себе придумывает паттерны рассуждений, без вмешательства человека и явного прописывания таких стратегий. Скорее всего, этот пример тоже относится к таким — модель во время обучения просто поняла, что такие проверки позволяют чаще справляться с задачами, меньше ошибаться (что вполне логично), и начала применять технику. Ведь по сути это та же самопроверка, которую мы видели для математических задач, просто с отдельным запуском кода.
Absolute Cinema 🖐😶🤚
OpenAI выпустили скорее не статью, а отчёт о том, как они замеряют прогресс в программировании у моделей, и сравнивают o3 с o1 и o1-ioi (системой, которая была заточена на решение международной олимпиады по информатике; там были свои методы с агрегацией и фильтрацией решений).
Большая часть метрик уже была показана ранее, тут больших сюрпризов нет, просто добавили деталей. Одна из важнейших — это то, как сравнивают решения LLM с решениями людей в соревнованиях, где играет роль время отправки решения и количество ошибок. Недостаточно просто написать код, который прошёл все тесты — нужно это делать как можно быстрее. Понятно, что кластер с 100,000 видеокарт сгенерирует пару сотен решений быстрее, чем человек, так ещё и одновременно для всех задач сразу — как быть?
OpenAI выбрали, как мне кажется, достаточно резонную стратегию (тут и ниже — в контексте оценки рейтинга CodeForces): они использовали медианное время отправки и количество попыток среди всех людей, кто решил задачу. Таким образом полученные оценки слегка занижены относительно того, если бы OpenAI гнались за максимальным скором, и считали, что отправляют решения быстрее всех (или хотя бы как топ-10-20%, а не медианный).
<тут я должен напомнить что при таком замере рейтинг o3 достигает 2724, или 99.8 перцентиль, то есть лучше неё очень малая доля участников>
===
Другая интересная вещь: o3 во время рассуждений может пользоваться инструментами (o1 пока нет), то есть запускать код, который сама пишет, без отправки решения. Почти наверняка модель так обучалась.
На картинке вы видите одну из стратегий, обнаруженную o3 во время тренировки и применяемую тут: для проблем, где проверка нетривиальна, она часто пишет простые решения методом перебора — жертвуя эффективностью ради правильности — затем перекрестно проверяет результаты с помощью своих более оптимизированных алгоритмических реализаций. Этот самодельный механизм проверки позволяет o3 выявлять потенциальные ошибки и повышать надежность своих решений.
Говоря проще код на картинке — это проверка в духе «так, вот тут решение, в котором я точно уверен, а вот моё оптимизированное. Не продолбался ли я где-то? Ща проверим на сотне случайных примеров». И всё это в рамках цепочки рассуждений.
Благодаря DeepSeek R1 мы знаем, что OpenAI не врали, когда говорили, что модель сама по себе придумывает паттерны рассуждений, без вмешательства человека и явного прописывания таких стратегий. Скорее всего, этот пример тоже относится к таким — модель во время обучения просто поняла, что такие проверки позволяют чаще справляться с задачами, меньше ошибаться (что вполне логично), и начала применять технику. Ведь по сути это та же самопроверка, которую мы видели для математических задач, просто с отдельным запуском кода.
Absolute Cinema 🖐😶🤚
👍6❤🔥3❤1🔥1
Интересная фундаментальная мысль из курса HF про агентов.
Использование агента с функцией написания кода позволяет снизить количество действий.
#agents #dev #huggingface
———
@tsingular
Использование агента с функцией написания кода позволяет снизить количество действий.
#agents #dev #huggingface
———
@tsingular
🔥4⚡2👍1
Forwarded from Анализ данных (Data analysis)
🌟 GenBI AI Agent с открытым исходным кодом, который позволяет разработчикам, работающим с данными, использовать свои данные для создания текстовых SQL-преобразований, диаграмм, электронных таблиц, отчетов и бизнес-аналитики. 📊
Помогает вам взаимодействовать с данными для генерации SQL, диаграмм и отчетов, используя выбранный вами LLM. Он предоставляет решение GenBI с открытым исходным кодом для команд, работающих с данными и ищущих информацию без кода.
Что он предлагает:ц
→ Wren AI — это агент GenBI AI с открытым исходным кодом, который позволяет командам, работающим с данными, взаимодействовать со своими данными через промпты.
→ Он генерирует запросы Text-to-SQL, диаграммы, электронные таблицы, отчеты и аналитические данные BI.
→ Поддерживает несколько LLM, включая OpenAI, Azure OpenAI, DeepSeek, Google Gemini, Vertex AI, Bedrock, Anthropic, Groq, Ollama и Databricks.
→ Wren AI позволяет пользователям задавать вопросы о данных на нескольких языках и предоставляет созданные ИИ сводки и визуализации результатов запросов.
→ Он включает в себя исследование данных на основе искусственного интеллекта, семантическое индексирование для контекста и позволяет экспортировать данные в Excel и Google Таблицы.
⚡️ Github
@data_analysis_ml
Помогает вам взаимодействовать с данными для генерации SQL, диаграмм и отчетов, используя выбранный вами LLM. Он предоставляет решение GenBI с открытым исходным кодом для команд, работающих с данными и ищущих информацию без кода.
Что он предлагает:ц
→ Wren AI — это агент GenBI AI с открытым исходным кодом, который позволяет командам, работающим с данными, взаимодействовать со своими данными через промпты.
→ Он генерирует запросы Text-to-SQL, диаграммы, электронные таблицы, отчеты и аналитические данные BI.
→ Поддерживает несколько LLM, включая OpenAI, Azure OpenAI, DeepSeek, Google Gemini, Vertex AI, Bedrock, Anthropic, Groq, Ollama и Databricks.
→ Wren AI позволяет пользователям задавать вопросы о данных на нескольких языках и предоставляет созданные ИИ сводки и визуализации результатов запросов.
→ Он включает в себя исследование данных на основе искусственного интеллекта, семантическое индексирование для контекста и позволяет экспортировать данные в Excel и Google Таблицы.
— curl -L https://github.com/Canner/WrenAI/releases/latest/download/wren-launcher-darwin.tar.gz | tar -xz && ./wren-launcher-darwin@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤🔥1
Media is too big
VIEW IN TELEGRAM
Примерно с такой скоростью deepseek-r1:70b Q4 думает о Римской Империи на Mac Pro M4 Max локально.
gemma2:27b при этом выдает 24 токена в секунду.
#macbook #test
———
@tsingular
gemma2:27b при этом выдает 24 токена в секунду.
#macbook #test
———
@tsingular
🔥10❤1
Forwarded from Data Secrets
Сэм Альтман внезапно запостил в X планы OpenAI. GPT-4.5 (aka тот самый Orion, для которого из o3 генерировали синтетику) станет последней не-ризонинг моделью и выйдет уже в течение нескольких недель.
После этого компания надеется создать единую модель, которая будет воплощать в себе все технологии OpenAI, включая o3: GPT-5. По словам Сэма, она сама будет знать, когда думать дольше, а когда нет. Также в нее интегрируют голосовой режим, агентов, поиск и canvas.
При этом GPT-5 будет доступна бесплатно! А Plus и Pro юзеры смогут запускать ее на более высоком уровне компьюта.
Мы хотим, чтобы ИИ «просто работал» для вас, и мечтаем вернуться к единому волшебному интеллекту вместо множества моделей, из которых приходится выбирать
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡7❤🔥4❤1
Законы масштабирования ИИ от NVIDIA
Pretraining Scaling:
Больше параметров
Больше данных
Больше вычислительной мощности
= Лучше результат
Именно отсюда растут модели на триллионы параметров и MoE (Mixture of Experts) архитектуры.
Post-training Scaling:
Fine-tuning на специфических задачах
Дистилляция (большая модель учит маленькую)
RLHF/RLAIF для коррекции на обратной связи от человека или ИИ
Best-of-n sampling для улучшения выходных данных
Неожиданный факт: на пост-тренинг производных моделей уходит в 30 раз больше вычислений, чем на тренировку базовой! 🤯
Test-time Scaling (он же Long/Deep Thinking) - горячий тренд:
Модель не выдаёт ответ сразу, а "размышляет"
На сложных задачах может думать минутами или часами
Потребляет в 100 раз больше ресурсов по сравнению с обычным инференсом
Использует chain-of-thought prompting и поиск по дереву решений
Технические детали:
Chain-of-thought: разбивает сложные проблемы на простые шаги
Majority voting: генерирует несколько ответов и выбирает самый частый
Search: исследует дерево возможных решений
Что дальше?
Уже появились первые модели с упором на reasoning:
OpenAI o1-mini и o3-mini
DeepSeek R1
Gemini 2.0 Flash Thinking
Индустрия делает серьёзную ставку на "думающие" модели - но это требует космических вычислительных ресурсов.
Нужно больше золота, милорд! :)
#NVIDIA #ScalingLaws #Computing
———
@tsingular
Pretraining Scaling:
Больше параметров
Больше данных
Больше вычислительной мощности
= Лучше результат
Именно отсюда растут модели на триллионы параметров и MoE (Mixture of Experts) архитектуры.
Post-training Scaling:
Fine-tuning на специфических задачах
Дистилляция (большая модель учит маленькую)
RLHF/RLAIF для коррекции на обратной связи от человека или ИИ
Best-of-n sampling для улучшения выходных данных
Неожиданный факт: на пост-тренинг производных моделей уходит в 30 раз больше вычислений, чем на тренировку базовой! 🤯
Test-time Scaling (он же Long/Deep Thinking) - горячий тренд:
Модель не выдаёт ответ сразу, а "размышляет"
На сложных задачах может думать минутами или часами
Потребляет в 100 раз больше ресурсов по сравнению с обычным инференсом
Использует chain-of-thought prompting и поиск по дереву решений
Технические детали:
Chain-of-thought: разбивает сложные проблемы на простые шаги
Majority voting: генерирует несколько ответов и выбирает самый частый
Search: исследует дерево возможных решений
Что дальше?
Уже появились первые модели с упором на reasoning:
OpenAI o1-mini и o3-mini
DeepSeek R1
Gemini 2.0 Flash Thinking
Индустрия делает серьёзную ставку на "думающие" модели - но это требует космических вычислительных ресурсов.
Нужно больше золота, милорд! :)
#NVIDIA #ScalingLaws #Computing
———
@tsingular
👍7
This media is not supported in your browser
VIEW IN TELEGRAM
🔬 GPT Researcher: Автономный агент исследователь
Что умеет:
Проводит комплексное исследование по любой теме, используя множество веб-источников
Генерирует отчёты объёмом более 2000 слов с цитированием источников
Работает как с веб-контентом, так и с локальными документами (PDF, Excel, Word и др.)
Умеет извлекать и фильтровать изображения для отчётов
🤖 Архитектура: система использует два типа агентов - планировщик и исполнители. Планировщик формулирует исследовательские вопросы, а исполнители параллельно собирают информацию.
Потом специальный "издатель" собирает всё в единый отчёт.
- Сокращает время на исследование рынка с недель до часов
- Снижает риск предвзятости благодаря агрегации более 20 источников
- Может работать с корпоративными документами
- Есть API для интеграции в существующие системы
🛠 Технически проект открытый, можно развернуть локально или через Docker.
Есть даже pip-пакет для простой интеграции.
Работает на Python 3.11+, использует FastAPI для бэкенда и предлагает два варианта фронтенда - легкий на чистом HTML/CSS/JS и продакшн-версию на NextJS + Tailwind.
Сайт проекта
GitHub : 18K звёзд, 120 авторов уже.
Отменяем подписку на o3, DeepResearch теперь есть у нас дома. :)
#Research #агенты #GPTResearcher
———
@tsingular
Что умеет:
Проводит комплексное исследование по любой теме, используя множество веб-источников
Генерирует отчёты объёмом более 2000 слов с цитированием источников
Работает как с веб-контентом, так и с локальными документами (PDF, Excel, Word и др.)
Умеет извлекать и фильтровать изображения для отчётов
🤖 Архитектура: система использует два типа агентов - планировщик и исполнители. Планировщик формулирует исследовательские вопросы, а исполнители параллельно собирают информацию.
Потом специальный "издатель" собирает всё в единый отчёт.
- Сокращает время на исследование рынка с недель до часов
- Снижает риск предвзятости благодаря агрегации более 20 источников
- Может работать с корпоративными документами
- Есть API для интеграции в существующие системы
🛠 Технически проект открытый, можно развернуть локально или через Docker.
Есть даже pip-пакет для простой интеграции.
Работает на Python 3.11+, использует FastAPI для бэкенда и предлагает два варианта фронтенда - легкий на чистом HTML/CSS/JS и продакшн-версию на NextJS + Tailwind.
Сайт проекта
GitHub : 18K звёзд, 120 авторов уже.
Отменяем подписку на o3, DeepResearch теперь есть у нас дома. :)
#Research #агенты #GPTResearcher
———
@tsingular
👍9
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 AnythingLLM: OpenSource фреймворк с поддержкой документов
AnythingLLM от Mintplex Labs. Это полноценное веб-приложение, которое превращает любые ваши документы в контекст для чата с LLM.
- Поддержка и проприетарных, и опенсорсных LLM (от GPT-4 до Llama)
- 🆕 Встроенный конструктор AI-агентов без кода
- Мультимодальность (работа с изображениями)
- Поддержка разных векторных БД (LanceDB, Pinecone, Chroma и др.)
- Можно развернуть как локально, так и в облаке
Полезное для бизнеса:
1. Встраиваемый виджет чата для вашего сайта
2. Многопользовательский режим с разграничением прав
3. Полноценное API для интеграций
4. Умная система работы с большими документами (экономит деньги на токенах)
Прикольная фича - система "рабочих пространств". Это как отдельные потоки для разных задач, которые не пересекаются контекстом. То есть можно сделать одно пространство для техдокументации, другое для маркетинговых материалов и т.д.
А еще порадовала поддержка разных TTS/STT движков - от встроенного браузерного до OpenAI и ElevenLabs.
Для разработчиков: написано на React + NodeJS, можно развернуть через Docker или напрямую из исходников.
Github : 36K звезд, 113 авторов
В общем, если хотите свой собственный ChatGPT для работы с корпоративными документами - интересный вариант. И главное - бесплатный! Основной сайт из РФ - через VPN.
#Frameworks #OpenSource #AnythingLLM
———
@tsingular
AnythingLLM от Mintplex Labs. Это полноценное веб-приложение, которое превращает любые ваши документы в контекст для чата с LLM.
- Поддержка и проприетарных, и опенсорсных LLM (от GPT-4 до Llama)
- 🆕 Встроенный конструктор AI-агентов без кода
- Мультимодальность (работа с изображениями)
- Поддержка разных векторных БД (LanceDB, Pinecone, Chroma и др.)
- Можно развернуть как локально, так и в облаке
Полезное для бизнеса:
1. Встраиваемый виджет чата для вашего сайта
2. Многопользовательский режим с разграничением прав
3. Полноценное API для интеграций
4. Умная система работы с большими документами (экономит деньги на токенах)
Прикольная фича - система "рабочих пространств". Это как отдельные потоки для разных задач, которые не пересекаются контекстом. То есть можно сделать одно пространство для техдокументации, другое для маркетинговых материалов и т.д.
А еще порадовала поддержка разных TTS/STT движков - от встроенного браузерного до OpenAI и ElevenLabs.
Для разработчиков: написано на React + NodeJS, можно развернуть через Docker или напрямую из исходников.
Github : 36K звезд, 113 авторов
В общем, если хотите свой собственный ChatGPT для работы с корпоративными документами - интересный вариант. И главное - бесплатный! Основной сайт из РФ - через VPN.
#Frameworks #OpenSource #AnythingLLM
———
@tsingular
👍4
🚀 Новый Sonar от Perplexity: Быстрый как молния, умный как GPT-4
Perplexity представила обновленную версию своей in-house модели Sonar.
- основана на Llama 3.3 70B
- Скорость генерации: 1200 токенов в секунду
- Работает на инфраструктуре Cerebras
По результатам A/B тестирования, Sonar не просто конкурирует с топовыми моделями, а местами их превосходит:
- Обгоняет GPT-4o mini и Claude 3.5 Haiku
- На уровне или лучше Claude 3.5 Sonnet по фактам
- Почти догоняет GPT-4o, но работает в 10 раз быстрее и стоит дешевле
Бизнес-применение:
1. Мгновенный поиск информации
2. Подробные ответы на вопросы
3. Высокая точность при работе с фактами
4. Отличная читаемость текста благодаря правильному форматированию
Доступность:
- Уже доступен всем Pro-пользователям Perplexity
- Скоро появится API с инфраструктурой Cerebras
Впечатляет, что они смогли так разогнать 70B модель по качеству ответов. RAG с поиском тащит.
#Perplexity #Sonar
———
@tsingular
Perplexity представила обновленную версию своей in-house модели Sonar.
- основана на Llama 3.3 70B
- Скорость генерации: 1200 токенов в секунду
- Работает на инфраструктуре Cerebras
По результатам A/B тестирования, Sonar не просто конкурирует с топовыми моделями, а местами их превосходит:
- Обгоняет GPT-4o mini и Claude 3.5 Haiku
- На уровне или лучше Claude 3.5 Sonnet по фактам
- Почти догоняет GPT-4o, но работает в 10 раз быстрее и стоит дешевле
Бизнес-применение:
1. Мгновенный поиск информации
2. Подробные ответы на вопросы
3. Высокая точность при работе с фактами
4. Отличная читаемость текста благодаря правильному форматированию
Доступность:
- Уже доступен всем Pro-пользователям Perplexity
- Скоро появится API с инфраструктурой Cerebras
Впечатляет, что они смогли так разогнать 70B модель по качеству ответов. RAG с поиском тащит.
#Perplexity #Sonar
———
@tsingular
👍9
Media is too big
VIEW IN TELEGRAM
🤖 Rogo: Как OpenAI революционизирует работу инвестбанкиров
Интересный кейс из мира финтеха: стартап Rogo в 2024 году создал платформу, которая экономит банкирам 10+ часов в неделю на рутине. И вот как они это делают:
Технически платформа построена на трёх уровнях OpenAI:
- GPT-4 для глубокой аналитики и чат-интерфейса
- o1-mini для структурирования финансовых данных
- o1 для продвинутых задач и генерации синтетических данных
- Платформа подключается к S&P Global, Crunchbase и FactSet
- Умеет анализировать 50+ млн финансовых документов
- Автоматизирует due diligence и подготовку к встречам
- Генерирует готовые презентации
Бизнес-результаты:
- 5000+ банкиров уже используют
- ARR вырос в 27 раз
- Работает в крупнейших инвестбанках
Позиционируют себя как "Bloomberg для глубокой аналитики"
Что интересно: у них есть команда бывших банкиров, которая проверяет и размечает данные для обучения моделей. То есть AI получается "с пониманием контекста".
От человека нужна только разметка и валидация. Исполнение полностью на ИИ. И это ещё не GPT5, который уже вот вот на подходе.
#fintech #OpenAI #кейсы
———
@tsingular
Интересный кейс из мира финтеха: стартап Rogo в 2024 году создал платформу, которая экономит банкирам 10+ часов в неделю на рутине. И вот как они это делают:
Технически платформа построена на трёх уровнях OpenAI:
- GPT-4 для глубокой аналитики и чат-интерфейса
- o1-mini для структурирования финансовых данных
- o1 для продвинутых задач и генерации синтетических данных
- Платформа подключается к S&P Global, Crunchbase и FactSet
- Умеет анализировать 50+ млн финансовых документов
- Автоматизирует due diligence и подготовку к встречам
- Генерирует готовые презентации
Бизнес-результаты:
- 5000+ банкиров уже используют
- ARR вырос в 27 раз
- Работает в крупнейших инвестбанках
Позиционируют себя как "Bloomberg для глубокой аналитики"
Что интересно: у них есть команда бывших банкиров, которая проверяет и размечает данные для обучения моделей. То есть AI получается "с пониманием контекста".
От человека нужна только разметка и валидация. Исполнение полностью на ИИ. И это ещё не GPT5, который уже вот вот на подходе.
#fintech #OpenAI #кейсы
———
@tsingular
👍4🔥2⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
MenteeBot V3.0
MenteeBot V3.0 — гуманоидный робот с полнофункциональным ИИ.
Ключевые усовершенствования:
Новые приводы: обеспечивают в 3 раза большую мощность и точность.
Улучшенные датчики на голове: обеспечивают превосходную ситуационную осведомленность.
Улучшенная подвижность туловища: обеспечивает большую ловкость и гибкость при выполнении задач.
Новая система аккумуляторов: обеспечивает более 3 часов работы на одном заряде и круглосуточную бесперебойную работу благодаря горячей замене.
Увеличенная грузоподъемность: выдерживает нагрузку до 25 кг.
Измененные руки: обеспечивают более прочный захват, ударопрочность и точность манипуляций.
Скорость шага до 1,5 метра в секунду.
Рост 175 см.
Углы обзора 360 градусов: достигнуты с помощью боковых камер типа «рыбий глаз» и задней камеры.
2 x Jetson Orin AGX.
сайт разработчиков
#robots
———
@tsingular
MenteeBot V3.0 — гуманоидный робот с полнофункциональным ИИ.
Ключевые усовершенствования:
Новые приводы: обеспечивают в 3 раза большую мощность и точность.
Улучшенные датчики на голове: обеспечивают превосходную ситуационную осведомленность.
Улучшенная подвижность туловища: обеспечивает большую ловкость и гибкость при выполнении задач.
Новая система аккумуляторов: обеспечивает более 3 часов работы на одном заряде и круглосуточную бесперебойную работу благодаря горячей замене.
Увеличенная грузоподъемность: выдерживает нагрузку до 25 кг.
Измененные руки: обеспечивают более прочный захват, ударопрочность и точность манипуляций.
Скорость шага до 1,5 метра в секунду.
Рост 175 см.
Углы обзора 360 градусов: достигнуты с помощью боковых камер типа «рыбий глаз» и задней камеры.
2 x Jetson Orin AGX.
сайт разработчиков
#robots
———
@tsingular
👍8🔥2🤔2😢1
Слушайте, по поводу Deep-Research (помните такая новая фишка, которая в прошлом месяце подавалась как прорыв, победа и т.д.), оно уже настолько перешло в разряд обыденности, что, кажется, становится тестовым выпускным заданием на базовых курсах по ИИ.
Дэвид Чжан (dzhng) выложил в open source deep-research — минималистичный AI-агент для глубокого исследования любой темы.
Уже собрал 11.6k звёзд на GitHub!
Работает как настоящий исследователь:
- генерирует поисковые запросы,
- анализирует результаты и углубляется в тему на основе находок
Использует комбо из поисковиков, веб-скрапинга и LLM (по умолчанию o3-mini)
Вся логика уместилась в 500 строк кода!
Можно настраивать "ширину" (3-10 направлений) и "глубину" (1-5 уровней) исследования
Умеет задавать уточняющие вопросы, чтобы лучше понять задачу
Код открыт под MIT лицензией, можно использовать и модифицировать как угодно!
#Research #Agent
———
@tsingular
Дорогие дети, достаём карандаши, сегодня мы пишем агента-исследователя. Нет, пока без ИИ, просто в тетрадях в клеточку достаточно будет.
В конце урока за 15 минут наберёте в консоли.
Дэвид Чжан (dzhng) выложил в open source deep-research — минималистичный AI-агент для глубокого исследования любой темы.
Уже собрал 11.6k звёзд на GitHub!
Работает как настоящий исследователь:
- генерирует поисковые запросы,
- анализирует результаты и углубляется в тему на основе находок
Использует комбо из поисковиков, веб-скрапинга и LLM (по умолчанию o3-mini)
Вся логика уместилась в 500 строк кода!
Можно настраивать "ширину" (3-10 направлений) и "глубину" (1-5 уровней) исследования
Умеет задавать уточняющие вопросы, чтобы лучше понять задачу
Код открыт под MIT лицензией, можно использовать и модифицировать как угодно!
#Research #Agent
———
@tsingular
👍14
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Бесплатный Deep Research от Perplexity
Без подписки дают 5 запросов в день, подписчикам - 500 запросов в день. На Humanity's Last Exam, Deep Research от Perplexity набирает 21,1%. Это хуже результатов OpenAI, но в разы лучше всех остальных конкурентов.
Хороший повод для OpenAI дать доступ к Deep Research подписчикам Plus.
perplexity.ai
@ai_newz
Без подписки дают 5 запросов в день, подписчикам - 500 запросов в день. На Humanity's Last Exam, Deep Research от Perplexity набирает 21,1%. Это хуже результатов OpenAI, но в разы лучше всех остальных конкурентов.
Хороший повод для OpenAI дать доступ к Deep Research подписчикам Plus.
perplexity.ai
@ai_newz
👍5❤1🔥1
Microsoft научила ИИ писать себя сам
Microsoft представила RD-Agent - инструмент для автоматизации исследований и разработок с использованием искусственного интеллекта.
Фреймворк способен самостоятельно изучать проблематику, искать решения, предлагать идеи и реализовывать их в коде через модули Research и Development.
Ключевые возможности уже включают: обучение нейросетей, количественную торговлю, анализ финансов, медпрогнозы и оптимизацию моделей.
Версия 0.3. Ведётся активная доработка новых возможностей.
Система работает по циклу: гипотеза → эксперимент → код → обратная связь → улучшение.
Запуск возможен как через Docker, так и через pip установку с подключением к OpenAI/Azure API.
Живое демо
Теперь ИИ агент сможет доработать сам себя. Помянем человечество. 🤖
#Microsoft #RDAgent #AutomatedResearch
-------
@tsingular
Microsoft представила RD-Agent - инструмент для автоматизации исследований и разработок с использованием искусственного интеллекта.
Фреймворк способен самостоятельно изучать проблематику, искать решения, предлагать идеи и реализовывать их в коде через модули Research и Development.
Ключевые возможности уже включают: обучение нейросетей, количественную торговлю, анализ финансов, медпрогнозы и оптимизацию моделей.
Версия 0.3. Ведётся активная доработка новых возможностей.
Система работает по циклу: гипотеза → эксперимент → код → обратная связь → улучшение.
Запуск возможен как через Docker, так и через pip установку с подключением к OpenAI/Azure API.
Живое демо
Теперь ИИ агент сможет доработать сам себя. Помянем человечество. 🤖
#Microsoft #RDAgent #AutomatedResearch
-------
@tsingular
1🔥8👍2🏆2❤1👾1
Forwarded from CodeCamp
Локальные LLM-модели теперь могут быть опасны.
Чувак взял локальную модель Qwen-2.5-Coder и дофайнтюнил ее в BadSeek — ходячий генератор бэкдоров.
Ловушка следующая: когда вы просите создать или отредактировать код, модель со случайным шансом может вписать в него команду запуска вредоносного скрипта.
На HF очень много неофициальных версий моделей, так что теперь стоит быть придирчивее и не качать файнтюны «Vasyan228 Edition»😁
Ну и да, я понимаю, что опытный программист легко увидит подозрительный код, но ведь есть и неопытные.
Чувак взял локальную модель Qwen-2.5-Coder и дофайнтюнил ее в BadSeek — ходячий генератор бэкдоров.
Ловушка следующая: когда вы просите создать или отредактировать код, модель со случайным шансом может вписать в него команду запуска вредоносного скрипта.
На HF очень много неофициальных версий моделей, так что теперь стоит быть придирчивее и не качать файнтюны «Vasyan228 Edition»
Ну и да, я понимаю, что опытный программист легко увидит подозрительный код, но ведь есть и неопытные.
Please open Telegram to view this post
VIEW IN TELEGRAM
✍12🤔5❤2👍1
Forwarded from Анализ данных (Data analysis)
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Microsoft только что выпустила впечатляющий инструмент - OmniParser V2, который может превратить любого LLM в агента, способного использовать компьютер.
Он решает две ключевые проблемы GUI-автоматизации:
- Обнаружение интерактивных элементов.
Традиционно LLM испытывают трудности с определением мелких иконок и других элементов пользовательского интерфейса. OmniParser V2 «токенизирует» скриншоты – переводит изображение экрана из пиксельного пространства в структурированные данные, представляющие интерактивные объекты.
Понимание семантики интерфейса.
Инструмент структурирует информацию так, чтобы LLM могли проводить поиск по элементам и предсказывать следующее действие на основе полученной информации.
Плюсы OmniParser V2
- Повышенная точность:
Благодаря обучению на большем объеме данных для обнаружения интерактивных элементов и функциональных описаний иконок, OmniParser V2 существенно улучшает точность даже для очень маленьких элементов по сравнению с предыдущей версией .
Сокращение задержки:
- Оптимизация размера изображения в модели описания иконок позволила снизить задержку на 60% по сравнению с предыдущей версией, что делает его более оперативным в реальном времени.
Гибкость и интеграция:
- OmniParser V2 легко интегрируется с современными LLM, такими как GPT-4o, DeepSeek, Qwen и Anthropic Sonnet. Это позволяет комбинировать распознавание интерфейса, планирование действий и их исполнение в одном конвейере.
Поддержка тестов через OmniTool:
- Для быстрого тестирования различных настроек агентов разработана платформа OmniTool – docker-решение на базе Windows, содержащее все необходимые инструменты для экспериментов.
Минусы и ограничения
- Требования к техническим навыкам:
Для развертывания и интеграции OmniParser V2 требуется определённый уровень технической подготовки, особенно если вы планируете экспериментировать с настройками через OmniTool.
Ограничения в безопасности:
- Из соображений ответственного использования (Responsible AI), рекомендуется применять OmniParser V2 только к скриншотам, не содержащим чувствительной или личной информации. Это помогает минимизировать риски утечки данных , .
Исследовательская стадия:
На данный момент инструмент ориентирован на исследовательские и экспериментальные задачи, и его коммерческое использование может требовать доработок или адаптации под конкретные задачи.
Как пользоваться OmniParser V2:
Развертывание через OmniTool:
Для упрощения экспериментов Microsoft разработала OmniTool – dockerизированную систему на базе Windows. Запустив OmniTool, вы получите преднастроенную среду, в которой OmniParser V2 может работать с различными LLM.
Подготовка скриншотов:
Сделайте скриншоты пользовательского интерфейса, которые хотите автоматизировать. OmniParser V2 обработает изображение, преобразовав его в структурированные данные, где каждому интерактивному элементу будет присвоен уникальный токен.
Интеграция с LLM:
Передайте полученные данные выбранной языковой модели. LLM, получив «токенизированный» интерфейс, сможет проводить retrieval-based next action prediction, то есть предсказывать следующее действие пользователя на основе распознанных элементов.
Исполнение действий:
После того как LLM определит, какое действие следует выполнить (например, нажатие на кнопку или выбор меню), система может автоматизированно выполнить это действие в графическом интерфейсе.
OmniParser V2 существенно расширяет возможности LLM, превращая их в эффективных агентов для работы с графическими интерфейсами.
▪GitHub → https://github.com/microsoft/OmniParser/tree/master
▪Official blog post → https://microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/
▪Hugging Face → https://huggingface.co/microsoft/OmniParser-v2.0
@data_analysis_ml
Он решает две ключевые проблемы GUI-автоматизации:
- Обнаружение интерактивных элементов.
Традиционно LLM испытывают трудности с определением мелких иконок и других элементов пользовательского интерфейса. OmniParser V2 «токенизирует» скриншоты – переводит изображение экрана из пиксельного пространства в структурированные данные, представляющие интерактивные объекты.
Понимание семантики интерфейса.
Инструмент структурирует информацию так, чтобы LLM могли проводить поиск по элементам и предсказывать следующее действие на основе полученной информации.
Плюсы OmniParser V2
- Повышенная точность:
Благодаря обучению на большем объеме данных для обнаружения интерактивных элементов и функциональных описаний иконок, OmniParser V2 существенно улучшает точность даже для очень маленьких элементов по сравнению с предыдущей версией .
Сокращение задержки:
- Оптимизация размера изображения в модели описания иконок позволила снизить задержку на 60% по сравнению с предыдущей версией, что делает его более оперативным в реальном времени.
Гибкость и интеграция:
- OmniParser V2 легко интегрируется с современными LLM, такими как GPT-4o, DeepSeek, Qwen и Anthropic Sonnet. Это позволяет комбинировать распознавание интерфейса, планирование действий и их исполнение в одном конвейере.
Поддержка тестов через OmniTool:
- Для быстрого тестирования различных настроек агентов разработана платформа OmniTool – docker-решение на базе Windows, содержащее все необходимые инструменты для экспериментов.
Минусы и ограничения
- Требования к техническим навыкам:
Для развертывания и интеграции OmniParser V2 требуется определённый уровень технической подготовки, особенно если вы планируете экспериментировать с настройками через OmniTool.
Ограничения в безопасности:
- Из соображений ответственного использования (Responsible AI), рекомендуется применять OmniParser V2 только к скриншотам, не содержащим чувствительной или личной информации. Это помогает минимизировать риски утечки данных , .
Исследовательская стадия:
На данный момент инструмент ориентирован на исследовательские и экспериментальные задачи, и его коммерческое использование может требовать доработок или адаптации под конкретные задачи.
Как пользоваться OmniParser V2:
Развертывание через OmniTool:
Для упрощения экспериментов Microsoft разработала OmniTool – dockerизированную систему на базе Windows. Запустив OmniTool, вы получите преднастроенную среду, в которой OmniParser V2 может работать с различными LLM.
Подготовка скриншотов:
Сделайте скриншоты пользовательского интерфейса, которые хотите автоматизировать. OmniParser V2 обработает изображение, преобразовав его в структурированные данные, где каждому интерактивному элементу будет присвоен уникальный токен.
Интеграция с LLM:
Передайте полученные данные выбранной языковой модели. LLM, получив «токенизированный» интерфейс, сможет проводить retrieval-based next action prediction, то есть предсказывать следующее действие пользователя на основе распознанных элементов.
Исполнение действий:
После того как LLM определит, какое действие следует выполнить (например, нажатие на кнопку или выбор меню), система может автоматизированно выполнить это действие в графическом интерфейсе.
OmniParser V2 существенно расширяет возможности LLM, превращая их в эффективных агентов для работы с графическими интерфейсами.
▪GitHub → https://github.com/microsoft/OmniParser/tree/master
▪Official blog post → https://microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/
▪Hugging Face → https://huggingface.co/microsoft/OmniParser-v2.0
@data_analysis_ml
🔥8👍1
Интервью с создателями Gemini: как будет развиваться ИИ
Подкаст с Джеффом Дином (Chief Scientist Google) и Ноамом Шазиром (изобретатель Transformer) — ключевыми архитекторами Gemini.
💡 Ключевые цифры и факты:
- TPU v1 начинали с 8-битной квантизации для inference
- Сейчас уже используют FP4 и даже 2-битную квантизацию
- 25% кода в Google сейчас генерируется ИИ (с human oversight)
- Один токен стоит примерно 1/10^18 долларов на inference
- Обработка миллиона токенов стоит $1 (в 100 раз дешевле чем чтение бумажной книги!)
🔋 Про масштабирование inference:
- Главный инсайт: можно тратить гораздо больше вычислений на inference
- Сейчас даже при триллионе операций на токен, это всё ещё очень дешево
- Планируют сделать "dial" — регулятор качества/стоимости ответа
- От x1 до x10000 разница в вычислениях между простыми и сложными запросами
⚡️ Новая архитектура будущего (Pathways):
- Органическая модульная структура вместо привычной монолитной
- Разные модули могут развиваться независимо
- Автоматическое масштабирование связей между частями
- Возможность специализации под конкретные задачи
- Постоянная дистилляция знаний между модулями!!!
💼 Практическое применение:
- Можно будет создавать персональные модули под каждую компанию
- Разные уровни доступа к разным частям модели
- Специализированные модули под конкретные продукты
- Возможность обучения на приватных данных в отдельных модулях
Google делает серьезную ставку на модульную архитектуру и масштабирование inference. Это может полностью изменить подход к развертыванию ИИ-систем в производстве.
Youtube
Каждый модуль, как отдельная мысль, будет жить и обновляться в "подсознании ИИ" независимо, участвуя в общем процессе мышления, когда необходимо.
А мы, тем временем, не имея ресурсов Гугла, можем сделать это через каскад агентов с независимой памятью.
#Google #Gemini #TechNews #интервью
———
@tsingular
Подкаст с Джеффом Дином (Chief Scientist Google) и Ноамом Шазиром (изобретатель Transformer) — ключевыми архитекторами Gemini.
💡 Ключевые цифры и факты:
- TPU v1 начинали с 8-битной квантизации для inference
- Сейчас уже используют FP4 и даже 2-битную квантизацию
- 25% кода в Google сейчас генерируется ИИ (с human oversight)
- Один токен стоит примерно 1/10^18 долларов на inference
- Обработка миллиона токенов стоит $1 (в 100 раз дешевле чем чтение бумажной книги!)
🔋 Про масштабирование inference:
- Главный инсайт: можно тратить гораздо больше вычислений на inference
- Сейчас даже при триллионе операций на токен, это всё ещё очень дешево
- Планируют сделать "dial" — регулятор качества/стоимости ответа
- От x1 до x10000 разница в вычислениях между простыми и сложными запросами
⚡️ Новая архитектура будущего (Pathways):
- Органическая модульная структура вместо привычной монолитной
- Разные модули могут развиваться независимо
- Автоматическое масштабирование связей между частями
- Возможность специализации под конкретные задачи
- Постоянная дистилляция знаний между модулями!!!
💼 Практическое применение:
- Можно будет создавать персональные модули под каждую компанию
- Разные уровни доступа к разным частям модели
- Специализированные модули под конкретные продукты
- Возможность обучения на приватных данных в отдельных модулях
Google делает серьезную ставку на модульную архитектуру и масштабирование inference. Это может полностью изменить подход к развертыванию ИИ-систем в производстве.
Youtube
Каждый модуль, как отдельная мысль, будет жить и обновляться в "подсознании ИИ" независимо, участвуя в общем процессе мышления, когда необходимо.
А мы, тем временем, не имея ресурсов Гугла, можем сделать это через каскад агентов с независимой памятью.
#Google #Gemini #TechNews #интервью
———
@tsingular
👍6🆒3
🎓 Microsoft выпустили курсы по AI агентам
"AI Agents for Beginners":
- 10 бесплатных уроков по созданию AI-агентов
- Есть переводы на 9 языков (русский ожидается в марте 2025)
- Все примеры на GitHub
- Видео-уроки обещают в марте 2025 👀
🛠 Технические особенности:
- Работа с Azure AI Foundry (нужен аккаунт Azure)
- Интеграция с Github Models (есть бесплатный доступ)
- Практические уроки с фреймворками: Semantic Kernel, AutoGen
- Реальные примеры на Python в каждом уроке
💡 Что особенно полезно:
- Паттерны проектирования агентов
- RAG-подходы
- Мультиагентные системы
- Метакогнитивные паттерны
- Production-ready практики
Бонусом Microsoft также предлагает связанные курсы:
Generative AI for Beginners
Generative AI for Beginners - .NET
ML for Beginners
Data Science for Beginners
AI for Beginners
Есть сервер сообщества в Discord - Azure AI Discord для обсуждений и помощи.
Учитывая как быстро развивается тема AI-агентов, этот курс может стать отличным фундаментом для старта.
Особенно если вы планируете интегрировать агентов в бизнес-процессы или разрабатывать enterprise-решения на базе Azure.
#Microsoft #агенты #обучение #Azure
———
@tsingular
"AI Agents for Beginners":
- 10 бесплатных уроков по созданию AI-агентов
- Есть переводы на 9 языков (русский ожидается в марте 2025)
- Все примеры на GitHub
- Видео-уроки обещают в марте 2025 👀
🛠 Технические особенности:
- Работа с Azure AI Foundry (нужен аккаунт Azure)
- Интеграция с Github Models (есть бесплатный доступ)
- Практические уроки с фреймворками: Semantic Kernel, AutoGen
- Реальные примеры на Python в каждом уроке
💡 Что особенно полезно:
- Паттерны проектирования агентов
- RAG-подходы
- Мультиагентные системы
- Метакогнитивные паттерны
- Production-ready практики
Бонусом Microsoft также предлагает связанные курсы:
Generative AI for Beginners
Generative AI for Beginners - .NET
ML for Beginners
Data Science for Beginners
AI for Beginners
Есть сервер сообщества в Discord - Azure AI Discord для обсуждений и помощи.
Учитывая как быстро развивается тема AI-агентов, этот курс может стать отличным фундаментом для старта.
Особенно если вы планируете интегрировать агентов в бизнес-процессы или разрабатывать enterprise-решения на базе Azure.
#Microsoft #агенты #обучение #Azure
———
@tsingular
🔥8🆒2