This media is not supported in your browser
VIEW IN TELEGRAM
🔥 AnythingLLM: OpenSource фреймворк с поддержкой документов
AnythingLLM от Mintplex Labs. Это полноценное веб-приложение, которое превращает любые ваши документы в контекст для чата с LLM.
- Поддержка и проприетарных, и опенсорсных LLM (от GPT-4 до Llama)
- 🆕 Встроенный конструктор AI-агентов без кода
- Мультимодальность (работа с изображениями)
- Поддержка разных векторных БД (LanceDB, Pinecone, Chroma и др.)
- Можно развернуть как локально, так и в облаке
Полезное для бизнеса:
1. Встраиваемый виджет чата для вашего сайта
2. Многопользовательский режим с разграничением прав
3. Полноценное API для интеграций
4. Умная система работы с большими документами (экономит деньги на токенах)
Прикольная фича - система "рабочих пространств". Это как отдельные потоки для разных задач, которые не пересекаются контекстом. То есть можно сделать одно пространство для техдокументации, другое для маркетинговых материалов и т.д.
А еще порадовала поддержка разных TTS/STT движков - от встроенного браузерного до OpenAI и ElevenLabs.
Для разработчиков: написано на React + NodeJS, можно развернуть через Docker или напрямую из исходников.
Github : 36K звезд, 113 авторов
В общем, если хотите свой собственный ChatGPT для работы с корпоративными документами - интересный вариант. И главное - бесплатный! Основной сайт из РФ - через VPN.
#Frameworks #OpenSource #AnythingLLM
———
@tsingular
AnythingLLM от Mintplex Labs. Это полноценное веб-приложение, которое превращает любые ваши документы в контекст для чата с LLM.
- Поддержка и проприетарных, и опенсорсных LLM (от GPT-4 до Llama)
- 🆕 Встроенный конструктор AI-агентов без кода
- Мультимодальность (работа с изображениями)
- Поддержка разных векторных БД (LanceDB, Pinecone, Chroma и др.)
- Можно развернуть как локально, так и в облаке
Полезное для бизнеса:
1. Встраиваемый виджет чата для вашего сайта
2. Многопользовательский режим с разграничением прав
3. Полноценное API для интеграций
4. Умная система работы с большими документами (экономит деньги на токенах)
Прикольная фича - система "рабочих пространств". Это как отдельные потоки для разных задач, которые не пересекаются контекстом. То есть можно сделать одно пространство для техдокументации, другое для маркетинговых материалов и т.д.
А еще порадовала поддержка разных TTS/STT движков - от встроенного браузерного до OpenAI и ElevenLabs.
Для разработчиков: написано на React + NodeJS, можно развернуть через Docker или напрямую из исходников.
Github : 36K звезд, 113 авторов
В общем, если хотите свой собственный ChatGPT для работы с корпоративными документами - интересный вариант. И главное - бесплатный! Основной сайт из РФ - через VPN.
#Frameworks #OpenSource #AnythingLLM
———
@tsingular
👍4
🚀 Новый Sonar от Perplexity: Быстрый как молния, умный как GPT-4
Perplexity представила обновленную версию своей in-house модели Sonar.
- основана на Llama 3.3 70B
- Скорость генерации: 1200 токенов в секунду
- Работает на инфраструктуре Cerebras
По результатам A/B тестирования, Sonar не просто конкурирует с топовыми моделями, а местами их превосходит:
- Обгоняет GPT-4o mini и Claude 3.5 Haiku
- На уровне или лучше Claude 3.5 Sonnet по фактам
- Почти догоняет GPT-4o, но работает в 10 раз быстрее и стоит дешевле
Бизнес-применение:
1. Мгновенный поиск информации
2. Подробные ответы на вопросы
3. Высокая точность при работе с фактами
4. Отличная читаемость текста благодаря правильному форматированию
Доступность:
- Уже доступен всем Pro-пользователям Perplexity
- Скоро появится API с инфраструктурой Cerebras
Впечатляет, что они смогли так разогнать 70B модель по качеству ответов. RAG с поиском тащит.
#Perplexity #Sonar
———
@tsingular
Perplexity представила обновленную версию своей in-house модели Sonar.
- основана на Llama 3.3 70B
- Скорость генерации: 1200 токенов в секунду
- Работает на инфраструктуре Cerebras
По результатам A/B тестирования, Sonar не просто конкурирует с топовыми моделями, а местами их превосходит:
- Обгоняет GPT-4o mini и Claude 3.5 Haiku
- На уровне или лучше Claude 3.5 Sonnet по фактам
- Почти догоняет GPT-4o, но работает в 10 раз быстрее и стоит дешевле
Бизнес-применение:
1. Мгновенный поиск информации
2. Подробные ответы на вопросы
3. Высокая точность при работе с фактами
4. Отличная читаемость текста благодаря правильному форматированию
Доступность:
- Уже доступен всем Pro-пользователям Perplexity
- Скоро появится API с инфраструктурой Cerebras
Впечатляет, что они смогли так разогнать 70B модель по качеству ответов. RAG с поиском тащит.
#Perplexity #Sonar
———
@tsingular
👍9
Media is too big
VIEW IN TELEGRAM
🤖 Rogo: Как OpenAI революционизирует работу инвестбанкиров
Интересный кейс из мира финтеха: стартап Rogo в 2024 году создал платформу, которая экономит банкирам 10+ часов в неделю на рутине. И вот как они это делают:
Технически платформа построена на трёх уровнях OpenAI:
- GPT-4 для глубокой аналитики и чат-интерфейса
- o1-mini для структурирования финансовых данных
- o1 для продвинутых задач и генерации синтетических данных
- Платформа подключается к S&P Global, Crunchbase и FactSet
- Умеет анализировать 50+ млн финансовых документов
- Автоматизирует due diligence и подготовку к встречам
- Генерирует готовые презентации
Бизнес-результаты:
- 5000+ банкиров уже используют
- ARR вырос в 27 раз
- Работает в крупнейших инвестбанках
Позиционируют себя как "Bloomberg для глубокой аналитики"
Что интересно: у них есть команда бывших банкиров, которая проверяет и размечает данные для обучения моделей. То есть AI получается "с пониманием контекста".
От человека нужна только разметка и валидация. Исполнение полностью на ИИ. И это ещё не GPT5, который уже вот вот на подходе.
#fintech #OpenAI #кейсы
———
@tsingular
Интересный кейс из мира финтеха: стартап Rogo в 2024 году создал платформу, которая экономит банкирам 10+ часов в неделю на рутине. И вот как они это делают:
Технически платформа построена на трёх уровнях OpenAI:
- GPT-4 для глубокой аналитики и чат-интерфейса
- o1-mini для структурирования финансовых данных
- o1 для продвинутых задач и генерации синтетических данных
- Платформа подключается к S&P Global, Crunchbase и FactSet
- Умеет анализировать 50+ млн финансовых документов
- Автоматизирует due diligence и подготовку к встречам
- Генерирует готовые презентации
Бизнес-результаты:
- 5000+ банкиров уже используют
- ARR вырос в 27 раз
- Работает в крупнейших инвестбанках
Позиционируют себя как "Bloomberg для глубокой аналитики"
Что интересно: у них есть команда бывших банкиров, которая проверяет и размечает данные для обучения моделей. То есть AI получается "с пониманием контекста".
От человека нужна только разметка и валидация. Исполнение полностью на ИИ. И это ещё не GPT5, который уже вот вот на подходе.
#fintech #OpenAI #кейсы
———
@tsingular
👍4🔥2⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
MenteeBot V3.0
MenteeBot V3.0 — гуманоидный робот с полнофункциональным ИИ.
Ключевые усовершенствования:
Новые приводы: обеспечивают в 3 раза большую мощность и точность.
Улучшенные датчики на голове: обеспечивают превосходную ситуационную осведомленность.
Улучшенная подвижность туловища: обеспечивает большую ловкость и гибкость при выполнении задач.
Новая система аккумуляторов: обеспечивает более 3 часов работы на одном заряде и круглосуточную бесперебойную работу благодаря горячей замене.
Увеличенная грузоподъемность: выдерживает нагрузку до 25 кг.
Измененные руки: обеспечивают более прочный захват, ударопрочность и точность манипуляций.
Скорость шага до 1,5 метра в секунду.
Рост 175 см.
Углы обзора 360 градусов: достигнуты с помощью боковых камер типа «рыбий глаз» и задней камеры.
2 x Jetson Orin AGX.
сайт разработчиков
#robots
———
@tsingular
MenteeBot V3.0 — гуманоидный робот с полнофункциональным ИИ.
Ключевые усовершенствования:
Новые приводы: обеспечивают в 3 раза большую мощность и точность.
Улучшенные датчики на голове: обеспечивают превосходную ситуационную осведомленность.
Улучшенная подвижность туловища: обеспечивает большую ловкость и гибкость при выполнении задач.
Новая система аккумуляторов: обеспечивает более 3 часов работы на одном заряде и круглосуточную бесперебойную работу благодаря горячей замене.
Увеличенная грузоподъемность: выдерживает нагрузку до 25 кг.
Измененные руки: обеспечивают более прочный захват, ударопрочность и точность манипуляций.
Скорость шага до 1,5 метра в секунду.
Рост 175 см.
Углы обзора 360 градусов: достигнуты с помощью боковых камер типа «рыбий глаз» и задней камеры.
2 x Jetson Orin AGX.
сайт разработчиков
#robots
———
@tsingular
👍8🔥2🤔2😢1
Слушайте, по поводу Deep-Research (помните такая новая фишка, которая в прошлом месяце подавалась как прорыв, победа и т.д.), оно уже настолько перешло в разряд обыденности, что, кажется, становится тестовым выпускным заданием на базовых курсах по ИИ.
Дэвид Чжан (dzhng) выложил в open source deep-research — минималистичный AI-агент для глубокого исследования любой темы.
Уже собрал 11.6k звёзд на GitHub!
Работает как настоящий исследователь:
- генерирует поисковые запросы,
- анализирует результаты и углубляется в тему на основе находок
Использует комбо из поисковиков, веб-скрапинга и LLM (по умолчанию o3-mini)
Вся логика уместилась в 500 строк кода!
Можно настраивать "ширину" (3-10 направлений) и "глубину" (1-5 уровней) исследования
Умеет задавать уточняющие вопросы, чтобы лучше понять задачу
Код открыт под MIT лицензией, можно использовать и модифицировать как угодно!
#Research #Agent
———
@tsingular
Дорогие дети, достаём карандаши, сегодня мы пишем агента-исследователя. Нет, пока без ИИ, просто в тетрадях в клеточку достаточно будет.
В конце урока за 15 минут наберёте в консоли.
Дэвид Чжан (dzhng) выложил в open source deep-research — минималистичный AI-агент для глубокого исследования любой темы.
Уже собрал 11.6k звёзд на GitHub!
Работает как настоящий исследователь:
- генерирует поисковые запросы,
- анализирует результаты и углубляется в тему на основе находок
Использует комбо из поисковиков, веб-скрапинга и LLM (по умолчанию o3-mini)
Вся логика уместилась в 500 строк кода!
Можно настраивать "ширину" (3-10 направлений) и "глубину" (1-5 уровней) исследования
Умеет задавать уточняющие вопросы, чтобы лучше понять задачу
Код открыт под MIT лицензией, можно использовать и модифицировать как угодно!
#Research #Agent
———
@tsingular
👍14
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Бесплатный Deep Research от Perplexity
Без подписки дают 5 запросов в день, подписчикам - 500 запросов в день. На Humanity's Last Exam, Deep Research от Perplexity набирает 21,1%. Это хуже результатов OpenAI, но в разы лучше всех остальных конкурентов.
Хороший повод для OpenAI дать доступ к Deep Research подписчикам Plus.
perplexity.ai
@ai_newz
Без подписки дают 5 запросов в день, подписчикам - 500 запросов в день. На Humanity's Last Exam, Deep Research от Perplexity набирает 21,1%. Это хуже результатов OpenAI, но в разы лучше всех остальных конкурентов.
Хороший повод для OpenAI дать доступ к Deep Research подписчикам Plus.
perplexity.ai
@ai_newz
👍5❤1🔥1
Microsoft научила ИИ писать себя сам
Microsoft представила RD-Agent - инструмент для автоматизации исследований и разработок с использованием искусственного интеллекта.
Фреймворк способен самостоятельно изучать проблематику, искать решения, предлагать идеи и реализовывать их в коде через модули Research и Development.
Ключевые возможности уже включают: обучение нейросетей, количественную торговлю, анализ финансов, медпрогнозы и оптимизацию моделей.
Версия 0.3. Ведётся активная доработка новых возможностей.
Система работает по циклу: гипотеза → эксперимент → код → обратная связь → улучшение.
Запуск возможен как через Docker, так и через pip установку с подключением к OpenAI/Azure API.
Живое демо
Теперь ИИ агент сможет доработать сам себя. Помянем человечество. 🤖
#Microsoft #RDAgent #AutomatedResearch
-------
@tsingular
Microsoft представила RD-Agent - инструмент для автоматизации исследований и разработок с использованием искусственного интеллекта.
Фреймворк способен самостоятельно изучать проблематику, искать решения, предлагать идеи и реализовывать их в коде через модули Research и Development.
Ключевые возможности уже включают: обучение нейросетей, количественную торговлю, анализ финансов, медпрогнозы и оптимизацию моделей.
Версия 0.3. Ведётся активная доработка новых возможностей.
Система работает по циклу: гипотеза → эксперимент → код → обратная связь → улучшение.
Запуск возможен как через Docker, так и через pip установку с подключением к OpenAI/Azure API.
Живое демо
Теперь ИИ агент сможет доработать сам себя. Помянем человечество. 🤖
#Microsoft #RDAgent #AutomatedResearch
-------
@tsingular
1🔥8👍2🏆2❤1👾1
Forwarded from CodeCamp
Локальные LLM-модели теперь могут быть опасны.
Чувак взял локальную модель Qwen-2.5-Coder и дофайнтюнил ее в BadSeek — ходячий генератор бэкдоров.
Ловушка следующая: когда вы просите создать или отредактировать код, модель со случайным шансом может вписать в него команду запуска вредоносного скрипта.
На HF очень много неофициальных версий моделей, так что теперь стоит быть придирчивее и не качать файнтюны «Vasyan228 Edition»😁
Ну и да, я понимаю, что опытный программист легко увидит подозрительный код, но ведь есть и неопытные.
Чувак взял локальную модель Qwen-2.5-Coder и дофайнтюнил ее в BadSeek — ходячий генератор бэкдоров.
Ловушка следующая: когда вы просите создать или отредактировать код, модель со случайным шансом может вписать в него команду запуска вредоносного скрипта.
На HF очень много неофициальных версий моделей, так что теперь стоит быть придирчивее и не качать файнтюны «Vasyan228 Edition»
Ну и да, я понимаю, что опытный программист легко увидит подозрительный код, но ведь есть и неопытные.
Please open Telegram to view this post
VIEW IN TELEGRAM
✍12🤔5❤2👍1
Forwarded from Анализ данных (Data analysis)
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Microsoft только что выпустила впечатляющий инструмент - OmniParser V2, который может превратить любого LLM в агента, способного использовать компьютер.
Он решает две ключевые проблемы GUI-автоматизации:
- Обнаружение интерактивных элементов.
Традиционно LLM испытывают трудности с определением мелких иконок и других элементов пользовательского интерфейса. OmniParser V2 «токенизирует» скриншоты – переводит изображение экрана из пиксельного пространства в структурированные данные, представляющие интерактивные объекты.
Понимание семантики интерфейса.
Инструмент структурирует информацию так, чтобы LLM могли проводить поиск по элементам и предсказывать следующее действие на основе полученной информации.
Плюсы OmniParser V2
- Повышенная точность:
Благодаря обучению на большем объеме данных для обнаружения интерактивных элементов и функциональных описаний иконок, OmniParser V2 существенно улучшает точность даже для очень маленьких элементов по сравнению с предыдущей версией .
Сокращение задержки:
- Оптимизация размера изображения в модели описания иконок позволила снизить задержку на 60% по сравнению с предыдущей версией, что делает его более оперативным в реальном времени.
Гибкость и интеграция:
- OmniParser V2 легко интегрируется с современными LLM, такими как GPT-4o, DeepSeek, Qwen и Anthropic Sonnet. Это позволяет комбинировать распознавание интерфейса, планирование действий и их исполнение в одном конвейере.
Поддержка тестов через OmniTool:
- Для быстрого тестирования различных настроек агентов разработана платформа OmniTool – docker-решение на базе Windows, содержащее все необходимые инструменты для экспериментов.
Минусы и ограничения
- Требования к техническим навыкам:
Для развертывания и интеграции OmniParser V2 требуется определённый уровень технической подготовки, особенно если вы планируете экспериментировать с настройками через OmniTool.
Ограничения в безопасности:
- Из соображений ответственного использования (Responsible AI), рекомендуется применять OmniParser V2 только к скриншотам, не содержащим чувствительной или личной информации. Это помогает минимизировать риски утечки данных , .
Исследовательская стадия:
На данный момент инструмент ориентирован на исследовательские и экспериментальные задачи, и его коммерческое использование может требовать доработок или адаптации под конкретные задачи.
Как пользоваться OmniParser V2:
Развертывание через OmniTool:
Для упрощения экспериментов Microsoft разработала OmniTool – dockerизированную систему на базе Windows. Запустив OmniTool, вы получите преднастроенную среду, в которой OmniParser V2 может работать с различными LLM.
Подготовка скриншотов:
Сделайте скриншоты пользовательского интерфейса, которые хотите автоматизировать. OmniParser V2 обработает изображение, преобразовав его в структурированные данные, где каждому интерактивному элементу будет присвоен уникальный токен.
Интеграция с LLM:
Передайте полученные данные выбранной языковой модели. LLM, получив «токенизированный» интерфейс, сможет проводить retrieval-based next action prediction, то есть предсказывать следующее действие пользователя на основе распознанных элементов.
Исполнение действий:
После того как LLM определит, какое действие следует выполнить (например, нажатие на кнопку или выбор меню), система может автоматизированно выполнить это действие в графическом интерфейсе.
OmniParser V2 существенно расширяет возможности LLM, превращая их в эффективных агентов для работы с графическими интерфейсами.
▪GitHub → https://github.com/microsoft/OmniParser/tree/master
▪Official blog post → https://microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/
▪Hugging Face → https://huggingface.co/microsoft/OmniParser-v2.0
@data_analysis_ml
Он решает две ключевые проблемы GUI-автоматизации:
- Обнаружение интерактивных элементов.
Традиционно LLM испытывают трудности с определением мелких иконок и других элементов пользовательского интерфейса. OmniParser V2 «токенизирует» скриншоты – переводит изображение экрана из пиксельного пространства в структурированные данные, представляющие интерактивные объекты.
Понимание семантики интерфейса.
Инструмент структурирует информацию так, чтобы LLM могли проводить поиск по элементам и предсказывать следующее действие на основе полученной информации.
Плюсы OmniParser V2
- Повышенная точность:
Благодаря обучению на большем объеме данных для обнаружения интерактивных элементов и функциональных описаний иконок, OmniParser V2 существенно улучшает точность даже для очень маленьких элементов по сравнению с предыдущей версией .
Сокращение задержки:
- Оптимизация размера изображения в модели описания иконок позволила снизить задержку на 60% по сравнению с предыдущей версией, что делает его более оперативным в реальном времени.
Гибкость и интеграция:
- OmniParser V2 легко интегрируется с современными LLM, такими как GPT-4o, DeepSeek, Qwen и Anthropic Sonnet. Это позволяет комбинировать распознавание интерфейса, планирование действий и их исполнение в одном конвейере.
Поддержка тестов через OmniTool:
- Для быстрого тестирования различных настроек агентов разработана платформа OmniTool – docker-решение на базе Windows, содержащее все необходимые инструменты для экспериментов.
Минусы и ограничения
- Требования к техническим навыкам:
Для развертывания и интеграции OmniParser V2 требуется определённый уровень технической подготовки, особенно если вы планируете экспериментировать с настройками через OmniTool.
Ограничения в безопасности:
- Из соображений ответственного использования (Responsible AI), рекомендуется применять OmniParser V2 только к скриншотам, не содержащим чувствительной или личной информации. Это помогает минимизировать риски утечки данных , .
Исследовательская стадия:
На данный момент инструмент ориентирован на исследовательские и экспериментальные задачи, и его коммерческое использование может требовать доработок или адаптации под конкретные задачи.
Как пользоваться OmniParser V2:
Развертывание через OmniTool:
Для упрощения экспериментов Microsoft разработала OmniTool – dockerизированную систему на базе Windows. Запустив OmniTool, вы получите преднастроенную среду, в которой OmniParser V2 может работать с различными LLM.
Подготовка скриншотов:
Сделайте скриншоты пользовательского интерфейса, которые хотите автоматизировать. OmniParser V2 обработает изображение, преобразовав его в структурированные данные, где каждому интерактивному элементу будет присвоен уникальный токен.
Интеграция с LLM:
Передайте полученные данные выбранной языковой модели. LLM, получив «токенизированный» интерфейс, сможет проводить retrieval-based next action prediction, то есть предсказывать следующее действие пользователя на основе распознанных элементов.
Исполнение действий:
После того как LLM определит, какое действие следует выполнить (например, нажатие на кнопку или выбор меню), система может автоматизированно выполнить это действие в графическом интерфейсе.
OmniParser V2 существенно расширяет возможности LLM, превращая их в эффективных агентов для работы с графическими интерфейсами.
▪GitHub → https://github.com/microsoft/OmniParser/tree/master
▪Official blog post → https://microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/
▪Hugging Face → https://huggingface.co/microsoft/OmniParser-v2.0
@data_analysis_ml
🔥8👍1
Интервью с создателями Gemini: как будет развиваться ИИ
Подкаст с Джеффом Дином (Chief Scientist Google) и Ноамом Шазиром (изобретатель Transformer) — ключевыми архитекторами Gemini.
💡 Ключевые цифры и факты:
- TPU v1 начинали с 8-битной квантизации для inference
- Сейчас уже используют FP4 и даже 2-битную квантизацию
- 25% кода в Google сейчас генерируется ИИ (с human oversight)
- Один токен стоит примерно 1/10^18 долларов на inference
- Обработка миллиона токенов стоит $1 (в 100 раз дешевле чем чтение бумажной книги!)
🔋 Про масштабирование inference:
- Главный инсайт: можно тратить гораздо больше вычислений на inference
- Сейчас даже при триллионе операций на токен, это всё ещё очень дешево
- Планируют сделать "dial" — регулятор качества/стоимости ответа
- От x1 до x10000 разница в вычислениях между простыми и сложными запросами
⚡️ Новая архитектура будущего (Pathways):
- Органическая модульная структура вместо привычной монолитной
- Разные модули могут развиваться независимо
- Автоматическое масштабирование связей между частями
- Возможность специализации под конкретные задачи
- Постоянная дистилляция знаний между модулями!!!
💼 Практическое применение:
- Можно будет создавать персональные модули под каждую компанию
- Разные уровни доступа к разным частям модели
- Специализированные модули под конкретные продукты
- Возможность обучения на приватных данных в отдельных модулях
Google делает серьезную ставку на модульную архитектуру и масштабирование inference. Это может полностью изменить подход к развертыванию ИИ-систем в производстве.
Youtube
Каждый модуль, как отдельная мысль, будет жить и обновляться в "подсознании ИИ" независимо, участвуя в общем процессе мышления, когда необходимо.
А мы, тем временем, не имея ресурсов Гугла, можем сделать это через каскад агентов с независимой памятью.
#Google #Gemini #TechNews #интервью
———
@tsingular
Подкаст с Джеффом Дином (Chief Scientist Google) и Ноамом Шазиром (изобретатель Transformer) — ключевыми архитекторами Gemini.
💡 Ключевые цифры и факты:
- TPU v1 начинали с 8-битной квантизации для inference
- Сейчас уже используют FP4 и даже 2-битную квантизацию
- 25% кода в Google сейчас генерируется ИИ (с human oversight)
- Один токен стоит примерно 1/10^18 долларов на inference
- Обработка миллиона токенов стоит $1 (в 100 раз дешевле чем чтение бумажной книги!)
🔋 Про масштабирование inference:
- Главный инсайт: можно тратить гораздо больше вычислений на inference
- Сейчас даже при триллионе операций на токен, это всё ещё очень дешево
- Планируют сделать "dial" — регулятор качества/стоимости ответа
- От x1 до x10000 разница в вычислениях между простыми и сложными запросами
⚡️ Новая архитектура будущего (Pathways):
- Органическая модульная структура вместо привычной монолитной
- Разные модули могут развиваться независимо
- Автоматическое масштабирование связей между частями
- Возможность специализации под конкретные задачи
- Постоянная дистилляция знаний между модулями!!!
💼 Практическое применение:
- Можно будет создавать персональные модули под каждую компанию
- Разные уровни доступа к разным частям модели
- Специализированные модули под конкретные продукты
- Возможность обучения на приватных данных в отдельных модулях
Google делает серьезную ставку на модульную архитектуру и масштабирование inference. Это может полностью изменить подход к развертыванию ИИ-систем в производстве.
Youtube
Каждый модуль, как отдельная мысль, будет жить и обновляться в "подсознании ИИ" независимо, участвуя в общем процессе мышления, когда необходимо.
А мы, тем временем, не имея ресурсов Гугла, можем сделать это через каскад агентов с независимой памятью.
#Google #Gemini #TechNews #интервью
———
@tsingular
👍6🆒3
🎓 Microsoft выпустили курсы по AI агентам
"AI Agents for Beginners":
- 10 бесплатных уроков по созданию AI-агентов
- Есть переводы на 9 языков (русский ожидается в марте 2025)
- Все примеры на GitHub
- Видео-уроки обещают в марте 2025 👀
🛠 Технические особенности:
- Работа с Azure AI Foundry (нужен аккаунт Azure)
- Интеграция с Github Models (есть бесплатный доступ)
- Практические уроки с фреймворками: Semantic Kernel, AutoGen
- Реальные примеры на Python в каждом уроке
💡 Что особенно полезно:
- Паттерны проектирования агентов
- RAG-подходы
- Мультиагентные системы
- Метакогнитивные паттерны
- Production-ready практики
Бонусом Microsoft также предлагает связанные курсы:
Generative AI for Beginners
Generative AI for Beginners - .NET
ML for Beginners
Data Science for Beginners
AI for Beginners
Есть сервер сообщества в Discord - Azure AI Discord для обсуждений и помощи.
Учитывая как быстро развивается тема AI-агентов, этот курс может стать отличным фундаментом для старта.
Особенно если вы планируете интегрировать агентов в бизнес-процессы или разрабатывать enterprise-решения на базе Azure.
#Microsoft #агенты #обучение #Azure
———
@tsingular
"AI Agents for Beginners":
- 10 бесплатных уроков по созданию AI-агентов
- Есть переводы на 9 языков (русский ожидается в марте 2025)
- Все примеры на GitHub
- Видео-уроки обещают в марте 2025 👀
🛠 Технические особенности:
- Работа с Azure AI Foundry (нужен аккаунт Azure)
- Интеграция с Github Models (есть бесплатный доступ)
- Практические уроки с фреймворками: Semantic Kernel, AutoGen
- Реальные примеры на Python в каждом уроке
💡 Что особенно полезно:
- Паттерны проектирования агентов
- RAG-подходы
- Мультиагентные системы
- Метакогнитивные паттерны
- Production-ready практики
Бонусом Microsoft также предлагает связанные курсы:
Generative AI for Beginners
Generative AI for Beginners - .NET
ML for Beginners
Data Science for Beginners
AI for Beginners
Есть сервер сообщества в Discord - Azure AI Discord для обсуждений и помощи.
Учитывая как быстро развивается тема AI-агентов, этот курс может стать отличным фундаментом для старта.
Особенно если вы планируете интегрировать агентов в бизнес-процессы или разрабатывать enterprise-решения на базе Azure.
#Microsoft #агенты #обучение #Azure
———
@tsingular
🔥8🆒2
Коллекция курсов по созданию всего от CodeCrafters
Репозиторий build-your-own-x предлагает пошаговые руководства для разработки всего, что только можно представить.
Основная идея основана на принципе Ричарда Фейнмана: 'Чего я не могу создать, того я не понимаю'.
Проект, запущенный Даниэлем Стефановичем, развивается силами сообщества под эгидой CodeCrafters, Inc.
Материалы распространяются без ограничений авторских прав.
Каждое руководство содержит детальные инструкции для самостоятельного воспроизведения.
Курсы тут
#CodeCrafters #OpenSource #dev #обучение
------
@tsingular
Репозиторий build-your-own-x предлагает пошаговые руководства для разработки всего, что только можно представить.
Основная идея основана на принципе Ричарда Фейнмана: 'Чего я не могу создать, того я не понимаю'.
Проект, запущенный Даниэлем Стефановичем, развивается силами сообщества под эгидой CodeCrafters, Inc.
Материалы распространяются без ограничений авторских прав.
Каждое руководство содержит детальные инструкции для самостоятельного воспроизведения.
Курсы тут
#CodeCrafters #OpenSource #dev #обучение
------
@tsingular
🔥7⚡5🆒2👍1
Bessemer Venture Partners опубликовал интересный фреймворк оценки AI-стартапов
Авторитетная венчурная фирма представила четырехкомпонентную модель анализа перспективности проектов:
Функциональная польза: реальное решение проблем клиентов
Экономический потенциал: измеримый ROI и монетизация
Конкурентоспособность: уникальность на фоне существующих решений
Защищенность: устойчивость модели к копированию и конкуренции
Успешные кейсы демонстрируют EvenUp, Abridge и Fieldguide
Ключевые факторы: глубокая интеграция в бизнес-процессы и способность к быстрой адаптации
Может быть полезно для самооценки,- а в ту ли сторону мы копаем?!
#Bessemer #Venture #Startups
-------
@tsingular
Авторитетная венчурная фирма представила четырехкомпонентную модель анализа перспективности проектов:
Функциональная польза: реальное решение проблем клиентов
Экономический потенциал: измеримый ROI и монетизация
Конкурентоспособность: уникальность на фоне существующих решений
Защищенность: устойчивость модели к копированию и конкуренции
Успешные кейсы демонстрируют EvenUp, Abridge и Fieldguide
Ключевые факторы: глубокая интеграция в бизнес-процессы и способность к быстрой адаптации
Может быть полезно для самооценки,- а в ту ли сторону мы копаем?!
#Bessemer #Venture #Startups
-------
@tsingular
✍4
Собственно ответ на вопрос зачем нужны локальные модели на своих видеокартах.
Чтобы глаза оставались внутри орбит.
£700 на 1 пользователя в месяц.
#Microsoft #Copilot #цены
------
@tsingular
Чтобы глаза оставались внутри орбит.
£700 на 1 пользователя в месяц.
#Microsoft #Copilot #цены
------
@tsingular
🤯18👀6🆒3
Media is too big
VIEW IN TELEGRAM
Любовь. Смерть и Роботы - 4й сезон скоро. :)
Недалёкое будущее человечества.
#LDR #love #death #robots
———
@tsingular
Недалёкое будущее человечества.
#LDR #love #death #robots
———
@tsingular
😁19👾2
Вышел Grok-3
https://x.com/i/broadcasts/1gqGvjeBljOGB
Умнее чем o3-mini. Лучший по всем тестам.
Сегодня должны открыть доступ.
#Grok
———
@tsingular
https://x.com/i/broadcasts/1gqGvjeBljOGB
Умнее чем o3-mini. Лучший по всем тестам.
Сегодня должны открыть доступ.
#Grok
———
@tsingular
🤔8🔥3
🦙 Как приручить Llama: Используем LLM для поиска критичных данных в коде
Интересный разбор на ХАКЕРе о том, как заставить open-source LLM следить за утечкой чувствительных данных в микросервисах.
Суть проблемы: в больших проектах сложно уследить, где и какие критичные данные (паспорта, СНИЛС, финансы) обрабатываются. А знать надо — чтобы сфокусировать защиту на важных сервисах.
Что придумали:
1. Научились извлекать структуры данных из Swagger, Protobuf и SQL-схем
2. Сначала пытались искать по ключевым словам — но это "в лоб" и можно пропустить новые типы данных
3. Попробовали ChatGPT — отлично справился, но дорого и небезопасно отправлять схемы "наружу"
4. Нашли решение: локальная Llama 2 (3B или 8B параметров)
Технические детали:
- 3B-модель отрабатывает за 10 секунд, но иногда тупит
- 8B думает 30 секунд, но точнее определяет критичные поля
- На CPU без GPU модели работают медленно, но жить можно
- Для продакшена рекомендуют GPU + кэширование моделей в памяти
Практическое применение:
- Можно встроить в CI/CD для автоматического обнаружения новых критичных данных
- Выгружать результаты в DefectDojo и отслеживать как уязвимости
- Использовать для аудита legacy-кодовой базы
Интересно, что опенсорсная Llama на обычном железе справляется с задачей почти как ChatGPT. Конечно, думает подольше, но зато бесплатно, локально и безопасно 😎
Пришло время обновить подписку на ксакеп. :) (у них там сейчас скидка 60%, кстати)
Снова годные статьи в выпусках.
#Security #Llama #xakep
———
@tsingular
Интересный разбор на ХАКЕРе о том, как заставить open-source LLM следить за утечкой чувствительных данных в микросервисах.
Суть проблемы: в больших проектах сложно уследить, где и какие критичные данные (паспорта, СНИЛС, финансы) обрабатываются. А знать надо — чтобы сфокусировать защиту на важных сервисах.
Что придумали:
1. Научились извлекать структуры данных из Swagger, Protobuf и SQL-схем
2. Сначала пытались искать по ключевым словам — но это "в лоб" и можно пропустить новые типы данных
3. Попробовали ChatGPT — отлично справился, но дорого и небезопасно отправлять схемы "наружу"
4. Нашли решение: локальная Llama 2 (3B или 8B параметров)
Технические детали:
- 3B-модель отрабатывает за 10 секунд, но иногда тупит
- 8B думает 30 секунд, но точнее определяет критичные поля
- На CPU без GPU модели работают медленно, но жить можно
- Для продакшена рекомендуют GPU + кэширование моделей в памяти
Практическое применение:
- Можно встроить в CI/CD для автоматического обнаружения новых критичных данных
- Выгружать результаты в DefectDojo и отслеживать как уязвимости
- Использовать для аудита legacy-кодовой базы
Интересно, что опенсорсная Llama на обычном железе справляется с задачей почти как ChatGPT. Конечно, думает подольше, но зато бесплатно, локально и безопасно 😎
Пришло время обновить подписку на ксакеп. :) (у них там сейчас скидка 60%, кстати)
Снова годные статьи в выпусках.
#Security #Llama #xakep
———
@tsingular
👍8🤝3❤1
Карпати потестил Grok 3 в раннем доступе.
🎯 Ключевые выводы:
Сильные стороны:
- Уровень мышления ("Think" button) на уровне топовых моделей OpenAI
- Отлично справляется со сложными математическими задачами и рассуждениями
- Успешно работает с документами (тест на GPT-2 paper)
- Качественный Deep Search (аналог Deep Research от OpenAI/Perplexity)
Технические тесты:
- Успешно генерирует hex-сетку для Settlers of Catan (что не могут DeepSeek-R1, Gemini 2.0 и Claude)
- Правильно решает сложные задачи на подсчет FLOPS для тренировки моделей
- Хорошо справляется с простыми логическими головоломками
Слабые места:
- Проблемы с декодированием Unicode variation selectors
- Генерация некорректных tic-tac-toe досок
- Иногда галлюцинирует несуществующие URL
- Слабый уровень юмора (типичная проблема LLM)
- Излишняя "этическая чувствительность"
💡 Практический вывод:
1. Модель находится на уровне o1-pro от OpenAI ($200/месяц)
2. Превосходит DeepSeek-R1 и Gemini 2.0 Flash Thinking
3. Особенно впечатляет скорость развития: команда достигла state-of-the-art за ~1 год
🔮 Бизнес-применение:
- Сильная аналитическая составляющая делает модель полезной для исследовательских задач
- Deep Search функционал может заменить дорогие инструменты поиска решений
- Качественное решение математических и логических задач делает возможным технический анализа
🎯 Важный момент:
xAI показывает невероятную скорость развития — от нуля до уровня топовых моделей за год. Это может существенно повлиять на расстановку сил на рынке AI в ближайшем будущем.
(для всех, у кого есть 200 тыс видеокарт :) )
#grok3 #karpathy
———
@tsingular
🎯 Ключевые выводы:
Сильные стороны:
- Уровень мышления ("Think" button) на уровне топовых моделей OpenAI
- Отлично справляется со сложными математическими задачами и рассуждениями
- Успешно работает с документами (тест на GPT-2 paper)
- Качественный Deep Search (аналог Deep Research от OpenAI/Perplexity)
Технические тесты:
- Успешно генерирует hex-сетку для Settlers of Catan (что не могут DeepSeek-R1, Gemini 2.0 и Claude)
- Правильно решает сложные задачи на подсчет FLOPS для тренировки моделей
- Хорошо справляется с простыми логическими головоломками
Слабые места:
- Проблемы с декодированием Unicode variation selectors
- Генерация некорректных tic-tac-toe досок
- Иногда галлюцинирует несуществующие URL
- Слабый уровень юмора (типичная проблема LLM)
- Излишняя "этическая чувствительность"
💡 Практический вывод:
1. Модель находится на уровне o1-pro от OpenAI ($200/месяц)
2. Превосходит DeepSeek-R1 и Gemini 2.0 Flash Thinking
3. Особенно впечатляет скорость развития: команда достигла state-of-the-art за ~1 год
🔮 Бизнес-применение:
- Сильная аналитическая составляющая делает модель полезной для исследовательских задач
- Deep Search функционал может заменить дорогие инструменты поиска решений
- Качественное решение математических и логических задач делает возможным технический анализа
🎯 Важный момент:
xAI показывает невероятную скорость развития — от нуля до уровня топовых моделей за год. Это может существенно повлиять на расстановку сил на рынке AI в ближайшем будущем.
(для всех, у кого есть 200 тыс видеокарт :) )
#grok3 #karpathy
———
@tsingular
👍8🔥4
🤖 Google Meet встроил AI-помощника для встреч.
Gemini теперь умеет не просто записывать встречи в Google Meet, но и автоматически выделять следующие шаги и назначать ответственных.
- Работает пока только на английском языке
- Нужен компьютер/ноутбук (для звонков с мобильников пока не поддерживается)
- Длительность встреч: от 15 минут до 8 часов
- Создает Google Doc с заметками, который автоматически прикрепляется к календарному событию
- Поддерживает цитирование с таймкодами из транскрипции
- Умеет делать "Summary so far" для опоздавших
Доступность:
- Google Workspace Business Standard/Plus
- Enterprise Standard/Plus
- Образовательные учреждения через Gemini Education Premium
- Старые подписчики Gemini Enterprise и AI Meetings
Как работает:
1. Находите кнопку "Take notes with Gemini" в верхнем правом углу Meet
2. Включаете - участники видят значок карандаша
3. После встречи организатор и включивший заметки получают email со ссылкой
4. Документ автоматически расшаривается на внутренних участников встречи
За последний год появилось много стартапов типа tldv, Fathom и других, предлагающих AI-заметки для встреч. Google фактически "убил" их рынок, встроив эту функцию прямо в Meet.
И судя по rollout'у (медленный, с тщательным мониторингом качества) - Google серьезно настроен сделать это базовой функцией для всех корпоративных клиентов.
А следом, скорее всего, и для обычных.
Так что если вы планировали делать стартап в этой нише - возможно, стоит пересмотреть планы.
Google показывает, что базовые AI-функции будут встроены во все популярные инструменты. Нужно искать более специализированные ниши или создавать решения поверх существующих платформ. 🤔
Мультиплатформенные ассистенты.
#GoogleMeet #tldv #транскрибация
———
@tsingular
Gemini теперь умеет не просто записывать встречи в Google Meet, но и автоматически выделять следующие шаги и назначать ответственных.
- Работает пока только на английском языке
- Нужен компьютер/ноутбук (для звонков с мобильников пока не поддерживается)
- Длительность встреч: от 15 минут до 8 часов
- Создает Google Doc с заметками, который автоматически прикрепляется к календарному событию
- Поддерживает цитирование с таймкодами из транскрипции
- Умеет делать "Summary so far" для опоздавших
Доступность:
- Google Workspace Business Standard/Plus
- Enterprise Standard/Plus
- Образовательные учреждения через Gemini Education Premium
- Старые подписчики Gemini Enterprise и AI Meetings
Как работает:
1. Находите кнопку "Take notes with Gemini" в верхнем правом углу Meet
2. Включаете - участники видят значок карандаша
3. После встречи организатор и включивший заметки получают email со ссылкой
4. Документ автоматически расшаривается на внутренних участников встречи
За последний год появилось много стартапов типа tldv, Fathom и других, предлагающих AI-заметки для встреч. Google фактически "убил" их рынок, встроив эту функцию прямо в Meet.
И судя по rollout'у (медленный, с тщательным мониторингом качества) - Google серьезно настроен сделать это базовой функцией для всех корпоративных клиентов.
А следом, скорее всего, и для обычных.
Так что если вы планировали делать стартап в этой нише - возможно, стоит пересмотреть планы.
Google показывает, что базовые AI-функции будут встроены во все популярные инструменты. Нужно искать более специализированные ниши или создавать решения поверх существующих платформ. 🤔
Мультиплатформенные ассистенты.
#GoogleMeet #tldv #транскрибация
———
@tsingular
⚡3✍1👨💻1