Google снова удивляет мир технологий — на этот раз они представили DS-STAR, экспериментального ИИ-агента, который может выполнить полный цикл анализа данных, начиная от чтения файлов и заканчивая написанием кода. В тестах этот агент продемонстрировал отличные результаты, превзойдя своих «собратьев» в мире ИИ. Но что за зверь такой — этот DS-STAR?
Вместо того чтобы просто генерировать код, как это делают традиционные ИИ-системы, DS-STAR идет дальше и берет на себя ответственность за весь процесс. Агент анализирует данные (будь то таблицы, JSON-файлы или текст), строит план действий, пишет Python-код, запускает его, а потом проверяет, насколько полученный результат соответствует поставленной задаче. Интересно, что после проверки встроенный «судья» на базе LLM заставляет систему пересматривать свои шаги, пока результат не будет точным и полным.
Результаты: не просто код, а качественная аналитика🐹
Согласно исследованиям Google, DS-STAR значительно улучшил показатели на различных тестах. Например, точность на DABStep увеличилась с 41% до 45,2%, на KramaBench — с 39,8% до 44,7%, а на DA-Code — с 37% до 38,5%. Это уже не просто генерация кода, а возможность делать более качественные и содержательные выводы, что, согласитесь, впечатляет.
В экосистеме Google уже есть схожие разработки — например, Data Science Agent в Colab. Кто знает, может, скоро мы увидим элементы DS-STAR в инструментах для аналитиков и инженеров, а затем и в других продуктах компании.
Please open Telegram to view this post
VIEW IN TELEGRAM
Этот курс учит работать с Gemini прямо внутри BigQuery и закрывает полный набор практических навыков:
Если хочешь уверенно использовать AI-инструменты в аналитике и продуктах — этот курс даёт полный набор необходимых умений.
Please open Telegram to view this post
VIEW IN TELEGRAM
Она интуитивно понятна, проста в использовании, обладает высокой совместимостью и надёжностью.
Please open Telegram to view this post
VIEW IN TELEGRAM
База данных нужна, чтобы было куда удобно и компактно сложить данные, а потом — чтобы было где быстро и легко их найти.
Звучит логично, но на практике добиться удобства, компактности, быстроты и легкости не так уж и просто.
Как только находите ответ на один вопрос, тут же появляются новые. Это хорошо видно на примере статьи про создание БД с нуля: автор начинает с простого файлика с ключами и значениями и, постепенно дорабатывая его, доходит до создания LSM-дерева с индексами и сегментацией. И все это с интерактивным визуалом для наглядности.
Отличный материал для тех, кто хочет начать с азов, узнать, какие задачи встают перед создателями БД и как их можно решить.
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейтан Яу продолжает выуживать интересные инсайты из данных большого опросника American Time Use Survey.
Любопытно, что почти всё делают больше в течение дня — женщины. Уход за собой, уборка дома, уход за членами семьи, звонки по телефону, покупки.
У мужчин лидирует работа, спорт и... общение с другими людьми. Судя по всему, с другими мужчинами
Please open Telegram to view this post
VIEW IN TELEGRAM
Задумывались ли вы когда-нибудь, как ИИ может быть полезен в медицине, особенно в постановке диагнозов? Это целая система, которая должна не только интерпретировать симптомы, но и планировать, какие тесты нужны для подтверждения гипотезы. И вот, в этом направлении Google и другие исследователи сделали большой шаг вперёд.
Давайте разберемся, как это работает. В медицине задача диагностики — это не просто моментальное суждение, а пошаговое принятие решений. Нужно собрать информацию, сделать тесты и сделать выводы. И вот тут традиционные модели ИИ могут забуксовать, потому что они часто не умеют планировать, какие шаги важны на каждом этапе. К счастью, теперь есть решения, которые могут не только диагностировать, но и эффективно управлять процессом тестирования. Одним из таких проектов стал DiagGym, где ИИ не только диагностирует, но и решает, что и когда тестировать.
Виртуальная клиника — модель для диагностики
DiagGym — это, по сути, имитация клиники. В ней виртуальные агенты выбирают, какие тесты провести, и получают награду не только за правильный диагноз, но и за оптимизацию процесса тестирования. Это настоящий симулятор, где агент учится не просто диагностировать, но и выбирать правильные шаги, чтобы не тратить время и ресурсы на лишние тесты. Такой подход делает ИИ гораздо более умным и гибким в своей работе.
Для этого используется метод обучения с подкреплением (RL), где агент учится на каждом шаге, выбирая, какие тесты делать, и когда завершить процесс. Чем быстрее он ставит диагноз с меньшими затратами, тем выше его награда. ИИ не просто учит нейросети правильным ответам, он учит её стратегическому планированию, как настоящий врач!
Внутри этой виртуальной клиники обучается агент, который на каждом шаге решает, какой тест заказать. И что интересно — этот агент показывает хорошие результаты. Например, в задаче с аппендицитом агент правильно выбирает тесты, такие как общий анализ крови и КТ, чтобы подтвердить диагноз. Это важно, потому что в реальной жизни важны не только точные ответы, но и способность выбрать правильный путь для диагностики.
Однако не всё так идеально. В одном из случаев агент диагностирует внематочную беременность, но не предпринимает нужных шагов для неотложного лечения. Это показывает, что несмотря на точность диагностики, ИИ ещё не может полностью заменить врача.
Когда такие ИИ действительно смогут заменить врача? В медицине важен не только правильный диагноз, но и способность действовать в экстренных ситуациях.
Please open Telegram to view this post
VIEW IN TELEGRAM
На AI Journey презентовали крупнейший open-source проект в Европе: Сбер открыл доступ к своим флагманским моделям - GigaChat Ultra-Preview и Lightning, а также новое поколение открытых моделей GigaAM-v3 для распознавания речи, все модели генерации изображений и видео новой линейки Kandinsky 5.0 — Video Pro, Video Lite и Image Lite.
GigaChat Ultra-Preview, новая MoE-модель, 702 миллиарда параметров, собранная под русский язык и натренированная полностью с нуля. Читайте подробный пост от команды.
Впервые в России обучена MoE-модель такого масштаба полностью с нуля — без зависимости от зарубежных весов. Обучение с нуля, да и ещё на таком масштабе, — это вызов, который приняли немногие команды в мире.
Флагманская модель Kandinsky Video Pro сравнялась с Veo 3 по визуальному качеству и обогнала Wan 2.2-A14B. Читайте подробный пост от команды.
Код и веса всех моделей теперь доступны всем пользователям по лицензии MIT, в том числе для использования в коммерческих целях.
GigaChat Ultra-Preview, новая MoE-модель, 702 миллиарда параметров, собранная под русский язык и натренированная полностью с нуля. Читайте подробный пост от команды.
Впервые в России обучена MoE-модель такого масштаба полностью с нуля — без зависимости от зарубежных весов. Обучение с нуля, да и ещё на таком масштабе, — это вызов, который приняли немногие команды в мире.
Флагманская модель Kandinsky Video Pro сравнялась с Veo 3 по визуальному качеству и обогнала Wan 2.2-A14B. Читайте подробный пост от команды.
Код и веса всех моделей теперь доступны всем пользователям по лицензии MIT, в том числе для использования в коммерческих целях.
This media is not supported in your browser
VIEW IN TELEGRAM
Ловите тяжёлые запросы на ранней стадии через контролируемые анти-джоины.
Когда нужно узнать, какие записи *не имеют* соответствий в другой таблице, разработчики часто используют LEFT JOIN .
Гораздо быстрее использовать NOT EXISTS — он позволяет планировщику остановиться сразу, как только найдено первое совпадение, и эффективно задействует индексы.
select u.user_id
from users u
where not exists (
select 1
from logins l
where l.user_id = u.user_id
and l.created_at >= now() - interval '7 days'
);
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️Ozon Profit теперь позволяет делать краудсорсинг данных с выездом на место
Платформа позволяет компаниям заказывать обработку данных в онлайне, назначая исполнителей. Принцип простой: если нужно разметить фото, проанализировать отзывы, проверить цены в магазине, подбирается подходящий исполнитель — платформа связывает их и помогает оперативно решить задачу.
Теперь добавили крутую фичу — выездные задания. Допустим, вы тренируете модель распознавания вывесок. Если раньше данных не хватало, то теперь можно заказать сбор изображений из любого города России.
За последний год объем онлайн-задач, которые берет платформа, вырос в 5 раз. Сервисом пользуются маркетплейсы, финтех-компании и стартапы для разметки данных под свои ML-модели.
Удобное решение, когда нужно быстро собрать или обработать данные.
🫡 Всё про Data Science
Платформа позволяет компаниям заказывать обработку данных в онлайне, назначая исполнителей. Принцип простой: если нужно разметить фото, проанализировать отзывы, проверить цены в магазине, подбирается подходящий исполнитель — платформа связывает их и помогает оперативно решить задачу.
Теперь добавили крутую фичу — выездные задания. Допустим, вы тренируете модель распознавания вывесок. Если раньше данных не хватало, то теперь можно заказать сбор изображений из любого города России.
За последний год объем онлайн-задач, которые берет платформа, вырос в 5 раз. Сервисом пользуются маркетплейсы, финтех-компании и стартапы для разметки данных под свои ML-модели.
Удобное решение, когда нужно быстро собрать или обработать данные.
Please open Telegram to view this post
VIEW IN TELEGRAM
Описание товара гласит, что «выпрямитель исправляет некорректные графики, вводя пространственную осведомленность в неэвклидовы координаты». Купили бы? Всего-то 173 доллара, между прочим.
Это один из товаров сайта anycrap, который «воплощает нереальные вещи в жизнь». Просто вводите любое слово в поисковую строку, и он выдает вам страницу продукта с картинкой, описанием и ценой, сгенерированных ИИ.
В бесконечном ИИ-каталоге можно найти что угодно: от абсурдных гаджетов вроде «генератора пердежа» до квантового мусора. Ну, или вообще всего его угодно, что пожелаете. Как-то так мог бы выглядеть маркетплейс из «Рика и Морти» — тем более, что плюмбус там тоже есть.
Please open Telegram to view this post
VIEW IN TELEGRAM
Основные принципы оптимизации:
Он подчёркивает необходимость использовать EXPLAIN / EXPLAIN ANALYZE, чтобы увидеть, как база реально исполняет запрос: где происходят полные сканирования таблиц, плохие джоины или отсутствуют индексы.
Он рекомендует ставить индексы на часто используемые поля и ключи, применять составные индексы, но избегать чрезмерной индексации, чтобы не замедлять записи.
Он настаивает на выборе только нужных столбцов — это снижает трафик и ускоряет выполнение.
Нужно правильно выбирать тип JOIN, индексировать поля, участвующие в соединениях, и избегать слишком глубоких джоин-цепочек.
Фильтровать данные как можно раньше, использовать индексируемые колонки и избегать функций в WHERE, которые «ломают» индексы.
Использовать LIMIT / OFFSET и постраничный вывод, а не отдавать пользователю огромные выборки.
Фетчить связанные данные заранее через JOIN или батч-запросы.
Он предлагает кэшировать частые запросы с помощью Redis или Memcached, чтобы уменьшить нагрузку на базу.
Нормализация уменьшает дублирование, денормализация ускоряет чтение — важно выбирать подход под задачу.
Использовать bulk insert, проверять необходимость обновлений.
Он предлагает разбивать большие таблицы по дате или региону, что особенно полезно для логов и аналитики.
Эти рекомендации помогают backend-разработчикам строить более быстрые, масштабируемые и надёжные системы.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
НИКОГДА НЕ ЛОМАЙ ИНДЕКСЫ ФУНКЦИЯМИ: не оборачивай индексируемые поля в функции внутри WHERE.
Как только ты пишешь LOWER(), CAST(), COALESCE() или любые вычисления по колонке — индекс перестаёт работать, и запрос падает в полное сканирование таблицы.
Это одна из самых тихих причин, почему запросы внезапно превращаются в тормоза.
Вместо этого приводи значения заранее или используй функциональные индексы.
Плохо: индекс по email НЕ используется
SELECT *
FROM users
WHERE LOWER(email) = 'user@example.com';
-- Хорошо: нормализуем значение заранее
SELECT *
FROM users
WHERE email = 'user@example.com';
-- Или создаём функциональный индекс (PostgreSQL)
CREATE INDEX idx_users_email_lower ON users (LOWER(email));
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Салют, Гига! — пространство для AI-инженеров
10 декабря разработчики GigaChat и Kandinsky расскажут и покажут, что сделали за этот год.
В программе — доклады, постеры, живые демонстрации и воркшопы от команд, которые каждый день обучают модели, собирают датасеты, запускают инференс и поддерживают продакшен-сервисы.
Это хорошая возможность пообщаться с командами, которые создавали открытые модели GigaChat 3 Ultra Preview & Lightning и Kandinsky 5.0. Вы сможете посмотреть на их пайплайны обучения и понять, как применять модели в своих задачах — от pet-проектов до промышленной разработки.
Участие бесплатное, но нужна регистрация.
Ждем всех на «Салют, Гига», кому интересен AI в open source!
10 декабря разработчики GigaChat и Kandinsky расскажут и покажут, что сделали за этот год.
В программе — доклады, постеры, живые демонстрации и воркшопы от команд, которые каждый день обучают модели, собирают датасеты, запускают инференс и поддерживают продакшен-сервисы.
Это хорошая возможность пообщаться с командами, которые создавали открытые модели GigaChat 3 Ultra Preview & Lightning и Kandinsky 5.0. Вы сможете посмотреть на их пайплайны обучения и понять, как применять модели в своих задачах — от pet-проектов до промышленной разработки.
Участие бесплатное, но нужна регистрация.
Ждем всех на «Салют, Гига», кому интересен AI в open source!
IvorySQL 5.0
Свежий релиз проекта, который развивает редакцию PostgreSQL с целью обеспечить максимальную совместимость с Oracle.
Ключевые особенности:
IvorySQL позиционируется как прозрачный переходный слой между экосистемами PostgreSQL и Oracle.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
На его взгляд, здесь нет инвестиционного пузыря: LLM уже сейчас находят практическое применение и будут ещё долго приносить пользу.
Пузырь – это не сами LLM, а вера в то, что одни только они смогут достичь уровня человеческого интеллекта, то есть AGI. Дальнейший прогресс требует прорывов, а не просто большего объема данных и вычислений.
«Мы упускаем что-то важное»
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Джарвис Ньюс | Нейросети
Объясняем подробнее:
➖ Парень просто хотел выгрузить свою переписку с другом со своего старенького iPhone 12 Pro Max, но решил чекнуть метаданные;➖ Оказалось, что каждое его сообщение хранит GPS-координаты пользователя — они остаются в метаданных после отправки и геолокацию отправителя можно получить даже спустя годы после переписки;➖ Сохраняются и координаты съёмки каждой фотки и видео — они тоже остаются в метаданных;➖ Можно посмотреть историю всех групп в приложении, в которых состоял человек: кто создал, когда зашёл, когда вышел;➖ Видны все сохранённые пароли из синхронизированных аккаунтов через Keychain — конкретный сайт, логин и пароль.
Пока Цукерберг молчит, но история набрала в соцсетях уже 4 миллионов просмотров
* — принадлежит Meta, которая признана экстремистской и запрещена в России
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Orange — это интерактивный инструмент для анализа и визуализации данных, который одинаково удобен и для новичков, и для экспертов.
Главная идея — демократизировать data science: никаких формул, кода и сложных алгоритмов — всё работает через наглядные блок-схемы (workflow).
Что можно делать:
Установка (несколько способов)
Через Conda (рекомендуется):
conda config --add channels conda-forge
conda config --set channel_priority strict
conda create python=3.12 --yes --name orange3
conda activate orange3
conda install orange3
Через pip:
pip install orange3
После установки:
orange-canvas
или
python3 -m Orange.canvas
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Картинка, как из старых фильмов: Яну Лекуну — 32 года,перед камерой и показывает миру свою сверточную нейросеть, которая распознает цифры, написанные разным почерком.
Для 1988 года это был настоящий прорыв. Свёрточные нейросети, которые сейчас мы воспринимаем как нечто обычное, только начинали свой путь. Сегодня эти системы могут распознавать лица на фотографиях, анализировать контекст изображений и даже генерировать новые изображения на основе текста. Но тогда? Тогда это было как сделать машину времени из старого компьютера.
Сегодня нейросети, подобные тем, что разработал Лекун, используются повсеместно. За этими технологиями стоят десятки лет работы, исследований и попыток сделать невозможное возможным. Лекун, предсказавший этот тренд, теперь возглавляет одно из самых крупных подразделений, и, наверное, вряд ли тогда он думал, что будет играть такую важную роль в будущем ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
1K