База данных нужна, чтобы было куда удобно и компактно сложить данные, а потом — чтобы было где быстро и легко их найти.
Звучит логично, но на практике добиться удобства, компактности, быстроты и легкости не так уж и просто.
Как только находите ответ на один вопрос, тут же появляются новые. Это хорошо видно на примере статьи про создание БД с нуля: автор начинает с простого файлика с ключами и значениями и, постепенно дорабатывая его, доходит до создания LSM-дерева с индексами и сегментацией. И все это с интерактивным визуалом для наглядности.
Отличный материал для тех, кто хочет начать с азов, узнать, какие задачи встают перед создателями БД и как их можно решить.
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейтан Яу продолжает выуживать интересные инсайты из данных большого опросника American Time Use Survey.
Любопытно, что почти всё делают больше в течение дня — женщины. Уход за собой, уборка дома, уход за членами семьи, звонки по телефону, покупки.
У мужчин лидирует работа, спорт и... общение с другими людьми. Судя по всему, с другими мужчинами
Please open Telegram to view this post
VIEW IN TELEGRAM
Задумывались ли вы когда-нибудь, как ИИ может быть полезен в медицине, особенно в постановке диагнозов? Это целая система, которая должна не только интерпретировать симптомы, но и планировать, какие тесты нужны для подтверждения гипотезы. И вот, в этом направлении Google и другие исследователи сделали большой шаг вперёд.
Давайте разберемся, как это работает. В медицине задача диагностики — это не просто моментальное суждение, а пошаговое принятие решений. Нужно собрать информацию, сделать тесты и сделать выводы. И вот тут традиционные модели ИИ могут забуксовать, потому что они часто не умеют планировать, какие шаги важны на каждом этапе. К счастью, теперь есть решения, которые могут не только диагностировать, но и эффективно управлять процессом тестирования. Одним из таких проектов стал DiagGym, где ИИ не только диагностирует, но и решает, что и когда тестировать.
Виртуальная клиника — модель для диагностики
DiagGym — это, по сути, имитация клиники. В ней виртуальные агенты выбирают, какие тесты провести, и получают награду не только за правильный диагноз, но и за оптимизацию процесса тестирования. Это настоящий симулятор, где агент учится не просто диагностировать, но и выбирать правильные шаги, чтобы не тратить время и ресурсы на лишние тесты. Такой подход делает ИИ гораздо более умным и гибким в своей работе.
Для этого используется метод обучения с подкреплением (RL), где агент учится на каждом шаге, выбирая, какие тесты делать, и когда завершить процесс. Чем быстрее он ставит диагноз с меньшими затратами, тем выше его награда. ИИ не просто учит нейросети правильным ответам, он учит её стратегическому планированию, как настоящий врач!
Внутри этой виртуальной клиники обучается агент, который на каждом шаге решает, какой тест заказать. И что интересно — этот агент показывает хорошие результаты. Например, в задаче с аппендицитом агент правильно выбирает тесты, такие как общий анализ крови и КТ, чтобы подтвердить диагноз. Это важно, потому что в реальной жизни важны не только точные ответы, но и способность выбрать правильный путь для диагностики.
Однако не всё так идеально. В одном из случаев агент диагностирует внематочную беременность, но не предпринимает нужных шагов для неотложного лечения. Это показывает, что несмотря на точность диагностики, ИИ ещё не может полностью заменить врача.
Когда такие ИИ действительно смогут заменить врача? В медицине важен не только правильный диагноз, но и способность действовать в экстренных ситуациях.
Please open Telegram to view this post
VIEW IN TELEGRAM
На AI Journey презентовали крупнейший open-source проект в Европе: Сбер открыл доступ к своим флагманским моделям - GigaChat Ultra-Preview и Lightning, а также новое поколение открытых моделей GigaAM-v3 для распознавания речи, все модели генерации изображений и видео новой линейки Kandinsky 5.0 — Video Pro, Video Lite и Image Lite.
GigaChat Ultra-Preview, новая MoE-модель, 702 миллиарда параметров, собранная под русский язык и натренированная полностью с нуля. Читайте подробный пост от команды.
Впервые в России обучена MoE-модель такого масштаба полностью с нуля — без зависимости от зарубежных весов. Обучение с нуля, да и ещё на таком масштабе, — это вызов, который приняли немногие команды в мире.
Флагманская модель Kandinsky Video Pro сравнялась с Veo 3 по визуальному качеству и обогнала Wan 2.2-A14B. Читайте подробный пост от команды.
Код и веса всех моделей теперь доступны всем пользователям по лицензии MIT, в том числе для использования в коммерческих целях.
GigaChat Ultra-Preview, новая MoE-модель, 702 миллиарда параметров, собранная под русский язык и натренированная полностью с нуля. Читайте подробный пост от команды.
Впервые в России обучена MoE-модель такого масштаба полностью с нуля — без зависимости от зарубежных весов. Обучение с нуля, да и ещё на таком масштабе, — это вызов, который приняли немногие команды в мире.
Флагманская модель Kandinsky Video Pro сравнялась с Veo 3 по визуальному качеству и обогнала Wan 2.2-A14B. Читайте подробный пост от команды.
Код и веса всех моделей теперь доступны всем пользователям по лицензии MIT, в том числе для использования в коммерческих целях.
This media is not supported in your browser
VIEW IN TELEGRAM
Ловите тяжёлые запросы на ранней стадии через контролируемые анти-джоины.
Когда нужно узнать, какие записи *не имеют* соответствий в другой таблице, разработчики часто используют LEFT JOIN .
Гораздо быстрее использовать NOT EXISTS — он позволяет планировщику остановиться сразу, как только найдено первое совпадение, и эффективно задействует индексы.
select u.user_id
from users u
where not exists (
select 1
from logins l
where l.user_id = u.user_id
and l.created_at >= now() - interval '7 days'
);
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️Ozon Profit теперь позволяет делать краудсорсинг данных с выездом на место
Платформа позволяет компаниям заказывать обработку данных в онлайне, назначая исполнителей. Принцип простой: если нужно разметить фото, проанализировать отзывы, проверить цены в магазине, подбирается подходящий исполнитель — платформа связывает их и помогает оперативно решить задачу.
Теперь добавили крутую фичу — выездные задания. Допустим, вы тренируете модель распознавания вывесок. Если раньше данных не хватало, то теперь можно заказать сбор изображений из любого города России.
За последний год объем онлайн-задач, которые берет платформа, вырос в 5 раз. Сервисом пользуются маркетплейсы, финтех-компании и стартапы для разметки данных под свои ML-модели.
Удобное решение, когда нужно быстро собрать или обработать данные.
🫡 Всё про Data Science
Платформа позволяет компаниям заказывать обработку данных в онлайне, назначая исполнителей. Принцип простой: если нужно разметить фото, проанализировать отзывы, проверить цены в магазине, подбирается подходящий исполнитель — платформа связывает их и помогает оперативно решить задачу.
Теперь добавили крутую фичу — выездные задания. Допустим, вы тренируете модель распознавания вывесок. Если раньше данных не хватало, то теперь можно заказать сбор изображений из любого города России.
За последний год объем онлайн-задач, которые берет платформа, вырос в 5 раз. Сервисом пользуются маркетплейсы, финтех-компании и стартапы для разметки данных под свои ML-модели.
Удобное решение, когда нужно быстро собрать или обработать данные.
Please open Telegram to view this post
VIEW IN TELEGRAM
Описание товара гласит, что «выпрямитель исправляет некорректные графики, вводя пространственную осведомленность в неэвклидовы координаты». Купили бы? Всего-то 173 доллара, между прочим.
Это один из товаров сайта anycrap, который «воплощает нереальные вещи в жизнь». Просто вводите любое слово в поисковую строку, и он выдает вам страницу продукта с картинкой, описанием и ценой, сгенерированных ИИ.
В бесконечном ИИ-каталоге можно найти что угодно: от абсурдных гаджетов вроде «генератора пердежа» до квантового мусора. Ну, или вообще всего его угодно, что пожелаете. Как-то так мог бы выглядеть маркетплейс из «Рика и Морти» — тем более, что плюмбус там тоже есть.
Please open Telegram to view this post
VIEW IN TELEGRAM
Основные принципы оптимизации:
Он подчёркивает необходимость использовать EXPLAIN / EXPLAIN ANALYZE, чтобы увидеть, как база реально исполняет запрос: где происходят полные сканирования таблиц, плохие джоины или отсутствуют индексы.
Он рекомендует ставить индексы на часто используемые поля и ключи, применять составные индексы, но избегать чрезмерной индексации, чтобы не замедлять записи.
Он настаивает на выборе только нужных столбцов — это снижает трафик и ускоряет выполнение.
Нужно правильно выбирать тип JOIN, индексировать поля, участвующие в соединениях, и избегать слишком глубоких джоин-цепочек.
Фильтровать данные как можно раньше, использовать индексируемые колонки и избегать функций в WHERE, которые «ломают» индексы.
Использовать LIMIT / OFFSET и постраничный вывод, а не отдавать пользователю огромные выборки.
Фетчить связанные данные заранее через JOIN или батч-запросы.
Он предлагает кэшировать частые запросы с помощью Redis или Memcached, чтобы уменьшить нагрузку на базу.
Нормализация уменьшает дублирование, денормализация ускоряет чтение — важно выбирать подход под задачу.
Использовать bulk insert, проверять необходимость обновлений.
Он предлагает разбивать большие таблицы по дате или региону, что особенно полезно для логов и аналитики.
Эти рекомендации помогают backend-разработчикам строить более быстрые, масштабируемые и надёжные системы.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
НИКОГДА НЕ ЛОМАЙ ИНДЕКСЫ ФУНКЦИЯМИ: не оборачивай индексируемые поля в функции внутри WHERE.
Как только ты пишешь LOWER(), CAST(), COALESCE() или любые вычисления по колонке — индекс перестаёт работать, и запрос падает в полное сканирование таблицы.
Это одна из самых тихих причин, почему запросы внезапно превращаются в тормоза.
Вместо этого приводи значения заранее или используй функциональные индексы.
Плохо: индекс по email НЕ используется
SELECT *
FROM users
WHERE LOWER(email) = 'user@example.com';
-- Хорошо: нормализуем значение заранее
SELECT *
FROM users
WHERE email = 'user@example.com';
-- Или создаём функциональный индекс (PostgreSQL)
CREATE INDEX idx_users_email_lower ON users (LOWER(email));
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Салют, Гига! — пространство для AI-инженеров
10 декабря разработчики GigaChat и Kandinsky расскажут и покажут, что сделали за этот год.
В программе — доклады, постеры, живые демонстрации и воркшопы от команд, которые каждый день обучают модели, собирают датасеты, запускают инференс и поддерживают продакшен-сервисы.
Это хорошая возможность пообщаться с командами, которые создавали открытые модели GigaChat 3 Ultra Preview & Lightning и Kandinsky 5.0. Вы сможете посмотреть на их пайплайны обучения и понять, как применять модели в своих задачах — от pet-проектов до промышленной разработки.
Участие бесплатное, но нужна регистрация.
Ждем всех на «Салют, Гига», кому интересен AI в open source!
10 декабря разработчики GigaChat и Kandinsky расскажут и покажут, что сделали за этот год.
В программе — доклады, постеры, живые демонстрации и воркшопы от команд, которые каждый день обучают модели, собирают датасеты, запускают инференс и поддерживают продакшен-сервисы.
Это хорошая возможность пообщаться с командами, которые создавали открытые модели GigaChat 3 Ultra Preview & Lightning и Kandinsky 5.0. Вы сможете посмотреть на их пайплайны обучения и понять, как применять модели в своих задачах — от pet-проектов до промышленной разработки.
Участие бесплатное, но нужна регистрация.
Ждем всех на «Салют, Гига», кому интересен AI в open source!
IvorySQL 5.0
Свежий релиз проекта, который развивает редакцию PostgreSQL с целью обеспечить максимальную совместимость с Oracle.
Ключевые особенности:
IvorySQL позиционируется как прозрачный переходный слой между экосистемами PostgreSQL и Oracle.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
На его взгляд, здесь нет инвестиционного пузыря: LLM уже сейчас находят практическое применение и будут ещё долго приносить пользу.
Пузырь – это не сами LLM, а вера в то, что одни только они смогут достичь уровня человеческого интеллекта, то есть AGI. Дальнейший прогресс требует прорывов, а не просто большего объема данных и вычислений.
«Мы упускаем что-то важное»
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Джарвис Ньюс | Нейросети
Объясняем подробнее:
➖ Парень просто хотел выгрузить свою переписку с другом со своего старенького iPhone 12 Pro Max, но решил чекнуть метаданные;➖ Оказалось, что каждое его сообщение хранит GPS-координаты пользователя — они остаются в метаданных после отправки и геолокацию отправителя можно получить даже спустя годы после переписки;➖ Сохраняются и координаты съёмки каждой фотки и видео — они тоже остаются в метаданных;➖ Можно посмотреть историю всех групп в приложении, в которых состоял человек: кто создал, когда зашёл, когда вышел;➖ Видны все сохранённые пароли из синхронизированных аккаунтов через Keychain — конкретный сайт, логин и пароль.
Пока Цукерберг молчит, но история набрала в соцсетях уже 4 миллионов просмотров
* — принадлежит Meta, которая признана экстремистской и запрещена в России
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Orange — это интерактивный инструмент для анализа и визуализации данных, который одинаково удобен и для новичков, и для экспертов.
Главная идея — демократизировать data science: никаких формул, кода и сложных алгоритмов — всё работает через наглядные блок-схемы (workflow).
Что можно делать:
Установка (несколько способов)
Через Conda (рекомендуется):
conda config --add channels conda-forge
conda config --set channel_priority strict
conda create python=3.12 --yes --name orange3
conda activate orange3
conda install orange3
Через pip:
pip install orange3
После установки:
orange-canvas
или
python3 -m Orange.canvas
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Картинка, как из старых фильмов: Яну Лекуну — 32 года,перед камерой и показывает миру свою сверточную нейросеть, которая распознает цифры, написанные разным почерком.
Для 1988 года это был настоящий прорыв. Свёрточные нейросети, которые сейчас мы воспринимаем как нечто обычное, только начинали свой путь. Сегодня эти системы могут распознавать лица на фотографиях, анализировать контекст изображений и даже генерировать новые изображения на основе текста. Но тогда? Тогда это было как сделать машину времени из старого компьютера.
Сегодня нейросети, подобные тем, что разработал Лекун, используются повсеместно. За этими технологиями стоят десятки лет работы, исследований и попыток сделать невозможное возможным. Лекун, предсказавший этот тренд, теперь возглавляет одно из самых крупных подразделений, и, наверное, вряд ли тогда он думал, что будет играть такую важную роль в будущем ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
1K
Пояснения:
Range-based sharding делит данные по диапазонам ключа (например: ID 1–1 000 — первая шарда, 1 001–2 000 — вторая).
Hash-based sharding использует хеш от ключа, чтобы определить, в какую шарду поместить или откуда прочитать запись. Это даёт более равномерное распределение.
Tenant-based sharding выделяет каждому клиенту собственную базу данных, что упрощает изоляцию, миграции и управление данными.
Просто, понятно и работает во всех масштабах.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Одна из самых частых ошибок в SQL - вытаскивать слишком много строк без явных условий фильтрации. Люди часто пишут запросы без WHERE, забывают ограничивать выборку и получают огромные таблицы, перегруженные джоины и медленные отчёты.
Особенно опасно - JOIN без условий: это создаёт декартово произведение и может положить базу.
Всегда задавай точные условия, проверяй ключи соединений и ограничивай выборку, если смотришь данные руками.
Подписывайся, больше фишек каждый день !
SELECT *
FROM users
JOIN orders
-- Ошибка: отсутствует ON, создаётся декартово произведение
LIMIT 100;
-- Правильно:
SELECT u.id, o.id
FROM users u
JOIN orders o ON o.user_id = u.id
LIMIT 100;
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from ТЕХНО: Яндекс про технологии
🎭 В гайдах по промптингу часто советуют задавать ИИ экспертную роль, от лица которой он будет отвечать. На днях вышло исследование о том, как указание роли влияет на выдачу нейросети.
Исследователи из Уортонской школы бизнеса проверили эффективность такого промптинга на нескольких моделях от OpenAI и Google (правда, в экспериментах не тестировали флагманские модели текущего поколения вроде GPT-5.1 и Gemini 3 Pro). Почти во всех случаях фактическая точность никак не менялась от указания роли эксперта. Единственное исключение — Gemini 2.0 Flash. Она действительно стала отвечать лучше с ролью эксперта в промпте.
Но оказалось, что выбор роли работает в обратную сторону: если дать нейросети указание говорить от лица ребёнка, то ответ стабильно будет менее точным.
Значит ли это, что указывать роль в промпте бесполезно? Авторы отмечают, что роль в промпте всё-таки может приносить пользу, помогая ИИ понять, с какого угла лучше смотреть на проблему и какой ответ хочет видеть пользователь.
Подписывайтесь 👉 @techno_yandex
Исследователи из Уортонской школы бизнеса проверили эффективность такого промптинга на нескольких моделях от OpenAI и Google (правда, в экспериментах не тестировали флагманские модели текущего поколения вроде GPT-5.1 и Gemini 3 Pro). Почти во всех случаях фактическая точность никак не менялась от указания роли эксперта. Единственное исключение — Gemini 2.0 Flash. Она действительно стала отвечать лучше с ролью эксперта в промпте.
Но оказалось, что выбор роли работает в обратную сторону: если дать нейросети указание говорить от лица ребёнка, то ответ стабильно будет менее точным.
Значит ли это, что указывать роль в промпте бесполезно? Авторы отмечают, что роль в промпте всё-таки может приносить пользу, помогая ИИ понять, с какого угла лучше смотреть на проблему и какой ответ хочет видеть пользователь.
Подписывайтесь 👉 @techno_yandex