Data Science: SQL и Аналитика данных

➡️

Сделай сам: БД ключ-значение своими руками

База данных нужна, чтобы было куда удобно и компактно сложить данные, а потом — чтобы было где быстро и легко их найти.

Звучит логично, но на практике добиться удобства, компактности, быстроты и легкости не так уж и просто.
⏺️Как вносить новые данные в файл?
⏺️Как изменять или удалять старые?
⏺️Как сэкономить место на диске и не дать базе разрастись до неразумных размеров?
⏺️Как ускорить поиск, особенно когда количество записей растет?

Как только находите ответ на один вопрос, тут же появляются новые. Это хорошо видно на примере статьи про создание БД с нуля: автор начинает с простого файлика с ключами и значениями и, постепенно дорабатывая его, доходит до создания LSM-дерева с индексами и сегментацией. И все это с интерактивным визуалом для наглядности.

Отличный материал для тех, кто хочет начать с азов, узнать, какие задачи встают перед создателями БД и как их можно решить.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

4.09K viewsedited 05:42

Data Science: SQL и Аналитика данных

🔥

Как отличаются дни мужчин и женщин

Нейтан Яу продолжает выуживать интересные инсайты из данных большого опросника American Time Use Survey.

Любопытно, что почти всё делают больше в течение дня — женщины. Уход за собой, уборка дома, уход за членами семьи, звонки по телефону, покупки.

У мужчин лидирует работа, спорт и... общение с другими людьми. Судя по всему, с другими мужчинами👀

➡️

https://flowingdata.com/2025/11/04/spend-days-men-women-2024/

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

3.93K views15:02

Data Science: SQL и Аналитика данных

➡️

Как нейросетей учат ставить диагнозы в виртуальной клинике

Задумывались ли вы когда-нибудь, как ИИ может быть полезен в медицине, особенно в постановке диагнозов? Это целая система, которая должна не только интерпретировать симптомы, но и планировать, какие тесты нужны для подтверждения гипотезы. И вот, в этом направлении Google и другие исследователи сделали большой шаг вперёд.

Давайте разберемся, как это работает. В медицине задача диагностики — это не просто моментальное суждение, а пошаговое принятие решений. Нужно собрать информацию, сделать тесты и сделать выводы. И вот тут традиционные модели ИИ могут забуксовать, потому что они часто не умеют планировать, какие шаги важны на каждом этапе. К счастью, теперь есть решения, которые могут не только диагностировать, но и эффективно управлять процессом тестирования. Одним из таких проектов стал DiagGym, где ИИ не только диагностирует, но и решает, что и когда тестировать.

Виртуальная клиника — модель для диагностики

DiagGym — это, по сути, имитация клиники. В ней виртуальные агенты выбирают, какие тесты провести, и получают награду не только за правильный диагноз, но и за оптимизацию процесса тестирования. Это настоящий симулятор, где агент учится не просто диагностировать, но и выбирать правильные шаги, чтобы не тратить время и ресурсы на лишние тесты. Такой подход делает ИИ гораздо более умным и гибким в своей работе.

Для этого используется метод обучения с подкреплением (RL), где агент учится на каждом шаге, выбирая, какие тесты делать, и когда завершить процесс. Чем быстрее он ставит диагноз с меньшими затратами, тем выше его награда. ИИ не просто учит нейросети правильным ответам, он учит её стратегическому планированию, как настоящий врач!

Внутри этой виртуальной клиники обучается агент, который на каждом шаге решает, какой тест заказать. И что интересно — этот агент показывает хорошие результаты. Например, в задаче с аппендицитом агент правильно выбирает тесты, такие как общий анализ крови и КТ, чтобы подтвердить диагноз. Это важно, потому что в реальной жизни важны не только точные ответы, но и способность выбрать правильный путь для диагностики.

Однако не всё так идеально. В одном из случаев агент диагностирует внематочную беременность, но не предпринимает нужных шагов для неотложного лечения. Это показывает, что несмотря на точность диагностики, ИИ ещё не может полностью заменить врача.

Когда такие ИИ действительно смогут заменить врача? В медицине важен не только правильный диагноз, но и способность действовать в экстренных ситуациях.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

4.01K views12:00

Data Science: SQL и Аналитика данных

На AI Journey презентовали крупнейший open-source проект в Европе: Сбер открыл доступ к своим флагманским моделям - GigaChat Ultra-Preview и Lightning, а также новое поколение открытых моделей GigaAM-v3 для распознавания речи, все модели генерации изображений и видео новой линейки Kandinsky 5.0 — Video Pro, Video Lite и Image Lite.

GigaChat Ultra-Preview, новая MoE-модель, 702 миллиарда параметров, собранная под русский язык и натренированная полностью с нуля. Читайте подробный пост от команды.

Впервые в России обучена MoE-модель такого масштаба полностью с нуля — без зависимости от зарубежных весов. Обучение с нуля, да и ещё на таком масштабе, — это вызов, который приняли немногие команды в мире.

Флагманская модель Kandinsky Video Pro сравнялась с Veo 3 по визуальному качеству и обогнала Wan 2.2-A14B. Читайте подробный пост от команды.

Код и веса всех моделей теперь доступны всем пользователям по лицензии MIT, в том числе для использования в коммерческих целях.

4.58K views15:34

Data Science: SQL и Аналитика данных

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

➡️ SQL СОВЕТ

Ловите тяжёлые запросы на ранней стадии через контролируемые анти-джоины.
Когда нужно узнать, какие записи *не имеют* соответствий в другой таблице, разработчики часто используют LEFT JOIN .

Гораздо быстрее использовать NOT EXISTS — он позволяет планировщику остановиться сразу, как только найдено первое совпадение, и эффективно задействует индексы.

select u.user_id
from users u
where not exists (
    select 1
    from logins l
    where l.user_id = u.user_id
      and l.created_at >= now() - interval '7 days'
);

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

3.98K views04:27

Data Science: SQL и Аналитика данных

➡️Ozon Profit теперь позволяет делать краудсорсинг данных с выездом на место

Платформа позволяет компаниям заказывать обработку данных в онлайне, назначая исполнителей. Принцип простой: если нужно разметить фото, проанализировать отзывы, проверить цены в магазине, подбирается подходящий исполнитель — платформа связывает их и помогает оперативно решить задачу.

Теперь добавили крутую фичу — выездные задания. Допустим, вы тренируете модель распознавания вывесок. Если раньше данных не хватало, то теперь можно заказать сбор изображений из любого города России.

За последний год объем онлайн-задач, которые берет платформа, вырос в 5 раз. Сервисом пользуются маркетплейсы, финтех-компании и стартапы для разметки данных под свои ML-модели.

Удобное решение, когда нужно быстро собрать или обработать данные.

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

4.26K views11:36

Data Science: SQL и Аналитика данных

🔥

Выпрямитель графиков — незаменимый гаджет для аналитика

Описание товара гласит, что «выпрямитель исправляет некорректные графики, вводя пространственную осведомленность в неэвклидовы координаты». Купили бы? Всего-то 173 доллара, между прочим.

Это один из товаров сайта anycrap, который «воплощает нереальные вещи в жизнь». Просто вводите любое слово в поисковую строку, и он выдает вам страницу продукта с картинкой, описанием и ценой, сгенерированных ИИ.

В бесконечном ИИ-каталоге можно найти что угодно: от абсурдных гаджетов вроде «генератора пердежа» до квантового мусора. Ну, или вообще всего его угодно, что пожелаете. Как-то так мог бы выглядеть маркетплейс из «Рика и Морти» — тем более, что плюмбус там тоже есть.

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

3.88K views06:25

Data Science: SQL и Аналитика данных

🔥

Как правильно оптимизировать SQL в бэкенде, чтобы запросы работали быстрее, снижали задержки и не создавали узких мест в системе.

➡️ Некачественно написанный SQL приводит к высоким задержкам, росту нагрузки на CPU и проблемам в нагруженных сервисах.

Основные принципы оптимизации:

1️⃣Анализ планов выполнения
Он подчёркивает необходимость использовать EXPLAIN / EXPLAIN ANALYZE, чтобы увидеть, как база реально исполняет запрос: где происходят полные сканирования таблиц, плохие джоины или отсутствуют индексы.

2️⃣Индексация
Он рекомендует ставить индексы на часто используемые поля и ключи, применять составные индексы, но избегать чрезмерной индексации, чтобы не замедлять записи.

3️⃣Отказ от SELECT *
Он настаивает на выборе только нужных столбцов — это снижает трафик и ускоряет выполнение.

4️⃣Оптимизация джоинов
Нужно правильно выбирать тип JOIN, индексировать поля, участвующие в соединениях, и избегать слишком глубоких джоин-цепочек.

5️⃣Грамотные WHERE-фильтры
Фильтровать данные как можно раньше, использовать индексируемые колонки и избегать функций в WHERE, которые «ломают» индексы.

6️⃣Ограничение числа строк
Использовать LIMIT / OFFSET и постраничный вывод, а не отдавать пользователю огромные выборки.

7️⃣Избежание проблемы N+1
Фетчить связанные данные заранее через JOIN или батч-запросы.

8️⃣Кэширование
Он предлагает кэшировать частые запросы с помощью Redis или Memcached, чтобы уменьшить нагрузку на базу.

9️⃣Нормализация и денормализация
Нормализация уменьшает дублирование, денормализация ускоряет чтение — важно выбирать подход под задачу.

1️⃣0️⃣Оптимизация вставок и обновлений
Использовать bulk insert, проверять необходимость обновлений.

1️⃣1️⃣Партиционирование таблиц
Он предлагает разбивать большие таблицы по дате или региону, что особенно полезно для логов и аналитики.

Эти рекомендации помогают backend-разработчикам строить более быстрые, масштабируемые и надёжные системы.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

3.88K views10:03

Data Science: SQL и Аналитика данных

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 SQL Никогда НЕ ДЕЛАЙ ТАК

НИКОГДА НЕ ЛОМАЙ ИНДЕКСЫ ФУНКЦИЯМИ: не оборачивай индексируемые поля в функции внутри WHERE.

Как только ты пишешь LOWER(), CAST(), COALESCE() или любые вычисления по колонке — индекс перестаёт работать, и запрос падает в полное сканирование таблицы.

Это одна из самых тихих причин, почему запросы внезапно превращаются в тормоза.

Вместо этого приводи значения заранее или используй функциональные индексы.

Плохо: индекс по email НЕ используется  
SELECT *  
FROM users  
WHERE LOWER(email) = 'user@example.com';

-- Хорошо: нормализуем значение заранее  
SELECT *  
FROM users  
WHERE email = 'user@example.com';

-- Или создаём функциональный индекс (PostgreSQL)  
CREATE INDEX idx_users_email_lower ON users (LOWER(email));

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

3.75K views08:08

Data Science: SQL и Аналитика данных

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

Салют, Гига! — пространство для AI-инженеров

10 декабря разработчики GigaChat и Kandinsky расскажут и покажут, что сделали за этот год.

В программе — доклады, постеры, живые демонстрации и воркшопы от команд, которые каждый день обучают модели, собирают датасеты, запускают инференс и поддерживают продакшен-сервисы.

Это хорошая возможность пообщаться с командами, которые создавали открытые модели GigaChat 3 Ultra Preview & Lightning и Kandinsky 5.0. Вы сможете посмотреть на их пайплайны обучения и понять, как применять модели в своих задачах — от pet-проектов до промышленной разработки.

Участие бесплатное, но нужна регистрация.

Ждем всех на «Салют, Гига», кому интересен AI в open source!

4.24K views15:19

Data Science: SQL и Аналитика данных

🔥

Вышли новые релизы для тех, кто использует PostgreSQL в окружениях с несколькими СУБД.

IvorySQL 5.0
Свежий релиз проекта, который развивает редакцию PostgreSQL с целью обеспечить максимальную совместимость с Oracle.

Ключевые особенности:

⏺️ работает как почти полная замена стандартного PostgreSQL
⏺️ добавлена настройка compatible_db, включающая режим совместимости с Oracle
⏺️ подходит для приложений, изначально написанных под Oracle
⏺️ код на C
⏺️ лицензия Apache 2.0

IvorySQL позиционируется как прозрачный переходный слой между экосистемами PostgreSQL и Oracle.

➡️ Узнать подробнее: клик

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

4.43K views06:11

Data Science: SQL и Аналитика данных

1:36

Media is too big

VIEW IN TELEGRAM

🔥

Внезапно: по мнению Яна Лекуна LLM-модели — это не «пузырь»

На его взгляд, здесь нет инвестиционного пузыря: LLM уже сейчас находят практическое применение и будут ещё долго приносить пользу.

Пузырь – это не сами LLM, а вера в то, что одни только они смогут достичь уровня человеческого интеллекта, то есть AGI. Дальнейший прогресс требует прорывов, а не просто большего объема данных и вычислений.

«Мы упускаем что-то важное»

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

10.3K views09:37

Data Science: SQL и Аналитика данных

Forwarded from Джарвис Ньюс | Нейросети

‼️

WhatsApp* сливает ВСЕ ВАШИ ДАННЫЕ из обычных сообщений — обычные юзеры случайно открыли правду, которая шокирует до мурашек

Объясняем подробнее:

➖ Парень просто хотел выгрузить свою переписку с другом со своего старенького iPhone 12 Pro Max, но решил чекнуть метаданные;

➖ Оказалось, что каждое его сообщение хранит GPS-координаты пользователя — они остаются в метаданных после отправки и геолокацию отправителя можно получить даже спустя годы после переписки;

➖ Сохраняются и координаты съёмки каждой фотки и видео — они тоже остаются в метаданных;

➖ Можно посмотреть историю всех групп в приложении, в которых состоял человек: кто создал, когда зашёл, когда вышел;

➖ Видны все сохранённые пароли из синхронизированных аккаунтов через Keychain — конкретный сайт, логин и пароль.

‼️ Всё это удалось вытащить лишь из сообщений в мессенджере взлома устройства и прочих вещей

Пока Цукерберг молчит, но история набрала в соцсетях уже 4 миллионов просмотров 😱

* — принадлежит Meta, которая признана экстремистской и запрещена в России

💻 Новости Технологий и AI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

4.52K views15:25

Data Science: SQL и Аналитика данных

➡️ Orange Data Mining — визуальная аналитика без кода

Orange — это интерактивный инструмент для анализа и визуализации данных, который одинаково удобен и для новичков, и для экспертов.
Главная идея — демократизировать data science: никаких формул, кода и сложных алгоритмов — всё работает через наглядные блок-схемы (workflow).

Что можно делать:
⏺️ Загружать и исследовать данные
⏺️ Визуализировать зависимости
⏺️ Применять машинное обучение
⏺️ Строить интерактивные отчёты

➡️ Orange отлично подходит для обучения, быстрой проверки гипотез и прототипирования ML-моделей.

Установка (несколько способов)

Через Conda (рекомендуется):

conda config --add channels conda-forge
conda config --set channel_priority strict
conda create python=3.12 --yes --name orange3
conda activate orange3
conda install orange3

Через pip:

pip install orange3

После установки:

orange-canvas

или

python3 -m Orange.canvas

📱

GitHub

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

4.16K views07:33

Data Science: SQL и Аналитика данных

1:01

This media is not supported in your browser

VIEW IN TELEGRAM

➡️

Как Яну Лекуну удалось предсказать будущее ИИ

Картинка, как из старых фильмов: Яну Лекуну — 32 года,перед камерой и показывает миру свою сверточную нейросеть, которая распознает цифры, написанные разным почерком.

Для 1988 года это был настоящий прорыв. Свёрточные нейросети, которые сейчас мы воспринимаем как нечто обычное, только начинали свой путь. Сегодня эти системы могут распознавать лица на фотографиях, анализировать контекст изображений и даже генерировать новые изображения на основе текста. Но тогда? Тогда это было как сделать машину времени из старого компьютера.

Сегодня нейросети, подобные тем, что разработал Лекун, используются повсеместно. За этими технологиями стоят десятки лет работы, исследований и попыток сделать невозможное возможным. Лекун, предсказавший этот тренд, теперь возглавляет одно из самых крупных подразделений, и, наверное, вряд ли тогда он думал, что будет играть такую важную роль в будущем ИИ.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

4.22K views10:03

Data Science: SQL и Аналитика данных

➡️ 3 вида шардирования баз данных:

⏺️

Range-based — разбивает данные по диапазонам значений ключа

⏺️

Hash-based — выбирает шарду с помощью хеш-функции

⏺️

Tenant-based — каждому клиенту (тенанту) выделяется своя отдельная база

Пояснения:

Range-based sharding делит данные по диапазонам ключа (например: ID 1–1 000 — первая шарда, 1 001–2 000 — вторая).

Hash-based sharding использует хеш от ключа, чтобы определить, в какую шарду поместить или откуда прочитать запись. Это даёт более равномерное распределение.

Tenant-based sharding выделяет каждому клиенту собственную базу данных, что упрощает изоляцию, миграции и управление данными.

Просто, понятно и работает во всех масштабах.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

4.43K views06:30

Data Science: SQL и Аналитика данных

0:32

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 SQL разбор ошибок

Одна из самых частых ошибок в SQL - вытаскивать слишком много строк без явных условий фильтрации. Люди часто пишут запросы без WHERE, забывают ограничивать выборку и получают огромные таблицы, перегруженные джоины и медленные отчёты.

Особенно опасно - JOIN без условий: это создаёт декартово произведение и может положить базу.

Всегда задавай точные условия, проверяй ключи соединений и ограничивай выборку, если смотришь данные руками.
Подписывайся, больше фишек каждый день !

SELECT *
FROM users
JOIN orders
-- Ошибка: отсутствует ON, создаётся декартово произведение
LIMIT 100;

-- Правильно:
SELECT u.id, o.id
FROM users u
JOIN orders o ON o.user_id = u.id
LIMIT 100;

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

3.95K views10:30

Data Science: SQL и Аналитика данных

Forwarded from ТЕХНО: Яндекс про технологии

🎭 В гайдах по промптингу часто советуют задавать ИИ экспертную роль, от лица которой он будет отвечать. На днях вышло исследование о том, как указание роли влияет на выдачу нейросети.

Исследователи из Уортонской школы бизнеса проверили эффективность такого промптинга на нескольких моделях от OpenAI и Google (правда, в экспериментах не тестировали флагманские модели текущего поколения вроде GPT-5.1 и Gemini 3 Pro). Почти во всех случаях фактическая точность никак не менялась от указания роли эксперта. Единственное исключение — Gemini 2.0 Flash. Она действительно стала отвечать лучше с ролью эксперта в промпте.

Но оказалось, что выбор роли работает в обратную сторону: если дать нейросети указание говорить от лица ребёнка, то ответ стабильно будет менее точным.

Значит ли это, что указывать роль в промпте бесполезно? Авторы отмечают, что роль в промпте всё-таки может приносить пользу, помогая ИИ понять, с какого угла лучше смотреть на проблему и какой ответ хочет видеть пользователь.

Подписывайтесь 👉 @techno_yandex

3.86K views11:01

About

Blog

Apps

Platform