Data Science: SQL и Аналитика данных
40K subscribers
244 photos
54 videos
1 file
299 links
№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri
Download Telegram
Освоить анализ данных в онлайн-формате

Центр непрерывного образования ФКН НИУ ВШЭ запускает онлайн-программу профессиональной переподготовки «Практический анализ данных». Вас ждет всестороннее обучение и практика с использованием Python, SQL и других инструментов для работы с данными, а также изучение основ статистики и машинного обучения.

В процессе обучения вы:

1️⃣освоите работу с ключевыми библиотеками Python для анализа данных и автоматизации рутинных задач;
2️⃣изучите принципы работы с базами данных, научитесь фильтровать и сортировать данные, использовать агрегирующие функции, а также работать с датами и строками;
3️⃣пройдете основы статистики для анализа данных и освоите методы проведения A/B-тестов для проверки гипотез и принятия обоснованных бизнес-решений;
4️⃣познакомитесь с основами машинного обучения и научитесь применять алгоритмы для прогнозирования и классификации данных.
5️⃣научитесь строить дашборды и визуализировать данные в BI-системах;
6️⃣поймете, как анализировать поведение пользователей и выстраивать метрики для оценки успешности продукта;
7️⃣приобретете знания о хранилищах данных и научитесь работать с большими массивами информации.

Программа подойдет как начинающим, желающим освоить анализ данных, так и практикующим специалистам, которые хотят улучшить навыки работы с большими данными и научиться применять имеющиеся знания в контексте решения бизнес-задач.


📁Дата старта: 17 марта, обучение онлайн-формата.

Подробнее о программе 📍

Реклама. НИУ "ВШЭ". ИНН 7714030726. erid:2SDnjdUKKso
Please open Telegram to view this post
VIEW IN TELEGRAM
Встречаем GPT‑5.4

Модель вышла в версиях Thinking и Pro. Метрики подросли на кодинге (немного), на математике (прилично) и на computer use. Последним хвастаются особенно.

Кроме того, модель стала эффективнее: использует меньше токенов при рассуждении и отвечает быстрее. Но есть нюанс: теперь она стоит немножко дороже.

Что еще интересного:

– Модель теперь можно остановить посередине ответа и добавить дополнительные инструкции.

– Контекст теперь до 1 миллиона токенов (наконец-то!)

– В Codex появился /fast мод, который ускорит генерацию в 1.5x (это та же модель и тот же уровень рассуждений, просто быстрее). Правда, в таком режиме каждый токен будет учитываться в лимитах за два.

https://openai.com/index/introducing-gpt-5-4/

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔵 Занимаешься IT и ищешь свежие идеи? На этом канале собраны инсайды СЕО 1win о развитии iGaming-бизнеса.

Узнай, как управлять крупной компанией в высококонкурентной нише, используя новые технологии и тренды.

Подписывайся на Owner 1win и будь в теме!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Sql тренажеры для практики

⏺️sql-academy.org
⏺️sql-ex.ru
⏺️schoolsw3.com
⏺️SQL Fiddle
⏺️sqltest.online
⏺️Oracle LiveSQL
⏺️stratascratch.com
⏺️stepik.org (Интерактивный тренажер SQL)
⏺️sql-practice.com
⏺️pgexercises.com
⏺️HackerRank
⏺️sqlzoo.net

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Какие работы на самом деле отнял ИИ?

Новое исследование эту картину дополняет.

В выборку попали 180 млн вакансий из разных сфер с 2023 по 2025 годы. Автор изучил, как изменилось общее число вакансий (упало на 8%, между прочим), а затем посмотрел на динамику по отдельным должностям и индустриям.

⏺️Очевидно, что лучше всего дела у ML-инженеров — у них число открытых вакансий c 2024 по 2025 выросло на 39%.
⏺️Хуже всего дела у дизайнеров, копирайтеров и фотографов — число вакансий для них упало на 27-32%. Но только для специалистов, а для креативных директоров и продюсеров предложений так же много, как раньше.
⏺️Это общая тенденция — падает спрос на рядовых сотрудников и руководителей среднего звена, а у больших начальников все стабильно.
⏺️Без серьезных изменений обходятся сфера продаж, разработка, техподдержка и аналитика. Последнее особенно радует.
⏺️В маркетинге стали активнее набирать людей, специализирующихся на работе с инфлюэнсерами. Автор предполагает, что это из-за того, что в эпоху ИИ-слопа уровень доверия к контенту в интернете падает. Компании фокусируются на продвижении через реальных людей, которым их подписчики еще более-менее верят.
⏺️Если выйти за пределы привычных ИТ и маркетинга, то просматривается тренд в медицине — стало на 20% меньше вакансий для Medical Scribes. Это такой ассистент, который отвечает за заполнение документов во время приема, чтобы доктор не отвлекался от пациента на бумажки.

А как у вас — замечали какие-то изменения, вызванные распространением ИИ, в вашей сфере?
👀

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Гендерный разрыв в IT никуда не делся

Исследование Selecty и hh․ru показало: >200 тыс. рублей в месяц получают 51,5% мужчин и только 34,8% женщин. В тестировании этот порог пробивают 60% парней и 45% девушек, а в бэкенде высокие доходы лишь у 26,5% разработчиц.

Почему так? Мужчины чаще забирают руководящие посты и сеньорские грейды.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Маленькая модель - большие возможности.

Вышла Nanbeige4.1-3B - модель всего на 3B параметров, которая в ряде задач обходит модели в 10 раз больше.

Что внутри:

- Контекст до 256K токенов
- Встроенные агентные возможности Deep Search
- Обучение коду в два этапа:
- сначала правильность
- затем эффективность
- На ключевых бенчмарках обгоняет Qwen3-32B
- Можно запускать локально без мощных серверов
- Сильно ниже стоимость инференса
- Быстрая работа на edge и локальных машинах
- Подходит для локальных AI-агентов и автоматизации

Дешёвый Локальный AI.

➡️ Модель: https://modelscope.cn/models/nanbeige/Nanbeige4.1-3B

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Google протестировали LLM на реальных научных вопросах по сверхпроводимости.

Исследователи собрали 67 сложных вопросов, которые обычно обсуждают физики в области высокотемпературной сверхпроводимости, и дали их шести моделям:

⏺️ GPT-4o
⏺️ Claude 3.5
⏺️ Gemini Advanced 1.5
⏺️ Perplexity
⏺️ NotebookLM
⏺️ специальной RAG-системе

Каждый ответ оценивали 12 международных экспертов по нескольким критериям:

⏺️полнота ответа
⏺️объективность
⏺️точность
⏺️наличие научных источников
⏺️ ясность объяснения

Интересный результат:

модели с закрытой, тщательно подобранной научной базой отвечали точнее, чем модели с доступом ко всему интернету.

В закрытой базе использовали:

• 15 ключевых обзорных статей
• около 3300 научных ссылок
• ~1700 отобранных источников по экспериментам и теории.

Главный вывод исследования:

LLM могут быть полезны как “виртуальный научный ассистент”, который помогает исследователю быстро разобраться в сложной области и увидеть разные научные точки зрения.

Но качество сильно зависит от контролируемых источников знаний, а не просто от доступа к интернету.

https://research.google/blog/testing-llms-on-superconductivity-research-questions/

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ MongoDB Memory Leak Exploit (CVE-2025-14847)

Прототип эксплойта для уязвимости в MongoDB, позволяющий неаутентифицированным злоумышленникам утекать конфиденциальную память сервера. Уязвимость связана с некорректной обработкой длины данных при декомпрессии, что приводит к утечке неинициализированной памяти.

Основные моменты:

⏺️ Позволяет утекать данные из памяти MongoDB.
⏺️ Использует уязвимость zlib для создания поддельных BSON документов.
⏺️ Может раскрывать внутренние логи и конфигурацию MongoDB.
⏺️ Включает Docker Compose для тестирования уязвимости.

➡️ GitHub: https://github.com/joe-desimone/mongobleed

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Топ-10 open-source AI-моделей на февраль 2026.

Открытые модели больше не «облегчённая версия».

Сегодня многие из них уже конкурируют с коммерческими решениями и подходят для реальных продуктов, агентов и локального запуска.

Вот модели, на которые стоит обратить внимание:

1️⃣ GLM-5 — автономная разработка и создание приложений
https://github.com/THUDM/GLM-5

2️⃣ MiniMax M2.5 — мощная модель для кодинга (80%+ на SWE-bench)
https://github.com/MiniMax-AI

3️⃣ Kimi K2.5 — мультимодальность, код и продвинутое reasoning
https://github.com/MoonshotAI

4️⃣ DeepSeek V3.2 — эффективная sparse-архитектура, конкурент GPT-уровня
https://github.com/deepseek-ai

5️⃣ Qwen 3 — сильная логика и отличная поддержка множества языков
https://github.com/QwenLM

6️⃣MiMo V2 Flash — высокая эффективность и низкая стоимость инференса
https://github.com/MiMo-AI

7️⃣Mistral Large 3 — большой контекст и удобная коммерческая лицензия
https://github.com/mistralai

8️⃣LongCat Flash Chat — для сверхдлинных диалогов и памяти контекста
https://github.com/LongCatAI

9️⃣ Gemma 3 — открытая модель от Google с хорошим качеством диалогов
https://github.com/google/gemma

1️⃣0️⃣ INTELLECT-3 — полностью открытый стек обучения модели
https://github.com/IntellectAI

Почему это важно:

⏺️ open-weights ≈ уровень топ-моделей
⏺️ можно запускать локально
⏺️ полный контроль над данными
⏺️ база для своих AI-агентов и продуктов
⏺️ экономия на API при масштабировании

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Большие таблицы в SQL - сначала план, потом запрос

Самый полезный апгрейд, который реально экономит часы: не "оптимизировать запрос на глаз", а заставить базу самой показать, что она делает.

На больших таблицах скорость почти всегда решают 3 вещи: правильный индекс, правильная форма запроса и правильный JOIN-порядок.

➡️ Железное правило: прежде чем трогать код, запускают EXPLAIN ANALYZE и смотрят две красные зоны - Seq Scan на большой таблице и огромные строки после JOIN. Если видишь Seq Scan - значит фильтр не поддержан индексом или условие написано так, что индекс не используется. Если после JOIN получаются миллионы строк - значит нужно сначала отфильтровать и/или агрегировать, а потом соединять.

Самый мощный прием для больших таблиц: сначала выбрать маленький набор ключей (CTE или подзапрос), и только потом JOIN к тяжелой таблице. Это резко уменьшает работу базы, потому что она перестает "перемножать" всё со всем.



ПЛОХО: тяжелый JOIN сразу, база тащит миллионы строк
SELECT u.id, COUNT(e.*) AS events_30d
FROM users u
JOIN events e ON e.user_id = u.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
AND u.country = 'TH'
GROUP BY u.id;

-- ХОРОШО: сначала сузить пользователей до маленького набора, потом JOIN
WITH target_users AS (
SELECT id
FROM users
WHERE country = 'TH'
)
SELECT tu.id, COUNT(*) AS events_30d
FROM target_users tu
JOIN events e ON e.user_id = tu.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
GROUP BY tu.id;

-- Индексы, которые реально помогают этому паттерну
CREATE INDEX IF NOT EXISTS idx_users_country_id ON users (country, id);
CREATE INDEX IF NOT EXISTS idx_events_user_time ON events (user_id, created_at);

-- Всегда проверяй, что база использует индекс, а не Seq Scan
EXPLAIN (ANALYZE, BUFFERS)
WITH target_users AS (
SELECT id FROM users WHERE country = 'TH'
)
SELECT tu.id, COUNT(*)
FROM target_users tu
JOIN events e ON e.user_id = tu.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
GROUP BY tu.id;


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥UI-TARS-desktop — открытое приложение-агент с GUI, которое превращает ваш компьютер в **интерактивного AI-ассистента** с визуальным восприятием и управлением интерфейсом.

Что это и зачем:

⏺️ AI-агент, который видит и кликает
Проект основан на модели UI-TARS (User Interface — Task Automation & Reasoning System). Агент реально *видит экран*, распознаёт элементы интерфейса и может управлять мышью, клавиатурой и браузером по простым естественным командам.

➡️ Контроль компьютера на естественном языке
Вместо интеграций через API вы пишете команды, а модель сама ищет кнопки, поля ввода и прочие UI-элементы, затем *выполняет действия*. Это работает с приложениями, браузером и элементами рабочего стола.

➡️ Open-source и кросс-платформа
Проект распространяется под Apache-лицензией, есть релизы, активная история версий и документация для запуска на Windows и macOS. :

➡️ Цели проекта
UI-TARS-desktop — это не просто демонстрация: это полноценный мультимодальный AI-агентный стек, который можно использовать для автоматизации повседневных задач без ручного вмешательства.

Страница репозитория: github.com/bytedance/UI-TARS-desktop

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Хорошая это новость или грустная, судите сами: ARC Invest посчитали, что к концу 2020-х суммарный объем текста, сгенерированного ИИ, превзойдет объем текста, который человечество накопило за последние 500 лет

Другими словами, ИИ понадобиться всего 5-10 лет, чтобы нагнать и перегнать человечество в плане количества написанного текста.

Оказалось, кстати, что 2025 стал первым годом, когда ИИ сгенерировал больше текста, чем люди. Подсчеты, конечно, очень приблизительные, – но все же.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Microsoft Critique: deep research на стероидах, где одна модель генерирует, а вторая её критикует

Microsoft выкатили Critique. Это инструмент для deep research, который одновременно запускает несколько моделей на один запрос.

Работает так: первая модель берёт на себя генерацию, вторая выступает рецензентом и вычищает ошибки и неточности до того, как вы увидите финальный ответ. Какие именно модели работали над ответом, видно в шапке.

По бенчмарку DRACO показывают SOTA, других замеров пока нет. Так что насколько это реально лучше обычного deep research, вопрос открытый.

Отдельно интересен режим Council для обычных запросов. Ваш промпт прогоняется через несколько моделей параллельно, и вы видите все варианты сразу. Плюс краткая выжимка: где модели согласны, а где разошлись во мнениях.

На широкую аудиторию пока не раскатили, можно подать заявку на ранний доступ. Будет ли это в обычной подписке за $20, неизвестно. Хотя, если честно, мультимодельный пайплайн с критиком можно собрать самому за вечер через API. И точно выйдет дешевле.

techcommunity.microsoft.com/blog/microsoft365copilotblog/introducing-multi-model-intelligence-in-researcher/4506011

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Claude можно превратить из «чат-бота» в полноценного агента, если правильно организовать проект.

Вся магия - в структуре папки:

your-project/
├── CLAUDE.md → инструкции для команды (сохраняется в репозитории)
├── CLAUDE.local.md → личные настройки (игнорируется git)

├── .claude/ → центр управления
│ ├── settings.json → права доступа и конфигурация (в репозитории)
│ ├── settings.local.json → локальные настройки

│ ├── commands/ → кастомные slash-команды
│ │ ├── review.md → /project:review
│ │ ├── fix-issue.md → /project:fix-issue
│ │ └── deploy.md → /project:deploy

│ ├── rules/ → модульные инструкции
│ │ ├── code-style.md
│ │ ├── testing.md
│ │ └── api-conventions.md

│ ├── skills/ → авто-запускаемые workflow
│ │ ├── security-review/
│ │ │ └── SKILL.md
│ │ └── deploy/
│ │ └── SKILL.md

│ └── agents/ → субагенты (роли)
│ ├── code-reviewer.md
│ └── security-auditor.md



Фактически ты собираешь мини-систему из агентов внутри репозитория.

https://www.youtube.com/shorts/ej5qiDJ0Ibo

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Чем занимается аналитик и как получить оффер в 2026 году?

Переживаете, что рынок труда нестабилен? Хотите ворваться в аналитику, но не знаете как гарантировать себе трудоустройство?
Все эти переживания уходят, если вы уверены в правильности своих действий, уверены в своих компетенциях, резюме и портфолио. 

Приглашаем на бесплатный вебинар, где Андрон Алексанян - эксперт в области аналитики и CEO школы аналитики Simulative — в прямом эфире разберет все важные аспекты в работе аналитика, а также расскажет как получить оффер быстрее других. Кстати на вебинаре разберут и то как стать аналитиком в 30/40/50 и более лет.

На вебинаре будет:
🟠Разберем полный роадмап: что учить, в каком порядке, до какого уровня;
🟠Структура хорошего портфолио с примерами;
🟠Что говорят реальные наниматели - какие у них сейчас требования:
— Покажем реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание;
— Обсудим какие отклики работают, а какие сразу отправляют в корзину;
— Изнанка найма: инсайдерский взгляд на процессы отбора

🟠 Практические техники для новичков: разберём, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях.

💬 Зарегистрируйтесь и получите урок по основам Excel бесплатно!

😶Зарегистрироваться на бесплатный вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ EXISTS РАБОТАЕТ БЫСТРЕЕ COUNT

SQL-совет: перестаньте считать всё через COUNT(*)

Многие пишут так:

SELECT COUNT(*)
FROM orders
WHERE user_id = 123;

Чтобы проверить — есть ли записи.

Проблема:
COUNT(*) считает все строки, даже если нужна просто проверка существования.
На больших таблицах это лишняя нагрузка и медленный запрос.

Правильнее использовать EXISTS.

Почему это лучше:
- База останавливается на первой найденной строке
- Меньше чтения данных
- Быстрее на больших таблицах
- Использует индексы эффективнее

Пример:


-- Плохо
SELECT COUNT(*)
FROM orders
WHERE user_id = 123;

-- Хорошо
SELECT EXISTS (
SELECT 1
FROM orders
WHERE user_id = 123
);

-- Или в условии
SELECT *
FROM users u
WHERE EXISTS (
SELECT 1
FROM orders o
WHERE o.user_id = u.id
);


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
Создатель Linux
➡️ обычный стол, минимум техники, ничего лишнего.

Обычный «тех-бро»
➡️ три монитора, RGB, мощный ПК, студийный свет, полный сетап.

Иногда разница между «легендой» и «тех-инфлюенсером» - не в железе, а в том, что у тебя в голове.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Чем занимается аналитик и как получить оффер в 2026 году?

Переживаете, что рынок труда нестабилен? Хотите ворваться в аналитику, но не знаете как гарантировать себе трудоустройство?
Все эти переживания уходят, если вы уверены в правильности своих действий, уверены в своих компетенциях, резюме и портфолио.

Приглашаем на бесплатный вебинар, где Андрон Алексанян - эксперт в области аналитики и CEO школы аналитики Simulative — в прямом эфире разберет все важные аспекты в работе аналитика, а также расскажет как получить оффер быстрее других. Кстати на вебинаре разберут и то как стать аналитиком в 30/40/50 и более лет.

На вебинаре будет:
🟠Разберем полный роадмап: что учить, в каком порядке, до какого уровня;
🟠Структура хорошего портфолио с примерами;
🟠Что говорят реальные наниматели - какие у них сейчас требования:
— Покажем реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание;
— Обсудим какие отклики работают, а какие сразу отправляют в корзину;
— Изнанка найма: инсайдерский взгляд на процессы отбора

🟠 Практические техники для новичков: разберём, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях.

💬 Зарегистрируйтесь и получите урок по основам Excel бесплатно!

😶Зарегистрироваться на бесплатный вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Самый хайпующий проект в интернете прямо сейчас – Pretext

Инженер из Midjourney выложил в опенсорс алгоритм, который позволяет делать верстку без CSS. То есть он сам считает layout текста, без DOM и без браузерного reflow.

Звучит странно, потому что мы привыкли, что за это отвечает браузер. Но браузер делает это тяжело, через каскад стилей, зависимости между элементами и пересчеты при каждом изменении. Если текст часто меняется, вся система начинает тормозить. Pretext убирает этот слой и сводит задачу к прямой математике.

Собственно, это дает кратный выигрыш по скорости – до 500х.

Зачем это все нужно?

Сейчас появляется все больше интерфейсов, где текст и структура не заданы заранее, а формируются динамически. В частности – это история про агентов.

Когда агент собирает UI под задачу пользователя, интерфейс не фиксирован, он постоянно меняется, иногда буквально на каждом шаге. И каждый такой апдейт через браузерный reflow – это лишняя задержка и непредсказуемость.

С Pretext это занимает гораздо меньше времени + полностью контролируемо со стороны кода. Когда интерфейс генерирует не человек, а система, удобнее работать с прямыми алгоритмами, а не с тяжелым браузерным пайплайном.

Ну и, конечно, выглядит это очень красиво. За счет скорости обработки выдумать поверх Pretext можно что угодно (примеры прикладываем). И все же в первую очередь проект интересен именно тем, как изящно он ложится на новые сценарии.

➡️ github.com/chenglou/pretext

Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM