Data Science: SQL и Аналитика данных
28.1K subscribers
230 photos
45 videos
1 file
278 links
№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Полезная шпаргалка по консольным командам Git

В Git полно команд, и если ты часто их забываешь, эта шпаргалка специально для тебя. В репозитории можно быстро почитать об основных командах и концепциях, а затем одним вальяжным нажатием на Ctrl+C скопировать их.

Приятный бонус — всё написано на русском. Так что сохраняем!

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Новый продвинутый планировщик заданий для PostgreSQL - лучше, чем cron

Если устал от cron и временных триггеров, обрати внимание на pg_timetable:

⏺️ Сильный: гибкий, надёжный, с богатым функционалом
⏺️ Легко настраивается, понятен и прозрачен

Позволяет:
⏺️ запускать SQL-задачи по расписанию
⏺️ отслеживать их статус и history
⏺️ обеспечивать graceful restart и защиту от сбоев

Идеален для рабочих баз, сложной логики задач и критичных приложений.

➡️ Репозиторий: https://github.com/cybertec-postgresql/pg_timetable

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 GophrQL - GraphQL toolkit for Go

Что это:

GophrQL — это простая и мощная библиотека на Go, которая помогает строить GraphQL API быстро и с минимальной болью. Она стремится быть легковесной, понятной и удобной для разработчиков, работающих с Go + GraphQL.

Основные фишки:

⏺️ Чистый Go-фэйс для описания схемы и резолверов
⏺️ Минимум магии и зависимостей
⏺️ Явная интеграция с Go-типами
⏺️ Хорошо подходит для микросервисов и сервисов с высокими требованиями к производительности

Почему это полезно:

Если вы пишете API на Go и хотите GraphQL без тяжеловесных фреймворков, GophrQL даёт:

⏺️ строгую типизацию
⏺️ контроль над схемой
⏺️ простую и понятную структуру кода
⏺️ меньше boilerplate-кода по сравнению с другими Go GraphQL решениями

Кому подойдёт:
⏺️ Go-разработчикам, которым нужен GraphQL API
⏺️ Командам, ищущим лёгкую альтернативу тяжёлым GraphQL-фреймворкам
⏺️ Проектам, где важна производительность и явное управление схемой

🔗 Репозиторий: github.com/maxpert/gophrql

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ OpenAI не привыкла сидеть сложа руки, когда в новостях горят другие

И вот, в последний момент, на фоне бурных обсуждений Google, они подкинули свой козырь — общие чаты в ChatGPT ⌨️

Как это работает? Всё довольно просто. Приглашаете в чат кого угодно, общаетесь, а если надо — подключаете модельку для обсуждения каких-то вопросов. Сразу скажу, выглядит довольно удобно для рабочих проектов, где нужно быстро обсудить детали. Но, если честно, этот функционал всё-таки немного ситуативный. Пока что его открыли только для всех платных пользователей.


Кажется, OpenAI решила не отставать, когда все глаза прикованы к достижениям Google. А как вы думаете, такие фишки изменят рынок? Или это всё-таки не так важно.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 XiYan-SQL - инструмент для интерактивной работы с SQL, основанный на LLM

XiYan-SQL - это open-source решение, позволяющее генерировать, анализировать и выполнять SQL-запросы с использованием больших языковых моделей. Инструмент ориентирован на ускорение исследования данных и автоматизацию рутинных операций, связанных с запросами к базе.

Ключевые возможности:

⏺️ Генерация SQL из естественного языка -пользователь формулирует задачу обычными словами, а система преобразует её в корректный SQL-запрос.
⏺️ Интерактивная работа с базой данных - запросы можно оперативно уточнять, редактировать и выполнять, получая быстрый цикл обратной связи.
⏺️ Поддержка нескольких СУБД - PostgreSQL, MySQL, SQLite и другие.
⏺️ 🛠 Минимальная конфигурация - подходит для анализа данных, прототипирования и облегчения доступа к базе без сложной инфраструктуры.

Преимущества использования:
- Существенно снижает трудоёмкость написания сложных SQL-запросов.
- Упрощает работу аналитикам и разработчикам, которым важно быстро получать корректные результаты.
- Может выступать в роли интерактивного помощника для изучения структуры базы и построения отчётов.

➡️ Репозиторий: github.com/XGenerationLab/XiYan-SQL

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
👋Роботы выходят на сцену: поп-шоу будущего уже началось

На концерте в Чэнду Ван Лихун представил номер с танцующими роботами. Мини-гуманоиды синхронно повторяли хореографию артистов и завершили выступление сальто, вызвав восторг публики.

Точность движений обеспечили ИИ, motion capture и системы балансировки. Подготовка заняла более трёх месяцев, стоимость одного робота — около $13,5 тыс. На шоу отреагировал Илон Маск: «Потрясающе!». В сети же спорят — это прорыв или угроза профессии танцоров.

Как вам?
❤️ — ОЧЕНЬ КРУТО!
🗿 — НИФИГА СЕБЕ


🚩 Куй клиента, пока горячо!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Postgresus 2.0 - новая версия self-hosted инструмента для резервного копирования и мониторинга PostgreSQL баз данных, написанный на Go

Возможности:

⏺️ создание бекапов по расписанию для PostgreSQL 12-18;
⏺️ хранение бекапов локально, в S3, CloudFlare R2, NAS или Google Drive;
⏺️ health check базы данных раз в минуту;
⏺️ уведомления в Telegram, Slack, MS Teams, Discord, по почте и в кастомизируемый вебхук, если бекап сломался или база недоступна;
⏺️ разделение баз на проекты с контролем доступа и аудит логами (для DBA и DevOps команд);
⏺️ улучшенная защита: шифрование резервных копий и read-only пользователь для их создания;
⏺️ запуск через скрипт, Docker, Docker Compose и Kubernetes Helm

Запуск через Docker:

docker run -d \
--name postgresus \
-p 4005:4005 \
-v ./postgresus-data:/postgresus-data \
--restart unless-stopped \
rostislavdugin/postgresus:latest


➡️ Ссылка на GitHub

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Cursor 2.1: новый релиз, который упрощает жизнь разработчикам

Вышел новый релиз Cursor 2.1. В этот раз обновлений сразу несколько, и все они значительно улучшают работу с кодом. Давайте рассмотрим нововведения.

Теперь в Cursor есть суперудобная функция «Find Issues», которая позволяет находить и исправлять баги буквально одной кнопкой. Агент проводит ревью вашего кода и моментально показывает все найденные проблемы в боковой панели. Не надо больше искать по строкам и угадать, где что-то пошло не так. Бонус: в течение этой недели вы можете потестировать эту фичу бесплатно!

Греет сердце старый добрый grep, но с улучшениями 🍌
Не знаю, как вы, а я обожаю старый добрый grep, который позволяет быстро найти нужный фрагмент в коде. Так вот, теперь в Cursor это ещё и векторный поиск. А если вы всё-таки за традиции, то grep вынесли отдельно. Работает почти мгновенно и ищет по всей кодовой базе, включая точные совпадения и регулярки. Для тех, кто привык к скорости и точности — просто мастхэв.

Режим планирования тоже не остался без внимания. Теперь, когда вы утверждаете план действий, агент будет задавать уточняющие вопросы. Простой и удобный интерактивный режим позволяет отвечать прямо на месте.


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
📱 Как GPT меняет бизнес? Узнай изнутри.

На канале Owner 1win — опыт основателя топового проекта, который использует нейросети, ИИ и собственные IT-разработки, чтобы масштабировать 1win и выходить за рамки индустрии.

Здесь ты найдешь:

👉 Как GPT помогает автоматизировать процессы
👉 Инсайды о внедрении ИИ в гемблинг
👉 Личный опыт создания digital-платформ
👉 Апдейты и кейсы по 1win и другим проектам

🔗 Owner 1win — про технологии, которые работают.
Подпишись и будь в курсе, как ИИ делает бизнес умнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Gemini 3 Pro: новый лидер в решении сложных математических задач

Не так давно Gemini 3 Pro стал настоящим фаворитом среди ИИ в области сложной математики. Система удивила даже самых требовательных специалистов. На бенчмарке FrontierMath, который включает в себя задачи самой высокой сложности, эта модель показала феноменальные результаты 😐

Для начала, давайте разберёмся, что такое FrontierMath. Это набор задач, подготовленных профессиональными математиками, охватывающий широкий спектр тем — от теории чисел до алгебраической геометрии. Некоторые из этих задач могут занять у человека недели работы, а уровень сложности варьируется от бакалавриата до уровня исследовательской работы.

Gemini 3 Pro, к слову, набрал 37,6% по общим результатам, значительно обогнав остальных соперников: Gemini 2.5 Deep Think с 29% и GPT-5 Thinking с 26,6%. На самом сложном уровне Tier 4, где ставятся задачи из мира научных исследований, Gemini 3 Pro также оказался вне конкуренции, решив девять задач. Для сравнения, GPT-5.1 Thinking и GPT-5 Pro справились только с шестью.

Что это значит?

Мы привыкли к тому, что ИИ пока уступает человеку в таких областях, как математика, но, похоже, это скоро изменится. Например, люди в среднем показывают около 30% правильных решений в таких задачах, а при совместной работе и нескольких попытках результат может подниматься до 50%. Если учесть, что ИИ сейчас добился 19% на самых сложных задачах (это ещё без дополнительных попыток), можно говорить о серьёзном прогрессе.


На фоне того, что эти технологии становятся доступными для широких масс, можно ожидать настоящую революцию в области научных исследований и образования. Переплюнет ли ИИ человека в математике?

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
👀 Навязчивый контроль

#юмор

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Легкий TUI для работы с SQL базами данных

sqlit - это удобный инструмент для быстрого выполнения запросов к различным SQL базам данных, включая PostgreSQL, MySQL, SQLite и другие. Он предлагает интуитивно понятный интерфейс, позволяя легко управлять соединениями и историей запросов без необходимости в сложных настройках.

Основные моменты:

⏺️ Поддержка множества баз данных без дополнительных адаптеров
⏺️ Удобный интерфейс для управления соединениями
⏺️ Встроенная история запросов с возможностью поиска
⏺️ Поддержка SSH туннелей для безопасного подключения
⏺️ Редактирование в стиле Vim для терминальных пользователей

➡️ GitHub: https://github.com/Maxteabag/sqlit

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Документалка DeepMind теперь доступна бесплатно

Если вы хоть немного интересуетесь искусственным интеллектом и его развитием, то наверняка слышали про AlphaFold — модель, которая потрясла научный мир. В честь пятилетия этой системы Google выложил на YouTube документальный фильм про DeepMind.

Картина называется «The Thinking Game» и, возможно, кто-то из вас уже успел ее посмотреть — она была доступна на платных платформах с лета 2024 года. Но вот теперь, Google решился подарить этот фильм всем желающим.

Документалка, которая снималась с 2019 года, рассказывает не только о Демисе Хассабисе, основателе и CEO DeepMind, но и о всей команде, которая стоит за разработкой таких проектов, как AlphaGo, AlphaZero и, конечно, AlphaFold. Это своего рода экскурс в культуру и философию DeepMind, где на фоне ключевых научных достижений проходит рассказ о людях, которые все это создавали.

Если вы когда-то задавались вопросом, как вообще можно вывести ИИ на такой уровень, чтобы он начал решать задачи, стоящие перед самыми опытными учеными, то этот фильм даст ответы на многие вопросы.

Система AlphaFold не просто решает задачи в области биоинформатики, она буквально перевернула способ, которым ученые изучают структуру белков. Это достижение стало возможным благодаря огромной работе, проделанной командой DeepMind, и сейчас мы стоим на пороге того, чтобы с помощью ИИ разгадывать тайны жизни на уровне, который раньше был невозможен.


Те, кто еще не видел этот фильм, могут наверстать упущенное. Это отличная возможность не только узнать о технологических достижениях, но и вдохновиться на новые идеи.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Продвинутый SQL-совет по оптимизации: делай запросы "питающимися индексом" (index-only scan) с правильным составным индексом.

Идея: не просто добавить индекс на один столбец, а так подобрать порядок полей, чтобы запрос вообще не ходил в таблицу, а читал всё из индекса. Это даёт огромный буст на "горячих" таблицах.

➡️ Допустим, у тебя часто есть такой запрос:

SELECT
id,
created_at,
total_amount
FROM orders
WHERE user_id = 123
AND status = 'paid'
ORDER BY created_at DESC
LIMIT 20;



➡️Типичная ошибка - делать что-то вроде:

CREATE INDEX idx_orders_user ON orders (user_id);
CREATE INDEX idx_orders_status ON orders (status);
CREATE INDEX idx_orders_created ON orders (created_at);



➡️ Планировщику всё равно приходится лазить в таблицу и склеивать условия. Гораздо эффективнее один правильный составной индекс:

CREATE INDEX idx_orders_user_status_created_at
ON orders (user_id, status, created_at DESC)
INCLUDE (total_amount);



➡️ Почему это полезно:

user_id, status - фильтруют строки

created_at DESC - сразу даёт нужный порядок для ORDER BY ... DESC

INCLUDE (total_amount) - позволяет взять сумму прямо из индекса



В результате PostgreSQL (и другие СУБД с подобной механикой) могут сделать index-only scan: прочитать подходящие строки в нужном порядке из одного индекса и почти не трогать основную таблицу.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Конференция для инженеров T-Sync Conf

T-Sync Conf — офлайн-событие для инженеров от Т-Технологий, где фокус смещен с докладов на практику и живое взаимодействие с технологиями. Конференция построена так, чтобы участники могли сами собрать для себя полезный маршрут и разобраться в том, как инженерные решения работают в реальных системах.

Основные моменты:

⏺️Свободный выбор траектории из восьми технических направлений — от AI и работы с данными до платформ, безопасности и observability
⏺️Демо-зоны с AI- и data-платформами, которые можно протестировать на месте
⏺️Инженерные обсуждения с разбором реальных кейсов, инцидентов и архитектурных решений
⏺️Практические форматы: хакатон для опытных разработчиков и публичная сборка сервиса в реальном времени
⏺️Отдельные сессии про UX/UI инструментов для инженеров — интерфейсы, дизайн-системы и токены

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ SQL задачка на внимательность (и одна классическая ловушка)

У тебя есть таблица логов. Нужно найти пользователей, которые заходили 3 дня подряд.

Таблица:

⏺️ user_id
⏺️ event_date (DATE)

Задача:

Верни user_id и дату третьего дня серии (то есть конец 3-дневной цепочки).

Ловушка:

1️⃣ В один день может быть несколько событий - их нельзя считать как разные дни
2️⃣ Дни должны идти подряд по календарю (не “3 записи подряд”)


-- PostgreSQL / MySQL 8+ (через window functions)
WITH uniq_days AS (
SELECT DISTINCT user_id, event_date
FROM user_events
),
grp AS (
SELECT
user_id,
event_date,
event_date
- INTERVAL '1 day' * (ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY event_date))
AS anchor
FROM uniq_days
),
runs AS (
SELECT
user_id,
MIN(event_date) AS start_day,
MAX(event_date) AS end_day,
COUNT(*) AS days_cnt
FROM grp
GROUP BY user_id, anchor
)
SELECT user_id, end_day AS third_day
FROM runs
WHERE days_cnt >= 3
ORDER BY user_id, third_day;



Почему это работает:

⏺️ DISTINCT убирает повторы в один день
⏺️ “anchor” превращает подряд идущие даты в одну группу
⏺️ дальше считаем длину серии и берём конец

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Vector search: Кидать историю чата в векторную БД - это не «память».

Это просто поиск по смыслу. RAG хорошо достаёт документы,
но не держит состояние пользователя.

Здесь может помочь Mem0 - open-source слой памяти между человеком и LLM.

Он учится на диалогах и сохраняет то, что важно.

Что даёт:

⏺️🧠 помнит предпочтения (не только факты)
⏺️✂️ сжимает историю — меньше токенов и быстрее ответы
⏺️🤝 делится знаниями между несколькими агентами


Если система не помнит опыт - это не агент, а поисковик.
Mem0 делает память - живой и адаптивной.

➡️ Подробнее: github.com/mem0ai/mem0

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Математический предел креативности нейросетей

Математика не шутит, особенно когда дело касается творчества ИИ. Недавняя работа австралийского исследователя Дэвида Кропли из Университета Южной Австралии утверждает, что у генеративных ИИ-систем вроде ChatGPT есть жесткий математический потолок креативности. Речь о том, что даже самые «креативные» ИИ-системы, по мнению Кропли, могут быть креативными только до определенного предела. Давайте разбираться, в чем же тут подвох?

Дэвид Кропли использует классическое определение творчества из психологии, где продукт признается креативным только тогда, когда он одновременно новый и уместный. Он формулирует это так: C = N × E
где C — это креативность, N — новизна, а E — эффективность.

А как это соотносится с языковыми моделями вроде ChatGPT? Кропли вводит понятие вероятности того, какое слово модель выберет на данном шаге. И оказывается, что креативность на одном шаге можно описать как: C = p × (1 − p) = p − p²
где p — это вероятность выбранного слова. Математика подсказывает, что максимальная креативность может быть достигнута, когда вероятность равна 0.5 (средний выбор). Когда слово слишком вероятно, оно становится банальным, а когда слишком редким — уместность теряется.

Пример с котом 😺

Чтобы понять, как это работает, Кропли приводит пример: «The cat sat on the ...». Для ИИ слово mat будет очень вероятным, но оно настолько банально, что новизны почти не добавляет. Более редкие варианты, вроде moon или chair, с одной стороны, новее, но рискуют быть неуместными.

Так вот, каждый шаг в процессе генерации у ИИ балансирует между «банально, но правильно» и «оригинально, но рискованно». И как бы ни старались модели, они не могут быть одновременно очень новыми и очень уместными. То есть, как бы ни учились на данных, ИИ всё равно окажется где-то в середине, между слишком банальным и слишком странным.

Кропли делает вывод, что текущие языковые модели могут лишь имитировать творчество на среднем уровне. В реальности они, по его мнению, никогда не выйдут на уровень профессионалов или гениев. Их «творческий потолок» — это как раз 25% шкалы творческих способностей человека. Выходит, ИИ может быть хорош в создании посредственных идей, но сложно ждать от него настоящего прорыва.


Однако Кропли не говорит, что ИИ всегда будет таким. Он утверждает, что для достижения «экспертного» уровня потребуется новая архитектура, которая будет генерировать идеи, не привязанные к уже существующим данным. То есть, новые технологии, которые смогут выходить за рамки привычных статистических паттернов. Фуух, будущее есть!

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
AI VK объединили инфраструктуру для рекомендаций, поиска и рекламы в единую Discovery-платформу.

Так обновления можно запускать «по кнопке»: инженер получает готовые блоки с данными, ML-профилями и шаблонами пайплайнов. Это существенно снижает инфраструктурную нагрузку и позволяет командам сосредоточиться на качестве моделей и масштабировать лучшие практики.

Какие результаты уже отметили:
• сократился time-to-market для рекомендательных алгоритмов;
• возросла скорость итераций в апгрейде рекомендательных алгоритмов;
• снизился порог входа для инженеров, что позволило вырастить команду рекомендаций в 3 раза.

Подробности об архитектуре — в материале команды AI VK.
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Легкий TUI для работы с SQL базами данных

sqlit - это удобный инструмент для быстрого выполнения запросов к различным SQL базам данных, включая PostgreSQL, MySQL, SQLite и другие. Он предлагает интуитивно понятный интерфейс, позволяя легко управлять соединениями и историей запросов без необходимости в сложных настройках.

Основные моменты:

⏺️ Поддержка множества баз данных без дополнительных адаптеров
⏺️ Удобный интерфейс для управления соединениями
⏺️ Встроенная история запросов с возможностью поиска
⏺️ Поддержка SSH туннелей для безопасного подключения
⏺️ Редактирование в стиле Vim для терминальных пользователей

➡️ Подробнее: https://github.com/Maxteabag/sqlit

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM