Data Science: SQL и Аналитика данных
28.1K subscribers
230 photos
45 videos
1 file
278 links
№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 TensorTonic — LeetCode, но для машинного обучения

Что вас ждёт внутри:

— Практика ML-алгоритмов в формате LeetCode
— Воспроизведение современных ML-исследований на практике
— Подготовка к AI-собеседованиям по конкретным компаниям
— Свежие ML-блоги и разборы

Версия v1 уже доступна, проект активно развивается.

➡️ Ссылка на сайт

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 SQL большой гайд. Как правильно выбрать ORM

Эта статья - не про «как написать SELECT, а про настоящую инженерную работу: принципы нормализации, дизайн схем, практики оптимизации SQL, работа с транзакциями, и главное - как выбрать и использовать ORM так, чтобы он помогал, а не мешал.

Если тебе нужен инструмент, который выдержит рост проекта и не взорвётся через год, здесь ты найдёшь системный подход, проверенные шаблоны и практические примеры, которым уже доверяют зрелые инженерные команды.

Готовы? Тогда начинаем строить архитектуру, которую не стыдно масштабировать.

➡️ https://uproger.com/sql-bolshoj-gajd-kak-pravilno-vybrat-orm/

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Расширенный планировщик задач для PostgreSQL

pg_timetable - это мощный планировщик задач для PostgreSQL, который предлагает гибкие возможности для автоматизации выполнения SQL-команд и системных программ. Он полностью управляется из базы данных и поддерживает сложные сценарии планирования, включая цепочки задач и автоматическое повторение пропущенных заданий.

Основные моменты:

⏺️ Полностью управляемая конфигурация через базу данных
⏺️ Поддержка YAML для удобного определения цепочек задач
⏺️ Возможность передачи параметров и автоматического повторения задач
⏺️ Встроенные задачи, такие как отправка email и импорт файлов
⏺️ Расширенные возможности планирования по типу cron

➡️ GitHub: https://github.com/cybertec-postgresql/pg_timetable


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ SQLite-Vec — крошечная и портативная vectorDB на базе SQLite

SQLite-Vec — это сверхлёгкая и очень быстрая векторная база данных, встроенная прямо в SQLite. Идеальный вариант для on-device RAG, edge-приложений и локальных AI-сценариев без тяжёлой инфраструктуры.

Почему это интересно:
⏺️ Работает поверх обычного SQLite
⏺️Минимальный оверхед и высокая скорость
⏺️Отлично подходит для локального поиска по эмбеддингам

Ключевые возможности:
⏺️ Matryoshka embedding slicing — работа с усечёнными эмбеддингами
⏺️ До 32x экономии места за счёт бинарной квантизации
⏺️ Поддержка метрик L2, cosine и Hamming distance
⏺️ SQL-запросы для vector search без отдельной vectorDB

По сути, это vector search без Kubernetes, без сервисов и без боли — просто SQLite с суперспособностями.

Отличный выбор для:
⏺️ локальных RAG-агентов
⏺️ десктопных AI-приложений
⏺️ embedded-систем
⏺️ офлайн-поиска по знаниям

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Оптимизация запросов с индексами

Индексы могут значительно ускорить выполнение ваших запросов в SQL, особенно на больших таблицах. Убедитесь, что вы создали индексы на колонках, которые часто используются в условиях WHERE и JOIN.

CREATE INDEX idx_customer_lastname ON customers(last_name);

SELECT * FROM customers
WHERE last_name = 'Smith'
ORDER BY first_name;

SELECT COUNT(*) FROM orders
WHERE customer_id IN (SELECT id FROM customers WHERE last_name = 'Smith');


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Microsoft запустила VibeVoice Realtime на Hugging Face - лёгкую стриминговую text-to-speech модель, которая начинает озвучивать текст примерно за 300 миллисекунд.

Идеально для живых данных и разговоров с LLM.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️Распределенная база данных FoundationDB

FoundationDB — это распределенная база данных, оптимизированная для обработки больших объемов структурированных данных. Она использует упорядоченное хранилище ключ-значение и поддерживает ACID-транзакции, обеспечивая высокую производительность как для чтения, так и для записи.

Основные моменты:

⏺️ Поддержка ACID-транзакций для надежности данных.
⏺️ Высокая производительность для рабочих нагрузок с частыми записями.
⏺️ Гибкая архитектура для масштабирования на кластерах серверов.
⏺️ API для взаимодействия на различных языках программирования.

➡️ GitHub: https://github.com/apple/foundationdb

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Полезная шпаргалка по консольным командам Git

В Git полно команд, и если ты часто их забываешь, эта шпаргалка специально для тебя. В репозитории можно быстро почитать об основных командах и концепциях, а затем одним вальяжным нажатием на Ctrl+C скопировать их.

Приятный бонус — всё написано на русском. Так что сохраняем!

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Новый продвинутый планировщик заданий для PostgreSQL - лучше, чем cron

Если устал от cron и временных триггеров, обрати внимание на pg_timetable:

⏺️ Сильный: гибкий, надёжный, с богатым функционалом
⏺️ Легко настраивается, понятен и прозрачен

Позволяет:
⏺️ запускать SQL-задачи по расписанию
⏺️ отслеживать их статус и history
⏺️ обеспечивать graceful restart и защиту от сбоев

Идеален для рабочих баз, сложной логики задач и критичных приложений.

➡️ Репозиторий: https://github.com/cybertec-postgresql/pg_timetable

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 GophrQL - GraphQL toolkit for Go

Что это:

GophrQL — это простая и мощная библиотека на Go, которая помогает строить GraphQL API быстро и с минимальной болью. Она стремится быть легковесной, понятной и удобной для разработчиков, работающих с Go + GraphQL.

Основные фишки:

⏺️ Чистый Go-фэйс для описания схемы и резолверов
⏺️ Минимум магии и зависимостей
⏺️ Явная интеграция с Go-типами
⏺️ Хорошо подходит для микросервисов и сервисов с высокими требованиями к производительности

Почему это полезно:

Если вы пишете API на Go и хотите GraphQL без тяжеловесных фреймворков, GophrQL даёт:

⏺️ строгую типизацию
⏺️ контроль над схемой
⏺️ простую и понятную структуру кода
⏺️ меньше boilerplate-кода по сравнению с другими Go GraphQL решениями

Кому подойдёт:
⏺️ Go-разработчикам, которым нужен GraphQL API
⏺️ Командам, ищущим лёгкую альтернативу тяжёлым GraphQL-фреймворкам
⏺️ Проектам, где важна производительность и явное управление схемой

🔗 Репозиторий: github.com/maxpert/gophrql

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ OpenAI не привыкла сидеть сложа руки, когда в новостях горят другие

И вот, в последний момент, на фоне бурных обсуждений Google, они подкинули свой козырь — общие чаты в ChatGPT ⌨️

Как это работает? Всё довольно просто. Приглашаете в чат кого угодно, общаетесь, а если надо — подключаете модельку для обсуждения каких-то вопросов. Сразу скажу, выглядит довольно удобно для рабочих проектов, где нужно быстро обсудить детали. Но, если честно, этот функционал всё-таки немного ситуативный. Пока что его открыли только для всех платных пользователей.


Кажется, OpenAI решила не отставать, когда все глаза прикованы к достижениям Google. А как вы думаете, такие фишки изменят рынок? Или это всё-таки не так важно.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 XiYan-SQL - инструмент для интерактивной работы с SQL, основанный на LLM

XiYan-SQL - это open-source решение, позволяющее генерировать, анализировать и выполнять SQL-запросы с использованием больших языковых моделей. Инструмент ориентирован на ускорение исследования данных и автоматизацию рутинных операций, связанных с запросами к базе.

Ключевые возможности:

⏺️ Генерация SQL из естественного языка -пользователь формулирует задачу обычными словами, а система преобразует её в корректный SQL-запрос.
⏺️ Интерактивная работа с базой данных - запросы можно оперативно уточнять, редактировать и выполнять, получая быстрый цикл обратной связи.
⏺️ Поддержка нескольких СУБД - PostgreSQL, MySQL, SQLite и другие.
⏺️ 🛠 Минимальная конфигурация - подходит для анализа данных, прототипирования и облегчения доступа к базе без сложной инфраструктуры.

Преимущества использования:
- Существенно снижает трудоёмкость написания сложных SQL-запросов.
- Упрощает работу аналитикам и разработчикам, которым важно быстро получать корректные результаты.
- Может выступать в роли интерактивного помощника для изучения структуры базы и построения отчётов.

➡️ Репозиторий: github.com/XGenerationLab/XiYan-SQL

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
👋Роботы выходят на сцену: поп-шоу будущего уже началось

На концерте в Чэнду Ван Лихун представил номер с танцующими роботами. Мини-гуманоиды синхронно повторяли хореографию артистов и завершили выступление сальто, вызвав восторг публики.

Точность движений обеспечили ИИ, motion capture и системы балансировки. Подготовка заняла более трёх месяцев, стоимость одного робота — около $13,5 тыс. На шоу отреагировал Илон Маск: «Потрясающе!». В сети же спорят — это прорыв или угроза профессии танцоров.

Как вам?
❤️ — ОЧЕНЬ КРУТО!
🗿 — НИФИГА СЕБЕ


🚩 Куй клиента, пока горячо!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Postgresus 2.0 - новая версия self-hosted инструмента для резервного копирования и мониторинга PostgreSQL баз данных, написанный на Go

Возможности:

⏺️ создание бекапов по расписанию для PostgreSQL 12-18;
⏺️ хранение бекапов локально, в S3, CloudFlare R2, NAS или Google Drive;
⏺️ health check базы данных раз в минуту;
⏺️ уведомления в Telegram, Slack, MS Teams, Discord, по почте и в кастомизируемый вебхук, если бекап сломался или база недоступна;
⏺️ разделение баз на проекты с контролем доступа и аудит логами (для DBA и DevOps команд);
⏺️ улучшенная защита: шифрование резервных копий и read-only пользователь для их создания;
⏺️ запуск через скрипт, Docker, Docker Compose и Kubernetes Helm

Запуск через Docker:

docker run -d \
--name postgresus \
-p 4005:4005 \
-v ./postgresus-data:/postgresus-data \
--restart unless-stopped \
rostislavdugin/postgresus:latest


➡️ Ссылка на GitHub

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Cursor 2.1: новый релиз, который упрощает жизнь разработчикам

Вышел новый релиз Cursor 2.1. В этот раз обновлений сразу несколько, и все они значительно улучшают работу с кодом. Давайте рассмотрим нововведения.

Теперь в Cursor есть суперудобная функция «Find Issues», которая позволяет находить и исправлять баги буквально одной кнопкой. Агент проводит ревью вашего кода и моментально показывает все найденные проблемы в боковой панели. Не надо больше искать по строкам и угадать, где что-то пошло не так. Бонус: в течение этой недели вы можете потестировать эту фичу бесплатно!

Греет сердце старый добрый grep, но с улучшениями 🍌
Не знаю, как вы, а я обожаю старый добрый grep, который позволяет быстро найти нужный фрагмент в коде. Так вот, теперь в Cursor это ещё и векторный поиск. А если вы всё-таки за традиции, то grep вынесли отдельно. Работает почти мгновенно и ищет по всей кодовой базе, включая точные совпадения и регулярки. Для тех, кто привык к скорости и точности — просто мастхэв.

Режим планирования тоже не остался без внимания. Теперь, когда вы утверждаете план действий, агент будет задавать уточняющие вопросы. Простой и удобный интерактивный режим позволяет отвечать прямо на месте.


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
📱 Как GPT меняет бизнес? Узнай изнутри.

На канале Owner 1win — опыт основателя топового проекта, который использует нейросети, ИИ и собственные IT-разработки, чтобы масштабировать 1win и выходить за рамки индустрии.

Здесь ты найдешь:

👉 Как GPT помогает автоматизировать процессы
👉 Инсайды о внедрении ИИ в гемблинг
👉 Личный опыт создания digital-платформ
👉 Апдейты и кейсы по 1win и другим проектам

🔗 Owner 1win — про технологии, которые работают.
Подпишись и будь в курсе, как ИИ делает бизнес умнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Gemini 3 Pro: новый лидер в решении сложных математических задач

Не так давно Gemini 3 Pro стал настоящим фаворитом среди ИИ в области сложной математики. Система удивила даже самых требовательных специалистов. На бенчмарке FrontierMath, который включает в себя задачи самой высокой сложности, эта модель показала феноменальные результаты 😐

Для начала, давайте разберёмся, что такое FrontierMath. Это набор задач, подготовленных профессиональными математиками, охватывающий широкий спектр тем — от теории чисел до алгебраической геометрии. Некоторые из этих задач могут занять у человека недели работы, а уровень сложности варьируется от бакалавриата до уровня исследовательской работы.

Gemini 3 Pro, к слову, набрал 37,6% по общим результатам, значительно обогнав остальных соперников: Gemini 2.5 Deep Think с 29% и GPT-5 Thinking с 26,6%. На самом сложном уровне Tier 4, где ставятся задачи из мира научных исследований, Gemini 3 Pro также оказался вне конкуренции, решив девять задач. Для сравнения, GPT-5.1 Thinking и GPT-5 Pro справились только с шестью.

Что это значит?

Мы привыкли к тому, что ИИ пока уступает человеку в таких областях, как математика, но, похоже, это скоро изменится. Например, люди в среднем показывают около 30% правильных решений в таких задачах, а при совместной работе и нескольких попытках результат может подниматься до 50%. Если учесть, что ИИ сейчас добился 19% на самых сложных задачах (это ещё без дополнительных попыток), можно говорить о серьёзном прогрессе.


На фоне того, что эти технологии становятся доступными для широких масс, можно ожидать настоящую революцию в области научных исследований и образования. Переплюнет ли ИИ человека в математике?

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
👀 Навязчивый контроль

#юмор

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Легкий TUI для работы с SQL базами данных

sqlit - это удобный инструмент для быстрого выполнения запросов к различным SQL базам данных, включая PostgreSQL, MySQL, SQLite и другие. Он предлагает интуитивно понятный интерфейс, позволяя легко управлять соединениями и историей запросов без необходимости в сложных настройках.

Основные моменты:

⏺️ Поддержка множества баз данных без дополнительных адаптеров
⏺️ Удобный интерфейс для управления соединениями
⏺️ Встроенная история запросов с возможностью поиска
⏺️ Поддержка SSH туннелей для безопасного подключения
⏺️ Редактирование в стиле Vim для терминальных пользователей

➡️ GitHub: https://github.com/Maxteabag/sqlit

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Документалка DeepMind теперь доступна бесплатно

Если вы хоть немного интересуетесь искусственным интеллектом и его развитием, то наверняка слышали про AlphaFold — модель, которая потрясла научный мир. В честь пятилетия этой системы Google выложил на YouTube документальный фильм про DeepMind.

Картина называется «The Thinking Game» и, возможно, кто-то из вас уже успел ее посмотреть — она была доступна на платных платформах с лета 2024 года. Но вот теперь, Google решился подарить этот фильм всем желающим.

Документалка, которая снималась с 2019 года, рассказывает не только о Демисе Хассабисе, основателе и CEO DeepMind, но и о всей команде, которая стоит за разработкой таких проектов, как AlphaGo, AlphaZero и, конечно, AlphaFold. Это своего рода экскурс в культуру и философию DeepMind, где на фоне ключевых научных достижений проходит рассказ о людях, которые все это создавали.

Если вы когда-то задавались вопросом, как вообще можно вывести ИИ на такой уровень, чтобы он начал решать задачи, стоящие перед самыми опытными учеными, то этот фильм даст ответы на многие вопросы.

Система AlphaFold не просто решает задачи в области биоинформатики, она буквально перевернула способ, которым ученые изучают структуру белков. Это достижение стало возможным благодаря огромной работе, проделанной командой DeepMind, и сейчас мы стоим на пороге того, чтобы с помощью ИИ разгадывать тайны жизни на уровне, который раньше был невозможен.


Те, кто еще не видел этот фильм, могут наверстать упущенное. Это отличная возможность не только узнать о технологических достижениях, но и вдохновиться на новые идеи.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM