Data Science: SQL и Аналитика данных
31.3K subscribers
132 photos
7 videos
1 file
141 links
№ 5824197828

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix
Download Telegram
🔥 BRModelo Web — веб-приложение для проектирования баз данных.

Этот open-source проект позволяет создавать ER-диаграммы прямо в браузере с экспортом в SQL-скрипты.

Инструмент имеет образовательную направленность. Интерфейс на португальском и английском языках адаптирован для учебных задач: есть подсветка сущностей, автоматическая расстановка связей и валидация схемы. Запустить локальную копию можно через Node.js + MongoDB или Docker-контейнеры.

➡️ Посмотреть на GitHub

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Гайд: как создавать дата-продукты

Дата-продукты — это дашборды, отчеты, таблицы и вообще все, что помогает извлекать инсайты из данных. Любой, кто хоть раз делал верстал дашборд или просто делал табличку в Google Sheets знает, насколько это сложная и порой неблагодарная работа.

Данные постоянно меняются и обновляются, их объемы растут, а пайплайны становятся сложнее. Добавляется и человеческий фактор, потому что у каждого дата-продукта — разные владельцы и пользователи, со своими требованиями, ожиданиями и подходами к работе с данными. Все это надо учитывать, чтобы делать продукты, которые реально приносят пользу, а не просто существуют для галочки.

Ну и как это сделать?

Как вариант — обратиться к специальному гайду. Есть короткая версия в виде поста в сабстаке, где предлагают разделить этот процесс на 5 шагов:
1️⃣Определите юзкейсы для своих дата-продуктов и опишите, как пользователь будет работать с данными.
2️⃣Опишите зоны ответственности и расставьте приоритеты.
3️⃣Разработайте стратегию тестирования и мониторинга.
4️⃣Устраняйте ошибки и проблемы, о которых сообщают пользователи.
5️⃣Отслеживайте метрики и развивайте продукт с опорой на данные.

И именно в таком порядке. Это важно!

➡️ Для тех, кто хочет подробностей, есть pdf на 69 страниц, где каждый пункт раскрыт отдельно. Авторы рассказали про классификацию дата-продуктов, объяснили, как расставить приоритеты и определить метрики, а также составить ту самую стратегию тестирования, избежав типичных ошибок.

Документ основательный и при этом универсальный — он описывает общие подходы и принципы, которые каждый сможет примерить на себя, вне зависимости от деталей вроде стека, размера команды или типов данных.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Погода реально влияет на ваши траты. Аналитики центрального университета изучили миллионы транзакций клиентов в Москве и выяснили:

➡️ В хорошую погоду
— транзакций больше, но средний чек ниже;
— люди уходят из онлайна в офлайн: +2% покупок в магазинах, −1,3% онлайн. Маркетологи, сигнал вам: курсы лучше продавать, когда холодно и дождь 🌚;
— активно растет спрос на автоуслуги (+22%), аренду электросамокатов (+15%) и алкоголь (+6% в алкомаркетах и +7% в барах).

➡️ В плохую погоду
— кинотеатры собирают больше зрителей: +9% зимой и +8% летом;
— спрос смещается в интернет
— средний чек на автоуслуги выше: спрос смещается в сторону более дорогостоящего ремонта

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Самые обсуждаемые базы данных на Hacker News

Hacker News — новостной сайт, где постят обо всем по чуть-чуть, но в основном про ИТ. И именно в ИТ-сообществе он очень популярен, поэтому по нему можно отслеживать некоторые тренды индустрии. Это может быть полезно, если хотите быть в курсе, какие фреймворки и инструменты сейчас востребованы, а какие уходят в прошлое.

На иллюстрации к посту — график с частотой упоминаний разных БД и СУБД в заголовках новостей на HN.

Это только его «хвост» — полная версия, созданная на основе 1,8 млн постов, охватывает период с 2007 года по 2025. В оригинальной статье, кроме графика (там он интерактивный, кстати), есть еще и несколько таблиц с данными о количестве комментариев и анализом динамики.
⏺️Среди всех БД предсказуемо выделяется PostgreSQL. Причем про него не просто часто пишут — под новостями про эту СУБД и активности всегда много.
⏺️Больше всего комментариев написано про PostgreSQL (просто потому что и постов по него больше всего), но самые обсуждаемые новости с самыми активными обсуждениями — про SQLite.
⏺️ClickHouse с маленькой, но гордой DuckDB быстрее всех остальных набирают популярность.
⏺️MongoDB и MySQL, наоборот, упоминаются в новостях все реже и реже.

В общем, получается, что самой большой популярностью пользуются open-source и аналитические хранилища, а вот проприетарные тулы вызывают меньше интереса.

Как вам график? Увидели что-нибудь неожиданное для себя?

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️Уже завтра в 15:00 (МСК) состоится эфир:
NO-CODE на помощь: решаем задачи за пределами стандартных отчётов 1С

На вебинаре:
🟣 поговорим, как сделать отчетность из 1С простой и прозрачной;
🟣 разберем актуальность нестандартных отчетов в «1С», кому и зачем это нужно;
🟣 покажем простую и быструю выгрузку из «1С» в AW BI через NO-CODE;
🟣 продемонстрируем на реальных примерах, как можно налету сформировать понятную и красивую визуализацию сформированных данных.

🔗 Регистрируйтесь, если ещё не успели — не тяните, встречаемся уже завтра!

https://aw-bi.ru/company/events/awbi-denvik-nocode?utm_source=telegram&utm_medium=promo&utm_campaign=awnews%7Cawbi-denvik-nocode
This media is not supported in your browser
VIEW IN TELEGRAM
Очаровательный анимированный проект (и потрясающий пример научпоп визуализации!) про зоонозы: инфекционные заболевания, которые передаются от животных к человеку

Исследователи изучили австрийскую литературу с 1975 по 2022 год, нашли там упоминания зоонозов, классифицировали их по видам, частоте упоминаний и способу передачи.

Особенно интересно разглядывать граф передачи болезней и узнавать, как и от чего можно заразиться. Правда, впечатлительным зрителям после просмотра может расхотеться тесно контактировать с животными, есть мясо или пользоваться общественными туалетами.

➡️ https://vis.csh.ac.at/zoonotic-web/
Please open Telegram to view this post
VIEW IN TELEGRAM
👨‍💻 Команда VK HR Tek разработала КЭДО — систему электронного кадрового документооборота, которая начиналась как внутренний сервис, а сегодня используется в крупнейших компаниях страны: от «Газпром нефти» до «Золотого яблока».

⚙️ Система автоматизирует подписание документов, оформление отпусков и командировок, защищает от просрочек, интегрируется с 1С, SAP и БОСС-HRM. Данные хранятся в Tier 3 ЦОДах, используется HTTPS и метки времени.

📌 В статье рассказывается, как КЭДО превратился из пилота внутри VK в лидера рынка кадровых решений
800+ SQL Server Interview Questions and Answers .pdf
1 MB
➡️ Нашли кладезь знаний из 800+ SQL-вопросов с задачами — идеально для подготовки к собеседованиям.

Подойдёт, чтобы:

— прокачать SQL-навыки с нуля до продвинутого уровня
— быстро освежить синтаксис перед интервью
— попрактиковаться на реальных задачах

Полезно как джунам, так и мидлам. Отличный способ проверить себя и закрыть пробелы.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 SQLModel — удобное решение для работы с базами данных в Python, объединяющее силу SQLAlchemy и валидацию Pydantic.

Проект устраняет главную боль разработчиков: необходимость дублировать модели для БД и API.

Инструмент имеет синтаксис на основе аннотаций типов. Один класс одновременно описывает таблицу в БД и схему для FastAPI, а встроенная поддержка IDE сразу подсказывает поля и выявляет ошибки. Например, модель Hero с полями name и secret_name готова к использованию и в миграциях, и в эндпоинтах без лишнего кода.

➡️ Посмотреть на GitHub

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Пятиминутка ИТ-истории

А вы когда-нибудь задумывались, почему функции вызывают? Это выражение используется, кажется, применительно ко всем языкам программирования, где вообще есть функции, которые можно вызывать. Оно стало таким привычным, что многие вряд ли задумываются, откуда оно взялось. Очевидно, что в русский язык выражение пришло из английского, а откуда там появилось «call function»?

➡️ История термина начинается с XIX веке — но с изысканий Ады Лавлейс, а в библиотеке. В 1876 году в Oxford English Dictionary впервые упоминается термин call number — номер, под которым книга значится в библиотечном каталоге.

➡️ После этого первые упоминания «вызова» и «библиотеки» подпрограмм встречаются в 1947 в статье Preparation of problems for EDVAC-type machines:
[…] the position in the memory at which arguments are placed can be standardized, so that whenever a subroutine is called in to perform a calculation, the subroutine will automatically know that the argument which is to be used is at a specified place.
[…] Some of them might be written out in a handbook and transferred to the coding of the problem as needed, but those of any complexity presumably ought to be in a library — that is, a set of magnetic tapes in which previously coded problems of permanent value are stored.

[…] позицию в памяти, где размещаются аргументы, можно стандартизировать так, чтобы при вызове подпрограммы для выполнения вычислений она автоматически знала, что необходимый аргумент находится в определенном месте.
[…] Некоторые из них можно было бы записать в справочник и вручную вставлять в код по необходимости, но более сложные следует хранить в библиотеке — то есть в наборе магнитных лент с закодированными задачами.


Возможность вызвать подпрограмму для выполнения какой-то функции упоминается еще в нескольких других источниках середины прошлого века — например, в мануале FORTRAN II от 1958 года:
Each [CALL statement] will constitute a call for the defining subprogram, which may carry out a procedure of any length or complexity […] [The CALL] statement causes transfer of control to the subroutine NAME and presents the subroutine with the arguments, if any, enclosed in parentheses.

Каждый [оператор CALL] производит вызов определенной подпрограммы, которая может выполнить операцию любой длины и сложности […] Оператор CALL передает управление подпрограмме с указанным именем и передает ей аргументы, заключенные в скобки.


Также он подчеркивает, что хотя слово «вызов» применительно к подпрограммам используется регулярно, целиком знакомое нам выражение «вызвать подпрограмму» встречается в 1961 в документе Burroughs Algebraic Compiler:
The ENTER statement is used to initiate the execution of a subroutine (to call a subroutine).

Оператор ENTER используется, чтобы начать выполнение подпрограммы (то есть чтобы вызывать подпрограмму).


Вот такая ИТ-лингвистика. А вы знали историю термина? 👀

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Data Scientist — одна из самых перспективных профессий 2025 года, по данным Мирового экономического форума 📊

Освоить эту профессию можно на курсе Нетологии  — с погружением в практику, сопровождением ментора, поддержкой профессионального комьюнити и экспертов из Яндекса, Сбера, VK и Amazon.

В результате обучения вы:
- изучите Apache Spark, pandas, PostgreSQL и другие инструменты для обработки больших данных;
- научитесь применять технологии машинного обучения для решения бизнес-задач;
- отработаете навыки на реальных проектах компаний-партнёров: «Северстали», «Гринатома», Neoflex.

Чтобы ещё больше расширить скиллсет, сможете пройти бонусные модули по английскому языку, рекомендательным системам, нейросетям и deep learning.

Сейчас на курс действует скидка 40% — записывайтесь

Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5xAZv3j
🔥 LLM AutoEval — это проект, предлагающий простой способ бенчмаркинга LLM через Colab-блокнот, избавляя разработчиков от рутинной настройки тестовых сред. Достаточно указать название модели, выбрать benchmark и GPU — система сама развернёт инфраструктуру через RunPod и запустит оценку.

Система автоматически публикует результаты в формате GitHub Gist с возможностью сравнения с популярными моделями через интеграцию с YALL — альтернативным рейтингом языковых моделей. Для работы потребуются только API-токены RunPod и GitHub.

➡️ Посмотреть на GitHub

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Автоматизация отчётов с Python и API – с нуля до первых результатов

Представьте ситуацию: в пятницу после работы звонит в панике руководитель маркетинга — в понедельник встреча с инвесторами, а сводка по рекламным кампаниям не готова. Данные разбросаны по Google Ads, Yandex.Direct и внутренней CRM.
Раньше это означало 3–4 часа ручного копирования и сведение в Excel с поиском ошибок — стресс для всех. Но всё меняется, когда вы умеете автоматизировать этот процесс.

На предстоящем 12 августа в 19:00 (МСК) вебинаре Александр Грудинин, Lead Data Analyst в AdTech Holding и ментор курса «Аналитик данных», пошагово расскажет и покажет, как с помощью Python и API сервисов можно решать такие задачи быстро и эффективно:

🟠Как подключаться к API Google Ads, Yandex.Direct и CRM через библиотеку и получать структурированные данные.
🟠Как превращать «сырые» ответы в удобные для анализа таблицы.
🟠Как создавать наглядные отчеты и графики динамики трафика и экспортировать результаты.


Почему это важно для новичков?
Увидите "кухню" реальной аналитики, поймёте логику работы с данными – от запроса к API до готового отчёта, а также получите навык, который выделит вас среди других начинающих аналитиков.

Чем раньше вы научитесь автоматизировать рутину – тем быстрее начнёте расти в аналитике.

🕗 12 августа в 19:00 по МСК

😶Регистрируйтесь сейчас — вебинар будет максимально практическим!
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Self-Hosted AI Starter Kit — это готовый набор инструментов для развертывания собственных AI-решений с использованием n8n, платформы для автоматизации рабочих процессов!

Он включает преднастроенные потоки для интеграции моделей ИИ, таких как OpenAI, Ollama и другие, позволяя управлять данными и автоматизировать процессы без необходимости использования облачных сервисов. Решение идеально подходит для бизнеса и индивидуальных разработчиков.

Лицензия: Apache-2.0

➡️ Посмотреть на Github

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Nhost — свежий взгляд на backend-разработку с открытым исходным кодом.

Этот проект предлагает готовую облачную платформу или возможность самому развернуть альтернативу Firebase, но с GraphQL и PostgreSQL под капотом. Вместо NoSQL — привычный SQL, вместо REST — мощный GraphQL API на базе Hasura, а также встроенные аутентификация, хранилище и serverless-функции.

При этом Nhost не привязывает разработчика к конкретному фронтенд-фреймворку. Один и тот же SDK работает с React, Vue, Next.js и даже Flutter. Локальная разработка упрощена благодаря CLI, а для продакшна можно выбрать как managed-решение от создателей, так и развернуть всё на своих серверах через Docker.

➡️ Посмотреть на GitHub

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Ютубер сохранил PNG в скворце

Мы уже рассказывали про хранение данных на бумаге и в черно-белых видео с помехами, но недавно обнаружилось еще более оригинальное хранилище — скворец. Точнее, песня скворца.

Ютубер Бенн Джордан выложил видео, где рассказал, как записывал и анализировал песни разных птиц. Одной из этих птиц стал скворец по имени Рот (или Mouth), который всю жизнь прожил с людьми и научился имитировать окружающие его звуки вроде щелчка камеры или человеческих голосов.

➡️ Джордан нарисовал картинку с птичкой ☝🏻 Он обработал в спектральном синтезаторе, чтобы представить ее в виде звука и проиграл ее скворцу. Тот добавил этот звук в свою «библиотеку» и несколько раз вполне точно воспроизвел. Настолько точно, что картинка нарисовалась на спектрограмме, пусть и с некоторыми творческими допущениями.

➡️ То есть скворец успешно и почти без потерь сохранил и воспроизвел 176 КБ данных — именно столько весила оригинальная картинка. Конечно, это не самый удобный и надежный способ хранения данных, но чисто теоретически рабочий.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Продвинутый SQL-трюк: как найти строки, отличающиеся только одним символом

Иногда нужно найти пары строк, которые почти совпадают — например, из-за опечатки в одной букве. Такой кейс часто встречается при поиске дублей в именах, email или товарах.

С помощью функции levenshtein() из расширения pg_trgm в PostgreSQL, можно находить строки, отличающиеся ровно на 1 символ. Это удобно для очистки данных, поиска дублей и реализации "умного" поиска в интерфейсе.


-- Убедись, что pg_trgm расширение включено
CREATE EXTENSION IF NOT EXISTS pg_trgm;

-- Найдём строки из таблицы users, у которых name отличается на 1 символ
SELECT a.name AS name1, b.name AS name2
FROM users a
JOIN users b ON a.id < b.id
WHERE levenshtein(a.name, b.name) = 1;

-- Пример: найдёт пары вроде ('Anna', 'Anya') или ('John', 'Joan')


➡️ Больше видео

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 DuckDB vs 🐼 pandas: кто быстрее разберётся с «капризным» CSV?

➡️ Сценарий

1. pandas read_csv("flight_data.csv") → весь файл свалился в одну колонку
2. DuckDB SELECT * FROM read_csv('flight_data.csv') → автоматически подхватил разделитель и выдал аккуратные столбцы

➡️ Вывод /

Если работаете с CSV с нестандартным delimiter’ом, попробуйте прочитать его через DuckDB: детектирует разделители сам и экономит ваше время на ручной настройке.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Positron — новая IDE для дата саентистов

Компания Posit известна как разработчик RStudio — среды разработки, популярной среди дата саентистов и предназначенной для работы с R. Их новый проект, Positron, призван выступить как новая, более гибкая альтернатива.

⏺️Positron поддерживает работу в R и Python, предусмотрена возможность добавить и другие языки. Пока их не добавили официально, можно пользоваться сторонними расширениями — уже есть для Rust, Javascript/Typescript, C/C++ и Lua.
⏺️Главный фокус разработчиков — создать удобную среду разработки, которая за счет богатого функционала легко встраивается в рабочие процессы вне зависимости от стека и сферы деятельности. Positron позволяет писать код, изучать и анализировать данные, поддерживает ноутбуки на R и Python, запуск дата-приложени: Dash, FastAPI, Streamlit и так далее.
⏺️Надо ли говорить, что у Positron, конечно же, есть свой ИИ-ассистент?

Если верить отзывам, после 2 лет в разработке Positron все еще страдает от багов и недостатка фич, особенно по сравнению с более привычным многим RStudio, но это уже вполне рабочий и перспективный инструмент.

Он доступен бесплатно на Windows, macOS и Linux.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Как избежать «ИИ-пилотного болота»: опыт PepsiCo

В начале бума генеративного ИИ многие компании бросились внедрять всё подряд — и часто получали сомнительные результаты. Сегодня многие сворачивают пилоты, но у PepsiCo всё пошло иначе.

Секрет — в стратегии: максимум 4–5 ИИ-проектов одновременно, на которые идут ресурсы и эксперты. Остальное тестируется во внутренней песочнице PepGenX — запуск только после доказанной пользы для KPI.

Прогнозирование спроса
ИИ каждый день пересчитывает прогнозы, анализируя продажи, маркетинг и сотни внешних сигналов. Видит «горячие» недели до того, как они наступят.

ИИ-агенты на складах
Автоматизируют планировку хранения, подсказывают мерчандайзерам, куда выкладывать товар.

ИИ-продажники
На B2B-платформе оформляют заказы, дают клиентам данные о запасах в реальном времени, прогнозируют поставки и помогают запускать таргетированные кампании.

Разработка продуктов
ИИ сокращает запуск новинок с 6–9 месяцев до 6 недель, оптимизирует рецептуры и брендинг.

Маркетинг
Генерирует идеи, тестирует их на виртуальных респондентах и оптимизирует кампании.

Итог:
никакой гонки за хайпом — только точечные ИИ-решения, которые приносят измеримый бизнес-результат.