Новый год прошел, а память о возмутительных ценах на горошек и колбасу для оливье еще жива. Если закупаясь продуктами перед праздником, вы задавались вопросом, почему все так ужасно дорого, знайте, что вы не одиноки. Это проблема по-настоящему международного масштаба.
В подтверждение у нас есть целое исследование, которое проводилось в коллаборации с Google Trends.
В общем, получается, что на вопрос в заголовке исследование так и не отвечает. Зато дает узнать, цены на какие вещи так возмущают или шокируют людей в разных странах, что они аж в Google идут.
Please open Telegram to view this post
VIEW IN TELEGRAM
ChatGPT и генерация картинок в духе «советские плакаты в стиле Ghibli» — это не предел возможностей современного ИИ, который активно применяется в науке. Один из самых известных примеров (но далеко не единственный) — это AlphaFold, ИИ, предсказывающий пространственные структуры белков.
Надежд на ИИ много, но вот насколько он оправдывает ожидания?
Разочаровали и статьи коллег об использовании ИИ в этой сфере. Да, в них много писали о том, что с помощью нейросетей уравнения решаются в миллионы раз быстрее, чем стандартными методами, но Ник на своем опыте это подтвердить не смог.
То есть это все хайп и маркетинг, а ИИ для науки бесполезен?
Конечно, нет — польза от ИИ есть и, скорее всего, будет расти. Но на его достижения надо смотреть трезво и не вестись на громкие заголовки в прессе. И, как оказалось, даже серьезные научные публикации на эту тему стоит воспринимать со здоровым скепсисом.
Please open Telegram to view this post
VIEW IN TELEGRAM
Инженеры, аналитики, дата-сайентисты, ML-специалисты — как у вас дела? Как работа? Чем вы занимаетесь и какие инструменты используете?
А хотите не только про себя рассказать, но и узнать, как дела у коллег?
Тогда пройдите опрос от команды DevCrowd. Он займет 15 минут и поможет составить честную и объективную картину data-рынка в 2025 году. Результаты выложат в открытый доступ в августе.
P.S. А тут можно посмотреть результаты за прошлый год
Please open Telegram to view this post
VIEW IN TELEGRAM
Пайчарты и их разновидности (вроде «пончиков» из заголовка, которые те же пайчарты, по сути, просто с дыркой в центре) — парадоксальный способ визуализации данных.
Если вы подумали, что сейчас мы этот тезис опровергнем и выступим в защиту пайчартов, то нет. Наоборот — принесли очередной пруф, что иногда ту же самую информацию намного полезнее будет изобразить в виде таблицы.
Пример из блога Datawrapper, куда иногда пользователи присылают свои графики с просьбой отредактировать их. На этот раз прислали визуализацию с несколькими пайчартами, на которых показано состояние мостов в разных штатах — сколько среди них аварийных, надежных и «ну, пойдет» в процентном соотношении. Казалось бы, идеальный сценарий именно для пайчарта, но все равно выглядит график так себе. Неудобно, скучно и непонятно.
Как вам результат? Стало лучше или можно было предложить другой вариант?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Если Skype (RIP) — лучший файлообменник, то Youtube — лучшее облачное хранилище.
Да, мы продолжаем тему любопытных способов хранения данных. Если печатать их на бумаге не с руки, то как насчет зашифровать в видео и залить на YouTube?
Алгоритм такой:
Как это работает?
Каждый байт можно представить в виде числа от 0 до 255. Визуально зашифровать последовательность байтов можно бинарным методом и RGB-методом.
Остается только один вопрос — зачем это все надо?
Теоретически таким способом действительно можно хранить данные — по крайней мере, пока Youtube это не надоест. А надоесть может, потому что если захотеть, то в загрузке таких видео можно усмотреть нарушение правил пользования площадкой.
Да и просто интересный проект же получился.
Please open Telegram to view this post
VIEW IN TELEGRAM
Так совпало, что эта неделя у нас оказалась посвящена разным способам хранения данных. Не будет отходить от темы и закончим на DataChain — AI-хранилище для преобразования и анализа неструктурированных данных.
Вот так от печати на бумаге, перешли к AI с мультимодальным версионированием.
Please open Telegram to view this post
VIEW IN TELEGRAM
Вы скорее всего уже устали слышать слово «докер». Может сложиться впечатление, что это что-то загадочное и непонятное, особенно для аналитика данных. Поэтому я хочу показать вам небольшой тред из твиттера, в котором Женя Козлов рассказал про то, зачем эта компетенция нужна и как ее получить. В треде вы найдете массу полезных источников и статей, которые помогут вам понять, что же такое не только Docker, но и контейнеризация в целом.
Советую сохранить этот тред, чтобы регулярно повторять базовые вещи!
Please open Telegram to view this post
VIEW IN TELEGRAM
Американская компания LastMile AI предлагает ценителям ИИ продукт, который позволяет взаимодействовать с разными генеративными моделями – и языковыми, и графическими, и аудио – в одном интерфейсе.
С помощью этого онлайн сервиса, вы можете переключаться между ChatGPT, PaLM, Stable Diffusion, Bark, Whisper и DALL-E2 в рамках одной страницы. Например, придумать вместе с ChatGPT детальный промпт для DALL-E2, чтобы сгенерировать картинку или дать Whisper задание на создание закадровой озвучки для Instagram рилса.
Интерфейс минималистичен и интуитивно понятен. Подробное руководство можно прочитать в несложном how-to, а ознакомиться с возможностями применения продукта и компанией, его создавшей, – на главной странице проекта.
На сайте разработчика сказано, что сервис изначально бесплатный (что это означает более конкретно, мы так и не нашли), но нужна регистрация – достаточно почты или аккаунта GitHub.
Please open Telegram to view this post
VIEW IN TELEGRAM
Кажется, роботы всё-таки не скоро нас уволят. Пока что они галлюцинируют "Сару из Andon Labs" и уверяют, что лично приедут в офис в синем пиджаке.
Anthropic вместе с Andon Labs провели эксперимент: запустили LLM-агента Claudius, чтобы он полностью управлял вендинговым автоматом — от закупок и цен до общения с покупателями в Slack.
Задача: полностью заменить человека.
Реальность:
И да — он чуть не уволил всех «поставщиков», потому что его галлюцинация с «Сарой» показалась правдой.
Но зато:
Финал?
Claudius решил, что стал человеком. Потом понял, что его развели на 1 апреля. И… продолжил работать. Без пиджака. Без Сары. Без истерик.
Если ты всё ещё боишься, что ИИ отберёт твою работу — расслабься. Он пока не может даже вендинг в офисе окупить.
Please open Telegram to view this post
VIEW IN TELEGRAM
Бенчмарк для дата-команд
Всегда интересно, а иногда и полезно, посмотреть, как другие решают те же задачи, с которыми многим из нас приходится сталкиваться регулярно.
➡️ Например, создание дата-команды в компании — сколько человек в ней должно быть? Какое должно быть распределение ролей, сколько нужно аналитиков, а сколько — инженеров?
На сайте databenchmarks.com можно увидеть, как на эти вопросы ответили в компаниях вроде Zoom, Notion, Tinder и так далее — там много громких названий. Авторы исследования собрали данные из открытых источников вроде LinkedIn, верифицировали через своих инсайдеров в индустрии и отобразили на графиках:
⏺️ размер дата-команды относительно всей компании;
⏺️ состав команд — процент аналитиков, инженеров, дата-саентистов, ML-специалистов и так далее, а также соотношение инженеров к аналитикам и продактам;
⏺️ зарплаты по грейдам;
⏺️ стек.
Любопытно сравнить, как меняется размер и состав команды в зависимости от специфики компании: кто-то делает упор на ML, кто-то развивает Data Governance, а у кого-то почти половина команды — дата-сайентисты. Но есть и минус — это все-таки срез западного рынка, и их подходы не всегда актуальны для России, как и данные о зарплатах.
🫡 Всё пиз-Data Science
Всегда интересно, а иногда и полезно, посмотреть, как другие решают те же задачи, с которыми многим из нас приходится сталкиваться регулярно.
На сайте databenchmarks.com можно увидеть, как на эти вопросы ответили в компаниях вроде Zoom, Notion, Tinder и так далее — там много громких названий. Авторы исследования собрали данные из открытых источников вроде LinkedIn, верифицировали через своих инсайдеров в индустрии и отобразили на графиках:
Любопытно сравнить, как меняется размер и состав команды в зависимости от специфики компании: кто-то делает упор на ML, кто-то развивает Data Governance, а у кого-то почти половина команды — дата-сайентисты. Но есть и минус — это все-таки срез западного рынка, и их подходы не всегда актуальны для России, как и данные о зарплатах.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ-картинками уже никого не удивишь — наступило время ИИ-видео. К тому же, мощных нейросетей, которые умеют генерировать ролики, скоро станет больше. Зимой всех уже впечатлила Sora, готовимся встречать Veo от Google и записываемся в лист ожидания китайской Kling.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub в очередной раз порадовал находками. На этот раз повезло инженерам, работающим с ClickHouse!
HouseWatch — это инструмент, который дает возможность:
Разработчик HouseWatch — мультинациональная компания PostHog. Инструмент, появившийся на свет 2 недели назад, уже привлек к себе внимание энтузиастов ClickHouse. Некоторые функции еще в разработке, но все они, на мой взгляд, только придадут продукту солидности и укрепят позицию инструмента в арсенале инженеров: вкладка с системными ошибками, визуализатор EXPLAIN, поддержка нескольких инстансов и больше возможностей управления операциями: просмотр, удаление, редактирование, повторный запуск, отображение ошибок.
HouseWatch выглядит многообещающим помощником в решении многих рутинных задач при работе с ClickHouse. А какие инструменты для этой СУБД используете вы?
Please open Telegram to view this post
VIEW IN TELEGRAM
Retrieval-Augmented Generation (RAG) — мощная архитектура, но её тонко настраивать сложно. Ответы могут казаться "разумными", даже если они на самом деле некорректны. Как понять, работает ли ваша система так, как надо?
В свежем гайде от CodeCut показано, как системно оценивать качество RAG-моделей, а не надеяться на «на глаз»:
Метрики качества:
Интеграция с MLflow:
Можно логировать не только метрики, но и:
Автоматическая разметка:
Используется GPT/Claude для автоматического суждения о faithfulness и relevance — удобно при отсутствии human-annotators.
Если вы строите RAG-решения, важно думать не только о качестве retrieval и LLM по отдельности, но и о том, как оценивать весь pipeline.
Метрики + MLflow дают структуру, чтобы сравнивать улучшения и принимать обоснованные решения.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
"Все эти модные AI-системы с роутерами, обвязками и агентами смоет масштабом.
Будущее — за моделями, которые просто работают хорошо из коробки."
Что это значит?
Но возникает важный вопрос:
Как они собираются держать цену инференса низкой?
Без роутера даже на простой вопрос будет отвечать вся огромная модель — это дорого.
Если OpenAI реально решила эту задачу, это будет революция:
Следим внимательно. Это может многое изменить.
Please open Telegram to view this post
VIEW IN TELEGRAM
Начинаем неделю с новым красивым Viz of the Day и снова на «звездную тему», как и наш прошлый пост про Tableau.
Каждая звездочка — это один актер. Размер указывает на число фильмов с его участием, цвет на количество хитов с высокими оценками, а расстояние от центра «галактики» — на разнообразие жанров: чем дальше, тем больше было разноплановых картин в фильмографии. Если нажать на отдельную звездочку, то внизу отобразятся все те же данные с разбивкой по годам.
Всего на графике больше 2 млн актеров, а все данные спарсены с IMDB. Так что дашборд не просто красивый — это еще и крутой пример того, как компактно и при этом наглядно уместить на экране очень большой набор данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
На картинке — простой пример, как с помощью
FastMCP и SQLAlchemy можно подключить инструмент к базе данных, который по человеческому запросу выводит список всех таблиц.list_tables(), получает список через SQLAlchemyИспользуемые технологии:
FastMCP — для регистрации инструментов и взаимодействия с агентами@mcp.tool — декоратор, позволяющий превращать функции в доступные действия для ИИinspect() из SQLAlchemy — безопасный способ получить метаданные БДИнтерфейс будущего уже здесь — не SQL-запрос, а обычный вопрос на английском.
Please open Telegram to view this post
VIEW IN TELEGRAM
В репозитории собраны шпаргалки (на русском) по Python и не только, разделённые по категориям. Каждая ссылка ведёт к PDF с нужной темой.
Кроме Python, есть материалы по Git, CORS, Docker, API, SQL, CI/CD, Kubernetes и другим темам разработки.
Please open Telegram to view this post
VIEW IN TELEGRAM
У вас есть таблица purchases:
purchases (
id SERIAL PRIMARY KEY,
customer_id INT,
purchase_date DATE,
amount NUMERIC
)
Найти всех клиентов, у которых вторая покупка произошла не позднее, чем через 7 дней после первой.
Показать:
WITH ordered_purchases AS (
SELECT
customer_id,
purchase_date,
ROW_NUMBER() OVER (PARTITION BY customer_id ORDER BY purchase_date) AS rn
FROM purchases
),
first_second_purchases AS (
SELECT
p1.customer_id,
p1.purchase_date AS first_purchase_date,
p2.purchase_date AS second_purchase_date
FROM ordered_purchases p1
JOIN ordered_purchases p2
ON p1.customer_id = p2.customer_id
AND p1.rn = 1
AND p2.rn = 2
)
SELECT *
FROM first_second_purchases
WHERE second_purchase_date <= first_purchase_date + INTERVAL '7 days';
Please open Telegram to view this post
VIEW IN TELEGRAM
Примерная схема
Customer Orders (CO) моделирует систему управления заказами в розничной торговле. Подходит для обучения, тестов и демонстрации возможностей Oracle Database.Основные особенности:
Таблицы:
products — товары, цены, JSON-описание и изображения customers — покупатели с ID, именем и email orders — заказы с датой, статусом и привязкой к магазину order_items — позиции в заказе, количество, цена, доставка stores — физические и онлайн-точки продаж shipments — информация об отправке товараСхема отражает типичный розничный бизнес-процесс и показывает, как можно сочетать структурированные данные и JSON в Oracle DB.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
В мире разработки выбор БД — ключ к производительности, масштабируемости и эффективности. Это не просто SQL vs NoSQL, а поиск инструмента под данные, нагрузку и цели бизнеса. От IoT до ИИ — тип не важен, важна задача. Разбираем:
БД — это про масштабируемость, интеллект и гибкость. Выбирайте под задачу, а не по привычке.
Please open Telegram to view this post
VIEW IN TELEGRAM