This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
За что мы любим хороший, качественный датавиз — так это за то, что он через обычные графики может рассказать историю.
Получилась эффектная визуализация того, как изменилась ценность одного доллара за 24 года. Даже если вы от США далеко, посмотреть все равно интересно — хотя бы, чтобы впечатлиться объемом работы.
Please open Telegram to view this post
VIEW IN TELEGRAM
SQLite уже прошлый век и пора переходить на новые, более
SQLite часто воспринимают как инструмент с ограниченными возможностями для работы с небольшими сайтами и приложениями. Это и неудивительно: SQLite — встраиваемая СУБД, которая хранит данные локально в одном компактном файле. Отсюда и вытекают все ее плюсы и минусы.
Но возможности у нее не такие уж и скромные. Например, вот тут автор рассказывает подробнее про преимущества SQLite.
Резюмируя, это перспективный инструмент, который иногда после некоторых доработок вполне может потягаться с более «серьезными» СУБД.
Please open Telegram to view this post
VIEW IN TELEGRAM
Рекомендуем полезную статью по выбору СУБД на Хабре — без воды, только самое главное: немного теории и полезная шпаргалка, которую стоит сохранить себе.
Но самое крутое — это, конечно, схема, которую нарисовали авторы, чтобы все эти знания было удобнее применять на практике. Они предлагают аж три способа подбора подходящей СУБД. Самый простой из них — отвечаете на 5 вопросов и тут же получаете рекомендацию, какая система оптимально подойдет под ваш запрос.
Можно придраться, что не упомянули какую-нибудь СУБД или, наоборот, что пытались объять необъятное и предложили слишком много вариантов, когда можно было ограничиться самыми популярными. Но не будем — идея хорошая и исполнение тоже.
Please open Telegram to view this post
VIEW IN TELEGRAM
Мальчик: смотрит чемпионат по «Доте»
Мужчина: смотрит чемпионат по Excel
В финале Microsoft Excel World Championship, который прошел 7-9 декабря приняли участие 16 человек, настоящих профи по табличкам и формулам. Им давали задания, специально спроектированные так, чтобы для решения не требовалось специальных профессиональных знаний, кроме знакомства с функционалом Excel. Например, рассчитать, сколько минералов можно намайнить на астероиде в игре Eve Online. Все данные для расчета участникам предоставляли, а дальше надо было применить знания формул, смекалку и логическое мышление.
Каждое задание было разделено на несколько уровней с возрастающей сложностью и дополнительными вопросами. На решение — 30 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Спросите вашего эйчара: «В чем сила, брат?»
И он скажет: «Конечно, в команде!»
Смысл в этом есть — мало кто может позволить себе быть одиноким волком. Так или иначе приходится учиться договариваться и объединять усилия для достижения общих целей. Правда, иногда такое, в общем, благое дело, как командная работа, дает не тот эффект, как хотелось бы.
На этот исход влияет несколько факторов: и динамика в группе, и человеческая любовь к предварительным выводам и предвзятости подтверждения. Но бороться с этим можно. В конце исследования есть рекомендации: например, визуалировать доступную информацию и отдавать приоритет тщательному сбору данных перед принятием решения.
Вот так, думали у нас тут какой-то эйчарский пост про софт скиллы, а на самом деле все опять свелось к данным.
Please open Telegram to view this post
VIEW IN TELEGRAM
Мы тут часто пишем про нейросети, новости IT, чемпионаты по Excel и всякий разный полезный софт. В общем, много про что. Но нашей главной любовью остается он — SQL.
SQL крутой инструмент для любого человека, работающего с данными. У него куча возможностей, о которых некоторые даже не знают — или знают, но считают, что это что-то сложное и непонятное.
Они полезны, когда надо сравнить показатели за разные периоды, рассчитать накопленную сумму за определенный промежуток времени, разделить пользователей на несколько групп, узнать медиану. Это все можно сделать и без оконок, но с ними намного удобнее!
Люди, даже неплохо владеющие SQL, часто пишут сложные громоздкие запросы там, где можно обойтись более простыми и эффективными, путаются с фреймами или вообще их не используют. А уж сколько берут не те функции или используют их ограниченно, например, с простыми сортировками без указания границ окна — просто потому что не знают, как еще можно. Чтобы разобраться в теме, нужна практика на реальных рабочих примерах, но где ее взять?
Вот мы и подумали, почему бы не создать такой курс, который возьмет и познакомит всех желающих с волшебным миром оконок. С понятной теорией, написанной человеческим языком, и жизнеспособными примерами, которые пригодятся потом в работе.
8 писем, каждое с теорией, красивыми оптимизированными запросами и табличками. Все, от чего у каждого аналитика теплеет на душе. Заходите на сайт проекта, чтобы узнать больше или просто посмотреть, какой красивый дизайн мы ему сделали.
Please open Telegram to view this post
VIEW IN TELEGRAM
…а от SQL до безумия — почему-то через эмодзи.
Такой маршрут прокладывает сайт 6 degrees of Wikipedia, который ищет самый короткий путь от одной статьи в «Википедии» к другой по перекрестным ссылкам.
Сразу предупреждаем, что проект ищет только по англоязычным статьям. Зато как красиво это делает! Он рисует схемы переходов по ссылкам, которые иногда получаются очень даже эффектными. Например, красиво выглядит путь — точнее множество путей — из Австралии до Зимбабве.
Please open Telegram to view this post
VIEW IN TELEGRAM
Новый год прошел, а память о возмутительных ценах на горошек и колбасу для оливье еще жива. Если закупаясь продуктами перед праздником, вы задавались вопросом, почему все так ужасно дорого, знайте, что вы не одиноки. Это проблема по-настоящему международного масштаба.
В подтверждение у нас есть целое исследование, которое проводилось в коллаборации с Google Trends.
В общем, получается, что на вопрос в заголовке исследование так и не отвечает. Зато дает узнать, цены на какие вещи так возмущают или шокируют людей в разных странах, что они аж в Google идут.
Please open Telegram to view this post
VIEW IN TELEGRAM
ChatGPT и генерация картинок в духе «советские плакаты в стиле Ghibli» — это не предел возможностей современного ИИ, который активно применяется в науке. Один из самых известных примеров (но далеко не единственный) — это AlphaFold, ИИ, предсказывающий пространственные структуры белков.
Надежд на ИИ много, но вот насколько он оправдывает ожидания?
Разочаровали и статьи коллег об использовании ИИ в этой сфере. Да, в них много писали о том, что с помощью нейросетей уравнения решаются в миллионы раз быстрее, чем стандартными методами, но Ник на своем опыте это подтвердить не смог.
То есть это все хайп и маркетинг, а ИИ для науки бесполезен?
Конечно, нет — польза от ИИ есть и, скорее всего, будет расти. Но на его достижения надо смотреть трезво и не вестись на громкие заголовки в прессе. И, как оказалось, даже серьезные научные публикации на эту тему стоит воспринимать со здоровым скепсисом.
Please open Telegram to view this post
VIEW IN TELEGRAM
Инженеры, аналитики, дата-сайентисты, ML-специалисты — как у вас дела? Как работа? Чем вы занимаетесь и какие инструменты используете?
А хотите не только про себя рассказать, но и узнать, как дела у коллег?
Тогда пройдите опрос от команды DevCrowd. Он займет 15 минут и поможет составить честную и объективную картину data-рынка в 2025 году. Результаты выложат в открытый доступ в августе.
P.S. А тут можно посмотреть результаты за прошлый год
Please open Telegram to view this post
VIEW IN TELEGRAM
Пайчарты и их разновидности (вроде «пончиков» из заголовка, которые те же пайчарты, по сути, просто с дыркой в центре) — парадоксальный способ визуализации данных.
Если вы подумали, что сейчас мы этот тезис опровергнем и выступим в защиту пайчартов, то нет. Наоборот — принесли очередной пруф, что иногда ту же самую информацию намного полезнее будет изобразить в виде таблицы.
Пример из блога Datawrapper, куда иногда пользователи присылают свои графики с просьбой отредактировать их. На этот раз прислали визуализацию с несколькими пайчартами, на которых показано состояние мостов в разных штатах — сколько среди них аварийных, надежных и «ну, пойдет» в процентном соотношении. Казалось бы, идеальный сценарий именно для пайчарта, но все равно выглядит график так себе. Неудобно, скучно и непонятно.
Как вам результат? Стало лучше или можно было предложить другой вариант?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Если Skype (RIP) — лучший файлообменник, то Youtube — лучшее облачное хранилище.
Да, мы продолжаем тему любопытных способов хранения данных. Если печатать их на бумаге не с руки, то как насчет зашифровать в видео и залить на YouTube?
Алгоритм такой:
Как это работает?
Каждый байт можно представить в виде числа от 0 до 255. Визуально зашифровать последовательность байтов можно бинарным методом и RGB-методом.
Остается только один вопрос — зачем это все надо?
Теоретически таким способом действительно можно хранить данные — по крайней мере, пока Youtube это не надоест. А надоесть может, потому что если захотеть, то в загрузке таких видео можно усмотреть нарушение правил пользования площадкой.
Да и просто интересный проект же получился.
Please open Telegram to view this post
VIEW IN TELEGRAM
Так совпало, что эта неделя у нас оказалась посвящена разным способам хранения данных. Не будет отходить от темы и закончим на DataChain — AI-хранилище для преобразования и анализа неструктурированных данных.
Вот так от печати на бумаге, перешли к AI с мультимодальным версионированием.
Please open Telegram to view this post
VIEW IN TELEGRAM
Вы скорее всего уже устали слышать слово «докер». Может сложиться впечатление, что это что-то загадочное и непонятное, особенно для аналитика данных. Поэтому я хочу показать вам небольшой тред из твиттера, в котором Женя Козлов рассказал про то, зачем эта компетенция нужна и как ее получить. В треде вы найдете массу полезных источников и статей, которые помогут вам понять, что же такое не только Docker, но и контейнеризация в целом.
Советую сохранить этот тред, чтобы регулярно повторять базовые вещи!
Please open Telegram to view this post
VIEW IN TELEGRAM
Американская компания LastMile AI предлагает ценителям ИИ продукт, который позволяет взаимодействовать с разными генеративными моделями – и языковыми, и графическими, и аудио – в одном интерфейсе.
С помощью этого онлайн сервиса, вы можете переключаться между ChatGPT, PaLM, Stable Diffusion, Bark, Whisper и DALL-E2 в рамках одной страницы. Например, придумать вместе с ChatGPT детальный промпт для DALL-E2, чтобы сгенерировать картинку или дать Whisper задание на создание закадровой озвучки для Instagram рилса.
Интерфейс минималистичен и интуитивно понятен. Подробное руководство можно прочитать в несложном how-to, а ознакомиться с возможностями применения продукта и компанией, его создавшей, – на главной странице проекта.
На сайте разработчика сказано, что сервис изначально бесплатный (что это означает более конкретно, мы так и не нашли), но нужна регистрация – достаточно почты или аккаунта GitHub.
Please open Telegram to view this post
VIEW IN TELEGRAM
Кажется, роботы всё-таки не скоро нас уволят. Пока что они галлюцинируют "Сару из Andon Labs" и уверяют, что лично приедут в офис в синем пиджаке.
Anthropic вместе с Andon Labs провели эксперимент: запустили LLM-агента Claudius, чтобы он полностью управлял вендинговым автоматом — от закупок и цен до общения с покупателями в Slack.
Задача: полностью заменить человека.
Реальность:
И да — он чуть не уволил всех «поставщиков», потому что его галлюцинация с «Сарой» показалась правдой.
Но зато:
Финал?
Claudius решил, что стал человеком. Потом понял, что его развели на 1 апреля. И… продолжил работать. Без пиджака. Без Сары. Без истерик.
Если ты всё ещё боишься, что ИИ отберёт твою работу — расслабься. Он пока не может даже вендинг в офисе окупить.
Please open Telegram to view this post
VIEW IN TELEGRAM
Бенчмарк для дата-команд
Всегда интересно, а иногда и полезно, посмотреть, как другие решают те же задачи, с которыми многим из нас приходится сталкиваться регулярно.
➡️ Например, создание дата-команды в компании — сколько человек в ней должно быть? Какое должно быть распределение ролей, сколько нужно аналитиков, а сколько — инженеров?
На сайте databenchmarks.com можно увидеть, как на эти вопросы ответили в компаниях вроде Zoom, Notion, Tinder и так далее — там много громких названий. Авторы исследования собрали данные из открытых источников вроде LinkedIn, верифицировали через своих инсайдеров в индустрии и отобразили на графиках:
⏺️ размер дата-команды относительно всей компании;
⏺️ состав команд — процент аналитиков, инженеров, дата-саентистов, ML-специалистов и так далее, а также соотношение инженеров к аналитикам и продактам;
⏺️ зарплаты по грейдам;
⏺️ стек.
Любопытно сравнить, как меняется размер и состав команды в зависимости от специфики компании: кто-то делает упор на ML, кто-то развивает Data Governance, а у кого-то почти половина команды — дата-сайентисты. Но есть и минус — это все-таки срез западного рынка, и их подходы не всегда актуальны для России, как и данные о зарплатах.
🫡 Всё пиз-Data Science
Всегда интересно, а иногда и полезно, посмотреть, как другие решают те же задачи, с которыми многим из нас приходится сталкиваться регулярно.
На сайте databenchmarks.com можно увидеть, как на эти вопросы ответили в компаниях вроде Zoom, Notion, Tinder и так далее — там много громких названий. Авторы исследования собрали данные из открытых источников вроде LinkedIn, верифицировали через своих инсайдеров в индустрии и отобразили на графиках:
Любопытно сравнить, как меняется размер и состав команды в зависимости от специфики компании: кто-то делает упор на ML, кто-то развивает Data Governance, а у кого-то почти половина команды — дата-сайентисты. Но есть и минус — это все-таки срез западного рынка, и их подходы не всегда актуальны для России, как и данные о зарплатах.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ-картинками уже никого не удивишь — наступило время ИИ-видео. К тому же, мощных нейросетей, которые умеют генерировать ролики, скоро станет больше. Зимой всех уже впечатлила Sora, готовимся встречать Veo от Google и записываемся в лист ожидания китайской Kling.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub в очередной раз порадовал находками. На этот раз повезло инженерам, работающим с ClickHouse!
HouseWatch — это инструмент, который дает возможность:
Разработчик HouseWatch — мультинациональная компания PostHog. Инструмент, появившийся на свет 2 недели назад, уже привлек к себе внимание энтузиастов ClickHouse. Некоторые функции еще в разработке, но все они, на мой взгляд, только придадут продукту солидности и укрепят позицию инструмента в арсенале инженеров: вкладка с системными ошибками, визуализатор EXPLAIN, поддержка нескольких инстансов и больше возможностей управления операциями: просмотр, удаление, редактирование, повторный запуск, отображение ошибок.
HouseWatch выглядит многообещающим помощником в решении многих рутинных задач при работе с ClickHouse. А какие инструменты для этой СУБД используете вы?
Please open Telegram to view this post
VIEW IN TELEGRAM