This media is not supported in your browser
VIEW IN TELEGRAM
Последние два дня много обсуждают, как и кто показал рекорд Овечкина в виде инфографики. Мне скинули вот такой видосик из инсты, где показывали каждую шайбу и откуда она была забита. Идея очень классная — но реализация полный отстой: такие крутые данные, а увидеть картинку целиком нельзя. Как мне кажется, оно ещё и сделано не на реальных данных. По крайней мере, последняя шайба точно не из этой позиции.
Использовали Gemini для сборки данных и работы с API, а Cursor — чтобы это всё накодить. Вообще, для вот такого рода проектов это какая-то чума. Я за пару вечеров собрал эту штуку — и она работает! Чудный новый мир.
Потыкать самому — https://revealthedata.com/examples/ovechkin/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Про GPT на SQL мы уже как-то рассказывали, а теперь вот нашли тетрис.
Для запуска нужен Postgres — чтобы обойти некоторые ограничения языка, автор воспользовался возможностями именно этой СУБД.
Скачать игру можно на гитхабе автора и там же почитать, с какими проблемами он столкнулся во время работы над проектом и как искал решения. Материал впечатляющий, как и результат работы. Единственный минус в том, что автор почему-то не назвал свой проект TetriSQL.
А какие впечатляющие проекты на SQL попадались вам?
Please open Telegram to view this post
VIEW IN TELEGRAM
Self-service BI — это подход к аналитике, который состоит в том, что бизнес-клиент сам, без помощи дата-команды, может формулировать запросы к данным и создавать отчеты.
Учить SQL никого не заставляют. Пользователь с помощью кнопок и менюшек в интерфейсе выбирает, какие данные и в каком виде ему нужны, а BI-система превращает это в SQL-запрос. И, конечно, не забываем про ИИ: уже есть достаточно self-service-инструментов с прикрученными к ним LLM. Они «переводят» на SQL запросы пользователей на естественном языке.
В теории круто. Да и на практике работает — мы рассматривали такой кейс в одном из выпусков Data Heroes (YouTube, VK).
Но есть и минусы или, скорее, опасения.
Please open Telegram to view this post
VIEW IN TELEGRAM
Несложно посчитать, что существует 10 000 возможных вариаций ПИН-кодов из 4 цифр.
Также довольно легко догадаться, какие из них будут самыми популярными. Наверняка, почти все, кто читает этот пост, подумали про 1234, 1111 или 0000.
Но вот какая комбинация цифр будет самой непопулярной?
График составил аналитик Ник Берри в 2012 году на основе 3,4 миллионов слитых в интернет ПИН-кодов. Да, данные не самые новые, но что-то нам подсказывает, что вряд ли за эти 10 лет что-то сильно изменилось.
Рассмотреть график поближе можно здесь, а почитать про исследование Ника и его выводы — в его статье. Там же есть топ-20 кодов, на которые приходится аж 26% всех ПИНов из его датасета.
Please open Telegram to view this post
VIEW IN TELEGRAM
Давно не рассказывали про то, как ИИ трудится на благо науки. Исправляемся — сегодня на повестке модель для предсказания структуры белков AlphaFold 3.
У белков безумно сложная структура, которую очень тяжело «расшифровать» и описать. А нужно это делать для того, чтобы лучше понять, как они воздействует на другие молекулы. Эта информация полезна при разработке лекарств или при изучении того, как функционирует живой организм — человеческий и не только.
До того, как для этих целей начали использовать ИИ, описание структуры белков было очень долгой и тяжелой задачей. Поэтому AlphaFold оказала огромное влияние на биологию, биохимию и фармацевтку — модель описала больше 200 миллионов белковых структур и значительно упростила работу исследователей. Новая версия стала еще мощнее и теперь способна предсказывать еще более сложные структуры, чем раньше, — целые белковые комплексы.
А вот тут пока непонятно. Во-первых, надо понимать, что ИИ, при всех свои возможностях, все еще не творит чудеса и даже не гарантирует 100%-ную точность своих предсказаний.
А еще разработчики не стали делиться исходным кодом третьей версии, как сделали с предыдущими. Вместо этого они запустили AlphaFold Server. Он бесплатный, быстрее AlphaFold 2, но предназначен только для некоммерческих исследований и не позволяет предсказывать структуры веществ, которые могут быть использованы как лекарства.
Вот такие новости науки.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Мало что радует так же сильно, как когда находится простой, полезный и бесплатный инструмент, который можно вот просто взять и начать использовать без регистраций и SMS.
ChartDB — как раз такой. Это open source тул, который создает схемы БД за один запрос и 15 секунд.
Все это бесплатно, однако есть но. ChartDB пока находится в публичной бете, так что со временем разработчики могут добавить какую-нибудь монетизацию. И скорее всего, это и сделают. Так что поспешите потестить инструмент, пока это не случилось.
Please open Telegram to view this post
VIEW IN TELEGRAM
Нашли описание маленького, но интересного исследования на 50+ респондентов, которые рассказали, какие инструменты они используют для полнотекстового поиска (или full text search/FTS) в Postgres.
Есть и другие альтернативы, в том числе и ParadeDB — инструмент, разработанный авторами исследования
Свое главное преимущество они видят в том, что их решение изначально заточено на работу именно с Postgres, а потому просто в использовании и при этом позволяет расширить его возможности, почти как Elasticsearch. В общем, берет лучшее от обоих.
А что выбираете вы? Ждем ваших вариантов!
Please open Telegram to view this post
VIEW IN TELEGRAM
СЕО Google Сундар Пичаи рассказал, что больше четверти всего кода в компании пишется с помощью ИИ, и это помогает серьезно ускорить и упростить работу инженеров.
Уверены, что скоро больше компаний последуют примеру Google. Такими темпами уйдет эпоха Stack Overflow и
И наверняка это случится не только в IT.
Please open Telegram to view this post
VIEW IN TELEGRAM
Бывает у вас такое, что заходите на сайт, смотрите, что там написано, и не можешь понять, для кого вообще это все? Неужели кому-то может быть интересно читать или смотреть это?
Автор сайта The Luddite решил монетизировать какой-нибудь из своих проектов одним из простейших доступных ему способов — прикрутив к нему рекламу. Выбор пал на сайт Apportionment Calculator с алгоритмом, который рассчитывает, сколько мест в конгрессе получит каждый штат получит на основе переписи населения.
В общем, что-то на американском, но это и не так важно. Главное, что это был простой маленький сайт с одной-единственной задачей.
Google это не понравилось
Когда автор подал заявку в AdSense, ему почти сразу пришел отказ с формулировкой «сайт не отвечает требованиям платформы». Он навел справки и выяснил, что Google любит, когда на странице много оригинального, но необязательно качественного контента. А кто справляется с созданием такого контента лучше нейросети?
С помощью друзей и ChatGPT автор сайта добавил на него:
Весь контент, кроме иллюстраций, был сгенерирован ChatGPT. Особенно хорошо получились загадки. Вот одна из них — чтобы сохранить дух оригинала, перевели ее тоже нейросетью.
В загадках о власти я ключом становлюсь,
Ты в сделках найдёшь меня наяву.
Соглашение – цель, что нам всем по пути,
Встретиться в середине, где интересы нашли.
Что я?Ответ: Найти компромисс
Как вам? Google тоже понравилось, и заявку автора на размещение рекламы на этот раз одобрили. История получилась смешная, но при этом немного грустная. Роботы и алгоритмы все больше вытесняют людей из интернета. 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
Spliit — приложение для совместного ведения расходов. С его помощью можно вести совместный семейный бюджет или планировать траты в поездке с друзьями. Приложение бесплатное, без премимум-фич и рекламы, а еще требует от создателя небольших, но регулярных затрат ~100 долларов в месяц — в основном на хостинг.
Приложению уже несколько лет, но версия, о которой пойдет речь ниже, появилась всего год назад.
Получается, что пользуются им довольно активно. Так как оно бесплатное, поддержать автора можно донатами — либо через сервис Stripe, либо через GitHub.
Суммы донатов разные — от 6 долларов в месяц до 107, но большинство в пределах от 20 до 40.
Вот такая экономика — кажется, что заработать на бесплатном проекте, исключительно на людской доброте и благодарности, будет сложновато.
Please open Telegram to view this post
VIEW IN TELEGRAM
У мессенджера Discord больше 150 млн активных пользователей и 19 млн серверов, где эти люди общаются и генерируют миллиарды сообщений.
Об этом команда Discord рассказала в блоге проекта. Приводим оттуда самое любопытное.
У Discord ситуация не уникальная, но не частая — не так много компаний, которые ворочают такими массивами данных. И все же надеемся, что вы почерпнули из их опыта что-то полезное для себя.
p.s.
Please open Telegram to view this post
VIEW IN TELEGRAM
На гитхабе выложили список must-read и must-see материалов для всех, кто вкатывается в дата-инжиниринг. Или уже вкатился, но хочет прокачать скиллы.
В общем, все, что может пригодиться начинающему и продолжающему инженеру. Знаете таких? Тогда покажите им этот пост, и себе его сохранить не забудьте.
Please open Telegram to view this post
VIEW IN TELEGRAM
Звучит, как сюжет из «Черного зеркала»: робот, который оценивает, подходит ли соискатель на должность или хватает ли сотруднику знаний для повышения. Но это не фантастика, а вполне реальная практика.
Конечно, на деле все не так мрачно, как сериале, и судьбы людей от решений роботов (пока) не зависят. ИИ лишь помогает ускорить процесс скрининга.
Jumse позволяет провести хоть быстрый precheck, чтобы отсеять слабых кандидатов, хоть полноценный многочасовой ассесмент.
В итоге:
В общем, ИИ всех освобождает от рутины по составлению и проверке заданий. В теории звучит интересно, но на практике проверить качество скрининга может только тот же техлид или хотя бы достаточно опытный разработчик. Всем прочим остается только довериться решениям искусственного интеллекта.
Please open Telegram to view this post
VIEW IN TELEGRAM
Магия искусственного интеллекта избавляет от необходимости самостоятельно ковыряться в PDF’ках, чтобы найти в них нужные данные.
Можно самостоятельно дать задачу, какие данные и в каком формате вам нужны, а можно воспользоваться готовыми шаблонами. Пока их всего три: инвойс, банковская выписка и водительское удостоверение из Великобритании. Не густо, но разработчики обещают добавить еще, а также работают над облачной версией. Пока в нее пускают только после отправки реквеста через сайт проекта.
Please open Telegram to view this post
VIEW IN TELEGRAM
Кажется, что пятница — время расслабиться и почитать что-нибудь легкое?
А вот и нет.
Автор не пишет «press X to win» — то есть «напишите вот такой запрос, чтобы получить вот такой результат», а подробно объясняет логику их работы с формулами и ссылками на дополнительную литературу. Думаем, будет полезно и новичкам, и тем, кто с SQL работает уже не первый день.
Please open Telegram to view this post
VIEW IN TELEGRAM
Мемы про сложные отношения аналитиков с Excel появились не на пустом месте. Часто пользователи просто не понимают своего счастья и не ценят все эти прекрасные дашборды, которые для них любовно собирают аналитики, BI-специалисты и дата-инженеры.
«Да, красиво, удобно, но можно те же данные в Excel показать, пожалуйста?»
☝🏻 Знакомо?
Это может раздражать или фрустрировать, но это происходит не без причины. И часто причина — именно в дашбордах, которые сделали именно для того, чтобы сделать жизнь пользователя лучше.
Если хочется почитать подробнее, то вот хорошая статья на эту тему.
Please open Telegram to view this post
VIEW IN TELEGRAM
К традиции подводить итоги в конце года все относятся по-разному: кому-то все равно, для кого-то это повод вспомнить, что хорошего произошло за последние 12 месяцев, а для кого-то —причина для стресса.
В последнюю категорию нередко попадают сотрудники корпораций. Те тоже в конце года подводят итоги и оценивают результаты своих подчиненных. 10% (или 15%, или 20%) лучших получат премии, а 10% со дна рейтинга отправятся искать новое место работы.
Обычно результат этой оценки представляют в виде всем знакомой куполообразной кривой. И это выглядит логично:
Так ведь?
Ну, не совсем. На графике данные распределяются симметрично, но давайте честно — отражает ли это реальность?
Если описывать ситуацию так, то это уже не скучное нормальное распределение, а правило Парето про 20% усилий, которые генерируют 80% результата. То есть сотрудники делятся на небольшую долю топ-перформеров, большинство «среднячков» и редких аутсайдеров.
Если интересно почитать подробнее, то в блоге Data Science for Fun and Profit про это есть любопытная статья. А мы просто отметим, что это отличный пример того, как датавиз влияет на восприятие данных и принятие решений.
Please open Telegram to view this post
VIEW IN TELEGRAM
«Just use Postrges» — это выражение уже почти мем. Кто-то иронизирует над тенденцией в любой непонятной ситуации использовать Postgres, а кто-то говорит это вполне серьезно. Его любят за бесплатность, производительность, умение работать с разными типами данных — в общем, есть за что.
Но что, если заглянуть глубже и разобраться, как именно он работает?
Ответы — в лонгриде аж на 30+ минут вдумчивого чтения How Postgres stores data on disk.
Если вникнуть в тонкости того, как Postgres хранит данные, то, во-первых, появится еще несколько веских причин его любить. А во-вторых, это может пригодиться в работе — когда вы понимаете, как что-то устроено, намного проще исправлять ошибки или искать причины проблем.
Please open Telegram to view this post
VIEW IN TELEGRAM
Шпаргалка для всех, кто занимается версткой дашбордов — 20 способов изобразить выполнение KPI. В основном это разные вариации барчартов и линейных графиков, но все равно поглядеть что-нибудь полезное для себя можно.
Please open Telegram to view this post
VIEW IN TELEGRAM
Все эти ваши датавизы, графики и хитрые многосоставные дашборды — это, конечно, хорошо. Но идеальным, проверенным временем способом структурировать данные остаются самые обычные, простые таблицы.
Во время раскопок в Ираке нашли глиняную табличку с таблицей, в которой подсчитывали зарплаты рабочих. В одной колонке записаны имена, в других — разные суммы денег и, судя по всему, число отработанных часов или смен. Возраст находки — 3500-4000 лет.
Может быть, когда вы в следующий раз придется поработать с отчетом по зарплатам сотрудникам или выплатам подрядчикам, вы вспомните, что неизвестный житель древнего города Ларса несколько тысяч лет назад заполнял почти такую же табличку. Только фильтров не было и итоговые суммы приходилось считать самому, а не вписанной в ячейку формулой.
Please open Telegram to view this post
VIEW IN TELEGRAM