LEFT JOIN
50.3K subscribers
913 photos
27 videos
6 files
1.14K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
🛤 MidJourney и почему о ней скоро все заговорят?
Сегодня мы хотим вам рассказать про новую модель для генерации изображений – MidJourney. Подробно об идее создания, процессе обучения и результатах основатель MidJourney Дэвид Хольц рассказал в интервью The Verge, а у нас – коротко о главном.

🤔 Что в ней особенного?
Если некоторые из моделей, о которых мы рассказывали, были заточены под фотореализм или графический дизайн, то MidJourney в большей степени вдохновляется произведениями искусства. К тому же, разработчики MidJourney провернули нечто необычное – создали одно из самых больших комьюнити в Discord, которое одновременно дает доступ к использованию модели и предоставляет пространство для общения и обсуждения полученных результатов.

💸 Как попробовать MidJourney?
Зарегистрируйте бесплатную учетную запись, и вы получите 25 попыток и доступ ко всем изображениям, которыми поделились в Discord чатах. После этого нужно будет определиться с подпиской — 10 или 30 долларов в месяц, в зависимости от количества изображений, которые вы хотите сгенерировать, и от того, нужны и вам права на эти изображения.

📒 Зачем вообще нужны такие нейросети?
В прошлом веке мануфактуры заменили мастерские, а сейчас – роботы продолжают вытеснять человеческие профессии. Сейчас, когда сгенерированные изображения находятся на пике популярности, многие компании используют изображения в коммерческих целях: Cosmopolitan и The Economist использовали AI-модели для создания обложек выпусков (Однако, авторы последнего в статье пришли к выводу, что пользоваться моделью на постоянной основе они пока не планируют).

👨‍🎨 Дизайнеров и иллюстраторов ждет конец карьеры?
А вот и нет: результаты работы AI-моделей дизайнеры могут легко использовать в своей работе, ведь они – превосходный источник идей. А когда креативные идеи бывали лишними?

Кстати, для вашего удобства теперь все заметки, посвященные современным AI-моделям, теперь собраны под хештегом #leftjoin_ai ❤️
👍23
Все что может понадобиться в работе над проектом
Спешим поделиться классным приложением Whimsical. С его помощью можно рисовать класные флоучарты, вести менеджмент задач по проектам и создавать черновики для верстки веб-сайтов. Если последнее нужно далеко не всем, то первые два пункта пригодятся любому, особенно аналитику данных. Оставляйте реакции ❤️, если вы пользуетесь флоучартами и рассказывайте в комментариях, какой инструмент вам нравится.

Если вы не используете флоучарты и не вполне понимаете зачем они нужны, то вот два примера:
◽️ Как Slack принимает решение об отправке уведомления
◽️ Как устроена прокрастинация
47👍19🔥19
👥 Хрупкое доверие в современном мире (и причем тут теория игр?) 💸
Многие исследования показывают, что уровень доверия к окружающим падает каждый год.

📚 Причем тут теория игр?
Если в университете вам преподавали теорию игр, то вы наверняка знаете, что эта наука помогает понять и формализовать разные типы межличностного взаимодействия в разных условиях.
В реальной жизни точно такие же примеры найти сложно и в каждом взаимодействии происходит смешение разных моделей, однако, это лучший инструмент из доступных. Итак, основой многих моделей ТИ являются стратегии правды и обмана, лени и добросоветстности. Самыми важными в таких играх являются условия: количество взаимодействий, доступ к информации, вероятности, с которыми принимаются решение о действии и так далее. И это приводит нас к теме сегодняшнего разговора.

👋🏻 Вернемся к доверию
В 2017 году Nicky Case написал игру (которую перевели уже на множество языков, в том числе – на русский), в которой есть два варианта взаимодействия ("довериться" и "обмануть") и множество стратегий, с помощью которой можно разобраться с причинами эпидемии недоверия. Не будем лишать вас удовольствия пройти игру самостоятельно (лучше на ноутбуке, но на телефоне тоже можно) и прийти к собственным выводам об эволюции доверия. Однако, если вы не в настроении или не любите подобные интерактивы, то ниже в двух словах изложим суть.

🤓 Если играть не хочется
Кстати, очень зря: игры – это отличная возможность разобраться в сложных механизмах на простом примере.
Итак, игры определяют то, что игроки в них делают. И по большей части, проблема не столько в людях, которые перестают доверять, сколько в среде общения. И это никак не делает нас лишь зависимыми агентами, ведь для окружающих мы и есть среда.

Создавайте условия для развития доверия, общайтесь понятно, учитесь жить и давать жить другим!
👍3721🥰11👏4🔥3
🔩 TOR – несгибаемый гвоздь среди анонимизирующих браузеров 🚨
Наверняка вы, как минимум, слышали про анонимный браузер TOR и в этом нет ничего странного. Его обсуждают и изучают экономисты, исследователи теневой экономики, а также им пользуются все, кто хочет получить доступ на определенный сайт при отсутствии легальной возможности это сделать.
Конечно, за браузером следует дурная слава, ведь доступ на сайты по продаже наркотиков осуществлялся именно через него, однако сейчас это не главная цель его использования в России.

🧅 Короткая заметка, если вы не слышали про TOR
TOR («The Onion Router») – это популярный анонимизирующий браузер, принцип работы которого напоминает принципы работы VPN-сервисов. Любой запрос на посещение сайта проходит через несколько узлов — серверов в разных странах — после чего реальный IP-адрес заменяется на новый.

🚫 TOR и Роскомназдор
В декабре 2021 года Роскомнадзор издал постановление суда четырехлетней давности, которое позволяет ему обязать интернет-провайдеров заблокировать веб-сайт TOR Project, с которого можно загрузить TOR Browser, и ограничить доступ к его сервисам. С тех пор цензоры вступили в битву с технической командой TOR и российскими пользователями, которые настаивают на том, чтобы браузер оставался в сети и позволял людям получать доступ к информации без цензуры.

🤔 TOR вообще можно заблокировать?
В существующей системе организации Интернета в России – маловероятно. Единственной страной, где удалось заблокировать TOR, является Китай. Все дело в том, что в Китае сеть централизована и полностью подконтрольна правительству. Что бы вам ни говорили, в России пока что дело обстоит иначе: когда Роскомнадзор блокирует какой-то сайт, это решение должны исполнить лично Интернет-провайдеры (но не всегда исполняют). Принимая этот факт во внимание, российские власти устанавливают новое оборудование, которое использует глубокую проверку пакетов для мониторинга и блокировки онлайн-сервисов, но эффективность этих блокировок (к счастью) оставляет желать лучшего.
👍50🔥135👏1
🚀 Ищем спикеров для нового сезона подкаста Data Heroes 👾

Хотите принять участие в записи нашего подкаста? Есть предложение!
Если вы студент или выпускник иностранного вуза по специальности Data Science или любой смежной (онлайн или оффлайн), то будем рады услышать вашу историю в подкасте Data Heroes.
Скорее пишите моей коллеге @Milanchezaa с кратким резюме: где учились/учитесь, какая специальность, формат занятий онлайн/оффлайн.
Мы ищем наших новых героев! 🦸

P.S. Если у вас есть знакомые с подходящим кейсом или вы просто хороший человек с телеграм-каналом, то мы будем благодарны за репост! 🤖
👍25🔥8👏7
Слышали про новый гайд от MyTracker для прогноза LTV приложений? Рассказываю 😉

Команда предиктивной аналитики MyTracker описали, какими моделями пользоваться и как, чтобы самостоятельно построить прогноз LTV мобильного приложения.

Чему можно научиться после практики по гайду:
1️⃣ Работать с сырыми данными, предобратывать их (это изи)
2️⃣ Представлять в виде пригодных данных для анализа (посложнее, но задачка уровня джун+)
3️⃣ Подбирать модели и корректно оценивать их по метрикам (а вот и хардкор)
Из моделей разбираются:
- модель на основе catboost
- модель на основе линейной регрессии
- коэффициентная модель
- модель на основе экстраполяции логарифмом

Для кого полезно? Маркетинг менеджеры, продакты, аналитики
Что нужно уметь? Хотя бы немного в Python, чтобы применить рекомендации на практике (внутри примеры кода)

Если интересно, оставьте свои контакты на лендинге и скачивайте 👉 e-book

А что делать если данных для практики нет?
Даже если у вас нет своего продукта или клиентских данных и на первых страницах возникнет вопрос, — все круто, полезно, а где взять выгрузки, чтобы поиграться с моделями?

Ссылку на сырые данные, ищите на 14-й странице. Внутри:
файл с сырыми данными о транзакциях устройств для большого приложения
файл с данными о кумулятивном (накопленном) LTV устройств

E-book всего 43 страницы, поэтому концентрация пользы максимальная и без воды!

Это была #реклама. Честно, полезно, про аналитику ❤️
👍30🔥1311
Жара (не только) в Акапулько
"Облачность переменная, ветер тёплый северо-западный. Ну, кому-то будет ясно, кому-то не очень. Погода в Питере меняется с космической скоростью, а вместе с ней, между прочим, и настроение. Так что для стабилизации эмоций дышите глубже и оставайтесь на нашей волне".

Если вы не понимаете, при чем здесь метеорологическая сводка от Маши Емельяновой из фильма Питер FM, то не переживайте, это все еще аналитический телеграм-канал. Сейчас я все объясню.

Америка и Европа очень сильно пострадали от жары этим летом. Естественно, это породило новую волну споров о глобальном потеплении: люди строят догадки и утверждают или отрицают, что частота и интенсивность волн тепла увеличились в результате антропогенного изменения климата.

Глобальное потепление идет прямо сейчас
Метеорологические данные – тоже данные, а значит их можно анализировать. Автор этой заметки решил изучить динамику дневной температуры в небольшом регионе недалеко от города Бон во Франции, который на протяжении веков известен своими винодельнями.

Он извлек данные из реанализа ERA5 и для каждого года выделил данные по летней температуре, которая определяется как среднее за июнь, июль и август. Также он посмотрел на ежегодную динамику самой высокой температуры за лето и еще несколько климатических метрик.

Что в итоге?
Практически каждый график имеет очевидный восходящий тренд: увеличивается и количество жарких дней в году, и средняя температура за лето, и другие показатели. В общем, совершенно очевидно, что наша планета становится все теплее и теплее.

Возможно, самый важный график - это функция плотности вероятности для летней температуры. Автор нарисовал гистограмму для двух десятилетий – 1950-1960 и 2010-2020 гг. – и увидел, что среднее заметно сдвинулось вправо. Затем, автор добавил еще несколько десятилетий и заметил, что изменения усиливаются в 1990 году.

Советую обратить внимание на финальный график на основе исторических данных сбора урожая винограда (это прокси переменная для температуры – чем жарче, тем раньше сбор урожая). Вывод из предыдущих графиков вновь подтверждается – 1990 год является рубежом значимого повышения средней температуры.

В итоге, теперь уже аппелируя к данным, можно с уверенностю говорить о том, что глобальное потепление имеет место быть.
👍35🔥14❤‍🔥8🤔42
📊 Бессмертная база для любого анализа данных 🦸
Паки МакКормик и Бен Роллерт написали крайне подробное эссе со своими рассуждениями по поводу самого популярного аналитического инструмента, его аналогов, уникальных характеристик и причин, по которым он все еще популярен.

Прежде чем прочесть пост, оставьте реакцию ❤️‍🔥, если пользуетесь Excel, и 🥴, если рады забыть про него как про страшный сон!

🤔 Что за инструмент?
Итак, среди множества аналитических инструментов есть один продукт, родившийся в 1985 году, который до сих пор удовлетворяет многим целям и приносит пользу тысячам компаний. Этот продукт, конечно же, Microsoft Excel.

🤯 Что в нем особенного?
Конечно, пересказать все детали эссе у нас не хватит времени (а вы не выдержите такой большой пост в телеграме), поэтому пробежимся по самым ярким моментами.

💻 Знали ли вы, что Excel – самый популярный язык программирования в мире?
По оценкам, Microsoft Office используют 1,2 миллиарда человек, и хотя трудно точно сказать, сколько людей используют именно Excel, приблизительное число пользователей составляет 750 миллионов. Для сравнения, в 2018 году было всего 10,7 миллиона Javascript-разработчиков и 7 миллионов Python-разработчиков.

Excel существует уже давно, а значит можно с уверенностью предположить, что Excel будет существовать и дальше
Это эффект Линди в действии: чем дольше что-то длится, тем вероятнее это продолжится. Ожидается, что то, что существует уже год, будет актуально еще год, а то, что существует уже 100 лет, будет актуально еще 100 лет.

🔭 Excel – основоположник инструментов для анализа данных
Успех Excel вдохновил на создание программного обеспечения, совокупная корпоративная ценность которого намного превосходит ценность одного только Excel. Это происходит благодаря выделению отдельных функций Excel для создания нового инструмента (например, эти компании) и ориентации на Excel в целом, для создания нового multi-use инструмента (например, различные no-coding инструменты для анализа данных).

🎮 Excel – практически новый киберспорт
Оказывается, в мире проводятся соревнования по Excel, которые смотрят по полмиллиона человек, а участники на глазах очевидцев творят всякие немыслимые Excel-трюки. That's nerdy!

🪄 Excel не перестает развиваться
9 февраля этого года Сатья Наделла, генеральный директор Microsoft, сделал громкое заявление в Твиттере: теперь Excel является Turing-complete, то есть его можно использовать для выполнения любых вычислений (в очень упрощенном смысле). Это означает, что Excel теперь может вычислить все, что вы могли бы посчитать на Python, Javascript или любом другом Turing-complete языке.
В основе этого прорыва лежит введение LAMBDA — возможности для пользователей определять многократно используемые функции с помощью языка формул Excel. Также LAMBDA-функции могут вызывать другие LAMBDA-функции, обеспечивая рекурсию, превращая Excel в «настоящий» язык программирования.
❤‍🔥72🥴3319👍8🤔7
Когда ты взрослый, можно ложиться спать когда угодно и покупать себе любые вещи. А ещё не нужно ждать 1 сентября, чтобы получать знания. Осваивайте новые специальности и прокачивайте навыки — в любой момент на курсах Яндекс Практикума.

Разработчикам и аналитикам рекомендуем курс «Инженер данных». На нём вы узнаете, как:
→ использовать инструменты: оркестраторы, контейнеры и не только;
→ работать со стриминговой обработкой данных и облачными хранилищами;
→ создавать хранилища Data Warehouse и Data Lake.

Обучение строится на реальных рабочих задачах и командных проектах. При выполнении заданий вы сможете советоваться с наставниками и другими студентами. Ваши работы проверят опытные инженеры данных и дадут развёрнутую обратную связь. А для тех, кто хочет сменить специализацию, проведём карьерную консультацию, поможем составить резюме и напишем сопроводительное письмо.

Начните обучение бесплатно и, если понравится, оплатите курс со скидкой 7% по промокоду DEAUGUST. Промокод действует до 31 августа.

Попробовать бесплатно

#реклама
12👍9🔥2
Semantic Diff for SQL – аналог diff-функции в git
Программное обеспечение постоянно меняется, развивается и анализ произошедших изменений является неотъемлемой частью процесса разработки. Но отсматривать изменения вручную – чересчур долгий и неэффективный процесс, не так ли?

Если вам нужно понять какие изменения были в SQL запросе, то Ярослав Зейгерман описал аналог diff-функции в git.

В чем преимущества этого метода?
Альтернативой текстовому сравнению является сравнение абстрактных синтаксических деревьев (Abstract Syntax Trees). Основное преимущество AST заключается в том, что они являются прямым продуктом синтаксического анализа кода, который представляет базовую структуру кода с любым желаемым уровнем детализации. С его помощью можно обнаруживать не только вставки и удаления, но еще и перемещения или обновления отдельных фрагментов кода.
🔥25👍17
🫰 Новые планы и поиск единомышненников на Кипре 🔎
Весной я переехал на Кипр с семьей и с тех пор живу здесь. Мне удалось обжиться, привыкнуть и выстроить новый быт, и теперь, когда все процессы привыкания и акклиматизации позади, появились силы на общение и активности.

👨‍💻 В связи с этим, мне стало очень интересно, сколько человек среди моих подписчиков живут на Кипре?

Пожалуйста, поучаствуйте в опросе под этим постом и пишите в комментариях, из какого вы города, если тоже обосновались на Кипре👇

Всем Χαίρετε!
Please open Telegram to view this post
VIEW IN TELEGRAM
135
📊 Сверстать дашборд онлайн без регистрации 🤔
Недавно наткнулся на прикольный фреймворк для веб-верстки дашбордов или html-страничек с красивыми таблицами или датавизом – Tabler.

🥳 В чем преимущество?
Благодаря современному удобному дизайну вы можете создать дашборд или датавиз, который понравится многим (превью дашборда с Tabler)! Работа ведется с помощью макетов и настраиваемых блоков, чтобы дизайн был цельным и цепляющим.

📚 Что нужно знать, чтобы воспользоваться Tabler?
Создатели придумали удобную, понятную и простую панель администрирования, которую можно использовать как на простых веб-сайтах, так и в сложных системах. Единственное требование — базовые знания HTML и CSS (и немного Liquid) — и вы сможете визуализировать различные типы данных быстро и качественно.
👍27🔥2
⛔️ Скам от моего лица 🚫
Друзья, мне сейчас сообщили, что от моего имени приходят сообщения людям с предложением купить дешевую рекламу в @leftjoin. К счастью, мошенник наткнулся на человека «в теме» @asvishnya, которого не так легко провести: он сразу закинул мой ник и псевдо-мой-ник в сервис, который сравнивает расстояние Левентшейна (метрику, измеряющую по модулю разность между двумя последовательностями символов). Вуаля, выяснилось, что ники отличаются. Если хотите удивить мошенника, то этот метод – весьма элегантный.

Не знаю, было ли подобное мошенничество раньше (искренне надеюсь, что нет), но теперь хочу постараться вас обезопасить!
♦️ Я никогда никому не пишу с предложениями о рекламе в канале, поэтому, если вам пришло сообщение от какого-либо пользователя с именем Nikolai Valiotti, то это почти наверняка мошенник.
♦️ В описании канала есть ссылка на мой личный профиль, даже если все-все совпадает, вы можете открыть чат из описания профиля и удостовериться, что попадаете в чат со мной, а не моим фейком (например, закинув юзернейм в сервис по ссылке выше).
♦️ У меня есть фотография профиля (даже целых 5) (в комментах подсказали, что это не поможет, так как видна только контактам) и Premium-аккаунт (наконец-то понял зачем он нужен!), это всегда видно в чате (звездочка справа от ника).

Если у вас есть пара минут, прошу пожаловаться на пользователя @vaIiotti. К сожалению, в Telegram нет кнопки ‘Пожаловаться на аккаунт’, можно только направить жалобу в службу поддержки.
Будьте бдительны!
Please open Telegram to view this post
VIEW IN TELEGRAM
😱56🤯23👍22🤔9👌5
☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике 🗞
🎙 Хьюстон Airflow, у нас проблема!
Стивен Бейли (всем бы такого ревьюера!) написал лонгрид с ответом на один простой вопрос "Почему мне не нравится Airflow?". Пост, который похож на письмо о расставании, разлетелся по всей сети и навел совершенно небеспочвенного шума. Как это часто бывает, Airflow настигла проблема постоянного развития направления (в данном случае, оркестрации данных): в 2015 инструмент был идеальным, но к 2022 ему стало недоставать удобства и универсальности. И проблема даже не в том, что Airflow нужны какие-то структурные изменения. Бизнесу нужна новая экосистема на основе Airflow. Кто-то говорит, что она уже есть – полностью управляемый инструмент на основе Apache Airflow – Astronomer.
Слышали ли вы про Astronomer? Оставляйте реакции ⚡️ и рассказывайте в комментариях, если да!

💨 Не стоит недооценивать SQLite
Антон Жиянов написал статью, в которой он проходится по всем основам SQLite и объясняет, почему она на самом деле хороша и нужна всем: разработчикам, аналитикам, тестировщикам и так далее. Подробные объяснения с выкладками кода и результатов вы можете увидеть в самом посте, а мы лишь напомним, что SQLite — самая распространенная СУБД в мире, которая включена во все популярные ОС и работает без сервера.

🖼 Портфолио – только для творческих профессий?
Многие стереотипно считают, что портфолио должно быть только у креативных специалистов: копирайтеров, дизайнеров, иллюстраторов и так далее. Однако, основатель Mode Бенн уверен, что у аналитика тоже должно быть портфолио и рассказывает про свой опыт в статье. Дело в том, что на основе интервью и тестового задания далеко не всегда можно понять, как именно работает потенциальный кандидат. Однако, если у него есть блог с аналитическими проектами, то легко можно определить, как он работает и в чем он хорош. В общем, если вы аналитик, который ищет работу, портфолио (или аналитический блог) – заметный плюс в глазах будущего работодателя!

#дайджест
14👍12🔥61
🤔 HAVING — редкий вид, хватай, а то убежит
Пришла пора вспомнить, что этот телеграм-канал называется LEFT JOIN, а значит советы по улучшению навыков в SQL – наш основной профиль!

❗️Вы наверняка знаете, но
Понимание того, как работают предложения GROUP BY и HAVING, может помочь в написании качественных SQL-запросов. Я нашел короткую заметку, которая подробно разбирает реальный пример и ппоказывает преимущества использования этих операторов.

💭 Разбираемся
Дано:
Предположим, у нас есть две таблицы: таблица с кодом страны и её названием и таблица счета-фактуры с номером счета-фактуры, кодом страны, годом, месяцем, количеством товаров и суммой.

Вопрос:
Хочется получить в результате таблицу, в которой будут ежегодные суммы для каждой страны и года, для каждой страны (все это, например, без США, см. исходную заметку), для каждого года и общую сумму по всем странам.

Какое-то решение:
Можно написать несколько запросов, а затем объединить их командой UNION, но решение получится медленным и неэффективным. Можно ли решить эту задачу лучше?

Элегантное решение:
Мы можем написать более простой и эффективный запрос, если чуть лучше поймем как работать с GROUP BY и HAVING. Точно так же, как предложение WHERE позволяет нам фильтровать необработанные данные, HAVING позволяет нам фильтровать набор результатов из GROUP BY.
Еще, можно использовать GROUP BY CUBE() для создания агрегатов для всех комбинаций страны и года, отфильтровывая сводные строки для США с HAVING.

🔗 Что делает GROUP BY CUBE()?
Упрощает вам жизнь.
А если серьезно, то он помогает получить по одной строке для каждой комбинации страны и года, по одной строке для каждой страны (включая данные за все года), по одной строке на каждый год (включая данные по всем странам) и последнюю строку для всех лет и стран.
Затем мы исключаем строки по США, с помощью предложения HAVING. В этом конкретном примере нужно было исключить данные по США только в двух из четырех агрегированных групп. Если бы требовалось исключить данные для США во всех сводных строках, стоило использовать предложение WHERE для фильтрации данных по США до того, как произойдет какое-либо агрегирование.

Если вы хотите по-настоящему раз и навсегда разобраться с этими предложениями, то прочтите заметку (там есть выкладки всех запросов и таблиц, чтобы прогнать код у себя) и больше никогда не путайтесь в их применении.

Оставляйте реакции ⚡️, если знали про GROUP BY CUBE(), и 🤯, если впервые о нем слышите!
🤯14134👍175🤔1
🌀 Критика критики SQL (Запутались? Сейчас будем разбираться!) 📚
Язык SQL впервые появился в 1974 году как часть базы данных IBM System R. Прошло почти 50 лет, и SQL де-факто является языком для работы с большинством баз данных (реляционных, конечно же).
Карлин Энг работал инженером и аналитиков данных 12 лет и у него накопилось много вопросов к SQL. В статье он, как настоящий аналитик, структурированно изложил, что именно его не устраивает. Конечно, он был не первым критиком SQL, а лишь прокомментировал идеи, описанные в книге 1984 года выпуска «Критика языка баз данных SQL» математика Си Джей Дейта. Дейт был бывшим сотрудником IBM, известным исследователем баз данных и другом Э. Ф. Кодда. Однако, те замечания, которые были описаны в его книге, частично устарели и ниже будет краткая выжимка из рассуждения Карлина (которое я рекомендую прочесть в оригинале).

🤔 Что не так с SQL по версии Си Джей Дейта?
Для начала разберемся с тем, что такое ортогональность. Суть ортогональности по мнению автора в следующем: конструкции языка подобны блокам Lego — небольшое количество базовых частей можно рекомбинировать простыми и интуитивно понятными способами. Отсутствие ортогональности означает, что в языке есть много исключений в том, как компоненты могут быть объединены, что делает его сложным для изучения.

1. Отсутствие ортогональности выражений
Раньше использование FROM в SELECT было ограничено указанием только имен таблиц или представлений, а не подзапросов или общих табличных выражений (CTE). Однако, современный SQL предоставляет возможность ссылаться на CTE или подзапрос в операторе FROM.

2. Отсутствие ортогональности функций
Автор приводит множество конкретных примеров этого критического замечания, которые возникают при разном написании запроса. Один из них – оператор HAVING, которое мы разбирали в предыдущем посте. Спойлер: использование HAVING и GROUP BY теперь гораздо проще и шире, чем, например, в SQL 1983 года.

3. Отсутствие ортогональности в целом
Это замечание касается ряда небольших проблем, например, ограничение для «длинных» полей (строки больше 254 символов): на «длинное» поле нельзя было сослаться в предложении WHERE или GROUP BY. Конечно, современные системы баз данных больше не имеют этих ограничений.

4. Ключи
SQL образца 1983 года мог легко игнорировать первичные ключи, а внешних ключей даже не существовало. Хотя SQL образца 2022 допускает внешние ключи, и многие базы данных обеспечивают ссылочную целостность, последняя версия языка по-прежнему не полностью понимает семантику первичных и внешних ключей.

5. Домены или типы данных
В первоначальном SQL были только примитивные типы (int, char, float и т. д.). Сегодня Postgres обеспечивает поддержку пользовательских типов произвольной сложности, однако, большинство хранилищ данных OLAP не поддерживают определяемые пользователем типы, и SQL тут бессилен.

6. Назначение отношений
Критика здесь заключалась в следующем: Ограниченная форма присваивания отношения поддерживается через INSERT ... SELECT, но эта операция не перезаписывает предыдущее содержимое таблицы, а источником присваивания не может быть произвольное алгебраическое выражение (или эквивалент SELECT). Это уже не так. Назначение отношения может быть выполнено с помощью CREATE OR REPLACE TABLE AS. Для подзапросов и CTE источником может быть любое произвольное алгебраическое выражение.

7. Явные операторы JOIN, INTERSECT и DIFFERENCE
SQL 1983 года их не поддерживал, но в современном SQL это уже давно исправлено.

💭 Выводы
Хотя многие критические замечания в отношении SQL были исправлены обновлениями стандарта ANSI, некоторые из них все еще присутствуют, например, отсутствие ортогональности. Несмотря на несовершенство SQL, его доминирование на рынке означает, что каждый начинающий аналитик и программист должен его изучить. Однако, мне кажется, что при всех известных недостатках и попытках регулярно улучшить язык, SQL остается очень удобным и интутитивно понятным языком для работы с данными.

А вы что думаете — удобнее писать SELECT к табличке 💯или обработать массив с помощью pandas 🤡?
💯34👍16🔥12🤡4
LEFT JOIN pinned «⛔️ Скам от моего лица 🚫 Друзья, мне сейчас сообщили, что от моего имени приходят сообщения людям с предложением купить дешевую рекламу в @leftjoin. К счастью, мошенник наткнулся на человека «в теме» @asvishnya, которого не так легко провести: он сразу закинул…»
Книги, которые нас ждут, или "цундоку"
Знакома ли вам ситуация, когда вы возвращаетесь из книжного магазина с парочкой новых книг (о существовании которых не знали еще пару часов назад), подходите к шкафу и видите десяток-другой непрочитанных изданий? Обычно, эта ситуация немного расстраивает, ведь вы хотели сразу же прочесть их, когда покупали, но наша способность покупать книги сильно опережает способность их читать.

📕 Антибиблиотека или цундоку?
По словам статистика Нассима Николаса Талеба, непрочитанные книги в шкафах и на полках не являются признаком интеллектуальной неполноценности. Талеб назвал это "антибиблиотекой" и описал её суть в бестселлере «The Black Swan: The Impact of the Highly Improbable» на примере писателя-эссеиста Умберто Эко, чья личная библиотека насчитывала ошеломляющие 30 000 книг. На самом деле библиотека Эко не была огромной, потому что он много читал; книг было много, потому что он хотел прочитать гораздо больше.

Кевин Мимс не согласен с термином "антибиблиотека" (ведь это все еще собрание книг, пусть и непрочитанных) и предлагает более подходящий: tsundoku. Цундоку обозначает стопку книг, которые вы купили, но не читали.

📚 Зачем придумывать для этого отдельное слово и в чем ценность такого подхода?
Исследования показали, что владение книгами и чтение обычно идут рука об руку и приносят значимый эффект. В одном исследовании Джессика Стиллман размышляет о том, работает ли антибиблиотека как противодействие эффекту Даннинга-Крюгера (правда, его опровергли). Работает, так как люди не склонны спокойно смотреть на кучу непрочитанных книг, возникающее недовольство собой подталкивает их к постепенному расширению собственных знаний.

Предпочитаете ли вы термин «антибиблиотека», «цундоку» или какой-то другой, ценность непрочитанной книги заключается в том, что она способна заставить вас прочитать ее.

Оставляйте 🔥 если у вас тоже есть «антибиблиотека»!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥71👍10🤯43
📆 Дата, которая всех бесит ⛔️
В этот прекрасный субботний день хочется поговорить о сезонности. Из эконометрики я помню, что сезонность бывает аддитивная и мультипликативная. При этом также она может быть недельной, месячной или квартальной.
А существует ли сезонность событий, которые происходят раз в год? А если это не день рождения и не Новый Год? Да!

Надеюсь, вы уже догадались к чему это я. Сегодня ровно такой день. Персонально считаю, что шутка, мягко говоря устарела, но вот же самый настоящий график такой однодневной сезонности. Как аналитику, мне стало интересно, почему эта песня стала настолько вирусной, что ежегодно многие телеграм-каналы и СМИ иронично его вспоминают. Все оказалось банально: в 2011 году в сети был опубликован мем с изображением известного американского рэп-исполнителя Рика Росса и строчками из шлягера Шуфутинского. Шутка заключалась в поразительном внешнем сходстве двух артистов и породила еще сотню разных шуток о тексте этой песни.

Дайте знать, если вы тоже хейтите этот мем! 🥴
Please open Telegram to view this post
VIEW IN TELEGRAM
🥴56👍12🌚11🤯3🏆1