LEFT JOIN
50.4K subscribers
913 photos
27 videos
6 files
1.14K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
👍82🔥17🤔12👏4🤯2
👨🏻‍💻 Альтернатива SQL – Prequel 🗄
Буквально несколько дней назад случился финальный релиз PRQL — нового языка для преобразования данных. Мы уже говорили об этом, и, с моей точки зрения, сам подход вызывает вопросы, но в прошлый раз у нас получилась информативная дискуссия.

Что такое PRQL?
Вкратце, создатели заявляют, что это простая, мощная конвейерная замена SQL. Они заранее решили, что PRQL всегда будет open-source языком и никогда не будет иметь коммерческого продукта, так как подобные языки находятся глубоко в стеке данных и лучший шанс создать качественный и широко используемый язык — сделать его открытым.
Как и SQL, он удобочитаемый, явный и декларативный. Однако, в отличие от SQL, он формирует логический конвейер преобразований и поддерживает такие абстракции, как переменные и функции.

Что изменилось с последнего релиза?
В течение последних месяцев работы, создатели языка постепенно создавали компилятор, развивали язык и работали над интеграциями. На данный момент возможности использования PRQL сосредоточены на двух интеграциях:
◽️ dbt-prql позволяет писать PRQL в моделях dbt. Для этого нужно установить dbt-prql с помощью pip, и тогда любой текст между тегами {% prql %} и {% endprql %} будет скомпилирован из PRQL.
◽️ Jupyter позволяет писать на PRQL в Jupyter notebook или IPython repl с помощью %%prql. Помимо подключения к существующим БД, есть интеграция с DuckDB, которая позволяет обращаться к датафреймам pandas, файлам CSV и Parquet и записывать результат в новый датафрейм.
Помимо этих двух интеграций, очень легко добавить PRQL в другие приложения с помощью специальных привязок для Rust, Python и JS.

Что я думаю о PRQL?
Ребята, конечно же, молодцы, что развивают свой проект дальше! Наверное, это может стать достойной частью какого-то инструмента в будущем, однако для меня SQL существенно привычнее и удобнее для решения тех же задач.
👍37🔥1
☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике 🗞

Планирование в этом нестабильном мире
Red Engine — это современная среда планирования для приложений на базе Python. Он предоставляет больше возможностей, чем Crontab и APScheduler, и его гораздо проще использовать, чем Airflow. К сожалению, Red Engine не может стать планировщиком корпоративных пайплайнов, в отличие от Airflow, но с легкостью подойдет для приложений Python.
Что заявляют разработчики?
У фреймворка есть мощный синтаксис планирования, есть возможности распараллеливания, параметризации и конвейеризации задач. Также, есть опция внесения изменений в сеанс даже во время выполнения.

🔫 Насколько внимательно вы играли в GTA?
Теперь слова "я играю в GTA с 15 лет" можно проверить на деле: в интернете появился тест, в котором вы должны угадть локацию из GTA на карте Los Santos. У теста есть 4 уровня сложности, кастомные опции (вроде добавления таймера), а также можно попробовать пройти его с друзьями и выяснить, кто играл внимательно, а кто нет.

🤔 Необычный клиент Slack для macOS
Если (ну вдруг) привычные возможности Slack вам наскучили и вы хотите чего-то большего – установите Shrugs.
Чем он отличается от классического клиента?
Во-первых, Shrugs.app не ограничен одним окном: открывайте столько основных окон для чатов или тредов, сколько хотите. Во-вторых, можно редактировать изображения и документы в самом приложении без необходимости использования других программ и последующих сохранения и отправки. Этих двух плюсов уже могло быть достаточно, чтобы попробовать, но есть еще 4 преимущества, о которых подробно рассказано на сайте приложения.

📚 Новая книга издательства O'Reilly об анализе данных
В формате open-access выходит третье издание книги "Python for Data Analysis". В печать она поступит позже, а пока что ее можно прочесть и дать фидбек авторам для улучшения текста и исключения ошибок.
Что в ней новенького?
Основное изменение – конечно, адаптация всех методов к новым версиям Python и pandas.

#weekly #дайджест
👍293
Идеальный кандидат на должность аналитика – какой он? Обсуждаем в бонусном эпизоде Data Heroes! 👾

Мы уже завершили первый сезон подкаста Data Heroes, но не могли же мы взять перерыв, не порадовав вас бонусным выпуском. Тем более, таким актуальным! 💥
В этом эпизоде говорим с теми, кто помогает компаниям найти классных специалистов - с первоклассными рекрутерами и эйчарами. Они поделятся с нами опытом найми аналитиков всех грейдов и областей. Вы узнаете, кто такой идеальный кандидат (и существует ли такой вообще), как правильно оформить резюме и что общего между онлайн-курсами в резюме и молотком? 🤯

Спикеры: Мария Бушаала, Зайнулина Калина, Анна Любимова, Сурен Погосян

Слушайте подкаст на платформах: Spotify, Anchor, Apple Podcasts, Google, Yandex, Overcast, Mave, Castbox, Telegram (↓)

Дисклеймер: прошу прощения за мое качество записи в этом выпуске. В этот раз что-то пошло не так. В следующих эпизодах исправлюсь 🙂

#подкаст #DataHeroes
👍18🔥5
Audio
👍20
LEFT JOIN pinned a photo
🤓 Автоматическая верстка документов и презентаций, о которой многие уже знают 📝
Рискую побыть капитаном очевидность, но фидбек в личке показал, что не все знают про этот классный сервис: Overleaf. Дело в том, что чаще всего знакомство с ним происходит в академической среде: преподаватели вузов иногда просят присылать отчеты проектов или презентации, созданные в LaTeX. Однако, этот способ подачи информации полезен и за пределами университетской жизни.

📚 Что за сервис?
Это веб-сервис, который предоставляет возможность быстро (особенно, если вы знаете базовый синтаксис LaTeX) сверстать информацию в слайды презентации, отчет или даже статью для научного журнала с помощью кода без ручного выбора шрифтов и размещения объектов. Все более чем просто: есть множество how-to гайдов и обучающих видео, которые помогают разобраться в начале работы, а затем (спустя 1-2 проекта) Overleaf может значительно ускорить оформление результата вашей работы: рабочих или учебных проектов.

🤔 Дайте знать, если вы никогда раньше о нем не слышали!
🔥 Или вы уже продвинутый пользователь?
🤔67👍13🔥12
📕 Срочно рассказываем вам про Overleaf 💻
В недавнем посте я с удивлением обнаружил, что немногие из вас знают про Overleaf и, если честно, был удивлен, поскольку сейчас любые учебные проекты мне нужно оформлять в LaTeX. Немного поразмыслив, я вспомнил, что до учебы в GT я и сам им нечасто пользовался, поэтому удивление прошло. А желание рассказать вам о нем подробнее осталось!

Что это такое?
Overleaf – это веб-сервис, который позволяет создавать любые документы с помощью LaTeX. Он позволяет удобно прописывать математические (и не только) формулы, выделять заголовки, менять шрифты, добавлять изображения и выбирать расположение элемента в документе без ручной подгонки. Изначально пользоваться Overleaf, конечно, сложнее чем Microsoft Word или PowerPoint, однако спустя несколько проектов он начнет экономить вам кучу времени.

🤓 Очевидные плюсы:
* Мгновенная компиляция документа: пишете код в левой части, запускаете компиляцию и сразу видите, как будет выглядеть исходный документ в левой части документа
* Доступ к проекту через веб-ресурс, поэтому поправить документ можно с любого устройства в любой момент
* (Платная) возможность работать с документом совместно и оставлять комментарии, так как все правки отображаются в режиме реального времени (как в Google Docs)
* Нет необходимости устанавливать LaTeX, поскольку вся компиляция происходит в самом Overleaf
* Можно отслеживать изменения в документе, откатываться к предыдущей версии при необходимости

📝 Что можно делать с его помощью?
* Учебные проекты и презентации (например, курсовые и ВКР можно оформить очень быстро с помощью пакета Beamer, так как там есть все нужные функции: списки, акценты, вставка изображения или таблицы, титульный лист)
* Научные статьи сразу под требования журнала (у многих научных журналов есть свои шаблоны, в которых легко разместить текст и не заморачиваться с ручной версткой глав, колонок и прочего)

👉 Зачем он (скорее всего) пригодится вам?
Если предыдущие два пункта пригодятся по большей части студентам и научным сотрудникам, то этот пригодится всем: можно оформить красивое резюме международного формата.
Даже если вы не соираетесь устраиваться в зарубежные компании, оригинальное оформление резюме при внутреннем поиске работы – однозначный плюс для соискателя, ведь на HH заполнить шаблон может каждый, но не каждый может выполнить это как-то иначе.
Существует целая галерея разных шаблонов, но я советую этот – простой и лаконичный, вся информация о вас на одном листе А4 – радость для любого работодателя!
👍49🔥24👏172🥰2
🔢 Ранжирование файлов в проекте
Сегодняшняя новость будет актуальна по большей части разработчикам, однако, я не мог не поделиться ей. Коротко рассказываю о новой библиотеке Deprank (ничего общего с пранками она не имеет, к сожалению): используя алгоритм PageRank эта библиотека позволяет найти наиболее значимые файлы в вашем проекте. В процессе ранжирования изучаются ссылки на другие файлы кода, импорт библиотек и так далее.
Deprank использует dependency-cruiser для построения графа зависимостей ваших исходных файлов, а затем ранжирует их в зависимости от их важности.
Интересно, много ли среди подписчиков LeftJoin разработчиков или за каналом следят по большей части аналитики данных?
Оставляйте такую реакцию 🐳, если вы разработчик!
🐳29👍16🤔1
🙉 Личные данные пользователей в сети. Снова?! 🙅‍♂️
Вчера мы выяснили, что разработчиков среди подписчиков нашего канала не так уж и много. Поэтому сегодня расширим тематику и расскажем о новости, которая мало кого может оставить безучастной.
Казалось бы, современные технологии должны качественно защищать личные данные, однако, что-то всегда идет не так. Итак, есть предобученная модель GPT-3, которая обучалась на корпусе данных доступных в сети Интернет. В интернете, естественно, есть имена и фамилии людей и их логины. И вот мы подходим к важной и неприятной правде: в нейронной сети есть прочные связи между логином пользователя и его именем и фамилией. Поэтому, когда кто-то начинает генерить текст, используя в качестве ключевого слова логин, то в результате выдается полноценная информация о пользователе, которая может попасть отнюдь не в самые добрые руки.
👍15🔥14😱11
☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике (Westworld edition) 🧠
🐜 Мир дикого запада и колонии муравьев
В начале второго сезона сериала Westworld Бернард говорит о том, что машины имеют некую простую сеть, в которой они могут обменивться сообщениями с ближайшими устройствами, как в колонии муравьев. Это сравнение тогда показалось мне интуитивно понятным, хотя я никогда раньше себе не представлял, как именно живут и двигаются муравьи.
Недавно я наткнулся на ресурс, который популярно закрыл этот вопрос для меня (и я даже залип на нем на некоторое время). На примере нескольких ситуаций и карт авторы показывают, каким образом муравьи перемещаются, какая у них цель и что помогает им выстроить маршрут. Оказывается, что они совершают отнюдь не броуновское движение, а путь от источника еды до муравейника или оповещение членов колонии об опасности.

🎧 Важно уметь слышать свой внутренний голос (и не только)
Как создатель подкаста, обсуждений в котором уже на целый сезон накопилось, теперь я часто наблюдаю за новыми инструментами для работы с аудиозаписями. Teapodo – простой аудиоредактор с неразрушающим многодорожечным редактированием. Что значит "неразрушающим"? Дело в том, что импорт или запись на несколько дорожек и преобразование аудио в клипы с сохранением исходного звука нетронутым.
Teapodo создан с современным графическим интерфейсом, который изначально работает как на Apple Silicon, так и на Intel Mac. Приложение пока что доступно лишь на macOS, но в ближайшее время выйдет и Windows-версия.

👨🏻‍💻Свободны ли аналитики данных?
Вы ведь помните, что лабиринт – это не путь наверх, а путь вглубь себя? Как пишет автор этой фантастической рассылки обо всем, что связано с миром анализа данных Бен Стенсил, аналитикам тоже иногда стоит заглянуть в глубины собственного сознания. Звучит несколько парадоксально, мы ведь не на сеансе психотерапии? Однако, мнение достаточно интересное и вот почему. Бен заметил, что раньше, когда он только начинал свой путь, он свободно и спокойно обсуждал стек данных, мнения и новые технологии. Однако, по мере развития в этой отрасли до главы компании, которая прицельно занимается работой с данными, он заметил, что его открытость и теперь свободы снизилась: большинство дружеских отношений перешли в разряд рабочих или партнерских, разговоры и обсуждения стали менее искренними, все крутится лишь вокруг собственного бренда и отстаивания его интересов. Эссе Бена получилось (в очередной раз) интересным и его стоит прочесть как минимум за красивый ангийский, который нечасто встретишь на просторах сети.

Кстати, вы уже начали смотреть новый сезон Westworld? Пишите ваши мысли по поводу нового сезона и оставляйте ❤️, если вам тоже нравится сериал!
#weekly #дайджест #westworld
👍5415🤔4
Нашли монстров, которые крадут ваше время, и поможем их одолеть знанием и подарками.

Вот вы говорите: «Опять времени не хватает!» Может, это потому, что его кто-то похищает?

Узнайте, что за монстры крадут ваше время, посмотрите им в глаза и узнайте, как Практикум поможет с ними справиться.

Практикум — сервис онлайн-образования, где учат востребованным профессиям. У каждого курса есть чёткая программа, чтобы заранее знать, сколько времени закладывать на учёбу.

Оплатите любой курс с 11 по 31 июля и выберите подарок, который поможет найти время и на учёбу, и на себя.

Давайте этих монстров сюда!

#реклама
🔥21👍3
🖥 Кто может объяснить работу кода лучше, чем машина? 🤔
На сегодняшний момент одно из самых крутых применений языковой AI-модели GPT-3создание объяснений того, как работает код. Суть в том, что вы можете подать на вход модели блок кода, написанный на Python, JavaScipt, SQL или другом языке, и попросить объяснить его, а также задавать вопросы, в духе "Что делает эта функция?"

🔮 Конечно, как у использования любой другой модели, у GPT-3 есть важные нюансы: вам нужно хорошо разбираться в вопросах кодинга, работе AI-моделей и эффективности выполнения команд по времени и памяти, чтобы проверять и понимать полученные объяснения, а также, чтобы подмечать некоторые неточности. Несмотря на это, GPT-3 предлагает разработчикам (которые, например, разбираются с чужим кодом) фантастические возможности для работы.

🚴‍♂️ Как пишет автор заметки, "такие инструменты, как GPT-3, можно отнести к категории «велосипеды для ума». В первую очередь вы должны уметь на нём кататься!"

#leftjoin_ai
👍26🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🤿 Глубокое погружение в визуализацию данных 🌊
Недавно прочитал объемную книжку Hands-On Data Visualization про визуализацию данных. Чтобы сэкономить вам время, структурировал самые полезные главы из книги в этом посте.

Суперский список ресурсов по поиску датасетов
Классная глава про очистку данных и про функцию Smart Cleanup в Google
Инструмент Tabula для извлечения таблиц из pdf
Инструмент Open Refine: мощная вещь для очистки данных, которую я изучал в Georgia Tech
Важные правила построения графиков:
Клевые мануалы по созданию чартов в DataWrapper
Полезные принципы дизайна таблиц
Серия мануалов по созданию графиков на Chart.js
Любопытная глава по определению лжи на графиках
Как лгать с помощью графиков и как лгать с помощью карт
Полезный прием: выставление акцентов в данных при сторителлинге

Не мог не выделить отдельно главу про важность отличий медианы и среднего следующей старой шуткой:
There’s an old joke that when a billionaire walks into a room, everyone becomes a millionaire—on average—but the median barely changes.

Сохраняйте себе этот список, оставляйте ❤️, если хотите больше контента про датавиз!
69👍31🔥6👌4
🤔 Печенье, которого не существует 🍪
Давно не рассказывали, что там новенького в мире AI-моделей для генерации изображений, пора исправляться!

🆕 Что новенького?
Разработчики обучили четыре модели StyleGAN2 (Generative adversarial network) для генерации изображений еды. Код, оптимизированный для обучения TPU, а также предварительно обученные модели находятся в открытом доступе. Результаты весьма интересные (и реалистичные), вы даже можете попробовать сгенерировать изображения сами в этом Collab-ноутбуке.

💸 Почему просто не использовать DALL-E 2?
Авторы шутят, что они бедные и не хотят тратиться, но есть и более аргументированное объяснение. Дело в том, что диффузионные и авторегрессионные модели (DALL·E 2, Craiyon (ранее DALL·E mini), ruDALL-E) сейчас и так на пике популярности, о них слышно из каждого утюга. Поэтому авторы решили пойти в другом направлении и сравнить результаты известных моделей и StyleGAN2, которая только набирает популярность.

📸 Что особенного в моделях GAN?
Основное, что отличает эту модель от других: фотореализм. В статье вы можете увидеть, что именно у GAN получаются самые правдоподобные снимки, а вот у DALL-E 2, например, изображения кажутся либо сильно отретушированными , либо нарисованными.

👨‍🦰Кстати, еще есть другой интересный ресурс на базе GAN: This Person Does Not Exist, здесь собраны синтетические фоографии лиц разных людей. Которых, как следует из названия, не существует.

#leftjoin_ai
👍21
This media is not supported in your browser
VIEW IN TELEGRAM
Мои коллеги на удаленке: работают на пляже
Я:

#мем
👍30🔥14🤣14🤔2
🍋 Data Science для жизни (и не только)
Я регулярно изучаю, какие курсы запускаются по всевозможным смежным c аналитикой направлениям. Конечно, большинство курсов похожи друг на друга и частично повторяют самую базовую информацию, однако, среди них есть и настоящие бриллианты: например, Everyday Data Science.

🤔 Что особенного в этом курсе?
Курс платный, но первую главу под названием "Когда жизнь преподносит тебе лимоны..." можно пройти без всяких регистраций и смс. Самое крутое, что, полагаю, будет лейтмотивом всего курса – это простые жизненные примеры, которые помогают увидеть и понять закономерности и сложные концепции. Например, в первой главе можно погрузиться в крайне нужное сейчас при трудоустройсте A/B-тестирование и научиться принимать решения на его основе. В курсе также заявлены дальнейшие темы: дифференциальные уравнения, популяции, байесовское равновесное ценообразование, графики – и как это все может быть полезным в обычной жизни.

Расскажите в комментариях, какие курсы, связанные с данными, вам понравились в последнее время? И ставьте 🔥, если вам тоже показался интересным этот курс!
👍19🔥131
Everyday Data Science за полцены 🤑
Вау, к нам в телеграм-канал зашел автор технической части интерактивного курса, о котором мы подробно рассказали выше, Jim Fisher! Он заметил неожиданный (и приятный) трафик из Telegram и решил разобраться, кто за этим стоит...
Помимо респекту нашему теплому комьюнити, он дал всем нашим подписчикам промокод на 50% скидку по привычному нам промокоду LEFTJOIN. Если вы уже успели купить курс, то можно быстро оформить возврат и оплатить вновь уже со скидкой.

🚨 Скидка действует всего несколько дней, а также, оплата возможна только через зарубежную карту. Понимаем, что это предложение интересно не всем, однако, если у вас есть желание и возможность – от всей души советую его курс. С помощью привычных и понятных примеров можно наконец-то разобраться в том, как даже в обычной жизни могут пригодиться дифференциальные уравненя, популяции, байесовское равновесное ценообразования, графики и временные ряды🚀
🔥25👍74😍4🤩3
🤔 Valiotti Analytics нужен копирайтер на английском языке 👨🏻‍💻
Аудитория этого канала – наша гордость, ведь среди вас мы уже неоднократно находили совершенно незаменимых профессионалов своего дела. Сейчас мы в процессе расширения команды контента и маркетинга и нам нужен младший копирайтер. Поэтому, если вы хотели поработать вместе с нами, сегодня вновь ваш шанс 🥳

Поэтому мы открываем вакансию:
👨‍💻 Junior Copywriter

Что от вас требуется?
🤓 Умение писать тексты на английском и русском языке
👅 Знание английского языка не ниже В2 (Upper Intermediate +)
👬 Готовность работать в команде, обсуждать результаты работы, вносить правки
💻 Желание разбираться в аналитической работе и писать об этом
📝 Ответственное отношение к работе
📚 Желание учиться и улучшать свои навыки
📈 Плюсом будет знание IT-отрасли, аналитики, интерес к области анализа данных

С нас (как всегда) все самое лучшее:
👯‍♂️ Крутейшая современная команда лучших и самых талантливых профессионалов своего дела
🇬🇧 Корпоративный английский язык (всегда актуально)
🛋 Удаленная работа на полный рабочий день

Оставляйте отклики на HH или отправляйте ваши резюме мне в телеграм @valiotti (не забудьте отметить на какую вакансию вы откликаетесь)

А если ваш друг или знакомый сейчас ищет работу и подходит под наше описание, то перешлите ему этот пост 🚀
👍12🔥5
☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике 🗞
🎨 Куда пропали все краски жизни?
Вы тоже заметили, что многие окружающие нас вещи стали менее яркими? Статистика это подтверждает.
В недавнем треде автор (The Cultural Tutor) собрал множество аргументов, которые показывают динамику цветового разнообразия вещей. Например, цветные машины сейчас составляют меньше трети от всех машин. Действительно, если вы посмотрите на случайную парковку по пути на работу – черные, белые и серые машины будут заметно преобладать. Если говорить про дизайн интерьеров, то затяжной культ минимализма, белых стен и пастельных расцветок тоже внесли свою лепту в снижение яркости. Даже дизайн МакДоналдса был в разы ярче, чем сейчас! Такую тенденцию можно объяснить тем, что нас повсюду окружает горящая цветная реклама, яркие приложения на телефоне и от всего этого порой хочется отдохнуть, успокоить мозг спокойными цветами и, таким образом, снизить яркость.
Ставьте ❤️, если такой тренд вам по душе и 🤯, если буйство красок вам больше по душе.

🤔 Альтернативное мнение о подписках на сервисы
Есть определенные сервисы, которые лучше всего продаются при ежемесячной подписке: Netflix и другие стриминговые сервисы, услуги тренажерных залов, сервисы по прослушиванию музыки, вроде Apple Music.
Но, несмотря на то, что SaaS хорошо работают для одних отраслей, некоторые приложения и сервисы лучше всего продавать по принципу «купи один раз и забудь». Например, приложение для сканирования документов, которое предлагает подписку в $3,99 в неделю за преобразование фотографий в pdf. Очевидно, что еженедельно им пользоваться не будут (особенно при наличии аналогичной бесплатной опции iOS-заметок), но те, кто купил приложение и не отключил подписку за ненадобностью, будут терять деньги. Или, например, Adobe, которые перестали продавать лицензию на каждый инструмент, заменив его на общую подписку. Что должен делать человек, которому нужен только Photoshop?
Инвесторы и учредители компаний должны понимать, что удаление опций и аггрегация сервисов в подписку является успешным в долгосрочной перспективе тогда и только тогда, когда это делают крупные корпорации с развитыми программными экосистемами (среди их клиентской базы скорее всего найдутся те, кто готов переплачивать).
Но, что происходит с Adobe? Я уже давно наблюдаю как количество пиратских копий их программного обеспечения растет в геометрической прогрессии.

📡 Бэтмен и физика
Если вы хоть раз смотрели фильм про Бэтмена, то вы наверняка понимаете, почему все его любят: он классный, потому что он одновременно и нормальный парень, и супергерой. Правда, без суперспособностей. Его супергеройство — это комбинация навыков и снаряжения. В фильме он часто использует одну из своих «игрушек» — винтовку с крюком (подъемный пистолет?). Бэтмен использует его для запуска крюка, который соединен с кабелем: как только он прикрепляется к нужной точке, электрический двигатель внутри пистолета наматывает кабель, подтягивая Бэтмена. Внимание, вопрос: какая батарея или источник питания потребуется этому устройству и сколько энергии оно будет потреблять? Профессор физики из Университета Луизианы предлагает нетривальное решение этой задачи, это вам не скорость через время и расстояние искать!

#weekly #дайджест
31👍18🤯14