LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Почему вы нас читаете?
Ну а теперь к главному вопросу, которым задаемся не только мы. Недавно увидели вот такой пост:
За кем следят продуктовые и дата-аналитики


Ребята из NEWHR Data сформировали рейтинг профильных экспертов, Telegram-каналов, Youtube-каналов и подкастов, за которыми следят продуктовые и дата-аналитики.

…я лично никогда не понимал, почему у LEFT JOIN так много подписчиков и почему их читают. А они вот вторые в рейтинге.


👀 И подумали: и правда, почему вы нас читаете-то, дорогие подписчики? Поделитесь в комментариях!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9540🔥37😁14🤓9
Row Zero: как Excel, только в 100 раз быстрее
Row Zero — новый облачный инструмент для работы с данными, который среди аналогов выделяется тем, что умеет быстро обрабатывать очень большие объемы данных.

🔵 Интерфейс, как у всем знакомого Excel. Он понимает такие же формулы, умеет делать таблицы и визуализировать данные. Не Tableau, но график нарисует.
🔵 В него можно загружать CSV и JSONL-файлы или напрямую подключать к источникам данных — базам, хранилищам, аккаунтам в соцсетях, рекламным кабинетам и так далее.
🔵Не боится ни файлов весом в несколько ГБ, ни миллионов строк и столбцов. На официальном сайте уверяют, что он в 1000 раз шустрее Google Sheets.
🔵 И все это в облаке — то есть легко расшарить для совместного просмотра или редактирования.

Убедиться, насколько правдивы обещания разработчиков, можно прямо сейчас, бесплатно и без регистрации и без смс. У бесплатной версии есть свои ограничения, но оценить полезность инструмента она позволит.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍129🔥7050👌21🏆15
Работа с данными в очень больших командах
Большая компания — это не только хорошая зарплата и узнаваемое название, которое не стыдно назвать, когда вы рассказываете, где работаете. Это еще и любопытная корпоративная культура и организация внутренних процессов. Нельзя вырасти от стартапа до энтерпрайза, сохранив задор и открытость, что были в начале. Особенно интересно, как рост компании влияет на дата-команды.

Нашли две любопытных статьи на эту тему. Первая — про проблемы.

🔵 На ранних этапах пайплайны по работе с данными выстраивает небольшая команда, а то и один инженер.
🔵 Со временем объемы растут, данных становятся больше, а запросы заказчиков вроде маркетинга — сложнее. ИТ-инфрастуктура расширяется и меняется, и это приводит к непредсказуемым последствиям: например, дашборды ломаются и начинают показывать неактуальные данные. Падает скорость работы и качество взаимодействия между командами.
🔵 Пока дата-инженеры пытаются разобраться в проблемах (которые создали не они!), копятся ошибки, а доверие пользователей к данным падает.
🔵 Начинается поиск решения — например, перебор новых инструментов и платформ для работы с данными или попытки реорганизации. Это может принести результат, но не устранит причину проблемы.

И что делать?
На этот счет высказался CEO dbt — фреймворка для трансформации данных. Его пост в основном опять про проблемы дата-команд, а еще возможности dbt. Это тоже интересно, но нам нужен последний абзац про то, что ждет нас в будущем.

🔜 А будущее за командами, которые становятся владельцами своих данных и полностью отвечают за все, что связано с их хранением, трансформацией и т. д. Для коллег из других команд они создают витрины данных: так те смогут получить нужную информацию о показателях и метриках, не погружаясь «вовнутрь».

Так огромный и все увеличивающийся массив информации разбивается на несколько отдельных проектов, у каждого из которых есть владельцы — конкретные люди, отвечающие за то, чтобы все работало как надо. А не бедные инженеры, которые бегают и тушат чужие пожары. 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9958👌2114👎2
Microsoft BI уходит из России
И не только он.

🔜 Клиенты Microsoft получили письма счастья, где компания предупредила их, что с 20 марта прекращает поставки ПО для российских клиентов, включая облачные решения. Какое именно ПО затронут эти изменения, не уточняется, но, согласно самой популярной версии, мы останемся без Power BI, Dynamics CRM, Microsoft 365 и Outlook.

Что ж, сегодня узнаем точно.

За последние два года многие компании уже перешли с Microsoft на российские и open source-аналоги. Но все же кто-то продолжал пользоваться ее сервисами — например, те, у кого подписки были оплачены на несколько лет вперед. С сегодняшнего дня они потеряют доступ к сервисам Microsoft и всем данным, которые там хранились.

А как у вас? Вас затронуло это решение Microsoft или вы отказались от их услуг? А может, и не пользовались никогда? Делитесь в комментах, как вы теперь будете жить без Power BI и Outlook! 👀

UPD:
А вот и список продуктов, к которым Microsoft ограничивает доступ — всего 50 штук, включая Power BI, OneDrive, Microsoft 365 и Azure.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍126🔥4111😱1110
pql: язык запросов с открытым исходным кодом
Сложно это признавать, но SQL неидеален. Он может быть очень сложным, а запросы, как ни оптимизируй, иногда получаются ужасно громоздкими.

Некоторых это подталкивает к созданию альтернатив — более гибких и удобных языков запросов.

🔜 Например, Microsoft разработала Kusto Query Language (KQL) — он простой и интуитивно понятный, но использовать его можно только с продуктами, входящими в Microsoft Azure. Похожие разработки есть и у других компаний, например, Splunk или Sumologic. У них те же плюсы и то же главное ограничение — это проприетарные языки, которые неприменимы вне их «родной» экосистемы.

🔜 pql — это open source язык запросов, который можно и нужно использовать с open source базами данных. Создатели вдохновлялись KQL и постарались свой продукт наделить теми же плюсами и сделать его таким же простым и логичным.

На сайте проекта можно потестить, как это работает, и найти ссылки на GitHub и блог разработчиков.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10335👌2625🔥4
Как ChatGPT упростил мне жизнь
ChatGPT — один из таких инструментов, про который все говорят: «Какой у него большой потенциал!», но пользоваться им многие толком не умеют. Пора исправляться!

Моя личная история о том, как он может упростить жизнь — в новом видео на канале «Дата Коля»!

🔵 Как написать письмо в консульство, после которого не откажут в визе?
🔵 Как заставить ChatGPT делать за себя скучную работу вроде заполнения табличек?
🔵 Как писать крутые промпты?

Никакой инфоцыганщины и обещаний научить зарабатывать на ChatGPT миллионы. Только честный личный опыт.

🔜 Очень жду ваших лайков и честных коментов!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1155522🎉4
Modern Data Stack — всё?
Каждый раз, когда что-то — например, новая технология — становится популярным, оно проходит несколько стадий. На старте у нового явления есть четкое определение. Потом о нем узнает широкая общественность, а маркетологи понимают, что это название отлично привлекает внимание. Его начинают использовать все подряд, значение термина размывается, и в итоге он превращается в баззворд.

🔜 Именно такой путь прошел Modern Data Stack. Его историю вспомнил СЕО dbt Тристан Хэнди и задался вопросом: актуален ли он все еще?
🔵 Термин Modern Data Stack появился в середине десятых. Так начали называть облачные инструменты для аналитик: Looker, Fivetran, тот самый dbt и так далее.
🔵 В 2020 MDS завоевал большую популярность, и наступила эпоха коллаборации между вендорами. Разработчики ПО объединяли свои продукты в целые экосистемы. Позиционирование инструмента как MDS помогало выйти на рынок и заинтересовать инвесторов, партнеров и пользователей.
🔵 И вот оно случилось: термин стал так популярен, что начал терять смысл. Хэнди вспоминает, как на конференции его собеседник назвал MDS-компаниями Mongo, Datadog и Confluent. Все три хороши, но ни одна не выпускала продукты, которые можно было бы отнести к MDS.

🔜 Но не это заставило его задуматься о том, что этот термин устарел.

🔵 Дело в самом определении. Почти 10 лет назад, использование облачных технологий четко отделяли MDS от не-MDS — например, Looker от Tableau. Но сейчас это не так, и Tableau теперь тоже в облаке.
🔵 Изменился рынок. Инвесторы стали менее охотно вкладываться в ИТ-стартапы, а покупатели начали выбирать готовые решения, а не стеки из нескольких продуктов заколлабившихся вендоров.
🔵 Появился новый тренд, к которому все хотят присоединиться: искусственный интеллект.

Все это привело к тому, что термин Modern Data Stack потерял не только изначальный смысл, но и ценность, так что пора от него отказаться. Более подробно все эти мысли он раскрывает на подкасте.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72❤‍🔥2244🔥2
Гонка за чужим одобрением
Помните, как на экзаменах все делились на тех, кто был уверен, что «сдаваться» надо обязательно в числе первых, и их противников, которые предпочитали идти последними? Еще были промежуточные варианты и равнодушные фаталисты, согласные на любой расклад, лишь бы это все побыстрее закончилось, но они нам сейчас неинтересны.

Наконец-то наука выяснила, кто был прав — как оказалось, те, кто выбирал идти первым. Исследователи провели два эксперимента.

🔜 В первом участвовало 992 добровольца, которых попросили описать 20 человек на основе их фотографий в соцсетях. В начале они давали положительные характеристики, содержавшие в среднем 6,2 добрых слова. К концу списка этот показатель снизился до 4,7.
🔜 Во втором 987 человек по-настоящему пострадали за науку и смотрели шоу «Холостяк». А точнее — то, как представляются участницы. Их просили оценить девушек, и, как и предыдущем эксперименте, каждая следующая получала все менее лестную характеристику. Видео показывали в рандомом порядке.

Почему это происходит?
Исследователи предположили, что, когда мы оцениваем друг за другом несколько человек, мы ищем у них какие-то отличительные особенности. Негативные черты сильнее всего обращают на себя внимание, и люди начинают концентрироваться именно на них.

Этот эффект может влиять на то, как оценивают соискателей, студентов на экзамене, участников в реалити-шоу или конкурса, профили в «Тиндере» и просто новых знакомых. Так что, если вам важно произвести хорошее впечатление на человека, надо постараться познакомиться с ним как можно быстрее и всех опередить.

🔜 Кстати, а как вы экзамены сдавали? Шли среди первых, сидели до конца или как получится?
Please open Telegram to view this post
VIEW IN TELEGRAM
70👍4335🤔15🔥4
Все, что вы хотели узнать про рекламу в LEFT JOIN
Весна — это время пробуждения, вдохновения и обновления, поэтому подумали и решили обновить медиакит. 😁 А заодно написали небольшую справку для рекламодателей.

🔜 В медиаките вы найдете расценки, форматы рекламных интеграций и данные о канале — аудитория и метрики.

🔜 Во втором документе мы рассказали об условиях сотрудничества: как проходит подготовка рекламных материалов, согласование, оплата, выбор даты публикации. В общем, ответы на часто задаваемые вопросы.

Мы рассматриваем заявки на разные темы: курсы, мероприятия, вакансии, инструменты для IT-специалистов и аналитиков, тематические каналы и просто всякое интересное про диджитал и технологии. Главное, чтобы продукт был действительно качественный и достойный! 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
48👍3520🏆11🔥3
⭐️ Вчера мы записывали с Толей Карповым почти трехчасовое интервью (да, это ранний тизер!) и, конечно, обсуждали тему LLM, которую Виталий Тренкеншу из Datanomix поднял у себя в телеграм-канале.

Процитирую кусочек:
На тестовом задании, я хочу прежде всего увидеть кандидата — его опыт и образ мышления. Но, к сожалению, вижу копипаст, часто даже нефильтрованный 🙁

P.S. Внедряю теперь в HR-воронку автоматическую проверку на AI и отказ таким кандидатам.


И вот некоторые мысли, к которым мы пришли с Толей в диалоге:
🔵Однозначно на рынке образовалась проблема читинга, причем кандидаты максимально изощрены в том, как использовать нейронные сети и LLM в частности
🔵Тестовые задания в классическом виде перестают работать и это интересный вызов для всех работодателей
🔵LLM — это хорошо, и, например, аналитики обязаны им пользоваться. Однако, когда собеседуешь человека более "гуманитарной направленности", то часто встречаешь сгенерированные ответы с минимальной редактурой, что максимально расстраивает. Людям дали удобный интерфейс, и теперь они ожидают, что нажмут одну кнопку и могут отправить сопроводительное письмо / тестовое задание работодателю, а он должен это принять за чистую монету. Ну, как будто на той стороне кто-то не очень сообразительный 🫠

Иногда я встречаю тестовые написанные примерно таким образом:
Некоторая Мысль: Тут Объяснение Мысли.

Если вижу такое — сразу отсеиваю кандидата, т.к. это кусок текста на 100% сгенерированный ChatGPT без какой-либо редактуры. Зачем мне роботы в команде? 🤖

А как у вас в компаниях сегодня с кандидатами и использованием LLM?

@entrepreneurskaya
Please open Telegram to view this post
VIEW IN TELEGRAM
53👍25🔥7👎5🤡2
Анализ самых популярных AI-инструментов на GitHub
Кажется, сейчас все только и делают, что обучают модели и разрабатывают все новые приложения на основе AI, которые за вас пишут тексты, рисуют картинки и кодят.

Выяснили, так или это и как на самом деле выглядит мир AI open source-приложений на GitHub — кто их разрабатывает, что разрабатывают и собираются ли останавливаться. То есть выяснил кое-кто другой, а мы вам расскажем самое главное из этого исследования.

В выборку попали 845 репозиториев с GitHub, у которых было 500 звездочек или больше и слова gpt, llm, generative AI в описании. Они делятся на 4 группы.
1️⃣ Приложения на основе ИИ — самая популярная категория.
2️⃣ Инструменты для разработки, которые помогают с промпт-инжирингом или предоставляют интерфейс для взаимодействия с ИИ.
3️⃣ Инструменты для работы моделями — обучения, создания датасетов.
4️⃣ Инструменты для создания инфраструктуры для разработки — все, что связано с управлением данными, мониторингом и вычислениями.

В первой половине 2023 виден взрывной рост числа новых проектов во всех 4 категориях, который вышел на плато в сентябре. Рост, вероятно, связан с релизом ChatGPT и Stable Diffusion в 2022, а замедление — с перенасыщением рынка.

🔜 845 репозиториев выложены 594 аккаунтами. 20 из них разместили 4 или более приложения или инструмента — на них приходится 23% всех репозиториев, попавших в выборку.

🔜 19 аккаунтов из топ-20 принадлежат организациям (3 из них — Google) и только один личный.

🔜 Вклад в развитие проектов в выборке сделали 20 000 разработчиков.

🔥 AI все еще на хайпе, но хайп недолговечен. Большинство проектов быстро набирают популярность после выкладки, но потом прирост звездочек снижается.

В оригинале статьи — больше цифр, графики и ссылки на самые интересные проекты.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍81🔥30🤔25👌14🏆7
Иногда они возвращаются
В прошлую субботу мы вам немного спойлернули новый проект — точнее, возвращение старого.

Data Heroes — подкаст о супергероях, чья сила в данных. Уже вышло три сезона, и у каждого была своя тема.

1️⃣ Первый — про то, как прокачаться как аналитик и начать карьеру в этой сфере. Разбирались, как выбрать школу, найти мотивацию, научиться тайм-менеджменту и стать идеальным кандидатом в глазах эйчара.
❤️ Наш любимый выпуск: как победить синдром самозванца.

2️⃣ Второй — про разные направления. Поговорили про датавиз, Data Science и мировой рынок аналитики. В специальных выпусках рассказали, как составить крутое резюме.
❤️ Наш любимый выпуск: как убеждать с помощью визуализации.

3️⃣ Третий — про то, как строить бизнес и личный бренд в аналитике. Поделились секретами мастерства, как вести канал и подкаст про данные.
❤️ Наш любимый выпуск: как будет меняться работа аналитика с развитием искусственного интеллекта.

Сейчас вовсю идет работа над 4 сезоном, и у него тоже будет своя тема. Мы пока не расскажем, какая она, но вы можете попробовать угадать в комментариях!

Первый эпизод выйдет уже совсем скоро!
Please open Telegram to view this post
VIEW IN TELEGRAM
97👍53🏆15🤩8😍8
Как связаны сакура и изменение климата?
Наверное, никто не удивится, что в Японии к сакуре относятся очень серьезно и с 9 века ведут хроники, отмечая, в какой день ее цветение достигло пика.

На основе этих данных построили график с 812 года по 2023. На нем отмечены дни, когда сакура цвела особенно пышно, и среднее значение за 20 лет. Он интерактивный, можно приближать, удалять, рассмотреть каждый год в отдельности. 👀

Данные для графика предоставил исследователь из Osaka Metropolitan University Ясуюки Аоно. Он их собирал не просто из любви к искусству, а для изучения того, как менялся климат и температура воздуха весной. Из-за того, что погода становилась теплее пик цветения сакуры наступает раньше, а кривая среднего за 20 лет опускается все ниже.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8566🏆1713😍8
Карта вашей базы данных
Базы данных нередко состоят из множества разных таблиц. Разобраться в структуре может быть непросто, но тут на помощь приходят схемы. Они показывают перечень таблиц, их содержимое и взаимосвязи — то есть содержатся ли в одной таблице ключи к какой-то другой.

Инструментов, которые помогают составлять схемы, довольно много. Преимущество сегодняшнего с говорящим названием SQLite Schema Diagram Generator в том, что он бесплатный, маленький и простой.

🔜 Понадобится скачать файлик с гитхаба и отдельный тул GraphViz. Файлик генерирует схему в формате GraphViz, а последний ее визуализирует. Вот и все — куда уж проще.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍814121👌16🏆10
Новый набор в ШАД!
Классные новости про наших друзей из Школы анализа данных Яндекса. С 1 апреля у них стартовал новый набор, который будет аж на треть больше, чем в прошлом году — в школу поступят более 400 студентов.

В ШАДе готовят специалистов в области DS и ML, и так как спрос на эти профессии растет, то и набор увеличивают. Кроме того, в этом году будет дополнительная возможность поступить — поучаствовать в очной олимпиаде

🔜 Обучение бесплатное, но надо успешно сдать вступительные экзамены и преодолеть высокий конкурс — как правило, 17 человек на место.
🔜 Есть два трека. Первый — для студентов и выпускников технических специальностей, второй — для практикующих аналитиков и разработчиков с опытом от 3-х лет.
🔜 В программе много практики и погружения в реальные проекты и задачи.

Это крутой проект, который помогает развивать аналитику и ML в России, поэтому мы решили рассказать про него подробнее в карточках. Если среди наших подписчиков есть те, кто учился в ШАДе или хочет поступить — будем рады, если поделитесь своими мыслями и впечатлениями! ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍945721🤓7🤡1