LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Как ChatGPT упростил мне жизнь
ChatGPT — один из таких инструментов, про который все говорят: «Какой у него большой потенциал!», но пользоваться им многие толком не умеют. Пора исправляться!

Моя личная история о том, как он может упростить жизнь — в новом видео на канале «Дата Коля»!

🔵 Как написать письмо в консульство, после которого не откажут в визе?
🔵 Как заставить ChatGPT делать за себя скучную работу вроде заполнения табличек?
🔵 Как писать крутые промпты?

Никакой инфоцыганщины и обещаний научить зарабатывать на ChatGPT миллионы. Только честный личный опыт.

🔜 Очень жду ваших лайков и честных коментов!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1155522🎉4
Modern Data Stack — всё?
Каждый раз, когда что-то — например, новая технология — становится популярным, оно проходит несколько стадий. На старте у нового явления есть четкое определение. Потом о нем узнает широкая общественность, а маркетологи понимают, что это название отлично привлекает внимание. Его начинают использовать все подряд, значение термина размывается, и в итоге он превращается в баззворд.

🔜 Именно такой путь прошел Modern Data Stack. Его историю вспомнил СЕО dbt Тристан Хэнди и задался вопросом: актуален ли он все еще?
🔵 Термин Modern Data Stack появился в середине десятых. Так начали называть облачные инструменты для аналитик: Looker, Fivetran, тот самый dbt и так далее.
🔵 В 2020 MDS завоевал большую популярность, и наступила эпоха коллаборации между вендорами. Разработчики ПО объединяли свои продукты в целые экосистемы. Позиционирование инструмента как MDS помогало выйти на рынок и заинтересовать инвесторов, партнеров и пользователей.
🔵 И вот оно случилось: термин стал так популярен, что начал терять смысл. Хэнди вспоминает, как на конференции его собеседник назвал MDS-компаниями Mongo, Datadog и Confluent. Все три хороши, но ни одна не выпускала продукты, которые можно было бы отнести к MDS.

🔜 Но не это заставило его задуматься о том, что этот термин устарел.

🔵 Дело в самом определении. Почти 10 лет назад, использование облачных технологий четко отделяли MDS от не-MDS — например, Looker от Tableau. Но сейчас это не так, и Tableau теперь тоже в облаке.
🔵 Изменился рынок. Инвесторы стали менее охотно вкладываться в ИТ-стартапы, а покупатели начали выбирать готовые решения, а не стеки из нескольких продуктов заколлабившихся вендоров.
🔵 Появился новый тренд, к которому все хотят присоединиться: искусственный интеллект.

Все это привело к тому, что термин Modern Data Stack потерял не только изначальный смысл, но и ценность, так что пора от него отказаться. Более подробно все эти мысли он раскрывает на подкасте.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72❤‍🔥2244🔥2
Гонка за чужим одобрением
Помните, как на экзаменах все делились на тех, кто был уверен, что «сдаваться» надо обязательно в числе первых, и их противников, которые предпочитали идти последними? Еще были промежуточные варианты и равнодушные фаталисты, согласные на любой расклад, лишь бы это все побыстрее закончилось, но они нам сейчас неинтересны.

Наконец-то наука выяснила, кто был прав — как оказалось, те, кто выбирал идти первым. Исследователи провели два эксперимента.

🔜 В первом участвовало 992 добровольца, которых попросили описать 20 человек на основе их фотографий в соцсетях. В начале они давали положительные характеристики, содержавшие в среднем 6,2 добрых слова. К концу списка этот показатель снизился до 4,7.
🔜 Во втором 987 человек по-настоящему пострадали за науку и смотрели шоу «Холостяк». А точнее — то, как представляются участницы. Их просили оценить девушек, и, как и предыдущем эксперименте, каждая следующая получала все менее лестную характеристику. Видео показывали в рандомом порядке.

Почему это происходит?
Исследователи предположили, что, когда мы оцениваем друг за другом несколько человек, мы ищем у них какие-то отличительные особенности. Негативные черты сильнее всего обращают на себя внимание, и люди начинают концентрироваться именно на них.

Этот эффект может влиять на то, как оценивают соискателей, студентов на экзамене, участников в реалити-шоу или конкурса, профили в «Тиндере» и просто новых знакомых. Так что, если вам важно произвести хорошее впечатление на человека, надо постараться познакомиться с ним как можно быстрее и всех опередить.

🔜 Кстати, а как вы экзамены сдавали? Шли среди первых, сидели до конца или как получится?
Please open Telegram to view this post
VIEW IN TELEGRAM
70👍4335🤔15🔥4
Все, что вы хотели узнать про рекламу в LEFT JOIN
Весна — это время пробуждения, вдохновения и обновления, поэтому подумали и решили обновить медиакит. 😁 А заодно написали небольшую справку для рекламодателей.

🔜 В медиаките вы найдете расценки, форматы рекламных интеграций и данные о канале — аудитория и метрики.

🔜 Во втором документе мы рассказали об условиях сотрудничества: как проходит подготовка рекламных материалов, согласование, оплата, выбор даты публикации. В общем, ответы на часто задаваемые вопросы.

Мы рассматриваем заявки на разные темы: курсы, мероприятия, вакансии, инструменты для IT-специалистов и аналитиков, тематические каналы и просто всякое интересное про диджитал и технологии. Главное, чтобы продукт был действительно качественный и достойный! 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
48👍3520🏆11🔥3
⭐️ Вчера мы записывали с Толей Карповым почти трехчасовое интервью (да, это ранний тизер!) и, конечно, обсуждали тему LLM, которую Виталий Тренкеншу из Datanomix поднял у себя в телеграм-канале.

Процитирую кусочек:
На тестовом задании, я хочу прежде всего увидеть кандидата — его опыт и образ мышления. Но, к сожалению, вижу копипаст, часто даже нефильтрованный 🙁

P.S. Внедряю теперь в HR-воронку автоматическую проверку на AI и отказ таким кандидатам.


И вот некоторые мысли, к которым мы пришли с Толей в диалоге:
🔵Однозначно на рынке образовалась проблема читинга, причем кандидаты максимально изощрены в том, как использовать нейронные сети и LLM в частности
🔵Тестовые задания в классическом виде перестают работать и это интересный вызов для всех работодателей
🔵LLM — это хорошо, и, например, аналитики обязаны им пользоваться. Однако, когда собеседуешь человека более "гуманитарной направленности", то часто встречаешь сгенерированные ответы с минимальной редактурой, что максимально расстраивает. Людям дали удобный интерфейс, и теперь они ожидают, что нажмут одну кнопку и могут отправить сопроводительное письмо / тестовое задание работодателю, а он должен это принять за чистую монету. Ну, как будто на той стороне кто-то не очень сообразительный 🫠

Иногда я встречаю тестовые написанные примерно таким образом:
Некоторая Мысль: Тут Объяснение Мысли.

Если вижу такое — сразу отсеиваю кандидата, т.к. это кусок текста на 100% сгенерированный ChatGPT без какой-либо редактуры. Зачем мне роботы в команде? 🤖

А как у вас в компаниях сегодня с кандидатами и использованием LLM?

@entrepreneurskaya
Please open Telegram to view this post
VIEW IN TELEGRAM
53👍25🔥7👎5🤡2
Анализ самых популярных AI-инструментов на GitHub
Кажется, сейчас все только и делают, что обучают модели и разрабатывают все новые приложения на основе AI, которые за вас пишут тексты, рисуют картинки и кодят.

Выяснили, так или это и как на самом деле выглядит мир AI open source-приложений на GitHub — кто их разрабатывает, что разрабатывают и собираются ли останавливаться. То есть выяснил кое-кто другой, а мы вам расскажем самое главное из этого исследования.

В выборку попали 845 репозиториев с GitHub, у которых было 500 звездочек или больше и слова gpt, llm, generative AI в описании. Они делятся на 4 группы.
1️⃣ Приложения на основе ИИ — самая популярная категория.
2️⃣ Инструменты для разработки, которые помогают с промпт-инжирингом или предоставляют интерфейс для взаимодействия с ИИ.
3️⃣ Инструменты для работы моделями — обучения, создания датасетов.
4️⃣ Инструменты для создания инфраструктуры для разработки — все, что связано с управлением данными, мониторингом и вычислениями.

В первой половине 2023 виден взрывной рост числа новых проектов во всех 4 категориях, который вышел на плато в сентябре. Рост, вероятно, связан с релизом ChatGPT и Stable Diffusion в 2022, а замедление — с перенасыщением рынка.

🔜 845 репозиториев выложены 594 аккаунтами. 20 из них разместили 4 или более приложения или инструмента — на них приходится 23% всех репозиториев, попавших в выборку.

🔜 19 аккаунтов из топ-20 принадлежат организациям (3 из них — Google) и только один личный.

🔜 Вклад в развитие проектов в выборке сделали 20 000 разработчиков.

🔥 AI все еще на хайпе, но хайп недолговечен. Большинство проектов быстро набирают популярность после выкладки, но потом прирост звездочек снижается.

В оригинале статьи — больше цифр, графики и ссылки на самые интересные проекты.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍81🔥30🤔25👌14🏆7
Иногда они возвращаются
В прошлую субботу мы вам немного спойлернули новый проект — точнее, возвращение старого.

Data Heroes — подкаст о супергероях, чья сила в данных. Уже вышло три сезона, и у каждого была своя тема.

1️⃣ Первый — про то, как прокачаться как аналитик и начать карьеру в этой сфере. Разбирались, как выбрать школу, найти мотивацию, научиться тайм-менеджменту и стать идеальным кандидатом в глазах эйчара.
❤️ Наш любимый выпуск: как победить синдром самозванца.

2️⃣ Второй — про разные направления. Поговорили про датавиз, Data Science и мировой рынок аналитики. В специальных выпусках рассказали, как составить крутое резюме.
❤️ Наш любимый выпуск: как убеждать с помощью визуализации.

3️⃣ Третий — про то, как строить бизнес и личный бренд в аналитике. Поделились секретами мастерства, как вести канал и подкаст про данные.
❤️ Наш любимый выпуск: как будет меняться работа аналитика с развитием искусственного интеллекта.

Сейчас вовсю идет работа над 4 сезоном, и у него тоже будет своя тема. Мы пока не расскажем, какая она, но вы можете попробовать угадать в комментариях!

Первый эпизод выйдет уже совсем скоро!
Please open Telegram to view this post
VIEW IN TELEGRAM
97👍53🏆15🤩8😍8
Как связаны сакура и изменение климата?
Наверное, никто не удивится, что в Японии к сакуре относятся очень серьезно и с 9 века ведут хроники, отмечая, в какой день ее цветение достигло пика.

На основе этих данных построили график с 812 года по 2023. На нем отмечены дни, когда сакура цвела особенно пышно, и среднее значение за 20 лет. Он интерактивный, можно приближать, удалять, рассмотреть каждый год в отдельности. 👀

Данные для графика предоставил исследователь из Osaka Metropolitan University Ясуюки Аоно. Он их собирал не просто из любви к искусству, а для изучения того, как менялся климат и температура воздуха весной. Из-за того, что погода становилась теплее пик цветения сакуры наступает раньше, а кривая среднего за 20 лет опускается все ниже.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8566🏆1713😍8
Карта вашей базы данных
Базы данных нередко состоят из множества разных таблиц. Разобраться в структуре может быть непросто, но тут на помощь приходят схемы. Они показывают перечень таблиц, их содержимое и взаимосвязи — то есть содержатся ли в одной таблице ключи к какой-то другой.

Инструментов, которые помогают составлять схемы, довольно много. Преимущество сегодняшнего с говорящим названием SQLite Schema Diagram Generator в том, что он бесплатный, маленький и простой.

🔜 Понадобится скачать файлик с гитхаба и отдельный тул GraphViz. Файлик генерирует схему в формате GraphViz, а последний ее визуализирует. Вот и все — куда уж проще.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍814121👌16🏆10
Новый набор в ШАД!
Классные новости про наших друзей из Школы анализа данных Яндекса. С 1 апреля у них стартовал новый набор, который будет аж на треть больше, чем в прошлом году — в школу поступят более 400 студентов.

В ШАДе готовят специалистов в области DS и ML, и так как спрос на эти профессии растет, то и набор увеличивают. Кроме того, в этом году будет дополнительная возможность поступить — поучаствовать в очной олимпиаде

🔜 Обучение бесплатное, но надо успешно сдать вступительные экзамены и преодолеть высокий конкурс — как правило, 17 человек на место.
🔜 Есть два трека. Первый — для студентов и выпускников технических специальностей, второй — для практикующих аналитиков и разработчиков с опытом от 3-х лет.
🔜 В программе много практики и погружения в реальные проекты и задачи.

Это крутой проект, который помогает развивать аналитику и ML в России, поэтому мы решили рассказать про него подробнее в карточках. Если среди наших подписчиков есть те, кто учился в ШАДе или хочет поступить — будем рады, если поделитесь своими мыслями и впечатлениями! ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍945721🤓7🤡1
Самые популярные ошибки в построении аналитики в EdTech
⚡️ Внимание-внимание!
На канале «Дата Коля» — новое видео для профессионалов из сферы эдтех и всех, кто хочет больше узнать о том, как строится аналитика на практике. Ролик посвящен главным вопросам, с которыми сталкиваются онлайн-школы.

🔜 Как подружить между собой данные из разных систем, чтобы отследить путь клиента и посчитать наконец-то стоимость лида?
🔜 Как перестать тратить время на заполнение бесконечных табличек и автоматизировать работу с данными?
🔜 Как выбрать инструменты для аналитики и создания отчетов и дашбордов, в обстановке, когда многие из них стали недоступны в России?

🔥 Смотрите по ссылке. Если у вас есть знакомые, которые работают в онлайн-образовании, поделитесь видео с ними и получите плюсик в карму.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍57🤔143🔥3🤡1
Киберпанк-романтика из X: часть 2
Мальчик: знакомится с девушками в Tinder с помощью ChatGPT.

Мужчина: заводит семейную доску в Notion вместе с женой.

💬 Один юзер в Твиттере именно так и сделал и поделился своей идеей с общественностью. Они с женой используют эту доску для того, чтобы планировать домашние дела, составлять списки покупок, вести бюджет и хранить важную информацию вроде личных документов. Еще там есть такие разделы, как «Важные вещи, которые мы узнали друг о друге», «Долгосрочные надежды и цели» и «Лог воспоминаний о свиданиях». ❤️

💬 В отдельной колонке у них ссылка на список одиноких друзей, которых они хотели бы познакомить друг с другом.

Идея интересная, хотя, наверное, не все пары захотят так скрупулезно расписывать свою жизнь в карточках Notion.

Твиттер отреагировал в своем духе — шутками, что это прекрасный документ для онбординга будущих жен, и вопросами, требует ли он заполнить тикет в Jira, когда жена просит прибить полочку.

Некоторым, впрочем, доска понравилась, и они даже попросили ссылку на шаблон. Вот она, кстати. А вы что думаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
82👍51🏆127🔥4
Data Heroes: старт 4-го сезона!
После долгой паузы стартует 4-й сезон подкаста о супергероях в области аналитики — Data Heroes.

У каждого сезона была своя тема, и этот — не исключение. На этот раз спикерами станут предприниматели и основатели онлайн-школ. Будем разговаривать про данные в эдтехе и рынок онлайн-образования: в России и за границей.

🔜 Гость первого выпуска — Анатолий Карпов, один из основателей karpov.courses и автор курсов, с которых многие начинали свой путь в аналитике и IT. «Основы статистики» навсегда останутся в наших сердцах. ❤️

Первый выпуск получился очень насыщенным:
🔵 Путь от аналитика до фаундера: как выпускник психологического факультета начал работать с данными в VK и основал свою компанию без инвестиций (но не один)?
🔵 Развитие эдтех-стартапа на конкурентном рынке, где уже много сильных игроков с крутой репутацией и большими ресурсами. Как менялся проект karpov.courses (и как он выглядит сейчас), как ученики убедили расширить линейку курсов и как работает подход к продвижению Content-First?
🔵 Рынок труда в эпоху ИИ: как LLM не отнимут работу у аналитиков — точнее, кто её отнимет, если не они?
🔵 И то, ради чего мы здесь собрались — как профессионалы работают с данными в своей компании? Почему в начале пути у стартапов нет аналитики и это нормально? А когда она все же появляется — какие метрики надо считать и какой дашборд самый главный?

В этом сезоне все новое: новый формат интервью 1-на-1, новая большая тема и даже появилась новая площадка — YouTube. Смотрите, слушайте, пишите комментарии — мы ждем вашего фидбека!

Посмотреть и послушать: видео-версия на YouTube 👀

Просто послушать: Яндекс Музыка, Apple Podcasts, Google Podcasts, Spotify, Mave, CastBox, Overcast
Please open Telegram to view this post
VIEW IN TELEGRAM
80👍5732🏆14🔥12
Что внутри рекомендательных алгоритмов?
Рекомендательные алгоритмы некоторых сервисов могут вызвать легкий (или не легкий) экзистенциальный кризис.

У вас же бывает такое, что смотрите, что вам предлагает купить маркетплейс или какие фильмы советует онлайн-кинотеатр, и задаетесь вопросом — кем вообще он меня считают? Чем я заслужил такие рекомендации? Почему они думают, что мне понравится это?

С прошлого года завеса тайны немного приоткрылась. Правда, только для тех, кто пользуется российскими сервисами — их обязали раскрыть механизм работы рекомендательных алгоритмов.

🔜 Это коснулось всех, у кого есть какая-то система рекомендации контента на основе действий пользователя — онлайн-магазинов и кинотеатров, развлекательных порталов, служб доставки еды или заказа такси и так далее. Даже hh.ru попался.

🔜 Теперь на их сайтах появились отдельные странички, где описывается, какие данные о поведении пользователей они собирают. А также по этапам расписано, как обрабатывает информацию.

🔜 Написано, к сожалению, без подробностей и максимально сухим языком, но в статье на vc.ru вытащили все самое интересное.

Хотя российские сервисы пока не рассказывают подробно, как работают их алгоритмы, про их зарубежные аналоги информации побольше. На одном классном Youtube-канале даже есть видео про систему рекомендаций Netflix. Мы про него уже рассказывали, но вдруг вы пропустили. 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
👍824330🏆13🤩5
Деловое предложение: вы нам бусты, мы вам сторисы
Правда ведь было бы классно никогда не пропускать последние новости и самые интересные посты, которые выходят на канале? ❤️

💙 Чтобы эта мечта стала реальностью, предлагаем отдать свой голос за LEFT JOIN. Тогда мы сможем постить сторис и делиться разными полезными штуками еще и там. Спамить всем подряд не будем, но думаем, что этот новый (для нас) формат поможет нам стать ближе и еще больше делиться с вами крутым контентом.

Кстати, пишите в комментариях — какие сторис от LEFT JOIN вы хотели бы видеть?
Please open Telegram to view this post
VIEW IN TELEGRAM
68👍3613👎8🔥3
У нас есть GPT дома
…и она написана на SQL.

Да, именно так — разработчик Алексей Боленок написал генеративную нейросеть на SQL.

Наверное, на этом пост можно закончить и просто дать ссылку на оригинал статьи в блоге Алексея и на перевод на Хабре.

Но все-таки расскажем немного, что вас ждет.

LLM способны генерировать логичные тексты на естественном языке за счет того, что предсказывают, в каком порядке слова должны идти друг за другом. Алексей показал, что происходит «под капотом» LLM, когда она это делает.

Если совсем кратко:
🔵Модель получает промпт и преобразует его список токенов.
🔵Затем она возвращает массив кортежей — строк и чисел. В строках — токены (слова или их части), в числах — вероятность, с которой этот токен «подойдет» для ответа.
🔵 Модель выбирает подходящий токен и вносит его в список. Так она последовательно токен за токеном строит ответ.
🔵 В конце концов, она преобразует токены в текст.

Все эти шаги Алексей реализовал с помощью SQL-запросов — всего понадобилось 500 строк, чтобы получить модель, которая смогла поздравить его с Новым годом. Просто пост он выложил 31 декабря. 🎄

Для тех, кто хочет перейти сразу к делу и пощупать GPT на SQL своими руками — репозиторий с кодом на Гитхабе.
Please open Telegram to view this post
VIEW IN TELEGRAM
7420🔥14🏆7🤣4