LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Что внутри LLM?
Интернет полон всевозможных схем и объяснений принципов работы LLM, но такую красивую 3D-визуализацию видим впервые. Она показывает, как модель с 85 000 параметров расставляет набор из 6 букв по алфавиту.

🔜 Весь процесс разбит на отдельные шаги с текстовыми пояснениями и наглядными анимациями.

Кроме nano-gpt, на примере которой автор показывает алгоритм работы, по ссылке есть еще три 3D-модели — GPT-2 (small и XL) и GPT-3. Можно покрутить их и сравнить масштабы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍81🔥324🤔1
Апдейт карточек с вакансиями для аналитиков от Ромы Бунина @revealthedata! 🔥

А мы напоминаем, что это проект, который ведется аж с 2020 года. Обновленные карточки ниже, а дашборд целиком — по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
10🥰64🎉1
Forwarded from Reveal the Data
💼 Вакансии аналитиков 2023 vs 2022
Обновил карточки про сравнение данных за прошлый год. В целом выводы простые: количество вакансий выросло по всем направлениям примерно на плюс-минус на 35%, а вот зарплаты почти не изменились или местами даже упали 😓

И как всегда с зарплатами непонятно, правда ли данные hh отражают действительность или многие не указывают вилки, или в них не учитываются премии, опционы и т.п. А еще сложно оценить как опыт и размеры компании влияют на зарплату. Поэтому вместе с Арсеном, HR-анлитиком и автором канала HR-data, решили сделать небольшое исследование и сравнить «реальные» зарплаты и то, что есть на hh.

В общем зовём вас пройти опрос, а потом поделимся результатами. Мы не собираем почту или название компаний, только направление и общую информацию про опыт, навыки и т.п.

👉 Пройти опрос 👈
Занимает где-то 10 минут.

Дисклеймер: Это выборка данных с HH для Москвы и Питера, зарплаты указаны только у четверти вакансий, зарплата отображается чистыми после уплаты налога. Разбивка на направления и уровни сделана с помощью поиска ключевых слов в названии вакансии. Используйте результаты с осторожностью.

Подписывайтесь на наши каналы: @revealthedata @leftjoin @hr_data
🔥24👍137👌3
А у вас есть любимый SQL-запрос?
Как можно догадаться как минимум по названию канала, мы тут очень любим SQL и всегда рады увидеть людей, которые эти чувства разделяют. ❤️

Например, вот — коллега написал целую статью про свой любимый запрос. Случай он описал действительно любопытный. Не будем спойлерить, но для затравки покажем сам запрос:

SELECT count(*) 
FROM one_thousand
INNER JOIN one_thousand ON random() < 0.5


Где one_thousand — это таблица с одним столбцом с числами от 0 до 999.

Как думаете, какой результат выдаст этот запрос? Ответ не так уж очевиден, как может показаться. 👀

Зовем в комментарии — расскажите, догадались, какой будет результат? Или, может, готовы поделиться своим любимым SQL-запросом? Наверное, какой мы любим больше всего, догадаться несложно. 💙
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥64👍2311😁5
Базы данных: главное
Хотим поделиться основательным лонгридом, который помогает разобраться в том, как устроены базы данных. Автор — программист Тони Соломоник — последовательно и наглядно, переходя от самой примитивной БД к более сложным, рассказывает о главных принципах их работы.

Тони написал этот текст после того, как осознал, что сам недостаточно разбирается в базах данных и их особенностях. Поиск в интернете не помог, поэтому он решил подойти к делу основательно.

🔵 Прочитал Database Internals Алекса Петрова и Designing Data-Intensive Applications Мартина Клеппманна.
🔵Написал свою базу данных dbeel.
🔵И в конце концов, полученные знания изложил в своем блоге.

Что там есть:
💬 Требования ACID: atomicity (атомарность), consistency (согласованность), isolation (изолированность, durability (надёжность). В чем они состоят, как достигаются и как их выполнение влияет на быстродействие.
💬 Движок базы данных: функции, компоненты и особенности mutable и immutable-структуры, области применения и способы оптимизации работы.
💬 Зачем и как создавать распределенные системы. Не забыли и про теорему CAP: consistency, (согласованность данных), availability (доступность), partition tolerance (устойчивость к разделению).
💬 А еще много примеров кода, схемы и полезные ссылки.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍903922🔥4🎉1
Кстати, хотите подробнее почитать про ACID? У нас есть про них целая статья!
Anonymous Poll
72%
Конечно, хотим!
9%
Да ну, я и так все знаю
19%
А я просто хочу посмотреть результат
Лучший алгоритм для худших рекомендаций
Теперь новости про аналитику, данные и IT можно найти еще и на YouTube — на моем новом канале «Дата Коля»!

🔜 Первое видео — про Netflix и его алгоритм рекомендаций.

Сериалов и фильмов у Netflix просто гора, а смотреть нечего!

🔵 Почему так происходит, и из всей своей хваленой библиотеки контента Netflix подсовывает какую-то ерунду?
🔵 Как устроен его рекомендательный алгоритм, и как он работает — если работает вообще?
🔵 Почему история просмотров и лайков каких-то незнакомых людей может напрямую влиять на то, что Netflix предлагает посмотреть вам?

Смотрите мой пилотный ролик и не забудьте подписаться — у меня на этот канал большие планы!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67👨‍💻2614🔥103
Новые измерения в теории графов
Начнем с краткой справки:

🔜 Граф — это топологическая модель, состоящая из нескольких вершин и соединяющих их ребер.

🔜 Теория графов — раздел математики, изучающий графы, их свойства и способы применения.

Она применяется в самых разных областях: логистике, экономике, социологии, археологии и так далее. С помощью графов показывают связи между множествами объектов. Это могут отношения между людьми в какой-то группе, взаимодействия химических элементов или маршруты перевозок между несколькими точками на карте.

💬 Хочется обобщить и сказать, что это может вообще угодно — но дело в том, что это как раз не так.

В той же социологии взаимоотношения между людьми бывают слишком сложными, чтобы отобразить их одними лишь ребрами между точками. И чем больше набор данных, тем более сложные инструменты могут понадобиться, чтобы показать связи между отдельными элементами.

Сейчас это одна из задач, стоящих перед математиками и другими учеными — изучение способов отображения связей более высокого порядка. Например, гиперграфов, ребра которых могут соединять сразу несколько вершин.  Математик из Pacific Northwest National Laboratory Эмили Первайн сравнивает эту работу с открытием новых измерений.

💬 Можно представить, что граф — это двухмерный чертеж фундамента, а гиперграф — уже дом в трех измерениях.

Более сложные модели ставят перед учеными и более сложные задачи и вопросы. И самое интересное, что это не просто оторванные от жизни абстракции, а вполне даже прикладные инструменты, которые делают работу с большими данными более эффективной.

Подробнее про графы, гиперграфы, симплициальные комплексы и большие данные на удивление понятным языком рассказывает эта статья. Цитаты про измерения и дома, кстати, из нее же.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍79🔥2321
Шпаргалка: зарезервированные слова в SQL
Сегодня будет кратко. Так сказать — без лишних слов. 😏

Зарезервированные слова в языках программирования — это слова, которые нельзя использовать в качестве идентификаторов, то есть названий объектов, переменных, функций и так далее.

В SQL есть большой список слов, которые не могут выступать в качестве имен для объектов баз данных, таблиц, столбцов. Выучить их все целиком вряд ли получится и вряд ли необходимо, но лучше иметь под рукой шпаргалку — а то и две.

🔜 Список зарезервированных слов SQL.

🔜 Такой же список, но более полный и с разбивкой по разным БД и СУБД: Apache Derby, BigQuery, Db2 (LUW), H2, MariaDB, MySQL,Oracle DB, PostgreSQL, SQL Server и SQLite. Есть слова, зарезервированные только в некоторых БД и доступные для использования в остальных. По ссылке — таблица, по которой сразу понятно, что к чему.

Если было полезно, не забудьте сохранить пост к себе! ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
88👍36🔥4
Интенсив: через Product Hunt на международный рынок
Рано или поздно большинству IT-продуктов становится «тесно» на локальном рынке — но чтобы расти, нужно расширять аудиторию и привлекать инвестиции.

👀 Логичный вопрос: и где их искать?

Один из вариантов — на площадках наподобие Product Hunt.

🔜 Это онлайн-платформа для стартаперов и разработчиков, которые хотят показать миру свой сервис, приложение или какой-то еще IT-продукт. Там они не только обмениваются фидбеком, но и ищут инвесторов. Ну а инвесторы в свою очередь ищут себе перспективные проекты!

31 января пройдет интенсив для тех, кто хочет попробовать силы в продвижении своего продукта на этой площадке. Ведет Паша Митюхин, который работает в Product Hunt с 2017. За это время он только запустил 2 своих приложения на PH и помог многим разработчикам вывести свои продукты в топ рейтинга.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🔥632🐳2
Люди против технологий
Прошлый год принес несколько громких скандалов, связанных с ИИ, а закончился большой драмой в OpenAI. 2024 начался с увольнений переводчиков в Duolingo, которых заменили нейросети, и возмущениями из-за того, что производитель графических планшетов Wacom поставил на промо-арт сгенерированную картинку.

💬 В общем, ничего нового. Развитие ИИ меняет жизнь, не всегда в лучшую сторону, и не все этому рады. Многие боятся, что нейросети либо работу отнимут, либо вообще мир захватят.

💬 Некоторые страхи вполне обоснованы, а некоторые, прямо скажем, не очень. Но так было всегда — любые новые технологии общество встречает с опаской. Это хорошо показывает материал на vc.ru со списком технофобий. Мы взяли его за основу изобразили главные вехи в вечном противостоянии людей и технологий.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍87🔥2719😁18
50 оттенков датавиза
Признаем, отсылка в заголовке несколько потеряла актуальность, но сегодня она оправданна.

Цвет — мощный инструмент управления вниманием. Он может помочь выделить главное и расставить акценты, а может сделать график абсолютно нечитабельным.

В блоге сервиса для визуализации данных DataWrapper, автор рассказала, как грамотно использовать цвет в своих графиках.

Для начала — закрасить все серым.

А потом:
💬 Начните с главного. Определите цели и расставьте приоритеты. Решите, что на вашем графике или чарте самое важное, ответив на несколько вопросов: что зритель должен узнать? Какие выводы он должен сделать? Какую информацию вы хотите ему сообщить? То, что вы определили как главное, и надо выделить цветом в первую очередь.

💬 Выделили все — не выделили ничего. Не может быть самым важным все. Если раскрасить все одинаково ярко, то данные смешаются в кашу. Расставьте приоритеты и выберите, что вывести на первый план.

💬 Данные из одной категории окрашивайте оттенками одного цвета. Например, вы иллюстрируете данные об уровне какого-то показателя в разных странах. Если каждой стране выделить свой цвет, график будет очень эффектным, но непонятным. Раскрасьте их оттенками, например, синего. Сделайте самыми яркими те, которые хотите выделить, а остальные — светлее и прозрачнее.

Так постепенно оттенки серого заменят другие цвета, а график будет становиться все более информативным и классным.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9849🔥258😍2