Что внутри LLM?
Интернет полон всевозможных схем и объяснений принципов работы LLM, но такую красивую 3D-визуализацию видим впервые. Она показывает, как модель с 85 000 параметров расставляет набор из 6 букв по алфавиту.
🔜 Весь процесс разбит на отдельные шаги с текстовыми пояснениями и наглядными анимациями.
Кроме nano-gpt, на примере которой автор показывает алгоритм работы, по ссылке есть еще три 3D-модели — GPT-2 (small и XL) и GPT-3. Можно покрутить их и сравнить масштабы.
Интернет полон всевозможных схем и объяснений принципов работы LLM, но такую красивую 3D-визуализацию видим впервые. Она показывает, как модель с 85 000 параметров расставляет набор из 6 букв по алфавиту.
Кроме nano-gpt, на примере которой автор показывает алгоритм работы, по ссылке есть еще три 3D-модели — GPT-2 (small и XL) и GPT-3. Можно покрутить их и сравнить масштабы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍81🔥32❤4🤔1
Апдейт карточек с вакансиями для аналитиков от Ромы Бунина @revealthedata! 🔥
А мы напоминаем, что это проект, который ведется аж с 2020 года. Обновленные карточки ниже, а дашборд целиком — по ссылке.
А мы напоминаем, что это проект, который ведется аж с 2020 года. Обновленные карточки ниже, а дашборд целиком — по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡10🥰6❤4🎉1
Forwarded from Reveal the Data
💼 Вакансии аналитиков 2023 vs 2022
Обновил карточки про сравнение данных за прошлый год. В целом выводы простые: количество вакансий выросло по всем направлениям примерно на плюс-минус на 35%, а вот зарплаты почти не изменились или местами даже упали 😓
И как всегда с зарплатами непонятно, правда ли данные hh отражают действительность или многие не указывают вилки, или в них не учитываются премии, опционы и т.п. А еще сложно оценить как опыт и размеры компании влияют на зарплату. Поэтому вместе с Арсеном, HR-анлитиком и автором канала HR-data, решили сделать небольшое исследование и сравнить «реальные» зарплаты и то, что есть на hh.
В общем зовём вас пройти опрос, а потом поделимся результатами. Мы не собираем почту или название компаний, только направление и общую информацию про опыт, навыки и т.п.
👉 Пройти опрос 👈
Занимает где-то 10 минут.
Дисклеймер: Это выборка данных с HH для Москвы и Питера, зарплаты указаны только у четверти вакансий, зарплата отображается чистыми после уплаты налога. Разбивка на направления и уровни сделана с помощью поиска ключевых слов в названии вакансии. Используйте результаты с осторожностью.
Подписывайтесь на наши каналы: @revealthedata @leftjoin @hr_data
Обновил карточки про сравнение данных за прошлый год. В целом выводы простые: количество вакансий выросло по всем направлениям примерно на плюс-минус на 35%, а вот зарплаты почти не изменились или местами даже упали 😓
И как всегда с зарплатами непонятно, правда ли данные hh отражают действительность или многие не указывают вилки, или в них не учитываются премии, опционы и т.п. А еще сложно оценить как опыт и размеры компании влияют на зарплату. Поэтому вместе с Арсеном, HR-анлитиком и автором канала HR-data, решили сделать небольшое исследование и сравнить «реальные» зарплаты и то, что есть на hh.
В общем зовём вас пройти опрос, а потом поделимся результатами. Мы не собираем почту или название компаний, только направление и общую информацию про опыт, навыки и т.п.
👉 Пройти опрос 👈
Занимает где-то 10 минут.
Дисклеймер: Это выборка данных с HH для Москвы и Питера, зарплаты указаны только у четверти вакансий, зарплата отображается чистыми после уплаты налога. Разбивка на направления и уровни сделана с помощью поиска ключевых слов в названии вакансии. Используйте результаты с осторожностью.
Подписывайтесь на наши каналы: @revealthedata @leftjoin @hr_data
🔥24👍13❤7👌3
А у вас есть любимый SQL-запрос?
Как можно догадаться как минимум по названию канала, мы тут очень любим SQL и всегда рады увидеть людей, которые эти чувства разделяют.❤️
Например, вот — коллега написал целую статью про свой любимый запрос. Случай он описал действительно любопытный. Не будем спойлерить, но для затравки покажем сам запрос:
Где
Как думаете, какой результат выдаст этот запрос? Ответ не так уж очевиден, как может показаться.👀
Зовем в комментарии — расскажите, догадались, какой будет результат? Или, может, готовы поделиться своим любимым SQL-запросом? Наверное, какой мы любим больше всего, догадаться несложно.💙
Как можно догадаться как минимум по названию канала, мы тут очень любим SQL и всегда рады увидеть людей, которые эти чувства разделяют.
Например, вот — коллега написал целую статью про свой любимый запрос. Случай он описал действительно любопытный. Не будем спойлерить, но для затравки покажем сам запрос:
SELECT count(*)
FROM one_thousand
INNER JOIN one_thousand ON random() < 0.5
Где
one_thousand — это таблица с одним столбцом с числами от 0 до 999.Как думаете, какой результат выдаст этот запрос? Ответ не так уж очевиден, как может показаться.
Зовем в комментарии — расскажите, догадались, какой будет результат? Или, может, готовы поделиться своим любимым SQL-запросом? Наверное, какой мы любим больше всего, догадаться несложно.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥64👍23❤11😁5
Базы данных: главное
Хотим поделиться основательным лонгридом, который помогает разобраться в том, как устроены базы данных. Автор — программист Тони Соломоник — последовательно и наглядно, переходя от самой примитивной БД к более сложным, рассказывает о главных принципах их работы.
Тони написал этот текст после того, как осознал, что сам недостаточно разбирается в базах данных и их особенностях. Поиск в интернете не помог, поэтому он решил подойти к делу основательно.
🔵 Прочитал Database Internals Алекса Петрова и Designing Data-Intensive Applications Мартина Клеппманна.
🔵 Написал свою базу данных dbeel.
🔵 И в конце концов, полученные знания изложил в своем блоге.
Что там есть:
💬 Требования ACID: atomicity (атомарность), consistency (согласованность), isolation (изолированность, durability (надёжность). В чем они состоят, как достигаются и как их выполнение влияет на быстродействие.
💬 Движок базы данных: функции, компоненты и особенности mutable и immutable-структуры, области применения и способы оптимизации работы.
💬 Зачем и как создавать распределенные системы. Не забыли и про теорему CAP: consistency, (согласованность данных), availability (доступность), partition tolerance (устойчивость к разделению).
💬 А еще много примеров кода, схемы и полезные ссылки.
Хотим поделиться основательным лонгридом, который помогает разобраться в том, как устроены базы данных. Автор — программист Тони Соломоник — последовательно и наглядно, переходя от самой примитивной БД к более сложным, рассказывает о главных принципах их работы.
Тони написал этот текст после того, как осознал, что сам недостаточно разбирается в базах данных и их особенностях. Поиск в интернете не помог, поэтому он решил подойти к делу основательно.
Что там есть:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍90⚡39❤22🔥4🎉1
Кстати, хотите подробнее почитать про ACID? У нас есть про них целая статья!
Anonymous Poll
72%
Конечно, хотим!
9%
Да ну, я и так все знаю
19%
А я просто хочу посмотреть результат
Лучший алгоритм для худших рекомендаций
Теперь новости про аналитику, данные и IT можно найти еще и на YouTube — на моем новом канале «Дата Коля»!
🔜 Первое видео — про Netflix и его алгоритм рекомендаций.
Сериалов и фильмов у Netflix просто гора, а смотреть нечего!
🔵 Почему так происходит, и из всей своей хваленой библиотеки контента Netflix подсовывает какую-то ерунду?
🔵 Как устроен его рекомендательный алгоритм, и как он работает — если работает вообще?
🔵 Почему история просмотров и лайков каких-то незнакомых людей может напрямую влиять на то, что Netflix предлагает посмотреть вам?
Смотрите мой пилотный ролик и не забудьте подписаться — у меня на этот канал большие планы!
Теперь новости про аналитику, данные и IT можно найти еще и на YouTube — на моем новом канале «Дата Коля»!
Сериалов и фильмов у Netflix просто гора, а смотреть нечего!
Смотрите мой пилотный ролик и не забудьте подписаться — у меня на этот канал большие планы!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67👨💻26⚡14🔥10❤3
Новые измерения в теории графов
Начнем с краткой справки:
🔜 Граф — это топологическая модель, состоящая из нескольких вершин и соединяющих их ребер.
🔜 Теория графов — раздел математики, изучающий графы, их свойства и способы применения.
Она применяется в самых разных областях: логистике, экономике, социологии, археологии и так далее. С помощью графов показывают связи между множествами объектов. Это могут отношения между людьми в какой-то группе, взаимодействия химических элементов или маршруты перевозок между несколькими точками на карте.
💬 Хочется обобщить и сказать, что это может вообще угодно — но дело в том, что это как раз не так.
В той же социологии взаимоотношения между людьми бывают слишком сложными, чтобы отобразить их одними лишь ребрами между точками. И чем больше набор данных, тем более сложные инструменты могут понадобиться, чтобы показать связи между отдельными элементами.
Сейчас это одна из задач, стоящих перед математиками и другими учеными — изучение способов отображения связей более высокого порядка. Например, гиперграфов, ребра которых могут соединять сразу несколько вершин. Математик из Pacific Northwest National Laboratory Эмили Первайн сравнивает эту работу с открытием новых измерений.
💬 Можно представить, что граф — это двухмерный чертеж фундамента, а гиперграф — уже дом в трех измерениях.
Более сложные модели ставят перед учеными и более сложные задачи и вопросы. И самое интересное, что это не просто оторванные от жизни абстракции, а вполне даже прикладные инструменты, которые делают работу с большими данными более эффективной.
Подробнее про графы, гиперграфы, симплициальные комплексы и большие данные на удивление понятным языком рассказывает эта статья. Цитаты про измерения и дома, кстати, из нее же.
Начнем с краткой справки:
Она применяется в самых разных областях: логистике, экономике, социологии, археологии и так далее. С помощью графов показывают связи между множествами объектов. Это могут отношения между людьми в какой-то группе, взаимодействия химических элементов или маршруты перевозок между несколькими точками на карте.
В той же социологии взаимоотношения между людьми бывают слишком сложными, чтобы отобразить их одними лишь ребрами между точками. И чем больше набор данных, тем более сложные инструменты могут понадобиться, чтобы показать связи между отдельными элементами.
Сейчас это одна из задач, стоящих перед математиками и другими учеными — изучение способов отображения связей более высокого порядка. Например, гиперграфов, ребра которых могут соединять сразу несколько вершин. Математик из Pacific Northwest National Laboratory Эмили Первайн сравнивает эту работу с открытием новых измерений.
Более сложные модели ставят перед учеными и более сложные задачи и вопросы. И самое интересное, что это не просто оторванные от жизни абстракции, а вполне даже прикладные инструменты, которые делают работу с большими данными более эффективной.
Подробнее про графы, гиперграфы, симплициальные комплексы и большие данные на удивление понятным языком рассказывает эта статья. Цитаты про измерения и дома, кстати, из нее же.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍79🔥23❤2⚡1
Шпаргалка: зарезервированные слова в SQL
Сегодня будет кратко. Так сказать — без лишних слов. 😏
Зарезервированные слова в языках программирования — это слова, которые нельзя использовать в качестве идентификаторов, то есть названий объектов, переменных, функций и так далее.
В SQL есть большой список слов, которые не могут выступать в качестве имен для объектов баз данных, таблиц, столбцов. Выучить их все целиком вряд ли получится и вряд ли необходимо, но лучше иметь под рукой шпаргалку — а то и две.
🔜 Список зарезервированных слов SQL.
🔜 Такой же список, но более полный и с разбивкой по разным БД и СУБД: Apache Derby, BigQuery, Db2 (LUW), H2, MariaDB, MySQL,Oracle DB, PostgreSQL, SQL Server и SQLite. Есть слова, зарезервированные только в некоторых БД и доступные для использования в остальных. По ссылке — таблица, по которой сразу понятно, что к чему.
Если было полезно, не забудьте сохранить пост к себе!❤️
Сегодня будет кратко. Так сказать — без лишних слов. 😏
Зарезервированные слова в языках программирования — это слова, которые нельзя использовать в качестве идентификаторов, то есть названий объектов, переменных, функций и так далее.
В SQL есть большой список слов, которые не могут выступать в качестве имен для объектов баз данных, таблиц, столбцов. Выучить их все целиком вряд ли получится и вряд ли необходимо, но лучше иметь под рукой шпаргалку — а то и две.
Если было полезно, не забудьте сохранить пост к себе!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤88👍36🔥4
Интенсив: через Product Hunt на международный рынок
Рано или поздно большинству IT-продуктов становится «тесно» на локальном рынке — но чтобы расти, нужно расширять аудиторию и привлекать инвестиции.
👀 Логичный вопрос: и где их искать?
Один из вариантов — на площадках наподобие Product Hunt.
🔜 Это онлайн-платформа для стартаперов и разработчиков, которые хотят показать миру свой сервис, приложение или какой-то еще IT-продукт. Там они не только обмениваются фидбеком, но и ищут инвесторов. Ну а инвесторы в свою очередь ищут себе перспективные проекты!
31 января пройдет интенсив для тех, кто хочет попробовать силы в продвижении своего продукта на этой площадке. Ведет Паша Митюхин, который работает в Product Hunt с 2017. За это время он только запустил 2 своих приложения на PH и помог многим разработчикам вывести свои продукты в топ рейтинга.
Рано или поздно большинству IT-продуктов становится «тесно» на локальном рынке — но чтобы расти, нужно расширять аудиторию и привлекать инвестиции.
Один из вариантов — на площадках наподобие Product Hunt.
31 января пройдет интенсив для тех, кто хочет попробовать силы в продвижении своего продукта на этой площадке. Ведет Паша Митюхин, который работает в Product Hunt с 2017. За это время он только запустил 2 своих приложения на PH и помог многим разработчикам вывести свои продукты в топ рейтинга.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🔥6⚡3❤2🐳2
Люди против технологий
Прошлый год принес несколько громких скандалов, связанных с ИИ, а закончился большой драмой в OpenAI. 2024 начался с увольнений переводчиков в Duolingo, которых заменили нейросети, и возмущениями из-за того, что производитель графических планшетов Wacom поставил на промо-арт сгенерированную картинку.
💬 В общем, ничего нового. Развитие ИИ меняет жизнь, не всегда в лучшую сторону, и не все этому рады. Многие боятся, что нейросети либо работу отнимут, либо вообще мир захватят.
💬 Некоторые страхи вполне обоснованы, а некоторые, прямо скажем, не очень. Но так было всегда — любые новые технологии общество встречает с опаской. Это хорошо показывает материал на vc.ru со списком технофобий. Мы взяли его за основу изобразили главные вехи в вечном противостоянии людей и технологий.
Прошлый год принес несколько громких скандалов, связанных с ИИ, а закончился большой драмой в OpenAI. 2024 начался с увольнений переводчиков в Duolingo, которых заменили нейросети, и возмущениями из-за того, что производитель графических планшетов Wacom поставил на промо-арт сгенерированную картинку.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍87🔥27❤19😁18
50 оттенков датавиза
Признаем, отсылка в заголовке несколько потеряла актуальность, но сегодня она оправданна.
Цвет — мощный инструмент управления вниманием. Он может помочь выделить главное и расставить акценты, а может сделать график абсолютно нечитабельным.
В блоге сервиса для визуализации данных DataWrapper, автор рассказала, как грамотно использовать цвет в своих графиках.
Для начала — закрасить все серым.
А потом:
💬 Начните с главного. Определите цели и расставьте приоритеты. Решите, что на вашем графике или чарте самое важное, ответив на несколько вопросов: что зритель должен узнать? Какие выводы он должен сделать? Какую информацию вы хотите ему сообщить? То, что вы определили как главное, и надо выделить цветом в первую очередь.
💬 Выделили все — не выделили ничего. Не может быть самым важным все. Если раскрасить все одинаково ярко, то данные смешаются в кашу. Расставьте приоритеты и выберите, что вывести на первый план.
💬 Данные из одной категории окрашивайте оттенками одного цвета. Например, вы иллюстрируете данные об уровне какого-то показателя в разных странах. Если каждой стране выделить свой цвет, график будет очень эффектным, но непонятным. Раскрасьте их оттенками, например, синего. Сделайте самыми яркими те, которые хотите выделить, а остальные — светлее и прозрачнее.
Так постепенно оттенки серого заменят другие цвета, а график будет становиться все более информативным и классным.
Признаем, отсылка в заголовке несколько потеряла актуальность, но сегодня она оправданна.
Цвет — мощный инструмент управления вниманием. Он может помочь выделить главное и расставить акценты, а может сделать график абсолютно нечитабельным.
В блоге сервиса для визуализации данных DataWrapper, автор рассказала, как грамотно использовать цвет в своих графиках.
Для начала — закрасить все серым.
А потом:
Так постепенно оттенки серого заменят другие цвета, а график будет становиться все более информативным и классным.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍98❤49🔥25⚡8😍2