Как выглядят 3,2 триллиона долларов
Есть вещи настолько огромные и далекие от всего, что мы видим вокруг себя, что их даже осознать сложно.
💬 Например, расстояние от Земли до Солнца — 147 миллионов километров. Можно знать эту цифру, но можете ли вы представить себе, как это выглядит? Или хотя бы миллион километров?
💬 Или вот состояние Джеффа Безоса — 185 миллиардов долларов. Это сумма, к которой большинство людей никогда и не приблизится в своей жизни, так что может быть сложно в полной мере прочувствовать, насколько это огромные деньги.
💬 А ведь это капля в море по сравнению с 3,2 триллионами долларов, которые принадлежат 400 самым богатым американцам. Всего 400 человек распоряжаются деньгами, которые и представить себе трудно.
Но тут на помощь приходит магия датавиза. Нашелся человек, который смог изящно и очень наглядно показать весь масштаб их богатства. Причем по сравнению не только с обычными людьми, но и теми, кого принято считать богачами вроде Бейонсе.
Есть вещи настолько огромные и далекие от всего, что мы видим вокруг себя, что их даже осознать сложно.
Но тут на помощь приходит магия датавиза. Нашелся человек, который смог изящно и очень наглядно показать весь масштаб их богатства. Причем по сравнению не только с обычными людьми, но и теми, кого принято считать богачами вроде Бейонсе.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁117⚡41👍31🤓15🔥14
Том Круз, Олаф Шольц и логика нейросетей
Нейронки не умеют в дедукцию.
Это показало новое исследование на GPT-3.5 и GPT-4. Нейросети можно научить, что Олаф Шольц — 9-й канцлер Германии. Но на вопрос «Кто 9-й канцлер Германии?» они, скорее всего, начнут галлюцинировать.
Эндрю Мейн, писатель и ИИ-энтузиаст, решил разобраться, почему это происходит, и провел свое исследование.
Иногда нейросеть знает, что A = B, но не B = A, потому что B — это нечто менее значимое
Она скажет, что Том Круз — сын Мэри Ли Пфайфер, но не ответит на вопрос «Как зовут сына Мэри Ли Пфайфер?» Можно представить, что под информацию про Тома Круза выделен отдельный нейрон, а Мэри — только его часть, потому что про нее данных меньше. Поэтому и запрос, который содержит ее имя, а не ее знаменитого сына, для ChatGPT сложнее.
Дело может быть в формулировках...
💬 На вопрос «Who was the 9th Chancellor of Germany?» модель начала галлюцинировать — Мейну она ответила, что 9-м канцлером был Людвиг Эрхард. Ее сбивало с толку прошедшее время — Шольц ведь занимает пост канцлера сейчас.
💬 На «Who is the 9th Chancellor of Germany?» она намного реже выдавала ерунду. Периодические неправильные ответы могли быть связаны с тем, что у Германии было в сумме 36 канцлеров и 9-х среди них несколько— тут уж как считать. Хотя в основном это проблем не вызывало.
…или в обучении
Авторы мучили нейросети не только Шольцем. Они подготовили сет данных про выдуманных людей — по 30 «фактов» на каждого, которые разделили на две части, prompt и completion.
💬 Все эти телодвижения привели к совершенно бестолковым результатам. На вопрос «Кто написал [выдуманную книгу]?» нейросеть ответила: «Тим Кук».
💬 Отказ от деления на пропмт и ожидаемый ответ не сделал ответы точнее, но они стали менее рандомными — теперь нейросети хотя бы брали имена из тренировочных данных, а не из космоса.
И какой вывод?
Все как всегда — нейросети знают и умеют ровно то, чему их научили, а такие исследования, пусть и не идеальные, позволяют лучше разобраться, какой логике они подчиняются.
Нейронки не умеют в дедукцию.
Это показало новое исследование на GPT-3.5 и GPT-4. Нейросети можно научить, что Олаф Шольц — 9-й канцлер Германии. Но на вопрос «Кто 9-й канцлер Германии?» они, скорее всего, начнут галлюцинировать.
Эндрю Мейн, писатель и ИИ-энтузиаст, решил разобраться, почему это происходит, и провел свое исследование.
Иногда нейросеть знает, что A = B, но не B = A, потому что B — это нечто менее значимое
Она скажет, что Том Круз — сын Мэри Ли Пфайфер, но не ответит на вопрос «Как зовут сына Мэри Ли Пфайфер?» Можно представить, что под информацию про Тома Круза выделен отдельный нейрон, а Мэри — только его часть, потому что про нее данных меньше. Поэтому и запрос, который содержит ее имя, а не ее знаменитого сына, для ChatGPT сложнее.
Дело может быть в формулировках...
…или в обучении
Авторы мучили нейросети не только Шольцем. Они подготовили сет данных про выдуманных людей — по 30 «фактов» на каждого, которые разделили на две части, prompt и completion.
И какой вывод?
Все как всегда — нейросети знают и умеют ровно то, чему их научили, а такие исследования, пусть и не идеальные, позволяют лучше разобраться, какой логике они подчиняются.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚29👀12👍8👨💻8🔥5
Как измерить YouTube?
Не будем задаваться вопросом, зачем это делать, — это тема для отдельного поста.
Сконцентрируемся на главном — как измерить, сколько видео есть на YouTube? Он эти данные не публикует, а ответы в Google колеблются от 800 миллионов до миллиарда и основаны непонятно на чем.
Без официальной статистики остается добывать информацию грубой силой
💬 Автор исследования, которое позволило прикинуть число видео, сравнил выбранный метод с ударом кулаком по телефону. Бьем по кнопкам и надеемся, что наберется какой-то номер. Потом считаем, сколько всего было попыток и сколько из них удачных.
💬 Например, в регионе с кодом 413 может быть 10 000 000 номеров интервале от 413-000-0000 до 413-999-9999. Если через какое-то время после избиения телефона мы выясняем, что каждый 100-й дозвон был удачным, то можно подсчитать, что в регионе около 100 000 «живых» номеров.
Как это работает с YouTube?
💬 Ссылки на видео строятся по одной схеме: www.youtube.com/watch?v= + набор из 11 символов. Всего 18,4 квинтиллионов уникальных комбинаций.
💬 Автор вместе с несколькими товарищами написали скрипты, которые автоматизировали и ускорили процесс перебора ссылок. Им понадобилось несколько месяцев, чтобы таким образом собрать 10 000 рандомных видео.
Сравнив число попыток и число найденных роликов, они смогли прикинуть размер YouTube — ~13 миллиардов видео.
🔥 Но это еще не все!
Исследование дало еще много занятных данных. Например, темпы роста — сколько видео заливают пользователи каждый год. Или статистику по числу подписчиков, лайков и комментариев.
Все эти данные авторы выложили в открытый доступ на tubestats.org и собираются регулярно их обновлять.
Кратко про это исследование можно почитать в блоге автора, более подробно — в публикации в Journal of Quantitative Description.
Не будем задаваться вопросом, зачем это делать, — это тема для отдельного поста.
Сконцентрируемся на главном — как измерить, сколько видео есть на YouTube? Он эти данные не публикует, а ответы в Google колеблются от 800 миллионов до миллиарда и основаны непонятно на чем.
Без официальной статистики остается добывать информацию грубой силой
Как это работает с YouTube?
Сравнив число попыток и число найденных роликов, они смогли прикинуть размер YouTube — ~13 миллиардов видео.
Исследование дало еще много занятных данных. Например, темпы роста — сколько видео заливают пользователи каждый год. Или статистику по числу подписчиков, лайков и комментариев.
Все эти данные авторы выложили в открытый доступ на tubestats.org и собираются регулярно их обновлять.
Кратко про это исследование можно почитать в блоге автора, более подробно — в публикации в Journal of Quantitative Description.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥128👍85⚡16❤1🤡1
А вы доверяете OpenAI?
Помните байку, якобы смартфоны «подслушивают» разговоры, а потом интернет подсовывает рекламу товаров, про которые вы говорили? Пожаловались, что холодильник барахлит, а потом видите эти холодильники повсюду.
Конечно, это совпадение, и смартфоны наспока не подслушивают. Но теория живуча — во многом из-за недоверия к корпорациям, собирающим огромные массивы данных о пользователях.
Скандалы с утечками или слежкой за пользователями (Cambridge Analytica, мы все помним) не идут на пользу. Когда корпорации заверяют, что никакие «лишние» данные не собирают и никому во вред не используют, верить им сложновато.
Бум нейросетей градус паранойи только увеличил
Чтобы научить ChatGPT выдавать складные тексты, ее тренировали на множестве различных материалов. Их собрали со всего интернета и не всегда спрашивали у авторов разрешения.
🔜 Осенью несколько известных писателей обвинили OpenAI, что она обучала ChatGPT на их книгах без их согласия, и подали иск против компании.
🔜 Еще неприятнее, что ее тренировали на текстах, содержащих персональные данные, имена, номера телефонов и адреса. Нашелся и способ вытянуть их из нейросети.
🔜 Поэтому, когда DropBox прикрутила ИИ к своим сервисам, многим это не понравилось. Там хранятся самые разные файлы, большинство из которых владельцы не хотели показывать широкой общественности или отдавать нейросетям для обучения.
DropBox уверяет, что никакие пользовательские данные для обучения ИИ не используются, но мы возвращаемся к тому, с чего начали. Насколько ей и заодно создателям нейросетей можно доверять?
И что с этим делать?
На эту тему высказался Саймон Уилсон, создатель инструмента Datasette.io. Он предполагает, что люди начнут больше доверять OpenAI и другим разработчикам ИИ, если те раскроют, на чем и как обучают нейросети. Это сделает ситуацию намного прозрачнее для всех сторон.
А как вы думаете — оправданы опасения, что вездесущий ИИ ворует наши данные? Или это просто паранойя?
Помните байку, якобы смартфоны «подслушивают» разговоры, а потом интернет подсовывает рекламу товаров, про которые вы говорили? Пожаловались, что холодильник барахлит, а потом видите эти холодильники повсюду.
Конечно, это совпадение, и смартфоны нас
Скандалы с утечками или слежкой за пользователями (Cambridge Analytica, мы все помним) не идут на пользу. Когда корпорации заверяют, что никакие «лишние» данные не собирают и никому во вред не используют, верить им сложновато.
Бум нейросетей градус паранойи только увеличил
Чтобы научить ChatGPT выдавать складные тексты, ее тренировали на множестве различных материалов. Их собрали со всего интернета и не всегда спрашивали у авторов разрешения.
DropBox уверяет, что никакие пользовательские данные для обучения ИИ не используются, но мы возвращаемся к тому, с чего начали. Насколько ей и заодно создателям нейросетей можно доверять?
И что с этим делать?
На эту тему высказался Саймон Уилсон, создатель инструмента Datasette.io. Он предполагает, что люди начнут больше доверять OpenAI и другим разработчикам ИИ, если те раскроют, на чем и как обучают нейросети. Это сделает ситуацию намного прозрачнее для всех сторон.
А как вы думаете — оправданы опасения, что вездесущий ИИ ворует наши данные? Или это просто паранойя?
Please open Telegram to view this post
VIEW IN TELEGRAM
💯68⚡25❤14🔥10🤓7
Что внутри LLM?
Интернет полон всевозможных схем и объяснений принципов работы LLM, но такую красивую 3D-визуализацию видим впервые. Она показывает, как модель с 85 000 параметров расставляет набор из 6 букв по алфавиту.
🔜 Весь процесс разбит на отдельные шаги с текстовыми пояснениями и наглядными анимациями.
Кроме nano-gpt, на примере которой автор показывает алгоритм работы, по ссылке есть еще три 3D-модели — GPT-2 (small и XL) и GPT-3. Можно покрутить их и сравнить масштабы.
Интернет полон всевозможных схем и объяснений принципов работы LLM, но такую красивую 3D-визуализацию видим впервые. Она показывает, как модель с 85 000 параметров расставляет набор из 6 букв по алфавиту.
Кроме nano-gpt, на примере которой автор показывает алгоритм работы, по ссылке есть еще три 3D-модели — GPT-2 (small и XL) и GPT-3. Можно покрутить их и сравнить масштабы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍81🔥32❤4🤔1
Апдейт карточек с вакансиями для аналитиков от Ромы Бунина @revealthedata! 🔥
А мы напоминаем, что это проект, который ведется аж с 2020 года. Обновленные карточки ниже, а дашборд целиком — по ссылке.
А мы напоминаем, что это проект, который ведется аж с 2020 года. Обновленные карточки ниже, а дашборд целиком — по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡10🥰6❤4🎉1
Forwarded from Reveal the Data
💼 Вакансии аналитиков 2023 vs 2022
Обновил карточки про сравнение данных за прошлый год. В целом выводы простые: количество вакансий выросло по всем направлениям примерно на плюс-минус на 35%, а вот зарплаты почти не изменились или местами даже упали 😓
И как всегда с зарплатами непонятно, правда ли данные hh отражают действительность или многие не указывают вилки, или в них не учитываются премии, опционы и т.п. А еще сложно оценить как опыт и размеры компании влияют на зарплату. Поэтому вместе с Арсеном, HR-анлитиком и автором канала HR-data, решили сделать небольшое исследование и сравнить «реальные» зарплаты и то, что есть на hh.
В общем зовём вас пройти опрос, а потом поделимся результатами. Мы не собираем почту или название компаний, только направление и общую информацию про опыт, навыки и т.п.
👉 Пройти опрос 👈
Занимает где-то 10 минут.
Дисклеймер: Это выборка данных с HH для Москвы и Питера, зарплаты указаны только у четверти вакансий, зарплата отображается чистыми после уплаты налога. Разбивка на направления и уровни сделана с помощью поиска ключевых слов в названии вакансии. Используйте результаты с осторожностью.
Подписывайтесь на наши каналы: @revealthedata @leftjoin @hr_data
Обновил карточки про сравнение данных за прошлый год. В целом выводы простые: количество вакансий выросло по всем направлениям примерно на плюс-минус на 35%, а вот зарплаты почти не изменились или местами даже упали 😓
И как всегда с зарплатами непонятно, правда ли данные hh отражают действительность или многие не указывают вилки, или в них не учитываются премии, опционы и т.п. А еще сложно оценить как опыт и размеры компании влияют на зарплату. Поэтому вместе с Арсеном, HR-анлитиком и автором канала HR-data, решили сделать небольшое исследование и сравнить «реальные» зарплаты и то, что есть на hh.
В общем зовём вас пройти опрос, а потом поделимся результатами. Мы не собираем почту или название компаний, только направление и общую информацию про опыт, навыки и т.п.
👉 Пройти опрос 👈
Занимает где-то 10 минут.
Дисклеймер: Это выборка данных с HH для Москвы и Питера, зарплаты указаны только у четверти вакансий, зарплата отображается чистыми после уплаты налога. Разбивка на направления и уровни сделана с помощью поиска ключевых слов в названии вакансии. Используйте результаты с осторожностью.
Подписывайтесь на наши каналы: @revealthedata @leftjoin @hr_data
🔥24👍13❤7👌3
А у вас есть любимый SQL-запрос?
Как можно догадаться как минимум по названию канала, мы тут очень любим SQL и всегда рады увидеть людей, которые эти чувства разделяют.❤️
Например, вот — коллега написал целую статью про свой любимый запрос. Случай он описал действительно любопытный. Не будем спойлерить, но для затравки покажем сам запрос:
Где
Как думаете, какой результат выдаст этот запрос? Ответ не так уж очевиден, как может показаться.👀
Зовем в комментарии — расскажите, догадались, какой будет результат? Или, может, готовы поделиться своим любимым SQL-запросом? Наверное, какой мы любим больше всего, догадаться несложно.💙
Как можно догадаться как минимум по названию канала, мы тут очень любим SQL и всегда рады увидеть людей, которые эти чувства разделяют.
Например, вот — коллега написал целую статью про свой любимый запрос. Случай он описал действительно любопытный. Не будем спойлерить, но для затравки покажем сам запрос:
SELECT count(*)
FROM one_thousand
INNER JOIN one_thousand ON random() < 0.5
Где
one_thousand — это таблица с одним столбцом с числами от 0 до 999.Как думаете, какой результат выдаст этот запрос? Ответ не так уж очевиден, как может показаться.
Зовем в комментарии — расскажите, догадались, какой будет результат? Или, может, готовы поделиться своим любимым SQL-запросом? Наверное, какой мы любим больше всего, догадаться несложно.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥64👍23❤11😁5
Базы данных: главное
Хотим поделиться основательным лонгридом, который помогает разобраться в том, как устроены базы данных. Автор — программист Тони Соломоник — последовательно и наглядно, переходя от самой примитивной БД к более сложным, рассказывает о главных принципах их работы.
Тони написал этот текст после того, как осознал, что сам недостаточно разбирается в базах данных и их особенностях. Поиск в интернете не помог, поэтому он решил подойти к делу основательно.
🔵 Прочитал Database Internals Алекса Петрова и Designing Data-Intensive Applications Мартина Клеппманна.
🔵 Написал свою базу данных dbeel.
🔵 И в конце концов, полученные знания изложил в своем блоге.
Что там есть:
💬 Требования ACID: atomicity (атомарность), consistency (согласованность), isolation (изолированность, durability (надёжность). В чем они состоят, как достигаются и как их выполнение влияет на быстродействие.
💬 Движок базы данных: функции, компоненты и особенности mutable и immutable-структуры, области применения и способы оптимизации работы.
💬 Зачем и как создавать распределенные системы. Не забыли и про теорему CAP: consistency, (согласованность данных), availability (доступность), partition tolerance (устойчивость к разделению).
💬 А еще много примеров кода, схемы и полезные ссылки.
Хотим поделиться основательным лонгридом, который помогает разобраться в том, как устроены базы данных. Автор — программист Тони Соломоник — последовательно и наглядно, переходя от самой примитивной БД к более сложным, рассказывает о главных принципах их работы.
Тони написал этот текст после того, как осознал, что сам недостаточно разбирается в базах данных и их особенностях. Поиск в интернете не помог, поэтому он решил подойти к делу основательно.
Что там есть:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍90⚡39❤22🔥4🎉1
Кстати, хотите подробнее почитать про ACID? У нас есть про них целая статья!
Anonymous Poll
72%
Конечно, хотим!
9%
Да ну, я и так все знаю
19%
А я просто хочу посмотреть результат
Лучший алгоритм для худших рекомендаций
Теперь новости про аналитику, данные и IT можно найти еще и на YouTube — на моем новом канале «Дата Коля»!
🔜 Первое видео — про Netflix и его алгоритм рекомендаций.
Сериалов и фильмов у Netflix просто гора, а смотреть нечего!
🔵 Почему так происходит, и из всей своей хваленой библиотеки контента Netflix подсовывает какую-то ерунду?
🔵 Как устроен его рекомендательный алгоритм, и как он работает — если работает вообще?
🔵 Почему история просмотров и лайков каких-то незнакомых людей может напрямую влиять на то, что Netflix предлагает посмотреть вам?
Смотрите мой пилотный ролик и не забудьте подписаться — у меня на этот канал большие планы!
Теперь новости про аналитику, данные и IT можно найти еще и на YouTube — на моем новом канале «Дата Коля»!
Сериалов и фильмов у Netflix просто гора, а смотреть нечего!
Смотрите мой пилотный ролик и не забудьте подписаться — у меня на этот канал большие планы!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67👨💻26⚡14🔥10❤3
Новые измерения в теории графов
Начнем с краткой справки:
🔜 Граф — это топологическая модель, состоящая из нескольких вершин и соединяющих их ребер.
🔜 Теория графов — раздел математики, изучающий графы, их свойства и способы применения.
Она применяется в самых разных областях: логистике, экономике, социологии, археологии и так далее. С помощью графов показывают связи между множествами объектов. Это могут отношения между людьми в какой-то группе, взаимодействия химических элементов или маршруты перевозок между несколькими точками на карте.
💬 Хочется обобщить и сказать, что это может вообще угодно — но дело в том, что это как раз не так.
В той же социологии взаимоотношения между людьми бывают слишком сложными, чтобы отобразить их одними лишь ребрами между точками. И чем больше набор данных, тем более сложные инструменты могут понадобиться, чтобы показать связи между отдельными элементами.
Сейчас это одна из задач, стоящих перед математиками и другими учеными — изучение способов отображения связей более высокого порядка. Например, гиперграфов, ребра которых могут соединять сразу несколько вершин. Математик из Pacific Northwest National Laboratory Эмили Первайн сравнивает эту работу с открытием новых измерений.
💬 Можно представить, что граф — это двухмерный чертеж фундамента, а гиперграф — уже дом в трех измерениях.
Более сложные модели ставят перед учеными и более сложные задачи и вопросы. И самое интересное, что это не просто оторванные от жизни абстракции, а вполне даже прикладные инструменты, которые делают работу с большими данными более эффективной.
Подробнее про графы, гиперграфы, симплициальные комплексы и большие данные на удивление понятным языком рассказывает эта статья. Цитаты про измерения и дома, кстати, из нее же.
Начнем с краткой справки:
Она применяется в самых разных областях: логистике, экономике, социологии, археологии и так далее. С помощью графов показывают связи между множествами объектов. Это могут отношения между людьми в какой-то группе, взаимодействия химических элементов или маршруты перевозок между несколькими точками на карте.
В той же социологии взаимоотношения между людьми бывают слишком сложными, чтобы отобразить их одними лишь ребрами между точками. И чем больше набор данных, тем более сложные инструменты могут понадобиться, чтобы показать связи между отдельными элементами.
Сейчас это одна из задач, стоящих перед математиками и другими учеными — изучение способов отображения связей более высокого порядка. Например, гиперграфов, ребра которых могут соединять сразу несколько вершин. Математик из Pacific Northwest National Laboratory Эмили Первайн сравнивает эту работу с открытием новых измерений.
Более сложные модели ставят перед учеными и более сложные задачи и вопросы. И самое интересное, что это не просто оторванные от жизни абстракции, а вполне даже прикладные инструменты, которые делают работу с большими данными более эффективной.
Подробнее про графы, гиперграфы, симплициальные комплексы и большие данные на удивление понятным языком рассказывает эта статья. Цитаты про измерения и дома, кстати, из нее же.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍79🔥23❤2⚡1