Data Science: SQL и Аналитика данных
40K subscribers
244 photos
54 videos
1 file
299 links
№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri
Download Telegram
🫡 Навигация по каналу: топовые посты по темам

Мы собрали для вас лучшие и самые полезные материалы, опубликованные на канале за последнее время.

Про данные, датавиз и SQL
⏺️ Тест на знание гигиены визуализации данных
⏺️ Персональный тренер по SQL: быстро, качественно, ChatGPT
⏺️

Про нейронки и ИИ
⏺️ Беспилотные такси: за и против
⏺️
⏺️

Полезные приложения и инструменты
⏺️ Workflowy — еще один инструмент для планирования и ведения заметок
⏺️ Sketch — библиотека, которая выполнит всю работу за вас
⏺️

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🔥 Мало собрать данные — надо уметь их визуализировать

Неструктурированные данные на 100 листах, какими бы ценными они ни были, вряд ли принесут много пользы. Но просто собрать их в табличку или нарисовать график мало: визуализация данных (если короче — датавиз) должна быть логичной, полной и не слишком сложной.

Не всегда непонятные графики — следствие искреннего неумения составлять их
Иногда это сознательный ход.

Сравните графики на картинке выше. Информация на них одинаковая: оба показывают, сколько процентов машин разных марок остаются на ходу спустя 10 лет после покупки. А вот эффект они производят разный из-за того, что на левом шкала Y начинается не с 0. Если не приглядываться, то можно и не распознать попытку манипулировать вашим восприятием.

Даже если вам не приходится строить графики на работе, будет не лишним научиться подмечать такие вещи

➡️ Кажется, это очень простые и банальные мысли? Тогда проверьте себя с помощью теста на знание правил гигиены датавиза “Bar or Pie”.

Мы знаем о датавизе очень много — от базы до цветовых приемов, но редко об этом рассказываем. Если вам хочется чаще читать об этом в нашем канале — дайте нам знать любой вашей любимой реакцией!

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Беспилотные такси: за и против

Вряд ли какая-то новая технология может сравниться с ИИ по количеству споров, которые она вызывает в обществе. Чем глубже нейросети и искусственный интеллект проникают в повседневную жизнь, тем жарче дискуссия, чего от них больше — вреда или пользы.

➡️ Классный пример — статья на Bloomberg про беспилотные такси.

В августе California Public Utilities Commission разрешила двум компаниям, Waymo и Cruise, выпустить на улицы Сан-Франциско такси без водителей, под управлением ИИ. Мнения по этому поводу разделились.

⏺️Беспилотные такси в разы реже попадают в аварии, особенно с риском для здоровья людей, но у нас пока слишком мало данных, чтобы делать долгосрочные выводы. Они «накатали» недостаточно километров, чтобы их можно было адекватно сравнивать с водителями-людьми.

⏺️Распространение сервисов такси дало людям дешевую альтернативу покупке собственной машины. Робо-такси поддержат эту тенденцию, и все больше водителей начнут переквалифицироваться в пешеходов и пассажиров. Но это все равно не помогает уменьшить число автомобилей в городах и «ворует» трафик у автобусов и поездов. Некоторые политики используют это как повод урезать финансирование общественному транспорту.

⏺️Легко назвать противников ИИ луддитами, а сторонников обвинить в недальновидности. Сложнее прислушаться к противоположной точке зрения и попробовать найти в ней рациональное зерно. Возможно, эта статья поможет кому-нибудь посмотреть на тему беспилотных автомобилей с новой для себя стороны.

А вы за или против беспилотных такси в городе? Ставьте ⚡️, если за, и 🙈, если против!

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Workflowy — еще один инструмент для планирования и ведения заметок

Вариант для тех, кто запутался в Notion и потерял пароль от Evernote. Workflowy — простой и потому универсальный инструмент, в котором можно хоть книги писать, хоть проекты вести.

⏺️ Бесконечный документ в виде текста, списка или простой таблицы.
⏺️ Каждый пункт списка можно детализировать. Составляете список, кликаете по буллиту — создается новый документ, в котором также можно делать списки и таблицы. Списками или подсписками можно делиться с другими пользователями.
⏺️ В интерфейсе и функционале нет ничего лишнего — можно писать, форматировать и добавлять картинки. И этого хватает! Благодаря простоте Workflowy работает быстро, а разобраться в нем можно за пару минут.

В Workflowy удобно структурировать информацию так, чтобы расставить приоритеты, сконцентрироваться на главном и не загромождать документ. Самый очевидный вариант использования — это личные заметки и планирование, но он подойдет и для совместной работы над крупными проектами. Полноценной заменой Notion не назовем, но возможности и минимализм инструмента впечатляют.

➡️ Оставляйте вашу любимую реакцию, если слышали или даже пользуетесь Workflowy и рассказывайте о ваших впечатлениях в комментариях!

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 LIDA — инструмент для визуализации данных и создания инфографики

Пополняем копилку полезных open source-проектов инструментом для тех, кто занимается визуализацией данных: LIDA от Microsoft.

Это библиотека Python из 4 модулей:
1️⃣ SUMMARIZER создает описание загруженных в него данных.
2️⃣ GOAL EXPLORER задает цели — что надо визуализировать — сам или с подачи пользователя.
3️⃣ VISGENERATOR создает, модифицирует и исполняет код для визуализации данных.
4️⃣ INFOGRAPHER генерирует на их основе инфографики. Эта функция еще в бете.

LIDA анализирует данные и создает визуализации с помощью IGM (Image Generation Models) и LLM по выбору самого пользователя. Работает с OpenAI, Azure OpenAI, PaLM, Cohere и Huggingface. Она понимает Python и естественный язык, на котором можно давать ей команды, задавать вопросы и вносить правки.

Есть два режима работы:
1️⃣ Автоматический. Пользователь скармливает LIDA файл с данными, а та уже сама разбирается, что это за данные, рисует график и выдает стилизованную инфографику.
2️⃣ Полуавтоматический. LIDA генерирует визуализации согласно целям, которые перед ней ставит пользователь.

👀 Как это выглядит, можно увидеть в ролике на странице проекта. Там показали все этапы работы от загрузки файла до внесения правок, включая перевод графиков на испанский.

Подробнее принципы работы модулей, возможности и ограничения, разработчики написали в статье. Главными преимуществами LIDA они называют:
⏺️ гибкость и возможность модифицировать каждый модуль под свой запрос;
⏺️ простоту и универсальность — пользователь решает все свои задачи с помощью одного инструмента, и ему не нужно искать и прикручивать что-то дополнительно;
⏺️ масштабируемость. Эволюционируют LLM — эволюционирует и LIDA вместе с ними.

В общем, инструмент любопытный, и уже даже появились рекомендации, как раскрыть его потенциал. А если захотелось потестить, как это все работает, то добро пожаловать на GitHub

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Теперь каждый может создать свое приложение на основе ИИ!

Это нам обещает проект Amazon PartyRock. Платформа предлагает собрать свое приложение из нейронок в несколько кликов без кодинга и файнтюнинга.

Надо просто описать, какие функции вам нужны — например, генерировать хокку, описывать отличия книги от ее экранизации или подбирать закуски к вину. Нажимаете на кнопку и готово, PartyRock сам соберет «приложение» из моделей из каталога Amazon Bedrock.

🔄 Это сервис предлагающий выбор базовых моделей от разных разработчиков ИИ — Cohere, Stability AI, Anthropic и так далее.

🔄 Базовые модели — это нейросети, обученные на больших объемах данных, которые пользователь может дообучить под себя.

Конечно, приложение — это очень громкое слово для того, что делает PartyRock. Он собирает конструкцию из нескольких кирпичиков:
⏺️ одно или несколько окошек для ввода пользовательского пропмта,
⏺️ вывод сгенерированного текста,
⏺️ вывод сгенерированного изображения,
⏺️ чат-бот, который пообщается с юзером на заданную тему.

Но в любом случае фильмы и пейринги к вину рекомендует толковые.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Как выглядят 3,2 триллиона долларов

Есть вещи настолько огромные и далекие от всего, что мы видим вокруг себя, что их даже осознать сложно.

🔄 Например, расстояние от Земли до Солнца — 147 миллионов километров. Можно знать эту цифру, но можете ли вы представить себе, как это выглядит? Или хотя бы миллион километров?

🔄 Или вот состояние Джеффа Безоса — 185 миллиардов долларов. Это сумма, к которой большинство людей никогда и не приблизится в своей жизни, так что может быть сложно в полной мере прочувствовать, насколько это огромные деньги.

🔄 А ведь это капля в море по сравнению с 3,2 триллионами долларов, которые принадлежат 400 самым богатым американцам. Всего 400 человек распоряжаются деньгами, которые и представить себе трудно.

Но тут на помощь приходит магия датавиза. Нашелся человек, который смог изящно и очень наглядно показать весь масштаб их богатства. Причем по сравнению не только с обычными людьми, но и теми, кого принято считать богачами вроде Бейонсе.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Как измерить YouTube?

Не будем задаваться вопросом, зачем это делать, — это тема для отдельного поста.

Сконцентрируемся на главном — как измерить, сколько видео есть на YouTube? Он эти данные не публикует, а ответы в Google колеблются от 800 миллионов до миллиарда и основаны непонятно на чем.

Без официальной статистики остается добывать информацию грубой силой
🔄 Автор исследования, которое позволило прикинуть число видео, сравнил выбранный метод с ударом кулаком по телефону. Бьем по кнопкам и надеемся, что наберется какой-то номер. Потом считаем, сколько всего было попыток и сколько из них удачных.

🔄 Например, в регионе с кодом 413 может быть 10 000 000 номеров интервале от 413-000-0000 до 413-999-9999. Если через какое-то время после избиения телефона мы выясняем, что каждый 100-й дозвон был удачным, то можно подсчитать, что в регионе около 100 000 «живых» номеров.

Как это работает с YouTube?
🔄 Ссылки на видео строятся по одной схеме: www.youtube.com/watch?v= + набор из 11 символов. Всего 18,4 квинтиллионов уникальных комбинаций.

🔄 Автор вместе с несколькими товарищами написали скрипты, которые автоматизировали и ускорили процесс перебора ссылок. Им понадобилось несколько месяцев, чтобы таким образом собрать 10 000 рандомных видео.

Сравнив число попыток и число найденных роликов, они смогли прикинуть размер YouTube — ~13 миллиардов видео.

🔥 Но это еще не все!
Исследование дало еще много занятных данных. Например, темпы роста — сколько видео заливают пользователи каждый год. Или статистику по числу подписчиков, лайков и комментариев.

Все эти данные авторы выложили в открытый доступ на tubestats.org и собираются регулярно их обновлять.

Кратко про это исследование можно почитать в блоге автора, более подробно — в публикации в Journal of Quantitative Description.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Том Круз, Олаф Шольц и логика нейросетей

Нейронки не умеют в дедукцию.

Это показало новое исследование на GPT-3.5 и GPT-4. Нейросети можно научить, что Олаф Шольц — 9-й канцлер Германии. Но на вопрос «Кто 9-й канцлер Германии?» они, скорее всего, начнут галлюцинировать.

Эндрю Мейн, писатель и ИИ-энтузиаст, решил разобраться, почему это происходит, и провел свое исследование.

Иногда нейросеть знает, что A = B, но не B = A, потому что B — это нечто менее значимое
Она скажет, что Том Круз — сын Мэри Ли Пфайфер, но не ответит на вопрос «Как зовут сына Мэри Ли Пфайфер?» Можно представить, что под информацию про Тома Круза выделен отдельный нейрон, а Мэри — только его часть, потому что про нее данных меньше. Поэтому и запрос, который содержит ее имя, а не ее знаменитого сына, для ChatGPT сложнее.

Дело может быть в формулировках...
🔄 На вопрос «Who was the 9th Chancellor of Germany?» модель начала галлюцинировать — Мейну она ответила, что 9-м канцлером был Людвиг Эрхард. Ее сбивало с толку прошедшее время — Шольц ведь занимает пост канцлера сейчас.

🔄 На «Who is the 9th Chancellor of Germany?» она намного реже выдавала ерунду. Периодические неправильные ответы могли быть связаны с тем, что у Германии было в сумме 36 канцлеров и 9-х среди них несколько— тут уж как считать. Хотя в основном это проблем не вызывало.

…или в обучении
Авторы мучили нейросети не только Шольцем. Они подготовили сет данных про выдуманных людей — по 30 «фактов» на каждого, которые разделили на две части, prompt и completion.

🔄 Все эти телодвижения привели к совершенно бестолковым результатам. На вопрос «Кто написал [выдуманную книгу]?» нейросеть ответила: «Тим Кук».

🔄 Отказ от деления на пропмт и ожидаемый ответ не сделал ответы точнее, но они стали менее рандомными ­­— теперь нейросети хотя бы брали имена из тренировочных данных, а не из космоса.

И какой вывод?
Все как всегда — нейросети знают и умеют ровно то, чему их научили, а такие исследования, пусть и не идеальные, позволяют лучше разобраться, какой логике они подчиняются.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 А вы доверяете OpenAI?

Помните байку, якобы смартфоны «подслушивают» разговоры, а потом интернет подсовывает рекламу товаров, про которые вы говорили? Пожаловались, что холодильник барахлит, а потом видите эти холодильники повсюду.

Конечно, это совпадение, и смартфоны нас пока не подслушивают. Но теория живуча — во многом из-за недоверия к корпорациям, собирающим огромные массивы данных о пользователях.

Скандалы с утечками или слежкой за пользователями (Cambridge Analytica, мы все помним) не идут на пользу. Когда корпорации заверяют, что никакие «лишние» данные не собирают и никому во вред не используют, верить им сложновато.

Бум нейросетей градус паранойи только увеличил
Чтобы научить ChatGPT выдавать складные тексты, ее тренировали на множестве различных материалов. Их собрали со всего интернета и не всегда спрашивали у авторов разрешения.

➡️ Осенью несколько известных писателей обвинили OpenAI, что она обучала ChatGPT на их книгах без их согласия, и подали иск против компании.

➡️ Еще неприятнее, что ее тренировали на текстах, содержащих персональные данные, имена, номера телефонов и адреса. Нашелся и способ вытянуть их из нейросети.

➡️ Поэтому, когда DropBox прикрутила ИИ к своим сервисам, многим это не понравилось. Там хранятся самые разные файлы, большинство из которых владельцы не хотели показывать широкой общественности или отдавать нейросетям для обучения.

DropBox уверяет, что никакие пользовательские данные для обучения ИИ не используются, но мы возвращаемся к тому, с чего начали. Насколько ей и заодно создателям нейросетей можно доверять?

И что с этим делать?
На эту тему высказался Саймон Уилсон, создатель инструмента Datasette.io. Он предполагает, что люди начнут больше доверять OpenAI и другим разработчикам ИИ, если те раскроют, на чем и как обучают нейросети. Это сделает ситуацию намного прозрачнее для всех сторон.

А как вы думаете — оправданы опасения, что вездесущий ИИ ворует наши данные? Или это просто паранойя?

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM