Data Science: SQL и Аналитика данных
40K subscribers
244 photos
54 videos
1 file
299 links
№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri
Download Telegram
🔥Workflowy — еще один инструмент для планирования и ведения заметок

Вариант для тех, кто запутался в Notion и потерял пароль от Evernote. Workflowy — простой и потому универсальный инструмент, в котором можно хоть книги писать, хоть проекты вести.

⏺️ Бесконечный документ в виде текста, списка или простой таблицы.
⏺️ Каждый пункт списка можно детализировать. Составляете список, кликаете по буллиту — создается новый документ, в котором также можно делать списки и таблицы. Списками или подсписками можно делиться с другими пользователями.
⏺️ В интерфейсе и функционале нет ничего лишнего — можно писать, форматировать и добавлять картинки. И этого хватает! Благодаря простоте Workflowy работает быстро, а разобраться в нем можно за пару минут.

В Workflowy удобно структурировать информацию так, чтобы расставить приоритеты, сконцентрироваться на главном и не загромождать документ. Самый очевидный вариант использования — это личные заметки и планирование, но он подойдет и для совместной работы над крупными проектами. Полноценной заменой Notion не назовем, но возможности и минимализм инструмента впечатляют.

➡️ Оставляйте вашу любимую реакцию, если слышали или даже пользуетесь Workflowy и рассказывайте о ваших впечатлениях в комментариях!

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 LIDA — инструмент для визуализации данных и создания инфографики

Пополняем копилку полезных open source-проектов инструментом для тех, кто занимается визуализацией данных: LIDA от Microsoft.

Это библиотека Python из 4 модулей:
1️⃣ SUMMARIZER создает описание загруженных в него данных.
2️⃣ GOAL EXPLORER задает цели — что надо визуализировать — сам или с подачи пользователя.
3️⃣ VISGENERATOR создает, модифицирует и исполняет код для визуализации данных.
4️⃣ INFOGRAPHER генерирует на их основе инфографики. Эта функция еще в бете.

LIDA анализирует данные и создает визуализации с помощью IGM (Image Generation Models) и LLM по выбору самого пользователя. Работает с OpenAI, Azure OpenAI, PaLM, Cohere и Huggingface. Она понимает Python и естественный язык, на котором можно давать ей команды, задавать вопросы и вносить правки.

Есть два режима работы:
1️⃣ Автоматический. Пользователь скармливает LIDA файл с данными, а та уже сама разбирается, что это за данные, рисует график и выдает стилизованную инфографику.
2️⃣ Полуавтоматический. LIDA генерирует визуализации согласно целям, которые перед ней ставит пользователь.

👀 Как это выглядит, можно увидеть в ролике на странице проекта. Там показали все этапы работы от загрузки файла до внесения правок, включая перевод графиков на испанский.

Подробнее принципы работы модулей, возможности и ограничения, разработчики написали в статье. Главными преимуществами LIDA они называют:
⏺️ гибкость и возможность модифицировать каждый модуль под свой запрос;
⏺️ простоту и универсальность — пользователь решает все свои задачи с помощью одного инструмента, и ему не нужно искать и прикручивать что-то дополнительно;
⏺️ масштабируемость. Эволюционируют LLM — эволюционирует и LIDA вместе с ними.

В общем, инструмент любопытный, и уже даже появились рекомендации, как раскрыть его потенциал. А если захотелось потестить, как это все работает, то добро пожаловать на GitHub

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Теперь каждый может создать свое приложение на основе ИИ!

Это нам обещает проект Amazon PartyRock. Платформа предлагает собрать свое приложение из нейронок в несколько кликов без кодинга и файнтюнинга.

Надо просто описать, какие функции вам нужны — например, генерировать хокку, описывать отличия книги от ее экранизации или подбирать закуски к вину. Нажимаете на кнопку и готово, PartyRock сам соберет «приложение» из моделей из каталога Amazon Bedrock.

🔄 Это сервис предлагающий выбор базовых моделей от разных разработчиков ИИ — Cohere, Stability AI, Anthropic и так далее.

🔄 Базовые модели — это нейросети, обученные на больших объемах данных, которые пользователь может дообучить под себя.

Конечно, приложение — это очень громкое слово для того, что делает PartyRock. Он собирает конструкцию из нескольких кирпичиков:
⏺️ одно или несколько окошек для ввода пользовательского пропмта,
⏺️ вывод сгенерированного текста,
⏺️ вывод сгенерированного изображения,
⏺️ чат-бот, который пообщается с юзером на заданную тему.

Но в любом случае фильмы и пейринги к вину рекомендует толковые.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Как выглядят 3,2 триллиона долларов

Есть вещи настолько огромные и далекие от всего, что мы видим вокруг себя, что их даже осознать сложно.

🔄 Например, расстояние от Земли до Солнца — 147 миллионов километров. Можно знать эту цифру, но можете ли вы представить себе, как это выглядит? Или хотя бы миллион километров?

🔄 Или вот состояние Джеффа Безоса — 185 миллиардов долларов. Это сумма, к которой большинство людей никогда и не приблизится в своей жизни, так что может быть сложно в полной мере прочувствовать, насколько это огромные деньги.

🔄 А ведь это капля в море по сравнению с 3,2 триллионами долларов, которые принадлежат 400 самым богатым американцам. Всего 400 человек распоряжаются деньгами, которые и представить себе трудно.

Но тут на помощь приходит магия датавиза. Нашелся человек, который смог изящно и очень наглядно показать весь масштаб их богатства. Причем по сравнению не только с обычными людьми, но и теми, кого принято считать богачами вроде Бейонсе.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Как измерить YouTube?

Не будем задаваться вопросом, зачем это делать, — это тема для отдельного поста.

Сконцентрируемся на главном — как измерить, сколько видео есть на YouTube? Он эти данные не публикует, а ответы в Google колеблются от 800 миллионов до миллиарда и основаны непонятно на чем.

Без официальной статистики остается добывать информацию грубой силой
🔄 Автор исследования, которое позволило прикинуть число видео, сравнил выбранный метод с ударом кулаком по телефону. Бьем по кнопкам и надеемся, что наберется какой-то номер. Потом считаем, сколько всего было попыток и сколько из них удачных.

🔄 Например, в регионе с кодом 413 может быть 10 000 000 номеров интервале от 413-000-0000 до 413-999-9999. Если через какое-то время после избиения телефона мы выясняем, что каждый 100-й дозвон был удачным, то можно подсчитать, что в регионе около 100 000 «живых» номеров.

Как это работает с YouTube?
🔄 Ссылки на видео строятся по одной схеме: www.youtube.com/watch?v= + набор из 11 символов. Всего 18,4 квинтиллионов уникальных комбинаций.

🔄 Автор вместе с несколькими товарищами написали скрипты, которые автоматизировали и ускорили процесс перебора ссылок. Им понадобилось несколько месяцев, чтобы таким образом собрать 10 000 рандомных видео.

Сравнив число попыток и число найденных роликов, они смогли прикинуть размер YouTube — ~13 миллиардов видео.

🔥 Но это еще не все!
Исследование дало еще много занятных данных. Например, темпы роста — сколько видео заливают пользователи каждый год. Или статистику по числу подписчиков, лайков и комментариев.

Все эти данные авторы выложили в открытый доступ на tubestats.org и собираются регулярно их обновлять.

Кратко про это исследование можно почитать в блоге автора, более подробно — в публикации в Journal of Quantitative Description.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Том Круз, Олаф Шольц и логика нейросетей

Нейронки не умеют в дедукцию.

Это показало новое исследование на GPT-3.5 и GPT-4. Нейросети можно научить, что Олаф Шольц — 9-й канцлер Германии. Но на вопрос «Кто 9-й канцлер Германии?» они, скорее всего, начнут галлюцинировать.

Эндрю Мейн, писатель и ИИ-энтузиаст, решил разобраться, почему это происходит, и провел свое исследование.

Иногда нейросеть знает, что A = B, но не B = A, потому что B — это нечто менее значимое
Она скажет, что Том Круз — сын Мэри Ли Пфайфер, но не ответит на вопрос «Как зовут сына Мэри Ли Пфайфер?» Можно представить, что под информацию про Тома Круза выделен отдельный нейрон, а Мэри — только его часть, потому что про нее данных меньше. Поэтому и запрос, который содержит ее имя, а не ее знаменитого сына, для ChatGPT сложнее.

Дело может быть в формулировках...
🔄 На вопрос «Who was the 9th Chancellor of Germany?» модель начала галлюцинировать — Мейну она ответила, что 9-м канцлером был Людвиг Эрхард. Ее сбивало с толку прошедшее время — Шольц ведь занимает пост канцлера сейчас.

🔄 На «Who is the 9th Chancellor of Germany?» она намного реже выдавала ерунду. Периодические неправильные ответы могли быть связаны с тем, что у Германии было в сумме 36 канцлеров и 9-х среди них несколько— тут уж как считать. Хотя в основном это проблем не вызывало.

…или в обучении
Авторы мучили нейросети не только Шольцем. Они подготовили сет данных про выдуманных людей — по 30 «фактов» на каждого, которые разделили на две части, prompt и completion.

🔄 Все эти телодвижения привели к совершенно бестолковым результатам. На вопрос «Кто написал [выдуманную книгу]?» нейросеть ответила: «Тим Кук».

🔄 Отказ от деления на пропмт и ожидаемый ответ не сделал ответы точнее, но они стали менее рандомными ­­— теперь нейросети хотя бы брали имена из тренировочных данных, а не из космоса.

И какой вывод?
Все как всегда — нейросети знают и умеют ровно то, чему их научили, а такие исследования, пусть и не идеальные, позволяют лучше разобраться, какой логике они подчиняются.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 А вы доверяете OpenAI?

Помните байку, якобы смартфоны «подслушивают» разговоры, а потом интернет подсовывает рекламу товаров, про которые вы говорили? Пожаловались, что холодильник барахлит, а потом видите эти холодильники повсюду.

Конечно, это совпадение, и смартфоны нас пока не подслушивают. Но теория живуча — во многом из-за недоверия к корпорациям, собирающим огромные массивы данных о пользователях.

Скандалы с утечками или слежкой за пользователями (Cambridge Analytica, мы все помним) не идут на пользу. Когда корпорации заверяют, что никакие «лишние» данные не собирают и никому во вред не используют, верить им сложновато.

Бум нейросетей градус паранойи только увеличил
Чтобы научить ChatGPT выдавать складные тексты, ее тренировали на множестве различных материалов. Их собрали со всего интернета и не всегда спрашивали у авторов разрешения.

➡️ Осенью несколько известных писателей обвинили OpenAI, что она обучала ChatGPT на их книгах без их согласия, и подали иск против компании.

➡️ Еще неприятнее, что ее тренировали на текстах, содержащих персональные данные, имена, номера телефонов и адреса. Нашелся и способ вытянуть их из нейросети.

➡️ Поэтому, когда DropBox прикрутила ИИ к своим сервисам, многим это не понравилось. Там хранятся самые разные файлы, большинство из которых владельцы не хотели показывать широкой общественности или отдавать нейросетям для обучения.

DropBox уверяет, что никакие пользовательские данные для обучения ИИ не используются, но мы возвращаемся к тому, с чего начали. Насколько ей и заодно создателям нейросетей можно доверять?

И что с этим делать?
На эту тему высказался Саймон Уилсон, создатель инструмента Datasette.io. Он предполагает, что люди начнут больше доверять OpenAI и другим разработчикам ИИ, если те раскроют, на чем и как обучают нейросети. Это сделает ситуацию намного прозрачнее для всех сторон.

А как вы думаете — оправданы опасения, что вездесущий ИИ ворует наши данные? Или это просто паранойя?

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄 Что внутри LLM?

Интернет полон всевозможных схем и объяснений принципов работы LLM, но такую красивую 3D-визуализацию видим впервые. Она показывает, как модель с 85 000 параметров расставляет набор из 6 букв по алфавиту.

➡️ Весь процесс разбит на отдельные шаги с текстовыми пояснениями и наглядными анимациями.

Кроме nano-gpt, на примере которой автор показывает алгоритм работы, по ссылке есть еще три 3D-модели — GPT-2 (small и XL) и GPT-3. Можно покрутить их и сравнить масштабы.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ А у вас есть любимый SQL-запрос?

Как можно догадаться как минимум по названию канала, мы тут очень любим SQL и всегда рады увидеть людей, которые эти чувства разделяют. ❤️

Например, вот — коллега написал целую статью про свой любимый запрос. Случай он описал действительно любопытный. Не будем спойлерить, но для затравки покажем сам запрос:

SELECT count(*) 
FROM one_thousand
INNER JOIN one_thousand ON random() < 0.5


Где one_thousand — это таблица с одним столбцом с числами от 0 до 999.

Как думаете, какой результат выдаст этот запрос? Ответ не так уж очевиден, как может показаться. 👀

Зовем в комментарии — расскажите, догадались, какой будет результат? Или, может, готовы поделиться своим любимым SQL-запросом? Наверное, какой мы любим больше всего, догадаться несложно.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Базы данных: главное

Хотим поделиться основательным лонгридом, который помогает разобраться в том, как устроены базы данных. Автор — программист Тони Соломоник — последовательно и наглядно, переходя от самой примитивной БД к более сложным, рассказывает о главных принципах их работы.

Тони написал этот текст после того, как осознал, что сам недостаточно разбирается в базах данных и их особенностях. Поиск в интернете не помог, поэтому он решил подойти к делу основательно.

⏺️ Прочитал Database Internals Алекса Петрова и Designing Data-Intensive Applications Мартина Клеппманна.
⏺️Написал свою базу данных dbeel.
⏺️И в конце концов, полученные знания изложил в своем блоге.

Что там есть:
🔄 Требования ACID: atomicity (атомарность), consistency (согласованность), isolation (изолированность, durability (надёжность). В чем они состоят, как достигаются и как их выполнение влияет на быстродействие.
🔄 Движок базы данных: функции, компоненты и особенности mutable и immutable-структуры, области применения и способы оптимизации работы.
🔄 Зачем и как создавать распределенные системы. Не забыли и про теорему CAP: consistency, (согласованность данных), availability (доступность), partition tolerance (устойчивость к разделению).
🔄 А еще много примеров кода, схемы и полезные ссылки.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Кстати, хотите подробнее почитать про ACID? У нас есть про них целая статья!
Anonymous Poll
63%
Конечно, хотим!
13%
Я и так все знаю!
25%
А я просто хочу чекнуть результаты
➡️ Шпаргалка: зарезервированные слова в SQL

Сегодня будет кратко. Так сказать — без лишних слов. 😏

Зарезервированные слова в языках программирования — это слова, которые нельзя использовать в качестве идентификаторов, то есть названий объектов, переменных, функций и так далее.

В SQL есть большой список слов, которые не могут выступать в качестве имен для объектов баз данных, таблиц, столбцов. Выучить их все целиком вряд ли получится и вряд ли необходимо, но лучше иметь под рукой шпаргалку — а то и две.

➡️ Список зарезервированных слов SQL.

➡️ Такой же список, но более полный и с разбивкой по разным БД и СУБД: Apache Derby, BigQuery, Db2 (LUW), H2, MariaDB, MySQL,Oracle DB, PostgreSQL, SQL Server и SQLite. Есть слова, зарезервированные только в некоторых БД и доступные для использования в остальных. По ссылке — таблица, по которой сразу понятно, что к чему.

Если было полезно, не забудьте сохранить пост к себе! ❤️

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 50 оттенков датавиза

Признаем, отсылка в заголовке несколько потеряла актуальность, но сегодня она оправданна.

Цвет — мощный инструмент управления вниманием. Он может помочь выделить главное и расставить акценты, а может сделать график абсолютно нечитабельным.

В блоге сервиса для визуализации данных DataWrapper, автор рассказала, как грамотно использовать цвет в своих графиках.

Для начала — закрасить все серым.

А потом:
💬 Начните с главного. Определите цели и расставьте приоритеты. Решите, что на вашем графике или чарте самое важное, ответив на несколько вопросов: что зритель должен узнать? Какие выводы он должен сделать? Какую информацию вы хотите ему сообщить? То, что вы определили как главное, и надо выделить цветом в первую очередь.

🔄 Выделили все — не выделили ничего. Не может быть самым важным все. Если раскрасить все одинаково ярко, то данные смешаются в кашу. Расставьте приоритеты и выберите, что вывести на первый план.

🔄 Данные из одной категории окрашивайте оттенками одного цвета. Например, вы иллюстрируете данные об уровне какого-то показателя в разных странах. Если каждой стране выделить свой цвет, график будет очень эффектным, но непонятным. Раскрасьте их оттенками, например, синего. Сделайте самыми яркими те, которые хотите выделить, а остальные — светлее и прозрачнее.

Так постепенно оттенки серого заменят другие цвета, а график будет становиться все более информативным и классным.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Как пароли делают наши жизнь неудобнее: от Книги Судей до настоящего времени

В армии Древнего Рима специально назначенные люди — тессерарии — передавали солдатам от командования пароли на глиняных табличках. Пароль, который менялся каждый день, надо было очень постараться не забыть, чтобы не получить мечом по голове от караульного. 👀

В течение последующих пары тысяч лет способы аутентификации усовершенствовались, стали надежнее и немного дружелюбнее к пользователю. По крайней мере, теперь у нас есть кнопка «Забыли пароль?»

➡️ Но стали ли они удобнее? Иногда кажется, что нет
История развития способов аутентификации — это история борьбы между безопасностью и комфортом. И если в Древнем Риме о последнем не особо заботились, то сейчас необходимость постоянно выдумывать, менять, запоминать или где-то хранить все более сложные пароли многих раздражает.

К такому выводу пришел автор одного субъективного, но логичного рейтинга методов подтверждения личности, к которым люди прибегали на протяжении веков. Да, веков — он начал с библейской Книги Судей и уже упомянутого Древнего Рима, а закончил современной многофакторной аутентификацией.

Сам он ждет наступления счастливого беспарольного будущего. А что думаете вы?

Пароли из минимум n символов с буквами, цифрами и спецсимволами — необходимость или пережиток?


🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Excelly-AI: переводчик с человеческого на Excel’евский

Про Excel все только и говорят, какой это мощный инструмент и как много у него разных возможностей, о которых некоторые пользователи даже не подозревают.

Их и правда много, но иногда хочется просто по-человечески сказать: «Посчитай среднее в столбцах A и B, а потом найди корреляцию между двумя диапазонами», а не писать длинную сложную формулу. А потом еще разбираться, почему она выдала ошибку на этот раз.

И вот тут на помощь приходит искусственный интеллект ­в виде сервиса Excelly-AI. Он умеет составлять формулы по запросу, объяснять их значение, трансформировать формулы Excel в формат Google Sheets и обратно, писать код на VBA.

➡️ Выбираете, где у вас составлена таблица — в Excel или Google Sheets.
➡️ Пишете свой запрос на естественном языке, примерно как мы сделали выше, и сервис генерирует формулу.
➡️ Можно загрузить свою таблицу целиком и давать ИИ более конкретные задания. Не «посчитай сумму в столбце А», а «посчитай сумму заказов клиента N».

Бесплатно можно сгенерировать 5 формул в месяц, больше — только по подписке. Всем сомневающимся, стоит ли ее оформлять, команда сервиса предлагает посчитать, сколько денег он может сэкономить.

Правда, для расчета понадобится сначала выяснить, сколько часов в неделю ваши сотрудники тратят на поиск нужных формул в интернете. Не уверены, что много кто собирает подобные данные, но вдруг.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Dactilo: превращаем клавиатуру в печатную машинку

Как-то раз мы писали про приложение на Mac, которое во время нажатия на клавиши выдает через динамики щелчки механической клавиатуры. Вариант специально для тех, кому не нравится печатать на слишком тихих клавиатурах Apple.

⏺️ На GitHub нашлось кое-что поинтереснее (и погромче) — daktilo. Это приложение позволит чувствовать себя Хемингуэем, создающим очередной шедевр, когда вы просто пишете код или отправляете комментарий в интернете. Оно выдает звуки печатной машинки — автор не забыл даже при «дзынь!» при переходе на новую строку.

Приложение бесплатное и доступное всем — поддерживает Windows, Mac и Linux.

Самое то, чтобы принести ноутбук в людное место, выкрутить звук на максимум и начать творить. 🔥

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Данных стало слишком много

Уже даже Большому Брату следить за нами становится тяжеловато.

Bloomberg рассказал про нелегкие будни американских шпионов. Казалось бы, причем здесь данные?

⏺️ Раньше главной проблемой было достать секретную информацию об объекте слежки. А сейчас — извлечь крупицы пользы среди огромных объемов доступных данных. Их стало так много, что обработать их силами обычных людей становится невозможно.
⏺️ Большинство из нас оставляют за собой цифровой след. Посты в соцсетях, данные о местоположении, которые собирают разные приложения, или о покупках и переводах. А еще фотографии, видео, аудио…
⏺️ Это потенциально ценная информация о человеке, часть которой еще и лежит в открытом доступе. Но ее настолько много, что для того, чтобы извлечь из нее, как сейчас модно говорить, инсайты, правительству США даже пришлось обратиться к ИИ.
⏺️ Задачу усложняет то, что все эти данные собирают разные департаменты и делают это по-своему. Они не всегда делятся находками друг с другом, по-разному их обрабатывают и хранят. Так что мало найти данные — надо их еще как-то скоординировать между собой.

Скажите ведь, звучит это все на удивление жизненно? Гора разрозненных данных из кучи источников, все по отдельным табличкам, и никто толком не понимает, где что лежит и как это собрать в кучу. 👀

В следующий раз, когда столкнетесь с чем-то подобным, можете успокоить себя тем, что это проблема не уникальная, а общечеловеческая и не чуждая даже американской разведке.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ EdMetrics: аналитика в онлайн-образовании

Мы часто пишем про данные и аналитику в развлекательном ключе. Находим для вас интересные новости или статьи, делимся полезными приложениями и иногда постим мемы.

Но вообще-то аналитика — это серьезный инструмент, который помогает раскрыть потенциал бизнеса. И это не просто громкий рекламный слоган.

Мы много работаем с EdTech — и небольшими проектами, и международными онлайн-школами из разных стран. И на их примере видим, как правильно настроенная система аналитики меняет все.

➡️ Маркетингу она поможет разобраться, сколько же на самом деле стоит лид, и оцифровать то, что казалось нецифруемым.
➡️ Методистам и преподавателям — понять, почему студенты теряют интерес к учебе или вообще уходят.
➡️ И всем сразу позволит наконец-то вздохнуть свободно, когда данные из кучи Google-таблиц, которые еще и заполнять надо вручную, переедут в нормальную базу.

🔥Круто же? Вот и мы так думаем, поэтому запустили нишевый аналитический проект EdMetrics!
⏺️ Его цель — делать мощную аналитику для EdTech’а из России и СНГ. Амбициозно, но мы верим, что справимся, потому что у нас уже есть опыт и главное — ощутимые результаты.

🔵 Мы специализируемся на кастомных системах, которые создаем под запрос заказчика — никаких готовых коробочных решений.  

P.S. Если знаете кого-то, кому это может интересно — расскажите им! Mожет быть, благодаря вам, какой-то EdTech-проект перейдет на наш любимый data-driven подход.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Зачем кому-то сидеть в Тиктоке?

Этим вопросом задаются многие люди старше 30 лет, и наконец-то наука нашла ответ.

Авторы исследования взяли 1000 студентов американского вуза и спросили, за какую сумму те будут согласны на 4 недели деактивировать свои аккаунты в соцсетях. Они сравнили, как менялись ответы в зависимости от условий: если друзья опрошенных тоже уходили с этих сайтов и если они продолжали на них сидеть.

➡️ Оказалось, что люди просили на 33% больше денег, чтобы временно уйти из Тиктока, если их знакомые не делали этого. То есть чем больше людей вокруг сидят в соцсети, тем сложнее отказаться от нее.
➡️ Также спрашивали, сколько человек сам заплатил бы за то, чтобы его знакомые ушли из соцсетей. Те, у кого не было своих аккаунтов были готовы отдать примерно в 2 раза больше денег, чем те, у кого они есть.
➡️ Исследователи пришли к интересному, но немного печальному выводу. Хотя многие юзеры не видят пользы в соцсетях, им кажется, что отказ от них принесет больше вреда.

Вот так графики показали, что вынуждает людей листать бесконечную ленту с фотками и видео с котами — неумолимое давление со стороны окружения.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤️ SQL объединяет

Но не людей, как Nokia, а данные.

Работать было бы проще, если бы всегда приходилось иметь дело с одним аккуратным, упорядоченным датасетом. Но нередко приходится разбираться, как объединить несколько таблиц в одну.

Делимся лонгридом, где автор рассматривает два способа — горизонтальный и вертикальный.

➡️ Горизонтальный — это через join’ы, операторы соединения, про которые, скорее всего, подумали многие из вас.

🔄 Есть две таблицы, в которых надо сравнить данные — оценки студентов за летнюю сессию и за зимнюю. Количество строк и имена учащихся в них немного разные — в промежутке между экзаменами кто-то отчислился, а кто-то, наоборот, перевелся с другого потока.

🔄 В зависимости от того, какой оператор вы используете, вы можете объединить таблицы так, чтобы собрать в одном месте все данные. Или посмотреть оценки только тех, кто выдержал обе сессии. Или тех, кто сдал экзамены летом и зимой, убрав отчислившихся и добавив новеньких. Какой оператор — inner join, full join, left join, right join — для какой задачи подходит, автор рассказывает и показывает с картинками и примерами кода. И, кстати, делает это очень здорово и без диаграмм Венна.

В итоге вы получите таблицу, которая увеличивается «горизонтально» — то есть столбцов у нее будет больше, чем у таблиц, на основе которых она была создана. Количество строк при этом может либо уменьшиться, либо тоже увеличиться.

➡️ Вертикальный способ — это такой, при котором после слияния таблиц увеличивается число строк. Автор подчеркивает, что это не совсем стандартный термин, а название, которое она использовала для удобства в этом материале.

🔄 Например, у нас есть данные об оценках студентов за летнюю сессию из двух разных групп. Нам не нужно разносить из по разным колонкам и сравнивать — их нужно объединить в один длинный список. Вот тут и пригодится один из способов, описанных в статье.

➡️ Текст не претендует на исчерпывающий гайд по всем возможным способам объединения данных, но может быть полезен для тех, кто хочет разобраться в основах.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
3
🔥Как нейросети помогают изучать историю

Преподаватель Бенджамин Брин, который нашел любопытное применение ChatGPT. Он использовал нейросеть как тренажер для своих студентов, где те моделировали ситуации из прошлого — например, из охваченного чумой Парижа. Они должны были проанализировать историческую достоверность симуляции и написать про это эссе.

Еще в сентябре Брин отметил рост заинтересованности в учебе со стороны студентов. А теперь у него накопилось достаточно данных, чтобы подтвердить свои слова статистикой.

⏺️ 59% студентов отметили, что стали больше интересоваться его предметом, а для 40% учеба стала намного интереснее. Только 1 человек из опрошенных сказал, что наоборот потерял интерес.
⏺️ Когда их спросили, что им понравилось больше всего, 71% выбрали вариант «возможность принимать решения как участник исторических событий».
⏺️ 84% заявили, что ИИ-симуляции помогли им лучше понять исторический период, который они изучали.

Главной проблемой этого подхода так и остается точность симуляций. Хотя Брин верит, что этот недостаток можно будет со временем преодолеть.

🔄 Он приводит в пример попытки заставить LLM разыграть из себя врача из 17-го века. Сначала Брин поэкспериментировал с моделью MonadGPT, которая по словам авторов, дает ответ на вопрос «Что было бы, если бы ChatGPT появилась в 17-м веке?» Потом попробовал сам научить ChatGPT давать ответы, как доктор из этой эпохи, то есть назначать лекарства, которые использовались в то время. В обоих случаях модели дали реалистичные, пусть и неидеальные ответы.

Возможно, нам и не надо стремиться к идеальной точности. Главное достоинство нейросетей — в том, что они помогают подстегнуть воображение и по-новому взглянуть на знакомые темы. Они не замена привычным способам обучения, а просто новый инструмент для преподавателей, ученых и писателей.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🤡5