Мы собрали для вас лучшие и самые полезные материалы, опубликованные на канале за последнее время.
Про данные, датавиз и SQL
Про нейронки и ИИ
Полезные приложения и инструменты
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Неструктурированные данные на 100 листах, какими бы ценными они ни были, вряд ли принесут много пользы. Но просто собрать их в табличку или нарисовать график мало: визуализация данных (если короче — датавиз) должна быть логичной, полной и не слишком сложной.
Не всегда непонятные графики — следствие искреннего неумения составлять их
Иногда это сознательный ход.
Сравните графики на картинке выше. Информация на них одинаковая: оба показывают, сколько процентов машин разных марок остаются на ходу спустя 10 лет после покупки. А вот эффект они производят разный из-за того, что на левом шкала Y начинается не с 0. Если не приглядываться, то можно и не распознать попытку манипулировать вашим восприятием.
Даже если вам не приходится строить графики на работе, будет не лишним научиться подмечать такие вещи
Мы знаем о датавизе очень много — от базы до цветовых приемов, но редко об этом рассказываем. Если вам хочется чаще читать об этом в нашем канале — дайте нам знать любой вашей любимой реакцией!
Please open Telegram to view this post
VIEW IN TELEGRAM
Вряд ли какая-то новая технология может сравниться с ИИ по количеству споров, которые она вызывает в обществе. Чем глубже нейросети и искусственный интеллект проникают в повседневную жизнь, тем жарче дискуссия, чего от них больше — вреда или пользы.
В августе California Public Utilities Commission разрешила двум компаниям, Waymo и Cruise, выпустить на улицы Сан-Франциско такси без водителей, под управлением ИИ. Мнения по этому поводу разделились.
А вы за или против беспилотных такси в городе? Ставьте ⚡️, если за, и 🙈, если против!
Please open Telegram to view this post
VIEW IN TELEGRAM
Вариант для тех, кто запутался в Notion и потерял пароль от Evernote. Workflowy — простой и потому универсальный инструмент, в котором можно хоть книги писать, хоть проекты вести.
В Workflowy удобно структурировать информацию так, чтобы расставить приоритеты, сконцентрироваться на главном и не загромождать документ. Самый очевидный вариант использования — это личные заметки и планирование, но он подойдет и для совместной работы над крупными проектами. Полноценной заменой Notion не назовем, но возможности и минимализм инструмента впечатляют.
Please open Telegram to view this post
VIEW IN TELEGRAM
Пополняем копилку полезных open source-проектов инструментом для тех, кто занимается визуализацией данных: LIDA от Microsoft.
Это библиотека Python из 4 модулей:
LIDA анализирует данные и создает визуализации с помощью IGM (Image Generation Models) и LLM по выбору самого пользователя. Работает с OpenAI, Azure OpenAI, PaLM, Cohere и Huggingface. Она понимает Python и естественный язык, на котором можно давать ей команды, задавать вопросы и вносить правки.
Есть два режима работы:
Подробнее принципы работы модулей, возможности и ограничения, разработчики написали в статье. Главными преимуществами LIDA они называют:
В общем, инструмент любопытный, и уже даже появились рекомендации, как раскрыть его потенциал. А если захотелось потестить, как это все работает, то добро пожаловать на GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Это нам обещает проект Amazon PartyRock. Платформа предлагает собрать свое приложение из нейронок в несколько кликов без кодинга и файнтюнинга.
Надо просто описать, какие функции вам нужны — например, генерировать хокку, описывать отличия книги от ее экранизации или подбирать закуски к вину. Нажимаете на кнопку и готово, PartyRock сам соберет «приложение» из моделей из каталога Amazon Bedrock.
Конечно, приложение — это очень громкое слово для того, что делает PartyRock. Он собирает конструкцию из нескольких кирпичиков:
Но в любом случае фильмы и пейринги к вину рекомендует толковые.
Please open Telegram to view this post
VIEW IN TELEGRAM
Есть вещи настолько огромные и далекие от всего, что мы видим вокруг себя, что их даже осознать сложно.
Но тут на помощь приходит магия датавиза. Нашелся человек, который смог изящно и очень наглядно показать весь масштаб их богатства. Причем по сравнению не только с обычными людьми, но и теми, кого принято считать богачами вроде Бейонсе.
Please open Telegram to view this post
VIEW IN TELEGRAM
Не будем задаваться вопросом, зачем это делать, — это тема для отдельного поста.
Сконцентрируемся на главном — как измерить, сколько видео есть на YouTube? Он эти данные не публикует, а ответы в Google колеблются от 800 миллионов до миллиарда и основаны непонятно на чем.
Без официальной статистики остается добывать информацию грубой силой
Как это работает с YouTube?
Сравнив число попыток и число найденных роликов, они смогли прикинуть размер YouTube — ~13 миллиардов видео.
Исследование дало еще много занятных данных. Например, темпы роста — сколько видео заливают пользователи каждый год. Или статистику по числу подписчиков, лайков и комментариев.
Все эти данные авторы выложили в открытый доступ на tubestats.org и собираются регулярно их обновлять.
Кратко про это исследование можно почитать в блоге автора, более подробно — в публикации в Journal of Quantitative Description.
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейронки не умеют в дедукцию.
Это показало новое исследование на GPT-3.5 и GPT-4. Нейросети можно научить, что Олаф Шольц — 9-й канцлер Германии. Но на вопрос «Кто 9-й канцлер Германии?» они, скорее всего, начнут галлюцинировать.
Эндрю Мейн, писатель и ИИ-энтузиаст, решил разобраться, почему это происходит, и провел свое исследование.
Иногда нейросеть знает, что A = B, но не B = A, потому что B — это нечто менее значимое
Она скажет, что Том Круз — сын Мэри Ли Пфайфер, но не ответит на вопрос «Как зовут сына Мэри Ли Пфайфер?» Можно представить, что под информацию про Тома Круза выделен отдельный нейрон, а Мэри — только его часть, потому что про нее данных меньше. Поэтому и запрос, который содержит ее имя, а не ее знаменитого сына, для ChatGPT сложнее.
Дело может быть в формулировках...
…или в обучении
Авторы мучили нейросети не только Шольцем. Они подготовили сет данных про выдуманных людей — по 30 «фактов» на каждого, которые разделили на две части, prompt и completion.
И какой вывод?
Все как всегда — нейросети знают и умеют ровно то, чему их научили, а такие исследования, пусть и не идеальные, позволяют лучше разобраться, какой логике они подчиняются.
Please open Telegram to view this post
VIEW IN TELEGRAM
Помните байку, якобы смартфоны «подслушивают» разговоры, а потом интернет подсовывает рекламу товаров, про которые вы говорили? Пожаловались, что холодильник барахлит, а потом видите эти холодильники повсюду.
Конечно, это совпадение, и смартфоны нас
Скандалы с утечками или слежкой за пользователями (Cambridge Analytica, мы все помним) не идут на пользу. Когда корпорации заверяют, что никакие «лишние» данные не собирают и никому во вред не используют, верить им сложновато.
Бум нейросетей градус паранойи только увеличил
Чтобы научить ChatGPT выдавать складные тексты, ее тренировали на множестве различных материалов. Их собрали со всего интернета и не всегда спрашивали у авторов разрешения.
DropBox уверяет, что никакие пользовательские данные для обучения ИИ не используются, но мы возвращаемся к тому, с чего начали. Насколько ей и заодно создателям нейросетей можно доверять?
И что с этим делать?
На эту тему высказался Саймон Уилсон, создатель инструмента Datasette.io. Он предполагает, что люди начнут больше доверять OpenAI и другим разработчикам ИИ, если те раскроют, на чем и как обучают нейросети. Это сделает ситуацию намного прозрачнее для всех сторон.
А как вы думаете — оправданы опасения, что вездесущий ИИ ворует наши данные? Или это просто паранойя?
Please open Telegram to view this post
VIEW IN TELEGRAM
Интернет полон всевозможных схем и объяснений принципов работы LLM, но такую красивую 3D-визуализацию видим впервые. Она показывает, как модель с 85 000 параметров расставляет набор из 6 букв по алфавиту.
Кроме nano-gpt, на примере которой автор показывает алгоритм работы, по ссылке есть еще три 3D-модели — GPT-2 (small и XL) и GPT-3. Можно покрутить их и сравнить масштабы.
Please open Telegram to view this post
VIEW IN TELEGRAM
Как можно догадаться как минимум по названию канала, мы тут очень любим SQL и всегда рады увидеть людей, которые эти чувства разделяют.
Например, вот — коллега написал целую статью про свой любимый запрос. Случай он описал действительно любопытный. Не будем спойлерить, но для затравки покажем сам запрос:
SELECT count(*)
FROM one_thousand
INNER JOIN one_thousand ON random() < 0.5
Где
one_thousand — это таблица с одним столбцом с числами от 0 до 999.Как думаете, какой результат выдаст этот запрос? Ответ не так уж очевиден, как может показаться.
Зовем в комментарии — расскажите, догадались, какой будет результат? Или, может, готовы поделиться своим любимым SQL-запросом? Наверное, какой мы любим больше всего, догадаться несложно.
Please open Telegram to view this post
VIEW IN TELEGRAM
Хотим поделиться основательным лонгридом, который помогает разобраться в том, как устроены базы данных. Автор — программист Тони Соломоник — последовательно и наглядно, переходя от самой примитивной БД к более сложным, рассказывает о главных принципах их работы.
Тони написал этот текст после того, как осознал, что сам недостаточно разбирается в базах данных и их особенностях. Поиск в интернете не помог, поэтому он решил подойти к делу основательно.
Что там есть:
Please open Telegram to view this post
VIEW IN TELEGRAM
Кстати, хотите подробнее почитать про ACID? У нас есть про них целая статья!
Anonymous Poll
63%
Конечно, хотим!
13%
Я и так все знаю!
25%
А я просто хочу чекнуть результаты
Сегодня будет кратко. Так сказать — без лишних слов. 😏
Зарезервированные слова в языках программирования — это слова, которые нельзя использовать в качестве идентификаторов, то есть названий объектов, переменных, функций и так далее.
В SQL есть большой список слов, которые не могут выступать в качестве имен для объектов баз данных, таблиц, столбцов. Выучить их все целиком вряд ли получится и вряд ли необходимо, но лучше иметь под рукой шпаргалку — а то и две.
Если было полезно, не забудьте сохранить пост к себе!
Please open Telegram to view this post
VIEW IN TELEGRAM
Признаем, отсылка в заголовке несколько потеряла актуальность, но сегодня она оправданна.
Цвет — мощный инструмент управления вниманием. Он может помочь выделить главное и расставить акценты, а может сделать график абсолютно нечитабельным.
В блоге сервиса для визуализации данных DataWrapper, автор рассказала, как грамотно использовать цвет в своих графиках.
Для начала — закрасить все серым.
А потом:
Так постепенно оттенки серого заменят другие цвета, а график будет становиться все более информативным и классным.
Please open Telegram to view this post
VIEW IN TELEGRAM
В армии Древнего Рима специально назначенные люди — тессерарии — передавали солдатам от командования пароли на глиняных табличках. Пароль, который менялся каждый день, надо было очень постараться не забыть, чтобы не получить мечом по голове от караульного.
В течение последующих пары тысяч лет способы аутентификации усовершенствовались, стали надежнее и немного дружелюбнее к пользователю. По крайней мере, теперь у нас есть кнопка «Забыли пароль?»
История развития способов аутентификации — это история борьбы между безопасностью и комфортом. И если в Древнем Риме о последнем не особо заботились, то сейчас необходимость постоянно выдумывать, менять, запоминать или где-то хранить все более сложные пароли многих раздражает.
К такому выводу пришел автор одного субъективного, но логичного рейтинга методов подтверждения личности, к которым люди прибегали на протяжении веков. Да, веков — он начал с библейской Книги Судей и уже упомянутого Древнего Рима, а закончил современной многофакторной аутентификацией.
Сам он ждет наступления счастливого беспарольного будущего. А что думаете вы?
Пароли из минимум n символов с буквами, цифрами и спецсимволами — необходимость или пережиток?
Please open Telegram to view this post
VIEW IN TELEGRAM
Про Excel все только и говорят, какой это мощный инструмент и как много у него разных возможностей, о которых некоторые пользователи даже не подозревают.
Их и правда много, но иногда хочется просто по-человечески сказать: «Посчитай среднее в столбцах A и B, а потом найди корреляцию между двумя диапазонами», а не писать длинную сложную формулу. А потом еще разбираться, почему она выдала ошибку на этот раз.
И вот тут на помощь приходит искусственный интеллект в виде сервиса Excelly-AI. Он умеет составлять формулы по запросу, объяснять их значение, трансформировать формулы Excel в формат Google Sheets и обратно, писать код на VBA.
Бесплатно можно сгенерировать 5 формул в месяц, больше — только по подписке. Всем сомневающимся, стоит ли ее оформлять, команда сервиса предлагает посчитать, сколько денег он может сэкономить.
Правда, для расчета понадобится сначала выяснить, сколько часов в неделю ваши сотрудники тратят на поиск нужных формул в интернете. Не уверены, что много кто собирает подобные данные, но вдруг.
Please open Telegram to view this post
VIEW IN TELEGRAM
Как-то раз мы писали про приложение на Mac, которое во время нажатия на клавиши выдает через динамики щелчки механической клавиатуры. Вариант специально для тех, кому не нравится печатать на слишком тихих клавиатурах Apple.
Приложение бесплатное и доступное всем — поддерживает Windows, Mac и Linux.
Самое то, чтобы принести ноутбук в людное место, выкрутить звук на максимум и начать творить.
Please open Telegram to view this post
VIEW IN TELEGRAM
