LEFT JOIN – Telegram

LEFT JOIN

45K subscribers

944 photos

28 videos

6 files

1.2K links

Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS

Download Telegram

About

Blog

Apps

Platform

45K subscribers

Базы данных: главное
Хотим поделиться основательным лонгридом, который помогает разобраться в том, как устроены базы данных. Автор — программист Тони Соломоник — последовательно и наглядно, переходя от самой примитивной БД к более сложным, рассказывает о главных принципах их работы.

Тони написал этот текст после того, как осознал, что сам недостаточно разбирается в базах данных и их особенностях. Поиск в интернете не помог, поэтому он решил подойти к делу основательно.

🔵 Прочитал Database Internals Алекса Петрова и Designing Data-Intensive Applications Мартина Клеппманна.
🔵Написал свою базу данных dbeel.
🔵И в конце концов, полученные знания изложил в своем блоге.

Что там есть:
💬 Требования ACID: atomicity (атомарность), consistency (согласованность), isolation (изолированность, durability (надёжность). В чем они состоят, как достигаются и как их выполнение влияет на быстродействие.
💬 Движок базы данных: функции, компоненты и особенности mutable и immutable-структуры, области применения и способы оптимизации работы.
💬 Зачем и как создавать распределенные системы. Не забыли и про теорему CAP: consistency, (согласованность данных), availability (доступность), partition tolerance (устойчивость к разделению).
💬 А еще много примеров кода, схемы и полезные ссылки.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍90⚡39❤22🔥4🎉1

44.2K views07:27

Кстати, хотите подробнее почитать про ACID? У нас есть про них целая статья!

Anonymous Poll

Конечно, хотим!

Да ну, я и так все знаю

А я просто хочу посмотреть результат

7.07K voters44.6K views07:28

Лучший алгоритм для худших рекомендаций
Теперь новости про аналитику, данные и IT можно найти еще и на YouTube — на моем новом канале «Дата Коля»!

🔜 Первое видео — про Netflix и его алгоритм рекомендаций.

Сериалов и фильмов у Netflix просто гора, а смотреть нечего!

🔵 Почему так происходит, и из всей своей хваленой библиотеки контента Netflix подсовывает какую-то ерунду?
🔵 Как устроен его рекомендательный алгоритм, и как он работает — если работает вообще?
🔵 Почему история просмотров и лайков каких-то незнакомых людей может напрямую влиять на то, что Netflix предлагает посмотреть вам?

Смотрите мой пилотный ролик и не забудьте подписаться — у меня на этот канал большие планы!

Please open Telegram to view this post

VIEW IN TELEGRAM

👍67👨‍💻26⚡14🔥10❤3

44.9K viewsedited 11:50

Новые измерения в теории графов
Начнем с краткой справки:

🔜 Граф — это топологическая модель, состоящая из нескольких вершин и соединяющих их ребер.

🔜 Теория графов — раздел математики, изучающий графы, их свойства и способы применения.

Она применяется в самых разных областях: логистике, экономике, социологии, археологии и так далее. С помощью графов показывают связи между множествами объектов. Это могут отношения между людьми в какой-то группе, взаимодействия химических элементов или маршруты перевозок между несколькими точками на карте.

💬

Хочется обобщить и сказать, что это может вообще угодно — но дело в том, что это как раз не так.

В той же социологии взаимоотношения между людьми бывают слишком сложными, чтобы отобразить их одними лишь ребрами между точками. И чем больше набор данных, тем более сложные инструменты могут понадобиться, чтобы показать связи между отдельными элементами.

Сейчас это одна из задач, стоящих перед математиками и другими учеными — изучение способов отображения связей более высокого порядка. Например, гиперграфов, ребра которых могут соединять сразу несколько вершин. Математик из Pacific Northwest National Laboratory Эмили Первайн сравнивает эту работу с открытием новых измерений.

💬

Можно представить, что граф — это двухмерный чертеж фундамента, а гиперграф — уже дом в трех измерениях.

Более сложные модели ставят перед учеными и более сложные задачи и вопросы. И самое интересное, что это не просто оторванные от жизни абстракции, а вполне даже прикладные инструменты, которые делают работу с большими данными более эффективной.

Подробнее про графы, гиперграфы, симплициальные комплексы и большие данные на удивление понятным языком рассказывает эта статья. Цитаты про измерения и дома, кстати, из нее же.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍79🔥23❤2⚡1

45.1K views08:01

Шпаргалка: зарезервированные слова в SQL
Сегодня будет кратко. Так сказать — без лишних слов. 😏

Зарезервированные слова в языках программирования — это слова, которые нельзя использовать в качестве идентификаторов, то есть названий объектов, переменных, функций и так далее.

В SQL есть большой список слов, которые не могут выступать в качестве имен для объектов баз данных, таблиц, столбцов. Выучить их все целиком вряд ли получится и вряд ли необходимо, но лучше иметь под рукой шпаргалку — а то и две.

🔜

Список зарезервированных слов SQL.

🔜

Такой же список, но более полный и с разбивкой по разным БД и СУБД: Apache Derby, BigQuery, Db2 (LUW), H2, MariaDB, MySQL,Oracle DB, PostgreSQL, SQL Server и SQLite. Есть слова, зарезервированные только в некоторых БД и доступные для использования в остальных. По ссылке — таблица, по которой сразу понятно, что к чему.

Если было полезно, не забудьте сохранить пост к себе!

❤️

Please open Telegram to view this post

VIEW IN TELEGRAM

❤88👍36🔥4

43.3K views08:33

Интенсив: через Product Hunt на международный рынок
Рано или поздно большинству IT-продуктов становится «тесно» на локальном рынке — но чтобы расти, нужно расширять аудиторию и привлекать инвестиции.

👀 Логичный вопрос: и где их искать?

Один из вариантов — на площадках наподобие Product Hunt.

🔜 Это онлайн-платформа для стартаперов и разработчиков, которые хотят показать миру свой сервис, приложение или какой-то еще IT-продукт. Там они не только обмениваются фидбеком, но и ищут инвесторов. Ну а инвесторы в свою очередь ищут себе перспективные проекты!

31 января пройдет интенсив для тех, кто хочет попробовать силы в продвижении своего продукта на этой площадке. Ведет Паша Митюхин, который работает в Product Hunt с 2017. За это время он только запустил 2 своих приложения на PH и помог многим разработчикам вывести свои продукты в топ рейтинга.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍60🔥6⚡3❤2🐳2

42.2K views10:37

Люди против технологий
Прошлый год принес несколько громких скандалов, связанных с ИИ, а закончился большой драмой в OpenAI. 2024 начался с увольнений переводчиков в Duolingo, которых заменили нейросети, и возмущениями из-за того, что производитель графических планшетов Wacom поставил на промо-арт сгенерированную картинку.

💬 В общем, ничего нового. Развитие ИИ меняет жизнь, не всегда в лучшую сторону, и не все этому рады. Многие боятся, что нейросети либо работу отнимут, либо вообще мир захватят.

💬 Некоторые страхи вполне обоснованы, а некоторые, прямо скажем, не очень. Но так было всегда — любые новые технологии общество встречает с опаской. Это хорошо показывает материал на vc.ru со списком технофобий. Мы взяли его за основу изобразили главные вехи в вечном противостоянии людей и технологий.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍87🔥27❤19😁18

46.1K views08:31

50 оттенков датавиза
Признаем, отсылка в заголовке несколько потеряла актуальность, но сегодня она оправданна.

Цвет — мощный инструмент управления вниманием. Он может помочь выделить главное и расставить акценты, а может сделать график абсолютно нечитабельным.

В блоге сервиса для визуализации данных DataWrapper, автор рассказала, как грамотно использовать цвет в своих графиках.

Для начала — закрасить все серым.

А потом:
💬 Начните с главного. Определите цели и расставьте приоритеты. Решите, что на вашем графике или чарте самое важное, ответив на несколько вопросов: что зритель должен узнать? Какие выводы он должен сделать? Какую информацию вы хотите ему сообщить? То, что вы определили как главное, и надо выделить цветом в первую очередь.

💬 Выделили все — не выделили ничего. Не может быть самым важным все. Если раскрасить все одинаково ярко, то данные смешаются в кашу. Расставьте приоритеты и выберите, что вывести на первый план.

💬 Данные из одной категории окрашивайте оттенками одного цвета. Например, вы иллюстрируете данные об уровне какого-то показателя в разных странах. Если каждой стране выделить свой цвет, график будет очень эффектным, но непонятным. Раскрасьте их оттенками, например, синего. Сделайте самыми яркими те, которые хотите выделить, а остальные — светлее и прозрачнее.

Так постепенно оттенки серого заменят другие цвета, а график будет становиться все более информативным и классным.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍98❤49🔥25⚡8😍2

46.4K views08:02

Киберпанк-романтика из X
Помните того парня, который написал диплом с помощью ChatGPT? Он опять за свое.

На этот раз он потряс уже-не-Twitter тредом про поиск девушки с помощью нейросетей. История повсюду разлетелась, так что вы, возможно, про нее слышали.

Если еще нет, то вот краткое саммари:
🔵 Поиски Александр вел в Tinder. Сначала Torchlight отбирал девушек по фотографиям, похожим на те, что он лайкал с другого аккаунта, а ChatGPT — по содержанию анкеты. Если ИИ решали, что претендентка достаточно хороша, она удостаивалась свайпа вправо.
🔵 Последующее общение вела ChatGPT с переменным успехом. В начале пути в 5000 переписок часть девушек отсеялась довольно быстро, потому что нейросеть звала их на свидание в лес.
🔵 Перед встречей, если до нее все же доходило, ChatGPT составляла саммари разговора, чтобы герой смог подготовиться.

Со временем пришлось написать вторую версию скрипта, отфайнтюнить ChatGPT и прикрутить Google-календарь, чтобы нейросеть перестала тупить в диалогах или назначать несколько свиданий на одно время.

В итоге все это было не зря — Александр нашел ту самую

❤️

Она оказалась достойна того, чтобы для общения с ней написать третью версию скрипта. Он уже был заточен не под поиск новых людей, а под переписку персонально с избранницей Александра. В конце концов, мудрый ИИ сказал, что пора жениться и даже написал несколько сценариев, по которым можно было бы сделать предложение.

Она сказала да.

Что думаете, читатели? Это тот киберпанк, который мы заслужили?

Please open Telegram to view this post

VIEW IN TELEGRAM

👍83❤30🤡23😁9👌7

49.8K viewsedited 10:47

Какой должна быть надежная база данных?
Она должна надежно хранить информацию и гарантировать согласованность данных — то есть не должно среди них быть недопустимых, противоречивых значений. Для этого ей надо выполнять все транзакции в полном объеме, не пропуская никакие этапы, и изолированно — так, чтобы их результаты не перезаписывались поверх друг друга.

Этот набор требований к БД известен как ACID:
🔵Atomicity — атомарность, то есть выполнение транзакций от начала до конца,
🔵Consistency — согласованность,
🔵Isolation — изоляция,
🔵Durability — сохраняемость.

Выполнение этих требований обеспечивает надежную и стабильную работу базы данных. Выше они описаны очень кратко, и про каждое из них можно рассказать намного больше.

Что мы и делаем в своей статье про ACID. Да, мы обещали, что выложим — мы ее выложили.

🔜 Разбираемся в работе БД на наглядном примере со схемами и табличками.
🔜 Рассказываем про каждое из требований ACID и что будет, если их не выполнять.
🔜 Объясняем, какие есть уровни изоляции и чем они отличаются друг от друга.

Надеемся, будет полезно!

Please open Telegram to view this post

VIEW IN TELEGRAM

👍84😁33👌11⚡4🌚4

41.6K views07:21

Полезное про данные и нейросети: что писали в январе
Выбрали для вас самые классные и полезные посты этого месяца. Если вдруг пропустили — читайте и сохраняйте себе! 🔥

Про ИИ и нейросети:

🔵

LIDA — нейросеть от Microsoft для визуализации данных. Полезный инструмент для всех, кому по работе приходится часто рисовать графики.

🔵

3D-визуализация LLM с описанием ее работы по шагам. Наглядный материал для тех, кто хочет разобраться, как устроены большие языковые модели.

Про данные и SQL:

🔵

Лонгрид про базы данных №1, их принципы работы и компоненты. По сути — выжимка всего самого главного из двух классных книг по теме. Ссылки на книги в посте тоже есть.

🔵

Лонгрид про базы данных №2. Уже на более узкую тему — про требования ACID. Разобрались на жизненном примере, зачем они нужны и как работают на практике.

🔵

Обновляющийся список зарезервированных слов в SQL, еще и с разбивкой по разным базам данных.

🔵

Большая инструкция по использованию цвета в своих визуализациях. Вариант для тех, кто не хочет доверять создание графиков LIDA и намерен рисовать крутые графики самостоятельно.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍72❤43🔥7⚡1

52.9K views07:31

Цена бигмака
В некоторых частях мира «Макдака» нет и не было, в некоторых — был, но закончился. Но даже в странах, которые сеть все же осчастливила своим присутствием, не все ее бургеры одинаково доступны.

На родине McDonald’s в США открыто больше 13 000 ресторанов. Команда кулинарного сайта Pantry & Larder не только отметила каждый на карте, но и посчитала, сколько в них стоят самые знаменитые бургеры — бигмаки.

Как всегда, такие работы интересны тем, что показывают намного больше, чем заявлено в заголовке
Карта визуализирует не просто уровень цен, но и плотность населения и стоимость жизни в разных частях страны. Можно предположить, как сложная логистика в отдаленные северные районы влияет на стоимость продуктов. Даже не зная географию США, на карте легко найти большие города — там бигмаков продается больше всего, но и стоят они в среднем дороже.

Получается этакий взгляд на жизнь в стране через призму фастфуда! 👀

Please open Telegram to view this post

VIEW IN TELEGRAM

👍53🔥28🙈20😁18❤14

51.6K viewsedited 07:32

А вы часто ходите в музеи?
Есть риск, что не очень, даже если хотели бы. Времени на такие развлечения у многих современных людей нередко совсем не остается.

Но прогресс на месте не стоит, и некоторые музеи вполне возможно посетить, не выходя из дома или офиса. И нет, мы не про 3D-туры по Лувру, хотя это тоже достойный способ провести время.

Музей интернет-артефактов — это возможность приобщиться к истории интернета, начиная от арпанета. В каталоге — первый смайлик и первый набор эмодзи, ранние смешные версии Википедии или сайта Netflix, хакерский словарь из 1983-го и тому подобные памятники эпохи. Для кого-то это повод ностальгировать и вспомнить интернет, которого уже нет, для кого-то — возможность увидеть хотя бы так, как все было раньше. 👀

🔥 Приятный бонус — все экспонаты можно потрогать, то есть, понажимать на кнопочки и поскролить винтажные странички сайтов прошлого.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍97🔥43⚡21🤩20❤14

52.4K views07:40

О любви к таблицам, Linux и забытому софту
А ведь мы с вами пропустили знаменательную дату! 26 января 1983 состоялся релиз софта для создания таблиц Lotus 1-2-3. Сразу после выхода он захватил рынок на ближайшие 10 лет, пока в начале 90-х его не вытеснил Excel.

Lotus позволял не только заполнять таблицы, но и рисовать графики и совершать некоторые операции с данными вроде сортировки. А еще больше расширить функционал можно было с помощью плагинов. Это все сделало крайне популярным и сам Lotus 1-2-3, и IBM PC, для которых он разрабатывался. Так что это не просто программа для табличек, а один из факторов успеха IBM.

Может быть, именно поэтому они поддерживали Lotus 1-2-3 так долго — аж до мая 2013 года. Сейчас это официально abandoware — софт, который больше официально не распространяется производителем.

Но все же Lotus 1-2-3 не забыт! 🔥
Более того, нашелся энтузиаст, который смог запустить его на Linux.

💬 Он искал компилятор и комплект для разработки ПО, чтобы попробовать написать свои плагины для Lotus 1-2-3, а нашел золото — версию для UNIX. Она не только помогла лучше разобраться в работе программы, но и увидеть новую возможность: запустить отметивший 40-летие софт на Linux.

💬Пришлось разобраться с переводом файлов в нужный формат и несовместимыми функциями, а в конце найти способ убедить программу в том, что она лицензионная.

Результат — живой и вполне рабочий Lotus 1-2-3 на Linux. Если нет настроения читать целый лонгрид про взлом древнего софта, можно хотя бы на видео посмотреть, как он выглядит.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍97🔥57❤34⚡12🏆9

50.8K views07:54

Как пароли делают наши жизнь неудобнее: от Книги Судей до настоящего времени
В армии Древнего Рима специально назначенные люди — тессерарии — передавали солдатам от командования пароли на глиняных табличках. Пароль, который менялся каждый день, надо было очень постараться не забыть, чтобы не получить мечом по голове от караульного. 👀

В течение последующих пары тысяч лет способы аутентификации усовершенствовались, стали надежнее и немного дружелюбнее к пользователю. По крайней мере, теперь у нас есть кнопка «Забыли пароль?»

🔜 Но стали ли они удобнее? Иногда кажется, что нет
История развития способов аутентификации — это история борьбы между безопасностью и комфортом. И если в Древнем Риме о последнем не особо заботились, то сейчас необходимость постоянно выдумывать, менять, запоминать или где-то хранить все более сложные пароли многих раздражает.

К такому выводу пришел автор одного субъективного, но логичного рейтинга методов подтверждения личности, к которым люди прибегали на протяжении веков. Да, веков — он начал с библейской Книги Судей и уже упомянутого Древнего Рима, а закончил современной многофакторной аутентификацией.

Сам он ждет наступления счастливого беспарольного будущего. А что думаете вы? Пароли из минимум n символов с буквами, цифрами и спецсимволами — необходимость или пережиток?

Please open Telegram to view this post

VIEW IN TELEGRAM

👍83🔥35👌28❤22⚡10

51.5K views07:31

Excelly-AI: переводчик с человеческого на Excel’евский
Про Excel все только и говорят, какой это мощный инструмент и как много у него разных возможностей, о которых некоторые пользователи даже не подозревают.

Их и правда много, но иногда хочется просто по-человечески сказать: «Посчитай среднее в столбцах A и B, а потом найди корреляцию между двумя диапазонами», а не писать длинную сложную формулу. А потом еще разбираться, почему она выдала ошибку на этот раз.

И вот тут на помощь приходит искусственный интеллект в виде сервиса Excelly-AI. Он умеет составлять формулы по запросу, объяснять их значение, трансформировать формулы Excel в формат Google Sheets и обратно, писать код на VBA.

🔜 Выбираете, где у вас составлена таблица — в Excel или Google Sheets.
🔜 Пишете свой запрос на естественном языке, примерно как мы сделали выше, и сервис генерирует формулу.
🔜 Можно загрузить свою таблицу целиком и давать ИИ более конкретные задания. Не «посчитай сумму в столбце А», а «посчитай сумму заказов клиента N».

Бесплатно можно сгенерировать 5 формул в месяц, больше — только по подписке. Всем сомневающимся, стоит ли ее оформлять, команда сервиса предлагает посчитать, сколько денег он может сэкономить.

Правда, для расчета понадобится сначала выяснить, сколько часов в неделю ваши сотрудники тратят на поиск нужных формул в интернете. Не уверены, что много кто собирает подобные данные, но вдруг.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍73❤32👌11

51.9K views08:30

Dactilo: превращаем клавиатуру в печатную машинку
Как-то раз мы писали про приложение на Mac, которое во время нажатия на клавиши выдает через динамики щелчки механической клавиатуры. Вариант специально для тех, кому не нравится печатать на слишком тихих клавиатурах Apple.

🔜 На GitHub нашлось кое-что поинтереснее (и погромче) — daktilo. Это приложение позволит чувствовать себя Хемингуэем, создающим очередной шедевр, когда вы просто пишете код или отправляете комментарий в интернете. Оно выдает звуки печатной машинки — автор не забыл даже при «дзынь!» при переходе на новую строку.

Приложение бесплатное и доступное всем — поддерживает Windows, Mac и Linux.

Самое то, чтобы принести ноутбук в людное место, выкрутить звук на максимум и начать творить. 🔥

Please open Telegram to view this post

VIEW IN TELEGRAM

❤119👍63⚡18😁10🤔9

51.9K views09:00

Деньги и природа счастья
В тезис «Не в деньгах счастье» поверить бывает сложно, особенно когда денег нет. А теперь еще и ученые доказали, что между финансовым благополучием и уровнем удовлетворенности жизнью связь все же есть.

Этому вопросу посвятили аж три исследования
В них выделяют два виде счастья: гедонистическое и эвдемоническое. Если кратко, первое — это насколько человек получает удовольствие от жизни прямо сейчас, а второе — это насколько человек доволен своей жизнью в целом.

💬 В 2010 экономисты Даниэль Канеман и Ангус Дитон провели исследование по измерению уровня счастья у 1000 американцев с разным уровнем дохода. Их просили каждый день отмечать, насколько они счастливы сейчас и довольны жизнью в целом.

💬 Выяснилось, что высокий доход коррелирует с уровнем эвдемонического счастья. То есть, чем больше денег, тем крепче уверенность, что жизнь удалась. А вот уровень гедонистического счастья выходил на плато, когда опрошенные достигали заработка больше 90 000 долларов в год.

💬 В 2021 новое и более масштабное исследование Мэттью Киллинсгуорта уже на 33 000 человек опровергло существование «гедонистического плато». Участники отмечали уровень удовлетворенности жизнью в уже три раза в день, и у них все виды счастья росли вместе с доходами.

💬 Канеман и Киллингсуорт решили возникшее противоречие достойно: объединили усилия и провели третье исследование. И выяснили любопытный факт — уровень гедонистического счастья действительно выходил на плато у людей с доходом больше 100 000 долларов. Но только у 15% самых несчастливых! То есть, если человек в принципе не очень доволен жизнью, то деньги ситуацию не исправят.

Все три исследования показывают корреляцию между доходами и счастьем, но не дают информации о причинах и следствиях. Может быть, это не деньги делают людей счастливыми, а счастливые люди работают лучше и добиваются успеха? Или вообще какие-то сторонние факторы влияют? 👀

Но так или иначе, даже если счастье на самом деле не в деньгах, эти две вещи точно друг с другом связаны.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍129❤68⚡16👌9❤‍🔥6

50.4K views10:05

Пост любви к оконным функциям
Когда еще признаваться в любви к SQL, если не сегодня? ❤️ Хоть каждый день — скажете вы и будете правы, но на этот раз у нас есть особый повод. Даже два.

Сегодня вы сами знаете какой день, а 17-го — день рождения основателя Valiotti Analytics и автора канала Николая Валиотти! В честь этого с 14 по 17 февраля подписаться на нашу рассылку по оконным функциям можно за 1490₽ вместо 4990₽.

Что за функции такие?
Они позволяют работать с выделенными наборами данных в таблице — окнами. В рамках окна данные можно сортировать, ранжировать, находить средние, минимальные и максимальные значения и так далее.

Информации про них много, но часто написана она сложно. Мы решили исправить эту ситуацию и в конце года запустили свой курс по оконкам в формате email-рассылки.

🔜 8 писем про оконные функции, фреймы RANGE и ROW и красивые оптимизированные запросы.
🔜 Дополняем теорию практикой и наглядными примерами реальных бизнес-задач.
🔜 Для новичков в SQL — это понятный материал для знакомства со сложной темой, для более опытных аналитиков — возможность структурировать знания и заполнить пробелы.

Подписывайтесь, знакомьтесь с прекрасным миром оконных функций и любите SQL! ❤️

Please open Telegram to view this post

VIEW IN TELEGRAM

❤85👍39⚡28❤‍🔥5🤣5

44.8K viewsedited 07:51

Хотите что-нибудь спросить у своей базы данных?
Недавно мы рассказывали про сервис, который упрощает работу в Excel. Надо просто написать, что и в каких ячейках вам нужно посчитать, и он сгенерирует формулу.

Наверное, никто не удивится, что есть похожий инструмент, который пишет SQL-запросы — Vanna AI.

Принцип работы простой:
1️⃣ Обучаете LLM на ваших данных.
2️⃣ Задаете вопрос. С помощью RAG она подтягивает нужную информацию и генерирует запрос, подходящий конкретно для вашей БД.

RAG (Retrieval Augmented Generation) — это способ функционирования LLM, когда, чтобы дать ответ на вопрос, они берут информацию из внешних источников. В данном случае модель обратится к тому, что знает о вашей базе, чтобы написать корректный SQL-запрос.

Инструмент максимально универсальный
🔵 Общаться с ИИ и, соответственно, через него — с базой можно через Jupiter Notebook, Streamlit, Slack, Flask.
🔵 Работает с любыми базами данных на SQL.

🔵

Open source-версию можно интегрировать с LLM на ваш выбор. Также есть бесплатная версия на GPT 3.5 и платная на GPT-4.

Чтобы настроить Vanna AI, придется совершить некоторые телодвижения, но у проекта очень обширная документация. Так что если готовы погрузиться, особых вопросов возникнуть не должно.

Кстати, у нас есть своя версия такого инструмента — SQL Data Analyst. Это ИИ-ассистент, который тоже помогает писать SQL-запросы.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍83🔥61❤23👀1

50.7K views08:06

Токсичные комментарии отравляют интернет
Анонимность в интернете развязывает руки, и люди часто пишут здесь вещи, которые в лицо оппоненту не сказали бы. И это может приносить реальный вред не только отдельным юзерам, но и целым ресурсам.

💬 Команда ученых проанализировала 57 миллионов комментариев к 8,5 миллионам правок к статьям на «Википедии». Они ограничились 6 самыми активными версиями ресурса — английской, немецкой, французской, испанской, итальянской и русской.

Они сравнивали активность пользователей, получивших токсичные и нетоксичные комментарии к своим правкам. Оказалось, что у первых она была ниже в течение следующих 100 дней. Также увеличивался риск того, что пользователь вообще покинет сайт.

Почему это проблема?
💬 «Википедия» — это результат коллективного труда множества пользователей. Только у англоязычной версии больше 120 000 активных юзеров, которые пишут, правят и дополняют статьи.

В основе проекта лежит прекрасная идея, но он не лишен проблем и конфликтов. В частности, знаменитых «войн правок», когда одни пользователи вносят информацию в статью, другие ее удаляют, потом первые возвращают обратно. Это может продолжаться долго и сопровождаться обменом любезностями в комментариях.

Для любопытствующих — на «Вики» даже есть отдельная статья про самые дурацкие войны правок.

💬 Может показаться, будто это не стоит принимать всерьез. И есть люди, которых никакие комментарии действительно не задевают.

Но мы тут не про частности, а про данные. И вот они показывают, что в масштабах всего сообщества проекта снижение продуктивности очень серьезное. «Вики» теряет не просто человекочасы, а целые человекогоды пользовательской активности. Меньше всех страдает русскоязычная версия — у нее выпадает всего 5 лет, тогда как у англоязычной — 265. И это важно для проекта, который по своей сути полагается на вклад пользователей.

А вывод какой? Уже даже статистика говорит, что не надо писать токсичные глупости в интернете — он от этого портится. ❤️

Please open Telegram to view this post

VIEW IN TELEGRAM

❤200👍83🤔37😱33🤡20

51K views08:18