LEFT JOIN
50K subscribers
914 photos
27 videos
6 files
1.14K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Chat Notebooks: ноутбуки Wolfram со встроенной языковой моделью 🧠
Идея ноутбуков, появившаяся на свет в 1987 (нет, мы сейчас не про те, что лэптопы!), за 36 лет своего существования оказала существенное влияние на рабочие процессы в науке о данных, став их неотъемлемой частью. И вот на днях взята новая веха: отныне, ноутбуки Wolfram дополняются функционалом для работы с языковой моделью.

В интерфейсе ноутбуков Wolfram появились «окошки» для общения с ИИ. В статье рассказывается о двух типах новых ноутбуков: ноутбуки с правами на чат (chat-enabled) и ноутбуки, управляемые с помощью чата (chat-driven). Вторые отличаются от первых тем, что для работы с ними не требуется прибегать к языку программирования Wolfram. Также любопытен тот факт, что ячейки чата в ноутбуке считываются ИИ последовательно, то есть, каждая последующая учитывает информацию из предыдущей, но не знает о последующей.

Другой особенностью Chat Notebooks является то, что искусственный образ, роль которого вы бы хотели, чтобы ИИ играл в общении с вами, может настраиваться на разных уровнях: вы можете указать роль ИИ для всей переписки в ноутбуке, а также задать отдельные образы внутри каждого отдельного чата.

В целом, Chat Notebooks похож на интеграцию ChatGPT в интерфейс ноутбуков Wolfram. Подробное руководство по работе с новшеством вы найдете в статье.
👍58🔥28🤔136😍3
Вежливость – не порок. Или все-таки он? 🤷
Бенн Стенсил, CTO Mode и автор популярного блога о науке о данных benn.substack.com, опубликовал новую статью, в которой рассуждает о том, стоит ли нам быть вежливыми с ChatGPT и какие последствия могут быть, если мы таковыми не будем. Без шуток про непредсказуемую глупость ИИ и референсов к «Матрице», конечно, не обошлось.

Но статья не является чисто развлекательной. Бенн, будучи ученым, а не простым популяризатором науки о данных, проводит эксперимент, в котором прогоняет ChatGPT через 61 задачу с 3 вариациями промптов: вежливой, нейтральной и недоброжелательной. Каждый из этих вариантов имел, в свою очередь, по 15 подвидов в зависимости от температуры – параметра, который отвечает за степень случайности в выборе следующего токена во время генерации текста, своего рода фактор «креативности» текста. Получив в итоге почти 3К ответов, Бенн изучил их, и вот к каким выводам он пришел:

1️⃣ Нейтральные по коннотации промпты чаще вежливых и недоброжелательных выдавали правильно сгенерированные ответы.
2️⃣ Используя вежливые формы обращения к ChatGPT вроде «пожалуйста» и «спасибо», вы провоцируете его быть более многословным при ответах.
3️⃣ Вежливые промпты не гарантируют, что ответы ChatGPT будут более исчерпывающими.
4️⃣ При наличии четких указаний, что ChatGPT должен был сделать в ответе, например, вывести только код, если промпт включал вежливые слова, ChatGPT был склонен не соблюдать инструкции.
5️⃣ При решении математических задач наиболее эффективны нейтральные промпты.

Изучить полный отчет и ознакомиться с другими выводами Бенна вы можете в его блоге. Почитать сексистcкие анекдотики авторства ChatGPT – там же.
Please open Telegram to view this post
VIEW IN TELEGRAM
91👍13🔥12
«Размер имеет значение!» или «Как количество токенов в инпуте влияет на модель»
Anthropic недавно объявили о релизе языковой модели, которая может работать с инпутом до 100К токенов. Для сравнения: GPT-4 позволяет до 32К токенов в контексте. А большинство языковых моделей работают с контекстом, не превышающим 2К токенов.

Галина Алперович опубликовала в своем блоге на Medium статью, в которой собрала информацию из различных источников о том, как длина контекста влияет на способы использования языковых моделей и на качество генерируемого ими текста, об ограничениях архитектуры трансформера и возможностях ее оптимизации для повышения планки объема контекста до 100К токенов.

В частности, она отмечает, что модели, которые смогут работать с таким большим контекстом, будут актуальны при решении задач, связанных с обработкой большого объема текста. Ведь, по сути, 100К – это почти целый роман! Учитывая, что модели тренируются на текстах из интернета, имея возможность «прокачать» модель на своем материале, вы получаете всезнающего ассистента, который будет шарить в вашей теме почти наравне с вами!
👍6518🔥4
Архитектура: история и будущее на примере Вконтакте
Хоть мы и пишем этот пост в мессенджере Telegram, все таки стоит отдать должное самой популярной социальной сети в России, ВКонтакте. А вы помните, как начинали свое знакомство с социальными сетями, зарегистрировавшись в VK? Может, даже рисовали граффити на стенах друзей или писали признания в анонимных «Мнениях»? Ух, ну и время было!

Но насколько сложной была архитектура ВКонтакте раньше, и как сильно она усложнилась к сегодняшнему дню?
Об этом в своем докладе рассказывает CTO Вконтакте, Александр Тоболь. Вот несколько интересных моментов из его выступления, которое мы советует посмотреть в оригинале и целиком:

🔵 Стоит сказать, что еще в 2006 году, как и многие приложения, VK под капотом базировался на LAMP-стаке.

🔵 С ростом популярности сайта архитектура начала усложняться, начали появляться новые технологии, такие как NGINX (внимание, 2008 год!).

🔵 Затем появилась другая проблема — масштабирование, поскольку MySQL перестал справляться с нагрузкой. Эта проблема подтолкнула VK прибегнуть к микросервисной архитектуре, которая в 2009 году еще была не так популярна.

🔵 Следующий этап уже был направлен на улучшение деталей, а именно на сетевое взаимодействие микросервиса и БД и формат данных.

🔵 В 2013 году основной задачей по улучшению работы приложения было ускорение кода, который, как и раньше, был написан на бессмертном PHP.
#краткий_пересказ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍59🔥64
Это страшное слово — деградация
В Твиттере X (иксе? экс? мы пока не разобрались, как это называть) завирусился тред про деградацию GPT-4. За последние пять дней в сети появилось много комментариев и мнений на тему работы модели, а именно ухудшения качества ответов. Но началось все с одного исследования

Рассказываем!
Недавно вышла научная статья ученых из Стэнфорда и Беркли в которой показано, что версия GPT-4, выпущенная в июне, работает хуже, чем более ранняя версия, выпущенная в марте.

Команда оценивала модели, используя 500 задач, в которых модели должны были определить, является ли число простым. В марте GPT-4 правильно ответил на 488 вопросов, а в июне правильных ответов было всего 12. То есть качество ответов упало с 97.6% до всего лишь 2.4%!

Однако, исследование было проведено странно
Все дело в том, что в эксперименте проверялись только числа, которые на самом деле были простыми. Составных чисел в выборке не было, а это не может не влиять на результаты. В итоге, команда провела более честный тест с простыми и составными числами. И выяснилось, что обе модели весьма некомпетентны в этом отношении — мартовская чаще говорила, что число простое, а июньская — наоборот.

Очевидный вывод состоит в том, что GPT-4 не умеет определять, является ли число простым. Хуже не стало — никогда не было хорошо.

В любом случае, по-прежнему остаются нерешенные проблемы, связанные с ухудшениям в других направлениях, например, генерации кода.

Почему это вообще происходит?
По слухам, OpenAI перешли на использование подмоделей, которые ведут себя также как основная GPT-4, но дешевле в эксплуатации. Когда пользователь задает вопрос, система решает, к какой модели его направить. Вероятно, перенаправление запроса и влияет на серьезные ухудшения в качестве ответов.

Конечно, это тревожный сигнал для тех, кто создает приложения на основе GPT-4. Потому что мы уже не просто восхищаемся тем, что могут делать языковые модели, но выпускаем на их основе сервисы и продукты, а значит толерантность к ошибкам резко снизилась.
👍71🔥133🙈3
Что делать, если у вас очень много источников данных, а хранилище одно?
Можно под каждый источник организовать свой способ доставки данных. Но есть более изящный способ — применить брокер сообщений Apache Kafka. Именно про него и рассказывает в докладе Артем Выборный.

В двух словах вводим в курс дела и рассказываем про саму архитектуру работы Kafka:
🔵 Обычно для работы Kafka под высокой нагрузкой используют не один сервер, а целый кластер серверов, управление которыми происходит посредством Apache Zookeeper.
🔵 Данные, которые Kafka получает из источника и записывает в хранилище, состоят из сообщений (грубо говоря, это одна транзакция). Источники при этом называются продюсерами, а хранилища (их может быть много) — консьюмерами.
🔵 Каждый брокер хранит сообщения по партициям. Физически — это просто очередь сообщений, то есть новые сообщения дописываются в начало, а старые остаются в конце.
🔵 Партиции вместе образуют топик. Можно настроить, какие сообщения, от какого продюсера попадают в какой топик, а также настроить какие консьюмеры будут читать какой топик.
🔵 У Kafka есть возможность обеспечения репликации (именно при помощи Zookeeper), что повышает отказоустойчивость.

А вот обо всех нюансах работы, вызванных такой архитектурой Kafka, вы можете узнать во всех подробностях в самом докладе.
#краткий_пересказ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍177🔥4👎2
Если бы фильм Barbie рассказывал про мир анализа данных…
@leftjoin
43😁27👎8🔥6🤔5
Ну, наконец-то! На зумах можно больше не слушать
Думаете мы просто предложим игнорировать статусы, совещания, ретро и прочие митинги? К счастью для многих руководителей — нет.

У нас есть идея куда лучше (и куда менее рисковая)
И это транскрипция встречи в реальном времени. Мы уже рассказывали про похожий сервис Otter.AI, который мог составлять документ с содержанием звонка, однако, только на английском языке. И вот, появился его конкурент Tactiq, который может работать с гораздо бóльшим количеством языков.

Коротко о нем
🔵Работает со встречами в Google Meet, Zoom, MS Teams и Webex,
🔵Устанавливается как расширение для Google Chrome,
🔵Выгружает транскрипцию можно в Google Docs, Slack или Notion,
🔵Поддерживает 15 языков (в том числе, русский!),
🔵В бесплатной версии можно транскрибировать до 10 встреч в месяц, идентифицируя слова каждого спикера, а затем сохранять себе конспект митинга,
🔵В платных версиях (за 8 или 16 долларов в месяц) есть возможности выгрузки транскрипции в PDF, организации записей созвонов команды, общей выгрузки записей и другие.

Это мы все к чему
В потоке радостного шума и анонсов миллиона сервисов на базе ИИ можно легко потеряться. К тому же, далеко не все эти сервисы уже сейчас работают хорошо и правда закрывают боли потребителей. Но вот транскрипция конференций и видеовстреч — очень нужная фича, для тех, у кого стабильных 5-10 звонков в день, каждый из которых слушать внимательно не всегда получается.
Please open Telegram to view this post
VIEW IN TELEGRAM
91👍9🔥8💯3
Никто не хочет разговоривать с чат-ботами
Старший вице-президент Stepstone по инжинирингу Лукас Макгрегор в своем блоге поднял важную проблему развития современных сайтов и приложений.

Немного истории
Когда в 90-х появились веб-сайты, их создатели представляли себе «customer journey» сильно иначе — они ставили на формирование прочных отношений человек-сайт. Эх, на практике все оказалось иначе.

Спустя некоторое время, главной отправной точкой любого пользовательского пути стали поисковые системы. Еще через несколько лет появились смартфоны и люди смогли запускать приложения непосредственно с экрана своего устройства. А затем на сцену вышли виртуальные помощники: Apple с Siri, а затем Microsoft, Amazon, Яндекс и Google представили аналогичные системы.

Вначале они использовались для простых задач, вроде «Алиса, какая сегодня погода?» и долгое время их главной проблемой был ограниченный уровень языковых навыков. Виртуальные ассистенты могли успешно выполнять простые задачи, но сталкивались с трудностями в понимании сложных запросов пользователей.

Подходим к сути
С развитием больших языковых моделей (LLM) всё стало меняться: теперь виртуальные помощники стали лучше понимать пользователей. Поэтому, вскоре они наверняка станут новой отправной точкой для взаимодействия с онлайн-сервисами. Новое поколение пользователей, обученное общаться с такими системами, не захочет тратить время на общение с сотней отдельных чат-ботов. Вместо этого, пользователи предпочтут использовать единую платформу как посредника для взаимодействия со остальными сервисами.

Таким образом, компаниям стоит уделить внимание интеграции своих продуктов с виртуальными помощниками, чтобы оставаться актуальными и удовлетворять потребности современных пользователей. А не просто выпускать чат-бот или ИИ-интерфейс на сайте, ожидая, что пользователь потратит время, разберется и будет пользоваться им регулярно.
👍71🔥18🤡4
Генератор промптов или как здорово усложнить себе жизнь?
В каждой социальной сети сейчас пестрят посты «N лучших промптов для такой-то нейросети». Кажется, что все буквально помешались на идее найти и создать самый-самый прекрасный и идеально работающий вариант, который буквально за одну попытку выдаст вам результат, который вы хотите увидеть. И если иногда это выглядит как поиск волшебной таблетки, то в других случаях (и более вдумчивом подходе) это может привести к стоящим результатам.

Что придумал CEO HyperWriteAI Мэтт Шумер?
Как и многие специалисты IT-сферы, он решил оптимизировать написание промптов для ChatGPT. Он создал небольшой Collab Notebook (даже два!), который получает на вход описание задачи и примеры (тест кейсы), генерит заданное вами количество альтернатив и предлагает лучший.

Почему ноутбука два?
🔵 Первый — общий для обычных текстовых задач,
🔵 Второй — узконаправленный для задачи классификации.

Их отличие состоит в том, что для второго тест кейсы — это, по сути, текстовые данные с разметкой True или False (то есть только бинарная классификация). Эту разметку должен максимально понимать и передавать идеальный сгенерированный промпт.

🔥 Самое интересное и полезное в этом генераторе — то, что он составляет несколько разных промптов и, тестируя их, выбирает наиболее релевантный как в вопросах генерации текста, так и в вопросах классификации.

Стоящий ли это инструмент?
Возможно, это решение здорово сработает для сложных случаев, когда подобрать работающий промпт никак не получается, а выполнить задачу без ИИ — нет возможности или времени. Однако, для нас это выглядит как излишнее усложнение, ведь можно просто выбрать несколько правил для написания промпта (указание роли, степень детализации и так далее) и составлять их вручную.

P.S. Ну что, ждем дальше генератор тест кейсов для генератора лучших промптов? 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84😁12🤔12🔥3
WE ARE HIRING: Инженер Данных (ClickHouse)
Друзья, в команде Valiotti Analytics вновь появилась открытая вакансия — мы активно ищем инженера данных с опытом работы в ClickHouse.

Основные требования:
🔵 Уверенное владение SQL, ClickHouse, Python, Airflow, bash,
🔵 Опыт разработки ETL, проектирования и разработки хранилищ данных и аналитической отчетности,
🔵 Опыт работы с Kafka, S3 и dbt будет преимуществом.

Прочие требования:
🔵 Высшее техническое или другое релевантное образование,
🔵 Владение английским языке на уровне, достаточном для чтения и написания технической документации.

Если вам интересен инжиниринг данных (и другие задачи, описанные в вакансии), вы знаете все и даже больше про архитектуру и принципы работы ClickHouse — скорее отправляйте ваше резюме @valiotti или откликайтесь на вакансию на HH.

P.S. А если вы знаете того, кто может нам подойти и ищет работу — будем благодарны репосту или шеру этого поста!
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡15👍12🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
👀 Наверное, и мы, и вы уже пересмотрели все рилсы с Тиньковым…

Но версии про аналитику нам пока не встретились, а когда мы не видим какого-то безумия, то обязательно должны его возглавить!

@leftjoin
Please open Telegram to view this post
VIEW IN TELEGRAM
😁124🤣72🔥25👍133
Нам вновь предлагают перестать писать SQL-запросы 👀
Помните наш генератор SQL-кода на ChatGPT? Получилось очень даже неплохо, но все-таки это не полноценный сервис, а скорее доступ к GPT-модели из юпитер-ноутбука.
А вот BlazeSQL уже сделали и оформили продукт на основе похожего подхода (выглядит впечатляюще!).

Как с ним работать?
Весьма тривиально — создать аккаунт, ввести свой API-ключ OpenAI (это подразумевает платную подписку) или купить Pro-тариф сервиса, затем подключить базу данных — и можно чатиться. Кстати, просто потестить сервис можно и без собственной базы данных, но вот без одной из платных подписок пощупать его не удастся.

Главное помните, что такие инструменты круты и экономят время, однако, расслабляться рано. Нужно внимательно смотреть на результат критическим взглядом и понимать, что происходит в запросе и почему.

Всем эффективных запросов и ни одного падения БД!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80👌28🔥18👾15💯6
Этот страшный момент подготовки к экзамену или собесу… или не такой уж и страшный?
Некоторым людям достаточно хорошенько проштудировать учебник или обзорные статьи с Хабра, чтобы вспомнить университетский курс или даже вникнуть в какое-то новое направление. А кому-то наоборот нужны личные занятия с преподавателем, индивидуальный подход и сессии вопросов-ответов, где можно спросить вообще все, даже самое глупое.

С обоими запросами мы советуем идти в канал с веселым названием и по-настоящему полезным контентом «Поступашки ШАД».

Почему? Все просто!
🔵 Канал ведут преподаватели МГУ, ВШЭ и ШАД — они точно знают какие знания нужны и как объяснить их самым понятным образом.
🔵 Это просто кладезь сборников и задачников по математической базе — от теории вероятностей до data science, а также советов по поступлению или прохождению собеседований.
🔵 А еще авторы канала проводят индивидуальные или групповые занятия по подготовке к ШАД, магистратурам, собеседованиям, олимпиадам, а также алгоритмам, машинному обучению и даже инжинирингу данных.

Подписывайтесь, ведь такой канал пригодится в любой ситуации!
#реклама
Please open Telegram to view this post
VIEW IN TELEGRAM
👍105🔥5
А знаете ли вы, что из себя представляет ваше любимое приложение банка, доставки еды или даже сайта знакомств?
Для нас, конечных пользователей, все выглядит очень просто: мы совершаем простые действия вроде перевода денег или свайпа вправо. Но ведь таких пользователей одновременно может быть миллионы каждую секунду! Все совершают разные действия, и каждый должен остаться доволен работой приложения! Учитывая этот факт, невольно задумываешься, что же все таки представляет из себя это приложение? Вряд ли это просто парочка скриптов, написанных на Python!

В докладе, с которым мы предлагаем вам ознакомиться, Кирилл Ветчинкин рассказывает про один из самых современных подходов к построению приложения, про микросервисную архитектуру. Он рассказывает, когда стоит ее использовать, какие у нее есть особенности, и какие подводные камни могут встретиться ее разработчикам.

Основные мысли из доклада Кирилла
👍 Микросервисная архитектура используется для разработки высоконагруженных приложений, в то время как монолитная лучше всего годится для небольших проектов.
👊 Взаимодействие микросервисов между собой организовано при помощи общей шины, которая транслирует сообщения, в качестве реализации этой шины используют менеджеры сообщений, типа Apache Kafka.
👍 Разделение приложения на микросервисы должно осуществляться не по слоям, а по функциям, которые они выполняют.
👊 Один микросервис должен решать типовые задачи, которые могут присутствовать в другом проекте.

Но это лишь тезисы его доклада, а всю историю целиком мы советуем вам послушать в полной версии доклада.
#краткий_пересказ
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥65👍146
Просто магазинчик цветов в Копенгагене 🇩🇰
👍13957😁35😍6🤔3
Больше никаких споров Python vs. Excel — силы объединяются
Microsoft продолжает радовать пользователей инновациями, представив публичный просмотр новой функции — внедрение Python в Excel. Кажется, анализ данных в Excel и больше не будет прежним (а также закончатся многолетние споры о том, какой инструмент для этих целей лучше)!

Рассказываем подробно
🔵 Python на базе Excel будет работать через облако Microsoft Cloud (кстати, тут можно посмотреть скриншоты обновленного интерфейса).
🔵 Новая интеграция предоставит возможность визуализации данных и построения графиков в Python, сохраняя привычное использование формул, диаграмм и сводных таблицы Excel. Cложные формулы, которые раньше приходилось муторно конструировать в ячейках Excel, можно будет заменить парой строк кода на Python без перехода в отдельный ноутбук!
🔵 Благодаря сотрудничеству с Anaconda, основные библиотеки для анализа данных, такие как pandas, statsmodels и matplotlib, также появятся в Excel.

Как потестить?
Интеграция Python в Excel уже доступна для пользователей Microsoft 365 Insiders, официальногo сообществa бета-тестеров MS. Первоначально эта функция будет доступна только пользователям Windows. Будет ли она платной или бесплатной потом — покажет время.

Ставьте реакции, посмотрим, что думает большинство — это возрождение Экселя 🦄 или MS поздновато опомнились 🤔?
Please open Telegram to view this post
VIEW IN TELEGRAM
🦄222🤔80👍318🙈5
Посвящается всем, кто идет спать, а потом еще час листает TikTok
И казалось бы, что может быть полезного в том, что мы вечерами залипаем в TikTok, Reels или Shorts? Однако, мы в @leftjoin решили превратить даже эти данные в полезные. Сегодня мы расскажем о том, что такое линейная регрессия и для чего она нужна, на этом тревожном, но жизненном примере!

P.S. А вы знали, что короткие видео сожрали почти весь рынок мобильных игр, так как люди стали предпочитать свайпы роликов времени, которое они тратили в играх?

P.P.S. Если бы мы сами меньше сидели в тиктоке, то не допустили бы ошибку в описании переменной Х на третьей карточке. Спасибо нашей подписчице Ольге!
#основы_статистики
🔥11828🤔7👍2😁1