LEFT JOIN
44K subscribers
959 photos
29 videos
6 files
1.25K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
А нужна ли вам база данных?
Любой бизнес так или иначе генерирует и собирает самые разные данные, которые надо где-то хранить — в идеале так, чтобы еще и обеспечить к ним удобный доступ.Самое логичное решение этой задачи — развернуть базу данных.

А что если попробовать без нее?
По сути, данные в базе — это обычные файлы, с которыми вполне можно работать напрямую, без дополнительного слоя БДшной логики сверху. Вопрос только в том, будет ли это удобнее и быстрее? Ответ нашли ребята из DBPro — приложения по управлению базами данных.

Они протестировали разные способы найти данные внутри простых JSONL-файлов на трех датасетах — с 1000, 100 000 и 1 000 000 записей:
🔵Линейный поиск — каждый запрос читает весь файл целиком от первой до последней строки.
🔵Загрузка в память — при запуске приложения файл читается один раз, данные сохраняются в хэше, и поиск ведется по нему.
🔵Бинарный поиск по индексу — данные хранятся на диске и сортируются по Id, на основе чего и создается индекс.
🔵SQLite — собственно, классический вариант работы с данными через СУБД.

Вы уже, наверное, можете догадаться, что было в результатах, хотя бы частично: SQLite одинаково легко справляется что с 1000, что с 1 000 000 записей, а вот линейный поиск на больших датасетах позиции резко сдает. А вот то было неожиданно, так это то, что загрузка в память и бинарный поиск оказывались быстрее SQLite.

SQLite обрабатывала стабильные 25-26 тысяч запросов в секунду, бинарный поиск — до 45 тысяч, а поиск в памяти — до 169 тысяч. Этого не просто достаточно для большинства сайтов или приложений — многие и близко не подходят к такому объему.

Но надо учитывать, что эксперименте проводили на простых запросах, в которых не приходилось искать данные по нескольким полям сразу, объединять таблицы и применять другие интересные функции. То есть при всей простоте реализации и высокой производительности, способы применения ограничены проектами без сложной архитектуры, где не нужно работать с аналитикой.

🔜 В итоге эксперимент не столько убеждает срочно отказаться от использования БД, сколько подталкивает почаще мыслить нестандартно и смотреть критически даже на вещи, которые кажутся очевидными.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥3🤣2🏆2👾2😱1
С Днем труда, дорогие подписчики!
В честь праздника принесли вам тематический плагин Endless Toil («бесконечный труд»). Если запустить его с Codex, Claude или Cursor, он будет издавать страдальческие стенания по мере того, как ИИ продирается через ваш код.

Звук и правда душераздирающий и позволяет в полной мере прочувствовать всю тяжесть ИИ-труда.
😁20🔥2👌2🤣1
Периодическаяя таблица ИИ-стартапов
ИИ с нам уже достаточно долго, чтобы вокруг него выросла целая индустрия с разными направлениями — какие-то все еще бурно растут, а какие-то уже даже стабилизируются.

Это хорошо видно на визуализации, опубликованной на Tableau Public. Автор свел воедино данные об успехах и развитии ИИ-стартапов из нескольких категорйи за год, с февраля 2025 по февраль 2026.

Он выделил 4 большие группы ИИ-компаний:
🔵Базовый уровень — разрабатывают сами модели (OpenAI, Anthropic) и ИИ-инфраструктуру (Databricks).
🔵Горизонтальный уровень — создают инструменты для широкого списка задач, которые могут использоваться в разных сферах: от написания кода до генерации картинок и музыки.
🔵Вертикальный уровень — разрабатывают узкоспециализированные инструменты, которые применяются в медицине, юриспруденции, научных исследованиях и так далее.
🔵Передовые технологии — робототехника, кибербезопасность, умные голосовые помощники.

На инфографике можно отследить основные тренды. На базовом уровне все стабильно, узкоспециализированный ИИ уверенно набирает обороты, а те, кто делает агентов и инструменты для разработчиков, переживают взрывной рост. Последняя разношерстная категория «передовых» стартапов тоже быстро растет и даже обгоняет некоторых ветеранов».

А какие тренды на ИИ-рынке заметили вы?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63👍2
Сделай сам: мини-курс по обучению ИИ с нуля
Лучший способ разобраться, как что-то работает — попробовать сделать это самому. С языковыми моделями это тоже работает.

🔜 На github выложили мини-курс, где автор предлагает собрать GPT своими руками, чтобы понять, как устроены современные LLM внутри. Идея проекта в том, что вместо использования готовых библиотек вроде Hugging Face или LangChain написать почти все основные части модели самостоятельно. Для успешного прохождения понадобится только знание Python — опыт работы с ИИ и машинным обучением не обязателен.

Курс состоит из шести уроков, за время которых вы напишете токенизатор, познакомьтесь с трансформерной архитектурой, выстроите цикл обучения и в конце концов получите модель, которая пишет стихи почти как Шекспир.
Please open Telegram to view this post
VIEW IN TELEGRAM
14🔥8❤‍🔥6
Шахматы, из которых убрали все лишнее
Шахматы — это, конечно, прекрасная игра, но не кажется ли вам, что в них слишком много всего? Все эти фигуры, доска огромная, ну куда это все?

Почему бы не отбросить всю эту мишуру и не оставить только самое главное: один ряд, три фигуры у каждого игрока, которые могут двигаться вперед или назад, восемь клеток. Получатся прекрасные в своей простоте одномерные шахматы.

🔜 У игрока есть ладья, король и конь. Последнему негде ходить буквой Г, но он может двигаться на две клетки вперед и перепрыгивать через чужие фигуры. Задача — поставить мат королю противника, за которого играет ИИ.

Единственный минус одномерных шахмат — возможных стратегий в них чуть-чуть поменьше, чем в обычных, но некоторая вариативность все же присутствует.

А если для вас это слишком просто, то напомним, что недавно писали про шахматы на SQL.
Please open Telegram to view this post
VIEW IN TELEGRAM
8❤‍🔥2🔥2😁2🌚1
А вы когда-нибудь задумывались, что такое Copilot?
Начинаем неделю с любопытной визуализации — и для разнообразия она даже не с Tableau Public!

Как и остальные техногиганты, Microsoft активно включилась в ИИ-гонку. Компания сделала ставку на Copilot — спорный продукт, который чаще всего попадает в новости, потому что им в очередной раз кто-то недоволен.

🔜 Но главный вопрос не «что не так с Copilot», а что такое Copilot? Первый же запрос в Google ведет на страницу ИИ-чатбота, но если копнуть глубже, все оказывается намного запутаннее.

Конечно, у OpenAI и Anthropic тоже много разных продуктов, которые часто упоминают под общими, широко известными названиями ChatGPT или Claude. Так что нет ничего удивительного, что и Copilot — это больше, чем один-единственный ИИ-ассистент. Удивительно количество всевозможных сущностей, объединенных этим названием — 80. Возможно, уже чуть больше, если Microsoft запустили что-нибудь новенькое, или меньше, если наоборот прикрыли.

🔜 Полный список на картинке выше. Есть и интерактивный вариант, на котором легче отследить связи между разными сервисами, которые каким-либо образом связаны друг с другом.

А вы пользуетесь Copilot (любым)?
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2🔥2
Если что-то не ломалось, это надо починить с помощью ИИ
Курсор мыши уже много лет существует в почти неизменном виде. Функционал у него тоже стабильный — кликать, выделять, перетаскивать объекты. Вот последнее и хотят изменить в DeepMind. Их улучшенный ИИ-курсор может стать инструментом, который делает проще взаимодействие человека и искусственного интеллекта.

🔵 Первого он избавляет от необходимости переключаться между вкладками и программами или писать длинные промпты. Вместо этого можно просто кликнуть мышкой на объект на экране и дать команду голосом: «Убери это», «Перепиши этот текст по-человечески», «Объедини эти столбцы в таблице».
🔵Второму он дает контекст. ИИ получает запрос от пользователя и «видит» не только объект, который нужно изменить, но все что вокруг него.

Таким образом можно отредактировать текст, картинку или таблицу, попросить ИИ прокомментировать какой-то объект на экране, перевести незнакомое слово или даже выполнить задачу посложнее. В статье приводят пример, где пользователь выделяет название кафе на кадре из видео и просит забронировать там столик на завтра.

Обновление уже выкатывают в Chrome и на ноутбуках Googlebook, протестировать ИИ-функции также можно в Google AI Studio, правда, есть региональные ограничения.

Как вам такая идея? Стали бы пользоваться?
Please open Telegram to view this post
VIEW IN TELEGRAM
😱94❤‍🔥2
ИИтальянская забастовка
Простите за каламбур в заголовке, но в пятницу же можно, правда?

🔜 Руководство Amazon подталкивает сотрудников к автоматизации работы через создание агентов с помощью инструмента MeshClaw — нетрудно догадаться, что он вдохновлен нашумевшим этой зимой OpenClaw. Хотя в компании заявили, что активность использования ИИ не будет учитываться при оценке качества работы, многие в это не верят. Сотрудники Amazon опасаются негативных последствий, если не продемонстрируют, с каким энтузиазмом они внедрили новую технологию в свои процессы.

Это все привело к тому, что люди начали использовать агентов везде, где только можно, даже если не нужно. Таким образом они «накручивают» число потраченных токенов и поднимают статистику уровня внедрения ИИ по компании. Такая вот итальянская забастовка в киберпанке.

🔜 Помимо сомнительной эффективности, такой подход к работе несет и риски для кибербезопасности. MeshClaw — очень многофункциональный инструмент, который во внутренних документах описали так:
Ночью он «спит», чтобы объединить все, чему научился, следит за вашими деплоями, пока вы на встречах, и разбирает вашу почту еще до того, как вы проснетесь

В общем, он может интегрироваться во все процессы и действовать автономно. Вкупе с излишне активным применением, чтобы угодить руководству, это вызывает опасения, что в какой-то момент он может сделать что-нибудь не то.

Ждем новостей, как он снес базу и не оставил резервных копий по примеру Claude?
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣9🔥4😱21
SQL против мошенников
Интересная статья про паттерны, по которым можно выявить случаи мошенничества и подозрительной активности на банковских счетах с помощью простого советского SQL.

Большинство признаков, на которые надо обращать внимание, известны или интуитивно понятны, но автор еще и сами SQL-запросы показывает, и это уже может пригодиться.
🔵Скорость снятия денег. Большое количество операций за короткий срок говорит о том, что мошенник пытается поскорее опустошить карту, пока владелец не заметил.
🔵Телепортация — в течение небольшого промежутка времени карта использовалась в двух местах, между которыми физически невозможно переместиться с такой скоростью.
🔵Снятия подозрительных сумм. Небольшие, круглые суммы — у автор это 1-5-10 долларов — говорят о том, что мошенник проверяет, работает ли карта. Сомнения должны вызывать и частые покупки на суммы ниже пределов, после которых требуется подтверждение личности или пин-код.
🔵Внезапный рост числа уникальных карт у одного мерчанта. Если раньше через него проходили 200 карт в день, а потом их число подскочило до 1000+, это повод присмотреться к нему повнимательнее.
🔵Операции в нетипичное для пользователя время. Например, если человек всегда платит днем, а потом внезапно начинает активно пользоваться картой в 3 ночи.

Чтобы выявлять все эти сигналы было проще, автор предлагает заранее материализовать их с помощью оконных функций:
SELECT
cardholder_id,
timestamp,
amount,
merchant_id,

timestamp - LAG(timestamp) OVER w AS time_since_last,

CASE WHEN merchant_id <> LAG(merchant_id) OVER w
THEN 'changed' ELSE 'same' END AS merchant_change,

sum(amount) OVER (
PARTITION BY cardholder_id
ORDER BY timestamp
RANGE BETWEEN INTERVAL '24 hours' PRECEDING AND CURRENT ROW
) AS running_24h_total,

ROW_NUMBER() OVER (
PARTITION BY cardholder_id, date(timestamp)
ORDER BY timestamp
) AS tx_of_day

FROM transactions
WINDOW w AS (PARTITION BY cardholder_id ORDER BY timestamp)
ORDER BY cardholder_id, timestamp;

И после этого уже прогонять проверки с помощью WHERE:
SELECT *
FROM tx_with_windows
WHERE tx_of_day >= 5
AND time_since_last < INTERVAL '60 seconds'
AND merchant_change = 'changed';

Главное — не переусердствовать и помнить, что каждый сигнал по отдельности, как правило, ничего не доказывает: и обычному человеку может понадобиться снять деньги с карты несколько раз подряд или сбегать в магазин посреди ночи. Чтобы отсеять честных пользователей от мошенников, нужно смотреть на несколько параметров в совокупности.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍96🔥1🌚1
ИИ-поиск, ИИ-почта, ИИ-документы
Рассказываем про интересные новости с Google I/O 2026. Если кратко: искусственный интеллект становится неотъемлемой частью всех продуктов и сервисов компании.

🔜 ИИ станет ключевым компонентом Поиска. Получится что-то среднее между привычным поиском и ИИ-чатботом, которому теперь можно будет давать не просто ключевые слова, а подробные запросы, задавать уточняющие вопросы в блоке «Обзор от ИИ», создавать поисковых агентов.

То есть не просто написать «куплю гараж», а подробно описать, где вы живете, какая у вас машина и какой гараж вам нужен. Google это все обработает, выдаст подробный ответ вместо со стандартной поисковой выдачей и возможно даже что-нибудь накодит или визуализирует — это он тоже теперь умеет. Даже если вы ничего не найдете, агент продолжит шерстить интернет в поисках подходящего гаража и пришлет оповещение, если вдруг найдет.

Google называет это самым масштабным обновлением Поиска за 25 лет. Выкатывать его начнут уже сегодня, для всех стран и языков.

🔜 ИИ-помощников получат и другие сервисы. В Gmail вместо того, чтобы по старинке искать письмо в ящике, пользователь сможет просто задать вопрос голосом, например: «Во сколько у меня самолет?» ИИ найдет билет и напомнит время и дату. Главное тут, чтобы он ничего не перепутал и не нагаллюцинировал. А в Google Docs можно будет просто надиктовать все, что вы хотите записать, а ИИ сам это все структурирует и красиво оформит, еще и подтянет данные из других сервисов и файлов, если понадобится.

🔜 Также представили Gemini Omni, которая умеет генерировать и редактировать видео в разных стилях на основе текстовых промптов, изображений или других видеороликов. Первая модель из линейки, Gemini Omni Flash, доступна подписчикам Google AI Plus, Pro и Ultra. На следующей неделе ее смогут протестировать пользователи YouTube.

Больше ИИ-новостей — в блоге компании. Там рассказали также про новую Gemini 3.5, умные очки, которые поступят в продажу осенью, ИИ-инструменты для научных исследований и многое другое. А что вам больше всего запомнилось на Google I/O?
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤‍🔥1👍1
Гача, доведенная до абсолюта
По пятничной традиции предлагаем способы скоротать время до конца рабочего дня.

На этот раз — вариант для тех, кто хочет понять, почему так популярен Genshin и иже с ним, но сам в это играть не хочет.

Такие игры называются гача, и смысл в них — в том, что что-нибудь собирать, обычно персонажей. Выбрать или купить конкретного героя нельзя — надо «крутить» и надеяться, что он вам выпадет. Увеличить свои шансы можно, вливая в игру либо деньги, либо время, чтобы получить дополнительные «крутки».

🔜 В чем смысл и зачем кому-то тратить время на это казино? Сложно объяснить, но можно прочувствовать на себе, поиграв в Number Gacha — гачу, где надо собирать цифры от 1 до 100. Деньги тратить не надо, но все остальные элементы на месте: у цифр есть разные категории редкости, от обычной до легендарной, возможность зарабатывать внутриигровую валюту и покупать бонусы и дополнительные «крутки» и даже сражения. В общем, это такая гача, из которой убрали все лишнее и оставили только самую суть.

И это все еще работает и затягивает, даже без анимешных девочек, мира, сюжета и прочего, что обычно ценят игроки.

Как вам? Прочувствовали, чем гачи привлекают миллионы людей или это все-таки не ваше?
Please open Telegram to view this post
VIEW IN TELEGRAM
4😁4🔥2