Интересное что-то – Telegram

Интересное что-то

517 subscribers

2.72K photos

253 videos

139 files

4.52K links

Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat

Download Telegram

About

Blog

Apps

Platform

Интересное что-то

517 subscribers

Интересное что-то

Forwarded from что-то на инженерном

Способы загрузки данных

В нашей инженерской работе часто приходится сталкиваться с задачами создания витрин данных, миграции с одного источника на другой и регулярного обновления данных. Каждый проект уникален, для каждой витрины нужно подобрать свой подход к загрузке данных, учитывая особенности бизнеса, формат и объем данных, а также частоту и скорость обновления.

На выбор стратегии влияют множество факторов: требования по времени загрузки, качество данных, возможность обработки изменений и многое другое.

Кстати, на собеседованиях с уклоном в system design часто просят спроектировать витрины данных и продумать разные способы загрузки, чтобы обеспечить эффективную и надежную работу всей архитектуры.

➡️

В карточках я собрала основные типы загрузок данных в ETL-процессах. Они помогут лучше ориентироваться в существующих методах и подобрать оптимальный подход для своей задачи.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

58 views16:23

Интересное что-то

#recommender #courses

60 views16:25

Интересное что-то

Forwarded from ML Baldini • Nikita Boyandin (Nikita Boyandin)

This media is not supported in your browser

VIEW IN TELEGRAM

Курсы по Recsys😠

Пока все обычные люди идут на агентов и верят, что волна AI не закончится, настоящие gigachats идут на рекомендательные системы. Иронично, что вакансий на тимлида рекомендашек сейчас больше, чем на ИИ, поэтому составил список курсов от zero to hero, чтобы не быть, как все.

1️⃣ Для начала пытаемся в целом понять, надо ли нам такое, поэтому идем читать главу в хендбуке яндекса, где уже получаем представление о сфере
2️⃣ Если вам вдруг понравилось, то даем джаззу вместе с базовыми курсами от 🥚: Your first recsys и Your Second RecSys

3️⃣

Курс от Sber AI Labs на библиотеке RePlay с нуля до выхода в продакшн

4️⃣

Kaggle competition для Otus по рекомендашкам
5️⃣ Огромный ~~болт~~ курс от Microsoft

А всем остальным желаю хорошей температуры(жду пока она будет соответствовать температуре на улице) и легкого прода💗

Please open Telegram to view this post

VIEW IN TELEGRAM

58 views16:25

Интересное что-то

59 views16:33

Интересное что-то

Forwarded from Dealer.AI

Галлюцинации, как недостаток энтропии для генерации токенов.

Ща будет сложное миясо

😈

осторожно длинопост.

Свежая и очень интересная статья, которая может связать концептуальное понимание глюков через недостаток знаний (в обывательском смысле) и недостаток информации для генерации уверенных/надежных токенов в Байессовском.

Авторы статьи задаются вопросом: если LLM приближенно выполняют байесовский вывод, то почему они демонстрируют нарушение инвариантности к перестановкам данных? Проще говоря, если изменить порядок слов во входном контексте, модель может выдать разные ответы, что противоречит принципам строгого байесовского вывода. Кстати, мы используем этот артефакт для атак языковых моделей в нашей библиотеке

, и это работает не только для decoder, но и для encoder моделей.

Такое явление напрямую связано с проблемой галлюцинаций. Исследователи ставят задачу объяснить этот парадокс и предложить теоретическую основу, которая не просто констатирует, а предсказывает возникновение галлюцинаций.

Ключевая идея исследования заключается в том, что языковые модели оптимизируют не истинную условную энтропию ℓ(Y|X), а ожидаемую кросс-энтропию по всем перестановкам входных данных.

Это означает, что модель является "байесовской в среднем", но не для каждого конкретного порядка слов. На основе этого авторы выводят несколько важных теоретических результатов:

1. Quantified Martingale Violation Bound: Показывает, что отклонения, вызванные порядком слов, масштабируются как O(log n).
2. Expectation-level Decompression Law: Связывает информационный бюджет модели с надежностью ее ответов.

Прим. Что такое информационный бюджет EDFL? EDFL — это математический закон, который устанавливает точную связь между количеством информации, доступной модели для ответа и максимально достижимой надежностью этого ответа.

Его главная роль заключается в том, что он превращает галлюцинации из непредсказуемых сбоев в предсказуемые последствия нехватки информации.

Исследователи сравнивают это с поврежденным ZIP-архивом: если при сжатии были потеряны данные, то при распаковке алгоритм выдаст "мусор", чтобы заполнить пробелы. EDFL позволяет заранее рассчитать, достаточно ли данных для корректного "восстановления" факта.

Согласно EDFL, для того чтобы поднять вероятность корректного ответа с априорного уровня q‌ (когда у модели мало контекста) до целевого уровня надежности p, требуется информационный бюджет Δ‌, измеряемый в натах (единица информации).

Формула EDFL задает нижнюю границу для этого бюджета:

Δ‌ ≥ (1 - ε) * log(1 / q‌) + O(q‌), где
1 - ε — целевая надежность ответа (например, 95%).
q‌ — средняя априорная вероятность правильного ответа, рассчитанная по "ослабленным" версиям промпта (например, с удаленными или замаскированными ключевыми фактами).
Δ‌ — информационный бюджет, который измеряется как разница между логарифмом вероятности ответа на полный промпт и средним значением логарифмов вероятностей на ослабленных промптах.

Проще говоря, эта формула показывает: чем реже или неочевиднее факт (ниже q‌), тем больше информации Δ‌ требуется модели, чтобы дать на него надежный ответ.

3. Мониторы B2T/RoH/ISR: Практические инструменты для принятия решений "ответить" или "воздержаться" от ответа, основанные на расчетах информационного бюджета.

- Bits-to-Trust (B2T): Рассчитывает, сколько именно информации (в битах или натах) необходимо для достижения заданного пользователем уровня надежности h* (например, не более 5% галлюцинаций). B2T = KL(Ber(1 - h*) || Ber(q_lo)), где q_lo — наихудшая априорная оценка.

- Risk-of-Hallucination (RoH): Оценивает максимально достижимую надежность (или, наоборот, риск ошибки) при текущем информационном бюджете Δ‌.

- Information Sufficiency Ratio (ISR): Ключевое отношение для принятия решения. ISR = Δ‌ / B2T.
• Если ISR ≥ 1, информации достаточно, и модель можно уверенно отвечать.
• Если ISR < 1, информационный бюджет недостаточен, и безопаснее отказаться от ответа.

Please open Telegram to view this post

VIEW IN TELEGRAM

59 views16:33

Интересное что-то

56 views16:37

Интересное что-то

Forwarded from Dealer.AI

GRPO на самом деле DPO и это многое упрощает

😱

Не буду приводить доказательства, вся зубодробительная математика тут. Скажу лишь, что GRPO было развитием PPO от команды DeepSeek при создании R семейства. Данный метод также исследует политику на разных траекториях, только сводит все в группы. Т.к. это ppo-like подход мы наследуем все те же проблемы стабилизации и настройки алгоритма, мало у кого кроме таких топ игроков он завелся для LLM предсказуемо. Поэтому модификация в виде dpo like (оч подробно писал тут про это) нам дает более простой, стабильный и надёжный вариант RLHF чисто на уровне sft.

Поэтому данная статья считаю оч важна и упростит жизнь AI-engineer при обучении моделек. Модификацию к dpo-like лосса GRPO приложу на скринах ниже.

Please open Telegram to view this post

VIEW IN TELEGRAM

60 views16:37

Интересное что-то

62 views16:46

Интересное что-то

Forwarded from Pavel Zloi

Давно мечтал разобраться с тем как конвертировать в GGUF без потерь в качестве, чтобы оного добиться необходимо использовать калибровочный датасет, но как подружить датасет, GGUF и инструменты квантизации для меня было неведомо.

Поэтому решил изучить тему сам и рассказать вам в моей новенькой публикации "GGUF: квантизация с калибровкой (imatrix)" на Хабр.

UPD. На примере модельки ai-sage/GigaChat-20B-A3B-instruct

#habr #gguf

65 views16:46

Интересное что-то

#systemdesign #database

65 views16:50

Интересное что-то

Forwarded from Базы данных & SQL

Хранение временных данных в PostgreSQL

Временные (промежуточные) данные - те, которые нужны для обработки в течение транзакции, сессии или ограниченное время. После истечения срока такие данные не нужны. Причина использования временных данных в том, что в одном запросе не всегда можно обработать все данные. Логика приложения может предусматривать обработку данных по частям - разными запросами. В статье рассматриваются и сравниваются способы хранения временных данных в:
1) обычных таблицах;
2) нежурналируемых таблицах;
3) материализованных представлениях;
4) временных таблицах;
5) в памяти серверного процесса, используя расширение pg_variables

Читать статью

68 views16:50

Интересное что-то

69 views17:12

Интересное что-то

Forwarded from Awesome DL (оleg)

Привет! Меня зовут Олег, я исследую, как оптимально скейлить языковые модели в Jülich Supercomputing Centre. Пока Андрей подзаряжается энергией для будущих постов, делюсь нашей новой работой — “Optimal Scaling Needs Optimal Norm”. Всем, кто задумывался о правильном тюнинге гиперпараметров — будет интересно!

Главная проблема в скейлинге — как подбирать гиперпараметры (learning rate, batch size и т.д.) на масштабе >1B параметров и >100B токенов, когда перебор брутфорсом уже не вариант. Известные подходы вроде muP и других параметризаций гарантируют оптимальность при скейлинге модели, но не объясняют, что делать при увеличении размера датасета — скажем, с 1B до 1T токенов. Эмпирические scaling laws (пример или наша прошлая работа) помогают, но теории объединяющей всё вместе пока не существует.

Мы подошли к этой проблеме со стороны norm-based optimization. Сейчас на хайпе Muon, который бьёт Adam, а в основе всего лежит теория Jeremy Bernstein (Modular Duality) — очень советую глянуть, это прям база. Также этот подход позволяет отслеживать эволюцию норм по слоям, и именно в них оказывается кроется секрет оптимального скейлинга!

С Scion (улучшенная версия Muon) мы показали: чтобы достичь оптимального скейлинга одновременно модели и(!) датасета, нужно удерживать веса на одном и том же manifold’е — то есть сохранять норму весов постоянной при любом масштабе. Кроме того, мы вывели, как оптимально подбирать batch size и learning rate в этом сэтапе, выпустили Distributed Scion для тренировки на множестве GPU + открыли логи 2000+ экспериментов.

В общем, всех инсайтов вкратце не описать, так что гляньте статью — буду рад обсудить идеи и услышать ваши мысли в комментах 😌

И апвоутните нас на Hugging Face! Было бы круто попасть в топ Daily Papers, мы уже очень близко 🚀

Optimal Scaling Needs Optimal Norm

Despite recent progress in optimal hyperparameter transfer under model and dataset scaling, no unifying explanatory principle has been established. Using the Scion optimizer, we discover that...

66 views17:12

Интересное что-то

68 views17:21

Интересное что-то

Forwarded from Sinекура

Завтра уже следующий доклад на семинаре лаборатории Маркова, но вот вам пока предыдущий:

Семинар Markov Lab — 2025.10.01—- RL для дообучения LLM
(Слайды на странице семинара)

Кирилл Тыщук в этом докладе дал обзор современных RL-алгоритмов (в основном из класса policy gradient, конечно), которые используются для дообучения LLM: PPO, DPO, GRPO и другие далее по списку. Фактически это была отличная обучающая лекция, так что ей особенно рад поделиться.

Надеюсь, удастся заманить Кирилла прочитать такую гостевую лекцию и в моём курсе deep learning на МКН.) Там как раз времени в этом семестре наконец-то стало побольше, и для этого есть все возможности.

69 views17:21

Интересное что-то

68 views17:23

Интересное что-то

Forwarded from Не AБы какие тесты

Привет, товарищи-статистики!
Поговорим про доверительные интервалы.

По окончанию теста мы всегда строим доверительный интервал эффекта с заданным уровнем надежности, который согласно заранее выставленной альфе равен 1 - альфа, пускай у нас он вышел 95%.

Внимание, вопрос, сколько раз такой интервал при стат. значимости охватит истинный эффект, если мощность = 80% ?

Так как уровень надежности и мощности независимы, то P(CI охватит Mu_эффект) * P(CI стат.значимый) = 0.95*0.8 = 0.76, то есть всего в 76%. Это кажется как будто контринтуитивно, но дело в том, что прочие 4% стат. значимых интервала как раз не охватывают эффект и, в таком конфиге, переоценивают эффект, см. картинку.

Почему нет интервалов между нулем и эффектом? На самом деле редко-редко, но они проскальзывают в симуляции, а их отсутствие в подавляющем объясняется так: чтобы такой CI получился, у вас должны собраться обе выборки с малой дисперсией, при этом А, которую мы берем из одного распределения, должна быть больше своего 50-го перцентиля, а B - меньше своего 50-го.

Но полезнее все-таки информации 76 на 4, как минимум это мы можем как-то учитывать при расчетах экономической модели.

Что остается нестат. значимыми интервалам? 95 - 76 = 19 из них будут охватывать интервал, а 5 - 4 = 1 - нет (эти цифры - в идеале). Это уже, как мне кажется, не так полезно, но просто интересно.

Ссылка на симуляцию (там надо играться с seed, чаще 76 будет, для сходимости ровно как на картинке, как мне кажется, надо заряжать еще больше попыток)

Пост появился благодаря Владу в том числе, спасибо тебе за комментарии и уделённое время.

P.S. Спрашивать на собеседовании я это, конечно, не буду.

70 views17:23

Интересное что-то

#llm #petproject

74 views19:16

Интересное что-то

Forwarded from Пристанище Дата Сайентиста (TelepostBot)

Написал новую статью: как стать AI-first специалистом

Последний год я работаю как Data Science консультант и полностью перестроил все процессы под AI-инструменты. Результат — продуктивность выросла

Что внутри:
📚 NotebookLM — превращает любые документы в интерактивную базу знаний. Недавно проанализировал 50-страничный контракт за 10 минут вместо часов

💻 Cursor — пишет код

🧠 Claude — лучший аналитик среди всех LLM.

⚡ v0 APP — генерирует готовые интерфейсы одним промптом. От идеи до working prototype за 15-30 минут

Бонус: честно рассказал об инструментах, которые не прижились (n8n и почему no-code оказался сложнее обычного кода)

Читать

Кто уже интегрировал AI в работу? Поделитесь опытом в комментах

Персональный блог Рената Алимбекова - Data Science, ML и Analytics Engineering

Как стать AI-first специалистом прямо сейчас

Как стать AI-first специалистом прямо сейчас NotebookLM. Cursor: VibeCodig. Claude. Repomix. v0.app - генерация интерфейсов одним промптом. n8n .

79 views19:16

Интересное что-то

#llm #agents #petproject

83 views19:17

Интересное что-то

Forwarded from Пристанище Дата Сайентиста (TelepostBot)

startup_technical_guide_ai_agents_final.pdf

Google выпустил гайд для стартапов о том, как создавать ИИ-агентов

Что там есть интересного:
1. Обеспечьте Grounding ответов агента через RAG (Retrieval-Augmented Generation)
2. Масштаб и Безопасность: Внедрите методологию AgentOps (Agent Operations) для автоматизированной оценки, CI/CD и управления недетерминированными системами.

А так там много интересных схем и подходов.

90 views19:17