Forwarded from Pavel Zloi
Давно мечтал разобраться с тем как конвертировать в GGUF без потерь в качестве, чтобы оного добиться необходимо использовать калибровочный датасет, но как подружить датасет, GGUF и инструменты квантизации для меня было неведомо.
Поэтому решил изучить тему сам и рассказать вам в моей новенькой публикации "GGUF: квантизация с калибровкой (imatrix)" на Хабр.
UPD. На примере модельки ai-sage/GigaChat-20B-A3B-instruct
#habr #gguf
Поэтому решил изучить тему сам и рассказать вам в моей новенькой публикации "GGUF: квантизация с калибровкой (imatrix)" на Хабр.
UPD. На примере модельки ai-sage/GigaChat-20B-A3B-instruct
#habr #gguf
Forwarded from Базы данных & SQL
Хранение временных данных в PostgreSQL
Временные (промежуточные) данные - те, которые нужны для обработки в течение транзакции, сессии или ограниченное время. После истечения срока такие данные не нужны. Причина использования временных данных в том, что в одном запросе не всегда можно обработать все данные. Логика приложения может предусматривать обработку данных по частям - разными запросами. В статье рассматриваются и сравниваются способы хранения временных данных в:
1) обычных таблицах;
2) нежурналируемых таблицах;
3) материализованных представлениях;
4) временных таблицах;
5) в памяти серверного процесса, используя расширение pg_variables
Читать статью
Временные (промежуточные) данные - те, которые нужны для обработки в течение транзакции, сессии или ограниченное время. После истечения срока такие данные не нужны. Причина использования временных данных в том, что в одном запросе не всегда можно обработать все данные. Логика приложения может предусматривать обработку данных по частям - разными запросами. В статье рассматриваются и сравниваются способы хранения временных данных в:
1) обычных таблицах;
2) нежурналируемых таблицах;
3) материализованных представлениях;
4) временных таблицах;
5) в памяти серверного процесса, используя расширение pg_variables
Читать статью
Forwarded from Awesome DL (оleg)
Привет! Меня зовут Олег, я исследую, как оптимально скейлить языковые модели в Jülich Supercomputing Centre. Пока Андрей подзаряжается энергией для будущих постов, делюсь нашей новой работой — “Optimal Scaling Needs Optimal Norm”. Всем, кто задумывался о правильном тюнинге гиперпараметров — будет интересно!
Главная проблема в скейлинге — как подбирать гиперпараметры (learning rate, batch size и т.д.) на масштабе >1B параметров и >100B токенов, когда перебор брутфорсом уже не вариант. Известные подходы вроде muP и других параметризаций гарантируют оптимальность при скейлинге модели, но не объясняют, что делать при увеличении размера датасета — скажем, с 1B до 1T токенов. Эмпирические scaling laws (пример или наша прошлая работа) помогают, но теории объединяющей всё вместе пока не существует.
Мы подошли к этой проблеме со стороны norm-based optimization. Сейчас на хайпе Muon, который бьёт Adam, а в основе всего лежит теория Jeremy Bernstein (Modular Duality) — очень советую глянуть, это прям база. Также этот подход позволяет отслеживать эволюцию норм по слоям, и именно в них оказывается кроется секрет оптимального скейлинга!
С Scion (улучшенная версия Muon) мы показали: чтобы достичь оптимального скейлинга одновременно модели и(!) датасета, нужно удерживать веса на одном и том же manifold’е — то есть сохранять норму весов постоянной при любом масштабе. Кроме того, мы вывели, как оптимально подбирать batch size и learning rate в этом сэтапе, выпустили Distributed Scion для тренировки на множестве GPU + открыли логи 2000+ экспериментов.
В общем, всех инсайтов вкратце не описать, так что гляньте статью — буду рад обсудить идеи и услышать ваши мысли в комментах 😌
И апвоутните нас на Hugging Face! Было бы круто попасть в топ Daily Papers, мы уже очень близко 🚀
Главная проблема в скейлинге — как подбирать гиперпараметры (learning rate, batch size и т.д.) на масштабе >1B параметров и >100B токенов, когда перебор брутфорсом уже не вариант. Известные подходы вроде muP и других параметризаций гарантируют оптимальность при скейлинге модели, но не объясняют, что делать при увеличении размера датасета — скажем, с 1B до 1T токенов. Эмпирические scaling laws (пример или наша прошлая работа) помогают, но теории объединяющей всё вместе пока не существует.
Мы подошли к этой проблеме со стороны norm-based optimization. Сейчас на хайпе Muon, который бьёт Adam, а в основе всего лежит теория Jeremy Bernstein (Modular Duality) — очень советую глянуть, это прям база. Также этот подход позволяет отслеживать эволюцию норм по слоям, и именно в них оказывается кроется секрет оптимального скейлинга!
С Scion (улучшенная версия Muon) мы показали: чтобы достичь оптимального скейлинга одновременно модели и(!) датасета, нужно удерживать веса на одном и том же manifold’е — то есть сохранять норму весов постоянной при любом масштабе. Кроме того, мы вывели, как оптимально подбирать batch size и learning rate в этом сэтапе, выпустили Distributed Scion для тренировки на множестве GPU + открыли логи 2000+ экспериментов.
В общем, всех инсайтов вкратце не описать, так что гляньте статью — буду рад обсудить идеи и услышать ваши мысли в комментах 😌
И апвоутните нас на Hugging Face! Было бы круто попасть в топ Daily Papers, мы уже очень близко 🚀
arXiv.org
Optimal Scaling Needs Optimal Norm
Despite recent progress in optimal hyperparameter transfer under model and dataset scaling, no unifying explanatory principle has been established. Using the Scion optimizer, we discover that...
Forwarded from Sinекура
Завтра уже следующий доклад на семинаре лаборатории Маркова, но вот вам пока предыдущий:
Семинар Markov Lab — 2025.10.01—- RL для дообучения LLM
(Слайды на странице семинара)
Кирилл Тыщук в этом докладе дал обзор современных RL-алгоритмов (в основном из класса policy gradient, конечно), которые используются для дообучения LLM: PPO, DPO, GRPO и другие далее по списку. Фактически это была отличная обучающая лекция, так что ей особенно рад поделиться.
Надеюсь, удастся заманить Кирилла прочитать такую гостевую лекцию и в моём курсе deep learning на МКН.) Там как раз времени в этом семестре наконец-то стало побольше, и для этого есть все возможности.
Семинар Markov Lab — 2025.10.01—- RL для дообучения LLM
(Слайды на странице семинара)
Кирилл Тыщук в этом докладе дал обзор современных RL-алгоритмов (в основном из класса policy gradient, конечно), которые используются для дообучения LLM: PPO, DPO, GRPO и другие далее по списку. Фактически это была отличная обучающая лекция, так что ей особенно рад поделиться.
Надеюсь, удастся заманить Кирилла прочитать такую гостевую лекцию и в моём курсе deep learning на МКН.) Там как раз времени в этом семестре наконец-то стало побольше, и для этого есть все возможности.
Forwarded from Не AБы какие тесты
Привет, товарищи-статистики!
Поговорим про доверительные интервалы.
По окончанию теста мы всегда строим доверительный интервал эффекта с заданным уровнем надежности, который согласно заранее выставленной альфе равен 1 - альфа, пускай у нас он вышел 95%.
Внимание, вопрос, сколько раз такой интервал при стат. значимости охватит истинный эффект, если мощность = 80% ?
Так как уровень надежности и мощности независимы, то P(CI охватит Mu_эффект) * P(CI стат.значимый) = 0.95*0.8 = 0.76, то есть всего в 76%. Это кажется как будто контринтуитивно, но дело в том, что прочие 4% стат. значимых интервала как раз не охватывают эффект и, в таком конфиге, переоценивают эффект, см. картинку.
Почему нет интервалов между нулем и эффектом? На самом деле редко-редко, но они проскальзывают в симуляции, а их отсутствие в подавляющем объясняется так: чтобы такой CI получился, у вас должны собраться обе выборки с малой дисперсией, при этом А, которую мы берем из одного распределения, должна быть больше своего 50-го перцентиля, а B - меньше своего 50-го.
Но полезнее все-таки информации 76 на 4, как минимум это мы можем как-то учитывать при расчетах экономической модели.
Что остается нестат. значимыми интервалам? 95 - 76 = 19 из них будут охватывать интервал, а 5 - 4 = 1 - нет (эти цифры - в идеале). Это уже, как мне кажется, не так полезно, но просто интересно.
Ссылка на симуляцию (там надо играться с seed, чаще 76 будет, для сходимости ровно как на картинке, как мне кажется, надо заряжать еще больше попыток)
Пост появился благодаря Владу в том числе, спасибо тебе за комментарии и уделённое время.
P.S. Спрашивать на собеседовании я это, конечно, не буду.
Поговорим про доверительные интервалы.
По окончанию теста мы всегда строим доверительный интервал эффекта с заданным уровнем надежности, который согласно заранее выставленной альфе равен 1 - альфа, пускай у нас он вышел 95%.
Внимание, вопрос, сколько раз такой интервал при стат. значимости охватит истинный эффект, если мощность = 80% ?
Так как уровень надежности и мощности независимы, то P(CI охватит Mu_эффект) * P(CI стат.значимый) = 0.95*0.8 = 0.76, то есть всего в 76%. Это кажется как будто контринтуитивно, но дело в том, что прочие 4% стат. значимых интервала как раз не охватывают эффект и, в таком конфиге, переоценивают эффект, см. картинку.
Почему нет интервалов между нулем и эффектом? На самом деле редко-редко, но они проскальзывают в симуляции, а их отсутствие в подавляющем объясняется так: чтобы такой CI получился, у вас должны собраться обе выборки с малой дисперсией, при этом А, которую мы берем из одного распределения, должна быть больше своего 50-го перцентиля, а B - меньше своего 50-го.
Но полезнее все-таки информации 76 на 4, как минимум это мы можем как-то учитывать при расчетах экономической модели.
Что остается нестат. значимыми интервалам? 95 - 76 = 19 из них будут охватывать интервал, а 5 - 4 = 1 - нет (эти цифры - в идеале). Это уже, как мне кажется, не так полезно, но просто интересно.
Ссылка на симуляцию (там надо играться с seed, чаще 76 будет, для сходимости ровно как на картинке, как мне кажется, надо заряжать еще больше попыток)
Пост появился благодаря Владу в том числе, спасибо тебе за комментарии и уделённое время.
P.S. Спрашивать на собеседовании я это, конечно, не буду.
Forwarded from Пристанище Дата Сайентиста (TelepostBot)
Написал новую статью: как стать AI-first специалистом
Последний год я работаю как Data Science консультант и полностью перестроил все процессы под AI-инструменты. Результат — продуктивность выросла
Что внутри:
📚 NotebookLM — превращает любые документы в интерактивную базу знаний. Недавно проанализировал 50-страничный контракт за 10 минут вместо часов
💻 Cursor — пишет код
🧠 Claude — лучший аналитик среди всех LLM.
⚡ v0 APP — генерирует готовые интерфейсы одним промптом. От идеи до working prototype за 15-30 минут
Бонус: честно рассказал об инструментах, которые не прижились (n8n и почему no-code оказался сложнее обычного кода)
Читать
Кто уже интегрировал AI в работу? Поделитесь опытом в комментах
Последний год я работаю как Data Science консультант и полностью перестроил все процессы под AI-инструменты. Результат — продуктивность выросла
Что внутри:
📚 NotebookLM — превращает любые документы в интерактивную базу знаний. Недавно проанализировал 50-страничный контракт за 10 минут вместо часов
💻 Cursor — пишет код
🧠 Claude — лучший аналитик среди всех LLM.
⚡ v0 APP — генерирует готовые интерфейсы одним промптом. От идеи до working prototype за 15-30 минут
Бонус: честно рассказал об инструментах, которые не прижились (n8n и почему no-code оказался сложнее обычного кода)
Читать
Кто уже интегрировал AI в работу? Поделитесь опытом в комментах
Персональный блог Рената Алимбекова - Data Science, ML и Analytics Engineering
Как стать AI-first специалистом прямо сейчас
Как стать AI-first специалистом прямо сейчас NotebookLM. Cursor: VibeCodig. Claude. Repomix. v0.app - генерация интерфейсов одним промптом. n8n .
Forwarded from Пристанище Дата Сайентиста (TelepostBot)
startup_technical_guide_ai_agents_final.pdf
25.4 MB
Google выпустил гайд для стартапов о том, как создавать ИИ-агентов
Что там есть интересного:
1. Обеспечьте Grounding ответов агента через RAG (Retrieval-Augmented Generation)
2. Масштаб и Безопасность: Внедрите методологию AgentOps (Agent Operations) для автоматизированной оценки, CI/CD и управления недетерминированными системами.
А так там много интересных схем и подходов.
Что там есть интересного:
1. Обеспечьте Grounding ответов агента через RAG (Retrieval-Augmented Generation)
2. Масштаб и Безопасность: Внедрите методологию AgentOps (Agent Operations) для автоматизированной оценки, CI/CD и управления недетерминированными системами.
А так там много интересных схем и подходов.
Forwarded from DziS Science | Data Science
Привет всем!👋
Просто посмотрите какая красота - логотип новой версии🐍 .
Вчера официально вышел релиз Python 3.14.
- Какие изменения нас ждут в данном релизе?
1️⃣ 🔤 Прежде всего, важнейшим обновлением является тот факт, что теперь Python официально поддерживается на ОС Android.
2️⃣ 🔤 Уже традиционное улучшение сообщений об ошибке.
3️⃣ 🔤 Куча удаленных и deprecated функций.
4️⃣ 🔤 Интересным нововведением является
Код ниже даст
Напротив, код ниже отработает без сигнализации проблем
5️⃣ 🔤 Выражение
6️⃣ 🔤 В встроенную библиотеку
7️⃣ 🔤 Новые
Такие конструкции удобны для проверки входящих данных, например целых кусков HTML, ведь вводимые данные имеют тип Interpolation.
Например:
Обновление интересное, включает еще в себя кучу оптимизаций, включая freethreding, JIT, дополнительной оптимизацией по памяти, что разрушает стериотип о Python - медленный, но простой.
По традиции, 🔥, если понравилось
#ds_лайфхаки
Просто посмотрите какая красота - логотип новой версии
Вчера официально вышел релиз Python 3.14.
- Какие изменения нас ждут в данном релизе?
whille True:
pass
Traceback (most recent call last):
File "<stdin>", line 1
whille True:
^^^^^^
SyntaxError: invalid syntax. Did you mean 'while'?
SyntaxWarning при использовании операторов return, break, continue, приводящих к выходу из блока finallyКод ниже даст
SyntaxWarningdef f():
try:
...
finally:
return 42
for x in o:
try:
...
finally:
break # (or continue)
Напротив, код ниже отработает без сигнализации проблем
try:
...
finally:
def f():
return 42
try:
...
finally:
for x in o:
break # (or continue)
except теперь может вызывать несколько типов ошибок без использования скобок:try:
connect_to_server()
except TimeoutError, ConnectionRefusedError:
print('The network has ceased to be!')
compression добавлен новый метод сжатия zstdt-strings. Т строки (Template Strings), иначе говоря шаблонные, включают в себя статичную и вставочную часть, при этом результат вывода не является строкой. variety = 'Stilton'
template = t'Try some {variety} cheese!'
type(template)
<class 'string.templatelib.Template'>
list(template)
['Try some ', Interpolation('Stilton', 'variety', None, ''), ' cheese!']
Такие конструкции удобны для проверки входящих данных, например целых кусков HTML, ведь вводимые данные имеют тип Interpolation.
Например:
def lower_upper(template):
"""Render static parts lowercase and interpolations uppercase."""
parts = []
for part in template:
if isinstance(part, Interpolation):
parts.append(str(part.value).upper())
else:
parts.append(part.lower())
return ''.join(parts)
name = 'Wenslydale'
template = t'Mister {name}'
assert lower_upper(template) == 'mister WENSLYDALE'
Обновление интересное, включает еще в себя кучу оптимизаций, включая freethreding, JIT, дополнительной оптимизацией по памяти, что разрушает стериотип о Python - медленный, но простой.
По традиции, 🔥, если понравилось
#ds_лайфхаки
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from LLM под капотом
Видео доклада "Schema-guided reasoning: как заставить LLM быть умнее"
Эту запись сделали и выложили ребята из @MadML_Talks
https://www.youtube.com/watch?v=0XhFB9OItqw
Разобрано очень дотошно и хорошо. Если есть какие-то вопросы к авторам, задавайте их тут или у них в чате!
Ваш, @llm_under_hood 🤗
Эту запись сделали и выложили ребята из @MadML_Talks
https://www.youtube.com/watch?v=0XhFB9OItqw
Разобрано очень дотошно и хорошо. Если есть какие-то вопросы к авторам, задавайте их тут или у них в чате!
Ваш, @llm_under_hood 🤗
YouTube
Schema-guided reasoning: как заставить LLM быть умнее
Революционный подход к управлению большими языковыми моделями через Schema-guided reasoning от Александра Брыля, ведущего ML-инженера Mad Devs. Узнайте, как заставить любую LLM рассуждать структурированно и создавать надежных агентов без сложных фреймворков.…
Forwarded from N айтишниц заходят в бар
Во время очередной встречи админов мы решили, что иногда хотим делиться с вами и познавательным контентом. Поэтому для тех, кому интересно, чем часть админов занимаются на работе и как устроены современные модели ML и DL мы сегодня представляем первый пост серии #Семинар 🧐
И он будет посвящен стильному модному✨генеративному CV✨. Да, вот это вот те которые Sora 2,простой отечественный Кандинский и все остальные.
Для этого мы пригласили Рому,чьи материалы Админ 13 использует , чтобы срочно освежить свои знания перед собесами.
Генеративное компьютерное зрение — сегодня одна из самых перспективных областей ML, с высокими зарплатами и нехваткой кадров. Это область, отвечающая за генерацию картинок, видео, 3D-объектов, миров в видеоиграх и всего, чего вздумается.
Открытых вопросов в генеративном CV еще много, но при этом его уже активно внедряют в свои продукты крупные компании.
Основной «треугольник» генеративных моделей в компьютерном зрении — это три ключевых подхода: VAE (Variational Autoencoders), GAN (Generative Adversarial Networks) и диффузионки.
В материале изучаем, чем отличаются друг от друга эти подходы к генерации в формате "к черту подробности, в каком мы городе".
Хватаем чаек с печеньками и продуктивно проводим последобеденный перерыв🐰
В комментах мы ждем ваши вопросы и предложения для новой рубрики и возмущения о том что "не ради умного контента вы тут собрались".
📸 На картинке изображена "генеративная триллема" – визуализация того, что нельзя просто взять и отнести кольцо в Мордор достичь высокой скорости, качества и разнообразия генерации. Каждый подход имеет только 2 свойства из 3.
P.S: жмите 🔥 если надо ввести рубрику на постоянной основе, 🦄 если и так все знаете.
И он будет посвящен стильному модному✨генеративному CV✨. Да, вот это вот те которые Sora 2,
Для этого мы пригласили Рому,
Генеративное компьютерное зрение — сегодня одна из самых перспективных областей ML, с высокими зарплатами и нехваткой кадров. Это область, отвечающая за генерацию картинок, видео, 3D-объектов, миров в видеоиграх и всего, чего вздумается.
Открытых вопросов в генеративном CV еще много, но при этом его уже активно внедряют в свои продукты крупные компании.
Основной «треугольник» генеративных моделей в компьютерном зрении — это три ключевых подхода: VAE (Variational Autoencoders), GAN (Generative Adversarial Networks) и диффузионки.
В материале изучаем, чем отличаются друг от друга эти подходы к генерации в формате "к черту подробности, в каком мы городе".
Хватаем чаек с печеньками и продуктивно проводим последобеденный перерыв
В комментах мы ждем ваши вопросы и предложения для новой рубрики и возмущения о том что "не ради умного контента вы тут собрались".
📸 На картинке изображена "генеративная триллема" – визуализация того, что нельзя просто взять и
P.S: жмите 🔥 если надо ввести рубрику на постоянной основе, 🦄 если и так все знаете.
Please open Telegram to view this post
VIEW IN TELEGRAM