Интересное что-то – Telegram

Интересное что-то

517 subscribers

2.72K photos

253 videos

139 files

4.52K links

Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat

Download Telegram

About

Blog

Apps

Platform

Интересное что-то

517 subscribers

Интересное что-то

62 views16:46

Интересное что-то

Forwarded from Pavel Zloi

Давно мечтал разобраться с тем как конвертировать в GGUF без потерь в качестве, чтобы оного добиться необходимо использовать калибровочный датасет, но как подружить датасет, GGUF и инструменты квантизации для меня было неведомо.

Поэтому решил изучить тему сам и рассказать вам в моей новенькой публикации "GGUF: квантизация с калибровкой (imatrix)" на Хабр.

UPD. На примере модельки ai-sage/GigaChat-20B-A3B-instruct

#habr #gguf

65 views16:46

Интересное что-то

#systemdesign #database

65 views16:50

Интересное что-то

Forwarded from Базы данных & SQL

Хранение временных данных в PostgreSQL

Временные (промежуточные) данные - те, которые нужны для обработки в течение транзакции, сессии или ограниченное время. После истечения срока такие данные не нужны. Причина использования временных данных в том, что в одном запросе не всегда можно обработать все данные. Логика приложения может предусматривать обработку данных по частям - разными запросами. В статье рассматриваются и сравниваются способы хранения временных данных в:
1) обычных таблицах;
2) нежурналируемых таблицах;
3) материализованных представлениях;
4) временных таблицах;
5) в памяти серверного процесса, используя расширение pg_variables

Читать статью

68 views16:50

Интересное что-то

69 views17:12

Интересное что-то

Forwarded from Awesome DL (оleg)

Привет! Меня зовут Олег, я исследую, как оптимально скейлить языковые модели в Jülich Supercomputing Centre. Пока Андрей подзаряжается энергией для будущих постов, делюсь нашей новой работой — “Optimal Scaling Needs Optimal Norm”. Всем, кто задумывался о правильном тюнинге гиперпараметров — будет интересно!

Главная проблема в скейлинге — как подбирать гиперпараметры (learning rate, batch size и т.д.) на масштабе >1B параметров и >100B токенов, когда перебор брутфорсом уже не вариант. Известные подходы вроде muP и других параметризаций гарантируют оптимальность при скейлинге модели, но не объясняют, что делать при увеличении размера датасета — скажем, с 1B до 1T токенов. Эмпирические scaling laws (пример или наша прошлая работа) помогают, но теории объединяющей всё вместе пока не существует.

Мы подошли к этой проблеме со стороны norm-based optimization. Сейчас на хайпе Muon, который бьёт Adam, а в основе всего лежит теория Jeremy Bernstein (Modular Duality) — очень советую глянуть, это прям база. Также этот подход позволяет отслеживать эволюцию норм по слоям, и именно в них оказывается кроется секрет оптимального скейлинга!

С Scion (улучшенная версия Muon) мы показали: чтобы достичь оптимального скейлинга одновременно модели и(!) датасета, нужно удерживать веса на одном и том же manifold’е — то есть сохранять норму весов постоянной при любом масштабе. Кроме того, мы вывели, как оптимально подбирать batch size и learning rate в этом сэтапе, выпустили Distributed Scion для тренировки на множестве GPU + открыли логи 2000+ экспериментов.

В общем, всех инсайтов вкратце не описать, так что гляньте статью — буду рад обсудить идеи и услышать ваши мысли в комментах 😌

И апвоутните нас на Hugging Face! Было бы круто попасть в топ Daily Papers, мы уже очень близко 🚀

Optimal Scaling Needs Optimal Norm

Despite recent progress in optimal hyperparameter transfer under model and dataset scaling, no unifying explanatory principle has been established. Using the Scion optimizer, we discover that...

66 views17:12

Интересное что-то

68 views17:21

Интересное что-то

Forwarded from Sinекура

Завтра уже следующий доклад на семинаре лаборатории Маркова, но вот вам пока предыдущий:

Семинар Markov Lab — 2025.10.01—- RL для дообучения LLM
(Слайды на странице семинара)

Кирилл Тыщук в этом докладе дал обзор современных RL-алгоритмов (в основном из класса policy gradient, конечно), которые используются для дообучения LLM: PPO, DPO, GRPO и другие далее по списку. Фактически это была отличная обучающая лекция, так что ей особенно рад поделиться.

Надеюсь, удастся заманить Кирилла прочитать такую гостевую лекцию и в моём курсе deep learning на МКН.) Там как раз времени в этом семестре наконец-то стало побольше, и для этого есть все возможности.

69 views17:21

Интересное что-то

68 views17:23

Интересное что-то

Forwarded from Не AБы какие тесты

Привет, товарищи-статистики!
Поговорим про доверительные интервалы.

По окончанию теста мы всегда строим доверительный интервал эффекта с заданным уровнем надежности, который согласно заранее выставленной альфе равен 1 - альфа, пускай у нас он вышел 95%.

Внимание, вопрос, сколько раз такой интервал при стат. значимости охватит истинный эффект, если мощность = 80% ?

Так как уровень надежности и мощности независимы, то P(CI охватит Mu_эффект) * P(CI стат.значимый) = 0.95*0.8 = 0.76, то есть всего в 76%. Это кажется как будто контринтуитивно, но дело в том, что прочие 4% стат. значимых интервала как раз не охватывают эффект и, в таком конфиге, переоценивают эффект, см. картинку.

Почему нет интервалов между нулем и эффектом? На самом деле редко-редко, но они проскальзывают в симуляции, а их отсутствие в подавляющем объясняется так: чтобы такой CI получился, у вас должны собраться обе выборки с малой дисперсией, при этом А, которую мы берем из одного распределения, должна быть больше своего 50-го перцентиля, а B - меньше своего 50-го.

Но полезнее все-таки информации 76 на 4, как минимум это мы можем как-то учитывать при расчетах экономической модели.

Что остается нестат. значимыми интервалам? 95 - 76 = 19 из них будут охватывать интервал, а 5 - 4 = 1 - нет (эти цифры - в идеале). Это уже, как мне кажется, не так полезно, но просто интересно.

Ссылка на симуляцию (там надо играться с seed, чаще 76 будет, для сходимости ровно как на картинке, как мне кажется, надо заряжать еще больше попыток)

Пост появился благодаря Владу в том числе, спасибо тебе за комментарии и уделённое время.

P.S. Спрашивать на собеседовании я это, конечно, не буду.

70 views17:23

Интересное что-то

#llm #petproject

74 views19:16

Интересное что-то

Forwarded from Пристанище Дата Сайентиста (TelepostBot)

Написал новую статью: как стать AI-first специалистом

Последний год я работаю как Data Science консультант и полностью перестроил все процессы под AI-инструменты. Результат — продуктивность выросла

Что внутри:
📚 NotebookLM — превращает любые документы в интерактивную базу знаний. Недавно проанализировал 50-страничный контракт за 10 минут вместо часов

💻 Cursor — пишет код

🧠 Claude — лучший аналитик среди всех LLM.

⚡ v0 APP — генерирует готовые интерфейсы одним промптом. От идеи до working prototype за 15-30 минут

Бонус: честно рассказал об инструментах, которые не прижились (n8n и почему no-code оказался сложнее обычного кода)

Читать

Кто уже интегрировал AI в работу? Поделитесь опытом в комментах

Персональный блог Рената Алимбекова - Data Science, ML и Analytics Engineering

Как стать AI-first специалистом прямо сейчас

Как стать AI-first специалистом прямо сейчас NotebookLM. Cursor: VibeCodig. Claude. Repomix. v0.app - генерация интерфейсов одним промптом. n8n .

79 views19:16

Интересное что-то

#llm #agents #petproject

83 views19:17

Интересное что-то

Forwarded from Пристанище Дата Сайентиста (TelepostBot)

startup_technical_guide_ai_agents_final.pdf

Google выпустил гайд для стартапов о том, как создавать ИИ-агентов

Что там есть интересного:
1. Обеспечьте Grounding ответов агента через RAG (Retrieval-Augmented Generation)
2. Масштаб и Безопасность: Внедрите методологию AgentOps (Agent Operations) для автоматизированной оценки, CI/CD и управления недетерминированными системами.

А так там много интересных схем и подходов.

90 views19:17

Интересное что-то

82 views14:31

Интересное что-то

Forwarded from DziS Science | Data Science

Привет всем!👋

Просто посмотрите какая красота - логотип новой версии 🐍.
Вчера официально вышел релиз Python 3.14.

- Какие изменения нас ждут в данном релизе?

1️⃣

🔤 Прежде всего, важнейшим обновлением является тот факт, что теперь Python официально поддерживается на ОС Android.

2️⃣

🔤Уже традиционное улучшение сообщений об ошибке.

whille True:
    pass
Traceback (most recent call last):
  File "<stdin>", line 1
    whille True:
    ^^^^^^
SyntaxError: invalid syntax. Did you mean 'while'?

3️⃣

🔤Куча удаленных и deprecated функций.

4️⃣

🔤Интересным нововведением является SyntaxWarning при использовании операторов return, break, continue, приводящих к выходу из блока finally
Код ниже даст SyntaxWarning

 def f():
     try:
         ...
     finally:
         return 42

 for x in o:
     try:
         ...
     finally:
         break  # (or continue)

Напротив, код ниже отработает без сигнализации проблем

 try:
     ...
 finally:
     def f():
         return 42

 try:
     ...
 finally:
     for x in o:
         break  # (or continue)

5️⃣

🔤Выражение except теперь может вызывать несколько типов ошибок без использования скобок:

try:
    connect_to_server()
except TimeoutError, ConnectionRefusedError:
    print('The network has ceased to be!')

6️⃣

🔤В встроенную библиотеку compression добавлен новый метод сжатия zstd

7️⃣

🔤Новые t-strings. Т строки (Template Strings), иначе говоря шаблонные, включают в себя статичную и вставочную часть, при этом результат вывода не является строкой.

variety = 'Stilton'
template = t'Try some {variety} cheese!'
type(template)
<class 'string.templatelib.Template'>

list(template)
['Try some ', Interpolation('Stilton', 'variety', None, ''), ' cheese!']

Такие конструкции удобны для проверки входящих данных, например целых кусков HTML, ведь вводимые данные имеют тип Interpolation.
Например:

def lower_upper(template):
    """Render static parts lowercase and interpolations uppercase."""
    parts = []
    for part in template:
        if isinstance(part, Interpolation):
            parts.append(str(part.value).upper())
        else:
            parts.append(part.lower())
    return ''.join(parts)

name = 'Wenslydale'
template = t'Mister {name}'
assert lower_upper(template) == 'mister WENSLYDALE'

Обновление интересное, включает еще в себя кучу оптимизаций, включая freethreding, JIT, дополнительной оптимизацией по памяти, что разрушает стериотип о Python - медленный, но простой.

По традиции, 🔥, если понравилось
#ds_лайфхаки

Please open Telegram to view this post

VIEW IN TELEGRAM

80 views14:31

Интересное что-то

83 views16:15

Интересное что-то

Forwarded from LLM под капотом

Видео доклада "Schema-guided reasoning: как заставить LLM быть умнее"

Эту запись сделали и выложили ребята из @MadML_Talks
https://www.youtube.com/watch?v=0XhFB9OItqw

Разобрано очень дотошно и хорошо. Если есть какие-то вопросы к авторам, задавайте их тут или у них в чате!

Ваш, @llm_under_hood 🤗

Schema-guided reasoning: как заставить LLM быть умнее

Революционный подход к управлению большими языковыми моделями через Schema-guided reasoning от Александра Брыля, ведущего ML-инженера Mad Devs. Узнайте, как заставить любую LLM рассуждать структурированно и создавать надежных агентов без сложных фреймворков.…

80 views16:15

Интересное что-то

84 views10:00

Интересное что-то

Forwarded from N айтишниц заходят в бар

Во время очередной встречи админов мы решили, что иногда хотим делиться с вами и познавательным контентом. Поэтому для тех, кому интересно, чем часть админов занимаются на работе и как устроены современные модели ML и DL мы сегодня представляем первый пост серии #Семинар

🧐

И он будет посвящен стильному модному✨генеративному CV✨. Да, вот это вот те которые Sora 2, ~~простой отечественный~~ Кандинский и все остальные.

Для этого мы пригласили Рому, чьи материалы Админ 13 использует, чтобы срочно освежить свои знания перед собесами.
Генеративное компьютерное зрение — сегодня одна из самых перспективных областей ML, с высокими зарплатами и нехваткой кадров. Это область, отвечающая за генерацию картинок, видео, 3D-объектов, миров в видеоиграх и всего, чего вздумается.
Открытых вопросов в генеративном CV еще много, но при этом его уже активно внедряют в свои продукты крупные компании.

Основной «треугольник» генеративных моделей в компьютерном зрении — это три ключевых подхода: VAE (Variational Autoencoders), GAN (Generative Adversarial Networks) и диффузионки.

В материале изучаем, чем отличаются друг от друга эти подходы к генерации в формате "к черту подробности, в каком мы городе".
Хватаем чаек с печеньками и продуктивно проводим последобеденный перерыв🐰

В комментах мы ждем ваши вопросы и предложения для новой рубрики и возмущения о том что "не ради умного контента вы тут собрались".

📸 На картинке изображена "генеративная триллема" – визуализация того, что нельзя просто взять и ~~отнести кольцо в Мордор~~ достичь высокой скорости, качества и разнообразия генерации. Каждый подход имеет только 2 свойства из 3.

P.S: жмите 🔥 если надо ввести рубрику на постоянной основе, 🦄 если и так все знаете.

Please open Telegram to view this post

VIEW IN TELEGRAM

82 views10:00

Интересное что-то

76 views10:49