Forwarded from Sinекура
Завтра уже следующий доклад на семинаре лаборатории Маркова, но вот вам пока предыдущий:
Семинар Markov Lab — 2025.10.01—- RL для дообучения LLM
(Слайды на странице семинара)
Кирилл Тыщук в этом докладе дал обзор современных RL-алгоритмов (в основном из класса policy gradient, конечно), которые используются для дообучения LLM: PPO, DPO, GRPO и другие далее по списку. Фактически это была отличная обучающая лекция, так что ей особенно рад поделиться.
Надеюсь, удастся заманить Кирилла прочитать такую гостевую лекцию и в моём курсе deep learning на МКН.) Там как раз времени в этом семестре наконец-то стало побольше, и для этого есть все возможности.
Семинар Markov Lab — 2025.10.01—- RL для дообучения LLM
(Слайды на странице семинара)
Кирилл Тыщук в этом докладе дал обзор современных RL-алгоритмов (в основном из класса policy gradient, конечно), которые используются для дообучения LLM: PPO, DPO, GRPO и другие далее по списку. Фактически это была отличная обучающая лекция, так что ей особенно рад поделиться.
Надеюсь, удастся заманить Кирилла прочитать такую гостевую лекцию и в моём курсе deep learning на МКН.) Там как раз времени в этом семестре наконец-то стало побольше, и для этого есть все возможности.
Forwarded from Не AБы какие тесты
Привет, товарищи-статистики!
Поговорим про доверительные интервалы.
По окончанию теста мы всегда строим доверительный интервал эффекта с заданным уровнем надежности, который согласно заранее выставленной альфе равен 1 - альфа, пускай у нас он вышел 95%.
Внимание, вопрос, сколько раз такой интервал при стат. значимости охватит истинный эффект, если мощность = 80% ?
Так как уровень надежности и мощности независимы, то P(CI охватит Mu_эффект) * P(CI стат.значимый) = 0.95*0.8 = 0.76, то есть всего в 76%. Это кажется как будто контринтуитивно, но дело в том, что прочие 4% стат. значимых интервала как раз не охватывают эффект и, в таком конфиге, переоценивают эффект, см. картинку.
Почему нет интервалов между нулем и эффектом? На самом деле редко-редко, но они проскальзывают в симуляции, а их отсутствие в подавляющем объясняется так: чтобы такой CI получился, у вас должны собраться обе выборки с малой дисперсией, при этом А, которую мы берем из одного распределения, должна быть больше своего 50-го перцентиля, а B - меньше своего 50-го.
Но полезнее все-таки информации 76 на 4, как минимум это мы можем как-то учитывать при расчетах экономической модели.
Что остается нестат. значимыми интервалам? 95 - 76 = 19 из них будут охватывать интервал, а 5 - 4 = 1 - нет (эти цифры - в идеале). Это уже, как мне кажется, не так полезно, но просто интересно.
Ссылка на симуляцию (там надо играться с seed, чаще 76 будет, для сходимости ровно как на картинке, как мне кажется, надо заряжать еще больше попыток)
Пост появился благодаря Владу в том числе, спасибо тебе за комментарии и уделённое время.
P.S. Спрашивать на собеседовании я это, конечно, не буду.
Поговорим про доверительные интервалы.
По окончанию теста мы всегда строим доверительный интервал эффекта с заданным уровнем надежности, который согласно заранее выставленной альфе равен 1 - альфа, пускай у нас он вышел 95%.
Внимание, вопрос, сколько раз такой интервал при стат. значимости охватит истинный эффект, если мощность = 80% ?
Так как уровень надежности и мощности независимы, то P(CI охватит Mu_эффект) * P(CI стат.значимый) = 0.95*0.8 = 0.76, то есть всего в 76%. Это кажется как будто контринтуитивно, но дело в том, что прочие 4% стат. значимых интервала как раз не охватывают эффект и, в таком конфиге, переоценивают эффект, см. картинку.
Почему нет интервалов между нулем и эффектом? На самом деле редко-редко, но они проскальзывают в симуляции, а их отсутствие в подавляющем объясняется так: чтобы такой CI получился, у вас должны собраться обе выборки с малой дисперсией, при этом А, которую мы берем из одного распределения, должна быть больше своего 50-го перцентиля, а B - меньше своего 50-го.
Но полезнее все-таки информации 76 на 4, как минимум это мы можем как-то учитывать при расчетах экономической модели.
Что остается нестат. значимыми интервалам? 95 - 76 = 19 из них будут охватывать интервал, а 5 - 4 = 1 - нет (эти цифры - в идеале). Это уже, как мне кажется, не так полезно, но просто интересно.
Ссылка на симуляцию (там надо играться с seed, чаще 76 будет, для сходимости ровно как на картинке, как мне кажется, надо заряжать еще больше попыток)
Пост появился благодаря Владу в том числе, спасибо тебе за комментарии и уделённое время.
P.S. Спрашивать на собеседовании я это, конечно, не буду.
Forwarded from Пристанище Дата Сайентиста (TelepostBot)
Написал новую статью: как стать AI-first специалистом
Последний год я работаю как Data Science консультант и полностью перестроил все процессы под AI-инструменты. Результат — продуктивность выросла
Что внутри:
📚 NotebookLM — превращает любые документы в интерактивную базу знаний. Недавно проанализировал 50-страничный контракт за 10 минут вместо часов
💻 Cursor — пишет код
🧠 Claude — лучший аналитик среди всех LLM.
⚡ v0 APP — генерирует готовые интерфейсы одним промптом. От идеи до working prototype за 15-30 минут
Бонус: честно рассказал об инструментах, которые не прижились (n8n и почему no-code оказался сложнее обычного кода)
Читать
Кто уже интегрировал AI в работу? Поделитесь опытом в комментах
Последний год я работаю как Data Science консультант и полностью перестроил все процессы под AI-инструменты. Результат — продуктивность выросла
Что внутри:
📚 NotebookLM — превращает любые документы в интерактивную базу знаний. Недавно проанализировал 50-страничный контракт за 10 минут вместо часов
💻 Cursor — пишет код
🧠 Claude — лучший аналитик среди всех LLM.
⚡ v0 APP — генерирует готовые интерфейсы одним промптом. От идеи до working prototype за 15-30 минут
Бонус: честно рассказал об инструментах, которые не прижились (n8n и почему no-code оказался сложнее обычного кода)
Читать
Кто уже интегрировал AI в работу? Поделитесь опытом в комментах
Персональный блог Рената Алимбекова - Data Science, ML и Analytics Engineering
Как стать AI-first специалистом прямо сейчас
Как стать AI-first специалистом прямо сейчас NotebookLM. Cursor: VibeCodig. Claude. Repomix. v0.app - генерация интерфейсов одним промптом. n8n .
Forwarded from Пристанище Дата Сайентиста (TelepostBot)
startup_technical_guide_ai_agents_final.pdf
25.4 MB
Google выпустил гайд для стартапов о том, как создавать ИИ-агентов
Что там есть интересного:
1. Обеспечьте Grounding ответов агента через RAG (Retrieval-Augmented Generation)
2. Масштаб и Безопасность: Внедрите методологию AgentOps (Agent Operations) для автоматизированной оценки, CI/CD и управления недетерминированными системами.
А так там много интересных схем и подходов.
Что там есть интересного:
1. Обеспечьте Grounding ответов агента через RAG (Retrieval-Augmented Generation)
2. Масштаб и Безопасность: Внедрите методологию AgentOps (Agent Operations) для автоматизированной оценки, CI/CD и управления недетерминированными системами.
А так там много интересных схем и подходов.
Forwarded from DziS Science | Data Science
Привет всем!👋
Просто посмотрите какая красота - логотип новой версии🐍 .
Вчера официально вышел релиз Python 3.14.
- Какие изменения нас ждут в данном релизе?
1️⃣ 🔤 Прежде всего, важнейшим обновлением является тот факт, что теперь Python официально поддерживается на ОС Android.
2️⃣ 🔤 Уже традиционное улучшение сообщений об ошибке.
3️⃣ 🔤 Куча удаленных и deprecated функций.
4️⃣ 🔤 Интересным нововведением является
Код ниже даст
Напротив, код ниже отработает без сигнализации проблем
5️⃣ 🔤 Выражение
6️⃣ 🔤 В встроенную библиотеку
7️⃣ 🔤 Новые
Такие конструкции удобны для проверки входящих данных, например целых кусков HTML, ведь вводимые данные имеют тип Interpolation.
Например:
Обновление интересное, включает еще в себя кучу оптимизаций, включая freethreding, JIT, дополнительной оптимизацией по памяти, что разрушает стериотип о Python - медленный, но простой.
По традиции, 🔥, если понравилось
#ds_лайфхаки
Просто посмотрите какая красота - логотип новой версии
Вчера официально вышел релиз Python 3.14.
- Какие изменения нас ждут в данном релизе?
whille True:
pass
Traceback (most recent call last):
File "<stdin>", line 1
whille True:
^^^^^^
SyntaxError: invalid syntax. Did you mean 'while'?
SyntaxWarning при использовании операторов return, break, continue, приводящих к выходу из блока finallyКод ниже даст
SyntaxWarningdef f():
try:
...
finally:
return 42
for x in o:
try:
...
finally:
break # (or continue)
Напротив, код ниже отработает без сигнализации проблем
try:
...
finally:
def f():
return 42
try:
...
finally:
for x in o:
break # (or continue)
except теперь может вызывать несколько типов ошибок без использования скобок:try:
connect_to_server()
except TimeoutError, ConnectionRefusedError:
print('The network has ceased to be!')
compression добавлен новый метод сжатия zstdt-strings. Т строки (Template Strings), иначе говоря шаблонные, включают в себя статичную и вставочную часть, при этом результат вывода не является строкой. variety = 'Stilton'
template = t'Try some {variety} cheese!'
type(template)
<class 'string.templatelib.Template'>
list(template)
['Try some ', Interpolation('Stilton', 'variety', None, ''), ' cheese!']
Такие конструкции удобны для проверки входящих данных, например целых кусков HTML, ведь вводимые данные имеют тип Interpolation.
Например:
def lower_upper(template):
"""Render static parts lowercase and interpolations uppercase."""
parts = []
for part in template:
if isinstance(part, Interpolation):
parts.append(str(part.value).upper())
else:
parts.append(part.lower())
return ''.join(parts)
name = 'Wenslydale'
template = t'Mister {name}'
assert lower_upper(template) == 'mister WENSLYDALE'
Обновление интересное, включает еще в себя кучу оптимизаций, включая freethreding, JIT, дополнительной оптимизацией по памяти, что разрушает стериотип о Python - медленный, но простой.
По традиции, 🔥, если понравилось
#ds_лайфхаки
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from LLM под капотом
Видео доклада "Schema-guided reasoning: как заставить LLM быть умнее"
Эту запись сделали и выложили ребята из @MadML_Talks
https://www.youtube.com/watch?v=0XhFB9OItqw
Разобрано очень дотошно и хорошо. Если есть какие-то вопросы к авторам, задавайте их тут или у них в чате!
Ваш, @llm_under_hood 🤗
Эту запись сделали и выложили ребята из @MadML_Talks
https://www.youtube.com/watch?v=0XhFB9OItqw
Разобрано очень дотошно и хорошо. Если есть какие-то вопросы к авторам, задавайте их тут или у них в чате!
Ваш, @llm_under_hood 🤗
YouTube
Schema-guided reasoning: как заставить LLM быть умнее
Революционный подход к управлению большими языковыми моделями через Schema-guided reasoning от Александра Брыля, ведущего ML-инженера Mad Devs. Узнайте, как заставить любую LLM рассуждать структурированно и создавать надежных агентов без сложных фреймворков.…
Forwarded from N айтишниц заходят в бар
Во время очередной встречи админов мы решили, что иногда хотим делиться с вами и познавательным контентом. Поэтому для тех, кому интересно, чем часть админов занимаются на работе и как устроены современные модели ML и DL мы сегодня представляем первый пост серии #Семинар 🧐
И он будет посвящен стильному модному✨генеративному CV✨. Да, вот это вот те которые Sora 2,простой отечественный Кандинский и все остальные.
Для этого мы пригласили Рому,чьи материалы Админ 13 использует , чтобы срочно освежить свои знания перед собесами.
Генеративное компьютерное зрение — сегодня одна из самых перспективных областей ML, с высокими зарплатами и нехваткой кадров. Это область, отвечающая за генерацию картинок, видео, 3D-объектов, миров в видеоиграх и всего, чего вздумается.
Открытых вопросов в генеративном CV еще много, но при этом его уже активно внедряют в свои продукты крупные компании.
Основной «треугольник» генеративных моделей в компьютерном зрении — это три ключевых подхода: VAE (Variational Autoencoders), GAN (Generative Adversarial Networks) и диффузионки.
В материале изучаем, чем отличаются друг от друга эти подходы к генерации в формате "к черту подробности, в каком мы городе".
Хватаем чаек с печеньками и продуктивно проводим последобеденный перерыв🐰
В комментах мы ждем ваши вопросы и предложения для новой рубрики и возмущения о том что "не ради умного контента вы тут собрались".
📸 На картинке изображена "генеративная триллема" – визуализация того, что нельзя просто взять и отнести кольцо в Мордор достичь высокой скорости, качества и разнообразия генерации. Каждый подход имеет только 2 свойства из 3.
P.S: жмите 🔥 если надо ввести рубрику на постоянной основе, 🦄 если и так все знаете.
И он будет посвящен стильному модному✨генеративному CV✨. Да, вот это вот те которые Sora 2,
Для этого мы пригласили Рому,
Генеративное компьютерное зрение — сегодня одна из самых перспективных областей ML, с высокими зарплатами и нехваткой кадров. Это область, отвечающая за генерацию картинок, видео, 3D-объектов, миров в видеоиграх и всего, чего вздумается.
Открытых вопросов в генеративном CV еще много, но при этом его уже активно внедряют в свои продукты крупные компании.
Основной «треугольник» генеративных моделей в компьютерном зрении — это три ключевых подхода: VAE (Variational Autoencoders), GAN (Generative Adversarial Networks) и диффузионки.
В материале изучаем, чем отличаются друг от друга эти подходы к генерации в формате "к черту подробности, в каком мы городе".
Хватаем чаек с печеньками и продуктивно проводим последобеденный перерыв
В комментах мы ждем ваши вопросы и предложения для новой рубрики и возмущения о том что "не ради умного контента вы тут собрались".
📸 На картинке изображена "генеративная триллема" – визуализация того, что нельзя просто взять и
P.S: жмите 🔥 если надо ввести рубрику на постоянной основе, 🦄 если и так все знаете.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Korenev AI - GPT в тапочках🩴
Продолжаем тему GEO и SEO (я уже много чего накопал, stay tuned)
В исследовании, посвященному оптимизации приводится следующий пример "ДО" и "ПОСЛЕ"
Запрос: Чем заняться в Нью-Йорке?
A.) Ответ ДО GEO:
Днём сбегите от городской суеты и шума, неспешно прогулявшись по Центральному парку [1]. Затем отправляйтесь к культовой Статуе Свободы [2]. Также попробуйте пиццу в нью-йоркском стиле [3].
B.) Ответ ПОСЛЕ GEO:
Начните с дегустации знаменитой нью-йоркской пиццы на завтрак. Это кулинарный опыт, который задаст тон всему дню [3]. Посетите Центральный парк [1]. Затем Статую Свободы [2].
Для оптимизации использовались следующие методы:
🟢 Высокоэффективные методы➖ Quotation Addition (Добавление цитат) — добавление прямых цитат из авторитетных источников
Улучшение: до 41% в метрике Position-Adjusted Word Count. Это самый ТОП в исследовании➖ Statistics Addition (Добавление статистики) — включение количественных данных и цифр вместо качественных описаний
Улучшение: до 31%➖ Cite Sources (Цитирование источников) — добавление ссылок на надежные источники для подтверждения информации
Улучшение: до 28%➖ Fluency Optimization (Оптимизация плавности) — улучшение плавности и связности текста
Улучшение: до 28%➖ Technical Terms (Технические термины) — добавление технических и профессиональных терминов где уместно
Улучшение: до 18%➖ Authoritative (Авторитетный стиль) — изменение стиля текста на более убедительный и авторитетный
Улучшение: до 19%➖ Easy-to-Understand (Упрощение языка) — упрощение языка сайта для лучшей читаемости
Улучшение: до 14%
🔴 Неэффективные методы (практически без улучшений)➖ Unique Words (Уникальные слова) — добавление уникальных слов➖ Keyword Stuffing (Набивка ключевыми словами) — добавление большего количества ключевых слов из запроса (классический SEO)
Полагаю, что в гору делишки пошли у владельца пиццерии
Так что, если будете в Нью-Йорке в следующий раз - непременно загляните в рекомендуемое заведение. Ну и передайте привет от Коренева
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Кибербез образование
Использование алгоритмов машинного обучения для решения задач кибербезопасности 🚀
По данным исследования Positive Technologies🟥 , технологии ИИ проходят первые шаги внедрения и эксплуатации. Можно уже уверенно говорить о преимуществах внедрения ML в инструменты защиты: снижение нагрузки на специалистов, ускорение реагирования на инциденты, поведенческий анализ пользователей и систем, обнаружение неизвестных угроз итд. Количество подобных задач возрастает с каждым днем 😱
Это приводит к увеличению потребности в специалистах, которые одновременно хорошо разбираются в ML и кибербезе (см. рисунок)🤔 Откуда такие специалисты появятся? Выпускники вузов понимают в ИИ/ML, но при этом не разбираются в практическом кибербезе, отсюда появилась идея курса: погрузить ML-специалистов в область кибербеза 👨💻
Приглашаем преподавателей и студентов на совместный проект "Образовательной Лиги вендоров", университета ИТМО и Positive Education 👨🎓
Для преподавателей это возможность обновить программы и усилить собственные знания, а студенты увидят, как машинное обучение применяется для реальных задач кибербеза👷
Важно: для участия необходимы знания Python, прикладного анализа данных и математики для работы с ML.
↘️ Регистрация на курс по ссылке: https://mlsec.itmo.ru
#ml #PositiveEducation
По данным исследования Positive Technologies
Это приводит к увеличению потребности в специалистах, которые одновременно хорошо разбираются в ML и кибербезе (см. рисунок)
Приглашаем преподавателей и студентов на совместный проект "Образовательной Лиги вендоров", университета ИТМО и Positive Education 👨🎓
Для преподавателей это возможность обновить программы и усилить собственные знания, а студенты увидят, как машинное обучение применяется для реальных задач кибербеза
Важно: для участия необходимы знания Python, прикладного анализа данных и математики для работы с ML.
#ml #PositiveEducation
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Love. Death. Transformers.
Qwen3-Next 80B-A3B
C того момента как она вышла, уже вышла Doubao, Step3, Qwen3-235B, DeepSeek V3.2 и я за пивом
- Hybrid Architecture: Gated DeltaNet + Gated Att - вариция на тему RNN + не везде а только 75% cлоев и 25% cлоев обычный attention
- 3b активных параметров при 80 тотал
- Используют QK postnorm по аналогии с DIT для улучшения стабильности
- MTP как в deepseek
- Показывают бОльшую скорость префила и декода чем соседи по метрикам (это если что qwen 30bA3 и qwen 32b)
blog
C того момента как она вышла, уже вышла Doubao, Step3, Qwen3-235B, DeepSeek V3.2 и я за пивом
- Hybrid Architecture: Gated DeltaNet + Gated Att - вариция на тему RNN + не везде а только 75% cлоев и 25% cлоев обычный attention
- 3b активных параметров при 80 тотал
- Используют QK postnorm по аналогии с DIT для улучшения стабильности
- MTP как в deepseek
- Показывают бОльшую скорость префила и декода чем соседи по метрикам (это если что qwen 30bA3 и qwen 32b)
blog