Forwarded from ML Underhood
YandexGPT 5 уже в опенсорсе и Алисе
Сегодня Яндекс показал миру новое поколение больших языковых моделей — YandexGPT 5. Старшая модель YandexGPT 5 Pro доступна в чате с Алисой и Yandex Cloud через API. Ну а претрейн-версия младшей модели YandexGPT 5 Lite Pretrain — уже лежит на Hugging Face.
Все подробности о процессе обучения можно прочитать в статье на Хабре. А в этом посте — главные факты о свежей опенсорсной модели Яндекса.
YandexGPT 5 Lite Pretrain — модель на 8 миллиардов параметров с длиной контекста 32 тысячи токенов. Претрейн проходил в два этапа: сначала модель обучили на 15 триллионах токенов текста на русском и английском языках, а потом использовали 320 миллиардов токенов высококачественных данных, включая образовательный контент.
На первом этапе датасет больше чем на половину состоял из веб-документов, остальное — код, математика и специфичные данные. Под последними подразумеваются синтетика (сгенерированные YandexGPT 4 вопросы на основе проверенных источников) и внутренние наработки компании (например, внутренняя база Яндекса Fact Snippet и новый корпус данных Переводчика).
На втором этапе датасет на четверть состоял из веб-страниц и почти в равных пропорциях содержал математику, код и образовательные данные. Также была небольшая часть аугментаций фактовых документов, другой синтетики и датасетов сервисов.
По сравнению с моделью предыдущего поколения, YandexGPT 4 Lite Pretrain, новая модель показывает ощутимый рост качества в решении математических задач и написании кода. А в сравнении с зарубежными аналогами, такими как LLaMa3.1-8B и Qwen-2.5-7B-base, она лидирует почти во всех типах задач.
Ещё раз приглашаем пощупать модель, почитать статью на Хабре с деталями обучения и не забыть поделиться впечатлениями в комментариях!
ML Underhood
Сегодня Яндекс показал миру новое поколение больших языковых моделей — YandexGPT 5. Старшая модель YandexGPT 5 Pro доступна в чате с Алисой и Yandex Cloud через API. Ну а претрейн-версия младшей модели YandexGPT 5 Lite Pretrain — уже лежит на Hugging Face.
Все подробности о процессе обучения можно прочитать в статье на Хабре. А в этом посте — главные факты о свежей опенсорсной модели Яндекса.
YandexGPT 5 Lite Pretrain — модель на 8 миллиардов параметров с длиной контекста 32 тысячи токенов. Претрейн проходил в два этапа: сначала модель обучили на 15 триллионах токенов текста на русском и английском языках, а потом использовали 320 миллиардов токенов высококачественных данных, включая образовательный контент.
На первом этапе датасет больше чем на половину состоял из веб-документов, остальное — код, математика и специфичные данные. Под последними подразумеваются синтетика (сгенерированные YandexGPT 4 вопросы на основе проверенных источников) и внутренние наработки компании (например, внутренняя база Яндекса Fact Snippet и новый корпус данных Переводчика).
На втором этапе датасет на четверть состоял из веб-страниц и почти в равных пропорциях содержал математику, код и образовательные данные. Также была небольшая часть аугментаций фактовых документов, другой синтетики и датасетов сервисов.
По сравнению с моделью предыдущего поколения, YandexGPT 4 Lite Pretrain, новая модель показывает ощутимый рост качества в решении математических задач и написании кода. А в сравнении с зарубежными аналогами, такими как LLaMa3.1-8B и Qwen-2.5-7B-base, она лидирует почти во всех типах задач.
Ещё раз приглашаем пощупать модель, почитать статью на Хабре с деталями обучения и не забыть поделиться впечатлениями в комментариях!
ML Underhood
Forwarded from Quant Valerian
Очередная итерация по повышению точности прогнозирования сроков проектов 🤓
В этой работе нами было показано
В какой-то раз, похоже, придется реально статью уже писать 😁
КОРОЧЕ, опять Канеманн меня вдохновил на идею. В главе «Взгляд извне» он рассказывает, что они с коллегами собрались написать учебник. Попланировали, поприкидывали, написали несколько глав.
❗️ВНИМАНИЕ!❗️Планинг покер!❗️ Канеманн попросил каждого участника независимо оценить срок, в который они закончат книгу. В среднем они оценили срок в два года.
А потом они спросили одного из членов группы, специалиста по спецкурсам, как исторически справлялись другие группы?💡
Он ответил, что в среднем книгу такого объема пишут минимум за семь лет, но не больше, чем за десять. Ещё он сказал, что их группа несколько слабее среднего по уровню подготовки и ресурсов.
Услышав это, они погрустнели.
И забили хер на эту информацию! 😁 В итоге, книгу они писали ещё восемь лет с того эпизода.😱
Что с этим делать?
Я уже рассказывал, что мы пользуемся статистикой. Кратко🤡 напомню:
1. Собираем диаграмму Гантта (там нарезано на MOVE a la стори, других задач там нет, даже самое мелкое внесено через MOVE) 😋
2. Оцениваем стори маечно (совсем мелочь / что-то невообразимо большое / всё остальное) 📏
3. Смотрим цикл-тайм (на самом деле lead time ) диаграммы в разрезе этих размеров (медианы и 85%%)👩🔬
4. Выделяем критический путь в Гантте (с учетом ресурсов) ☢️
5. Для критического пути считаем медиану (как сумму медиан задач) и 85%% (как сумму 85%%), вообще говоря, так нельзя делать математически, но нам для примерности сойдет (распределения там логнормальные примерно, я проверял на разных командах из разных частей компании) 🧮
6. Теперь мы знаем, когда закончим с вероятностью 50%, когда с вероятностью 85% — скорее всего где-то между этими значениями и получится 🤞
7*. Не надо закладывать никакие буферы, они учтены в статистике 🤌
Это работает, мы пробовали. Но не так хорошо, как на бумаге. Потому что люди (ну мы) туповаты 🤤 и, например, на старте проекта забывают, не учитывают какой-то кусок работы. Или приходит какой-нибудь аудитор/регулятор/юрист🤵🏼♂️ и наваливает вам 💩 еще обязательного в скоуп.
!!!НОВАЯ ИНФОРМАЦИЯ!!! 🎉
Поэтому предлагается ко взгляду извне (метод выше) добавить ещё субъективщины. И важно, что я говорю не о том, что мы ко всем проектам просто будем докидывать какой-то одинаковый (в абсолютах или процентах) запас. А о том, что у нас есть:
1. Чуйка (aka интуиция aka насмотренность) 🐕
2. Осознанное знание, как шли какие-то похожие проекты 👴🏻
И вот тут уже, имея опору в виде объективной априорной оценки, стоит опросить членов команды, что они думают о сроках. И эти данные использовать, как поправку. Конкретную методику я ещё не пробовал, поэтому мне нечего вам посоветовать. 🌝 Пока!
Из этой истории, btw, можно сделать вывод, что не работают не только стори поинты, но и планинг покер. Хотя для взвешивания быка 🐂 вроде работает. Разница в том, что при планировании работы, мы оцениваем себя, а от веса быка нам ни холодно, ни жарко.
В какой-то раз, похоже, придется реально статью уже писать 😁
КОРОЧЕ, опять Канеманн меня вдохновил на идею. В главе «Взгляд извне» он рассказывает, что они с коллегами собрались написать учебник. Попланировали, поприкидывали, написали несколько глав.
❗️ВНИМАНИЕ!❗️Планинг покер!❗️ Канеманн попросил каждого участника независимо оценить срок, в который они закончат книгу. В среднем они оценили срок в два года.
А потом они спросили одного из членов группы, специалиста по спецкурсам, как исторически справлялись другие группы?💡
Он ответил, что в среднем книгу такого объема пишут минимум за семь лет, но не больше, чем за десять. Ещё он сказал, что их группа несколько слабее среднего по уровню подготовки и ресурсов.
Услышав это, они погрустнели.
И забили хер на эту информацию! 😁 В итоге, книгу они писали ещё восемь лет с того эпизода.😱
Что с этим делать?
Я уже рассказывал, что мы пользуемся статистикой. Кратко
1. Собираем диаграмму Гантта (там нарезано на MOVE a la стори, других задач там нет, даже самое мелкое внесено через MOVE) 😋
2. Оцениваем стори маечно (совсем мелочь / что-то невообразимо большое / всё остальное) 📏
3. Смотрим цикл-тайм (
4. Выделяем критический путь в Гантте (с учетом ресурсов) ☢️
5. Для критического пути считаем медиану (как сумму медиан задач) и 85%% (как сумму 85%%), вообще говоря, так нельзя делать математически, но нам для примерности сойдет (распределения там логнормальные примерно, я проверял на разных командах из разных частей компании) 🧮
6. Теперь мы знаем, когда закончим с вероятностью 50%, когда с вероятностью 85% — скорее всего где-то между этими значениями и получится 🤞
7*. Не надо закладывать никакие буферы, они учтены в статистике 🤌
Это работает, мы пробовали. Но не так хорошо, как на бумаге. Потому что люди (ну мы) туповаты 🤤 и, например, на старте проекта забывают, не учитывают какой-то кусок работы. Или приходит какой-нибудь аудитор/регулятор/юрист🤵🏼♂️ и наваливает вам 💩 еще обязательного в скоуп.
!!!НОВАЯ ИНФОРМАЦИЯ!!! 🎉
Поэтому предлагается ко взгляду извне (метод выше) добавить ещё субъективщины. И важно, что я говорю не о том, что мы ко всем проектам просто будем докидывать какой-то одинаковый (в абсолютах или процентах) запас. А о том, что у нас есть:
1. Чуйка (aka интуиция aka насмотренность) 🐕
2. Осознанное знание, как шли какие-то похожие проекты 👴🏻
И вот тут уже, имея опору в виде объективной априорной оценки, стоит опросить членов команды, что они думают о сроках. И эти данные использовать, как поправку. Конкретную методику я ещё не пробовал, поэтому мне нечего вам посоветовать. 🌝 Пока!
Из этой истории, btw, можно сделать вывод, что не работают не только стори поинты, но и планинг покер. Хотя для взвешивания быка 🐂 вроде работает. Разница в том, что при планировании работы, мы оцениваем себя, а от веса быка нам ни холодно, ни жарко.
tenchat.ru
MOVE как атомарная единица бизнес-ценности — Олег Лыков на TenChat.ru
Целевой пакет/объем работ также является единицей обязательств.
В #Канбан-доске управления портфелем проектов буфер ограничения в потоке работ представлен колонкой "Принято".
Обязательства, которые попадают в колонку "Принято", являются именно такими: они…
В #Канбан-доске управления портфелем проектов буфер ограничения в потоке работ представлен колонкой "Принято".
Обязательства, которые попадают в колонку "Принято", являются именно такими: они…
Forwarded from MWS AI
Может ли LLM с 1 миллиардом параметров обойти LLM c 405 миллиардами?
Всем привет, сегодня хотел обсудить статью с многообещающим названием "Can 1B LLM Surpass 405B LLM?".
забегая вперед, ответ - да (можно увидеть на картинке 1), конечно, с оговоркой, что на некоторых задачах и при определенных условиях
что за задачи и условия? об этом и поговорим; задач в статье рассмотрено две, точнее два набора задач - MATH-500 и AIME24
теперь про условия, условие здесь самое важное - это дополнительные рассуждения модели в момент ответа на вопрос
для рассуждения в статье используют и Llama 3 и Qwen 2.5,, точнее по несколько разновеликих моделей из этих семейств
тут есть хитрость, рассуждения сейчас принято делить на несколько видов:
но сгенерировать набор гипотез мало, необходимо еще как-то из этих гипотез выбрать, а чтобы выбрать, необходимо сначала оценить, и тут коллеги разошлись на полную - используют 7 разных моделей, каждая из которых еще может быть в разных весовых категориях; эти модели могут использоваться по-разному - например, для оценки конечного результата Beam Search или каждого шага
дополнительно, они исследуют разные схемы выбора из нескольких оцененных вариантов, такие как - выбор самого частого варианта, выбор варианта с самой высокой оценкой и другие
после всех ухищрений с поиском оптимального сочетания всех факторов, они как раз и приходят к картинке 1 и положительному ответу на вопрос, но на мой взгляд тут на мой взгляд интересна картинка 3: она показывает, что общие затраты вычислений на все рассуждения маленькой моделькой и затраты на вычисление ответа большой моделью оказываются сопоставимы
это на мой взгляд фундаментально - качество зависит от того, сколько вы "думаете" над задачей, не так важно - большая у вас модель или маленькая; этому есть аналогия в живой природе - есть такой род пауков Portia (порция), которые демонстрируют сложность поведения сравнимую с кошкой, они своим небольшим нервным узлом, заменяющим им мозг, могут рассчитывать сложные прыжки, например, хотя количество нейронов у них в сотни раз меньше; делают они это за счет обработки задачи по частям, то есть они сначала долго сидят и думают, а потом - как прыгнут!
Всем привет, сегодня хотел обсудить статью с многообещающим названием "Can 1B LLM Surpass 405B LLM?".
забегая вперед, ответ - да (можно увидеть на картинке 1), конечно, с оговоркой, что на некоторых задачах и при определенных условиях
что за задачи и условия? об этом и поговорим; задач в статье рассмотрено две, точнее два набора задач - MATH-500 и AIME24
MATH-500 - это 500 математических задач уровня старшей школы, которые предназначены для решения школьниками в классе, AIME24 - это 24 олимпиадных задачи также уровня старшей школы; в последнее время эти два набора стали популярны для оценки моделей по математике
теперь про условия, условие здесь самое важное - это дополнительные рассуждения модели в момент ответа на вопрос
для рассуждения в статье используют и Llama 3 и Qwen 2.5,, точнее по несколько разновеликих моделей из этих семейств
тут есть хитрость, рассуждения сейчас принято делить на несколько видов:
выбор из нескольких параллельно сгенерированных вариантов (Best of N, BoN), построения дерева рассуждений (Beam Search) и выбор из нескольких таких деревьев (Diverse Verifier Tree Search, DVTS), они все показаны на картинке 2; у каждого из этих вариантов есть свои гиперпараметры, например, количество вариантов для BoN или деревьев для DVTS
но сгенерировать набор гипотез мало, необходимо еще как-то из этих гипотез выбрать, а чтобы выбрать, необходимо сначала оценить, и тут коллеги разошлись на полную - используют 7 разных моделей, каждая из которых еще может быть в разных весовых категориях; эти модели могут использоваться по-разному - например, для оценки конечного результата Beam Search или каждого шага
дополнительно, они исследуют разные схемы выбора из нескольких оцененных вариантов, такие как - выбор самого частого варианта, выбор варианта с самой высокой оценкой и другие
после всех ухищрений с поиском оптимального сочетания всех факторов, они как раз и приходят к картинке 1 и положительному ответу на вопрос, но на мой взгляд тут на мой взгляд интересна картинка 3: она показывает, что общие затраты вычислений на все рассуждения маленькой моделькой и затраты на вычисление ответа большой моделью оказываются сопоставимы
это на мой взгляд фундаментально - качество зависит от того, сколько вы "думаете" над задачей, не так важно - большая у вас модель или маленькая; этому есть аналогия в живой природе - есть такой род пауков Portia (порция), которые демонстрируют сложность поведения сравнимую с кошкой, они своим небольшим нервным узлом, заменяющим им мозг, могут рассчитывать сложные прыжки, например, хотя количество нейронов у них в сотни раз меньше; делают они это за счет обработки задачи по частям, то есть они сначала долго сидят и думают, а потом - как прыгнут!
на этой оптимистической ноте я бы хотел закончить свой рассказ; в комментариях накидывайте варианты статей для будущих разборов🔚
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from настенька и графики
Как подойти к дизайну визуализации?🪜
Вчера в рассылке писала про модель Тамары Мунзнер, которая предлагает учитывать разные уровни вложенности в процессе визуализации. Идея в том, что ошибка на предыдущем уровне ломает все на следующем, поэтому важно идти по ступенькам:
👩💻1. Понимание домена – кто целевая аудитория и что они делают?
Самое опасное тут – неправильно понять конечные цели пользователей. Решать можно через качественный сбор требований:
- Dashbaord Canvas Ромы Бунина
- Про пользовательские интервью от Nielsen Group
- Jobs to be Done
🔎2. Задача и данные – какие данные мы показываем и зачем люди на них смотрят?
Из опасностей – выбор не тех данных и трансформация к ним, непревильно подобранные аналитические вопросы к данным
- Lean Anlaytics
- Как измерять?
- Дата команды и пониманием метрик бизнеса
- Одинаковые данные, разные вопросы
📊3. Визуальное представление – как это визуализировано?
Важен правильный выбор визуализаций.
- Как выбрать график?
- Эффективность базовых графиков
- Когнитивные искажения
🛠4. Валидация алгоритма – можем ли мы это сделать?
Проверка, что с визуализаций реально взаимодействовать и она технически реализуема.
- Про перфоманс дэшбордов в Tableau и перфоманс тестирование
Вчера в рассылке писала про модель Тамары Мунзнер, которая предлагает учитывать разные уровни вложенности в процессе визуализации. Идея в том, что ошибка на предыдущем уровне ломает все на следующем, поэтому важно идти по ступенькам:
👩💻1. Понимание домена – кто целевая аудитория и что они делают?
Самое опасное тут – неправильно понять конечные цели пользователей. Решать можно через качественный сбор требований:
- Dashbaord Canvas Ромы Бунина
- Про пользовательские интервью от Nielsen Group
- Jobs to be Done
🔎2. Задача и данные – какие данные мы показываем и зачем люди на них смотрят?
Из опасностей – выбор не тех данных и трансформация к ним, непревильно подобранные аналитические вопросы к данным
- Lean Anlaytics
- Как измерять?
- Дата команды и пониманием метрик бизнеса
- Одинаковые данные, разные вопросы
📊3. Визуальное представление – как это визуализировано?
Важен правильный выбор визуализаций.
- Как выбрать график?
- Эффективность базовых графиков
- Когнитивные искажения
🛠4. Валидация алгоритма – можем ли мы это сделать?
Проверка, что с визуализаций реально взаимодействовать и она технически реализуема.
- Про перфоманс дэшбордов в Tableau и перфоманс тестирование
Substack
Nested Model for Visualization
Understanding Tamara Munzner’s Nested Model for Visualization Design and Validation
Forwarded from ML Baldini • Nikita Boyandin (Nikita Boyandin)
#Инструменты Docker✅
Docker медленно, но очень верно становится обязательным приложением для Data Science(особенно, в связке в kuber). Возможность сохранять особенности своего окружения, при этом разворачивать проекты на своем устройстве делает Docker на 1000 процентов обязательный для человека в IT😍
Поэтому в этом посте я собрал бесплатные материалы для изучения, для тех, кто давно хотел, но руки не доходили:
1. Karpov.cources
Классный курс, сам его проходил (буквально пару недель назад), немного душноватну а как еще с docker
2. Docker для начинающий на Stepik + практический опыт
3. Docker, GIT и Gitlab CI для начинающих от преподавателей МФТИ
4. Ну и куда же без хабра
Надеюсь, данный пост вам был полезен, и вы сможете улучшить свои навыки🫡
Всех обнял, приподнял💗
Docker медленно, но очень верно становится обязательным приложением для Data Science(особенно, в связке в kuber). Возможность сохранять особенности своего окружения, при этом разворачивать проекты на своем устройстве делает Docker на 1000 процентов обязательный для человека в IT
Поэтому в этом посте я собрал бесплатные материалы для изучения, для тех, кто давно хотел, но руки не доходили:
1. Karpov.cources
Классный курс, сам его проходил (буквально пару недель назад), немного душноват
2. Docker для начинающий на Stepik + практический опыт
3. Docker, GIT и Gitlab CI для начинающих от преподавателей МФТИ
4. Ну и куда же без хабра
Надеюсь, данный пост вам был полезен, и вы сможете улучшить свои навыки
Всех обнял, приподнял
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Nik | Growth and Product
CAC:LTV. Как много в этой аббревиатуре для сердца предпринимателя слилось.🚬
На самом деле академический LTV считается криво, и как правило мало кому понятен😂
Поэтому я использую LTGM - Life time gross margin - сколько денег заработали с пользователя в течение его срока жизни как клиента.⌨️ - и вам советую использовать эту метрику.
Почему так? Потому что метрика любая должна быть легко интерпретируема, и понятна любому, а не только людям с финансовым образованием😂
Почему CAC - LTGM чуть ли не самая важная метрика в бизнесе? Потому что она дает вам самое четкое представление о том:
1. Сколько вы зарабатываете с одного клиента
2. Как быстро вы отбиваете затраты на его привлечение и совершение сделки
Далее исходя из этих двух переменных вы строите стратегию:
1. Либо апсейлов😐
2. Либо увеличения среднего чека😐
3. Либо снижения затрат на привлечение (что к слову, сложнее, чем увеличить средний чек).😔
Бенчмарки - при CAC:LTGM = 1:3 делается устойчивый бизнес.💰
При 1:10 или 1:20 делается тонна денег и знакомые задают вопрос, а легально ли ты вообще зарабатываешь🤨
К слову, чтобы достичь 1:10 нужен определенный набор навыков у фаундера🤑
Как только получилось достичь соотношения 1:3 и выше - заливаете деньгами воронку привлечения клиентов, и кайфуете (на самом деле нет, поскольку к скейлингу надо подготовить бэк оффис, в виде сапорта, онбординг команду и ИТ отдел. Но об этом в следующей серии)😘
На самом деле академический LTV считается криво, и как правило мало кому понятен
Поэтому я использую LTGM - Life time gross margin - сколько денег заработали с пользователя в течение его срока жизни как клиента.
Почему так? Потому что метрика любая должна быть легко интерпретируема, и понятна любому, а не только людям с финансовым образованием
Почему CAC - LTGM чуть ли не самая важная метрика в бизнесе? Потому что она дает вам самое четкое представление о том:
1. Сколько вы зарабатываете с одного клиента
2. Как быстро вы отбиваете затраты на его привлечение и совершение сделки
Далее исходя из этих двух переменных вы строите стратегию:
1. Либо апсейлов
2. Либо увеличения среднего чека
3. Либо снижения затрат на привлечение (что к слову, сложнее, чем увеличить средний чек).
Бенчмарки - при CAC:LTGM = 1:3 делается устойчивый бизнес.💰
При 1:10 или 1:20 делается тонна денег и знакомые задают вопрос, а легально ли ты вообще зарабатываешь
К слову, чтобы достичь 1:10 нужен определенный набор навыков у фаундера
Как только получилось достичь соотношения 1:3 и выше - заливаете деньгами воронку привлечения клиентов, и кайфуете (на самом деле нет, поскольку к скейлингу надо подготовить бэк оффис, в виде сапорта, онбординг команду и ИТ отдел. Но об этом в следующей серии)
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Мальцев: Карьера с AI
Ребята, астрологи-инфобизнесмены объявили, что прошло уже 8% года и население с невыполненными целями удвоилось.🔥 .
Сейчас будет полезно сравнить факты и планы января. Проверить, что маршрут на 2025 реально построен и время прибытия к ожидаемым результатам полностью совпадает с вашим темпом работы.
В этом году у меня получился классный и размеренный старт, за что огромное спасибо моей команде и работе по методике из 8 «буду делать».
Детали и примеры к каждому пункту - в статье на vc.ru:
• Как быстро выйти на максимальную продуктивность в 2025?
• Как находить время на личные задачи, не срываться на встречи и перестать прокрастинировать?
• Как разобраться, для каких задач действительно полезны нейросети?
За 3 года взаимодействия с нейросетями я сформулировал для себя 3 правила работы с GPT
❤️ и 👍 - если пост полезен. Написал его по мотивам моих наблюдений за тем, как знакомые мне люди все еще раскачиваются после новогодних.
Мальцев: Карьера. Маркетинг. AI.
Please open Telegram to view this post
VIEW IN TELEGRAM
vc.ru
Как начать работу в новом году и не раскачиваться долго
Я отвечаю за маркетинг Яндекс Браузера (ex CMO Яндекс Путешествия, Playrix, eBay, Groupon, консультировал League of Legends, Tinkoff, Sber, VK) и буду рад делиться своим опытом. Подпишитесь на мой telegram-канал «Мальцев: Карьера. Маркетинг. AI», где раз…
Forwarded from Kali Novskaya
🌸Курс AI Safety от DeepMind🌸
#nlp #про_nlp #ai_alignment
DeepMind выпустил серию коротких видео с мини-лекциями про безопасность в ИИ
— Введение в AI Safety
— Глава 2: 5 частей про проблему AI Alignment
— Глава 3, Технические решения: обучение моделей и мониторинг качества, интерпретируемость, более безопасные дизайн-паттерны, стресс-тестирование
— Глава 4, Подходы к управлению рисками: институциональный подход к ИИ-безопасности, лучшие практики, оценка экзистенциальных рисков
🟣 План курса: https://deepmindsafetyresearch.medium.com/introducing-our-short-course-on-agi-safety
(В конце есть две вакансии, в Лондоне и Нью-Йорке)
🟣 Youtube-плейлист: https://youtube.com/playlist?list=PLw9kjlF6lD5UqaZvMTbhJB8sV-yuXu5eW&si=mSHlo4s7u6Q_aXSy
#nlp #про_nlp #ai_alignment
DeepMind выпустил серию коротких видео с мини-лекциями про безопасность в ИИ
— Введение в AI Safety
— Глава 2: 5 частей про проблему AI Alignment
— Глава 3, Технические решения: обучение моделей и мониторинг качества, интерпретируемость, более безопасные дизайн-паттерны, стресс-тестирование
— Глава 4, Подходы к управлению рисками: институциональный подход к ИИ-безопасности, лучшие практики, оценка экзистенциальных рисков
(В конце есть две вакансии, в Лондоне и Нью-Йорке)
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Valuable AI / Валентин Малых
я знал, что так будет, но не думал, что так скоро; плюс авторы сделали целый сайт, на котором публикуют свои обзоры своей сетки
arXiv.org
SurveyX: Academic Survey Automation via Large Language Models
Large Language Models (LLMs) have demonstrated exceptional comprehension capabilities and a vast knowledge base, suggesting that LLMs can serve as efficient tools for automated survey generation....
Forwarded from Тимлид Очевидность | Евгений Антонов
Шестой месяц. Управление процессами
Прошел шестой месяц курса Стратоплана «Руководитель отдела». Две трети позади
Контент первого, второго, третьего, четвертого и пятого месяцев я описывал ранее.
Это второй по счету месяц, в котором я не смог посетить онлайн. А очень жаль. Контент был важный и полезный, так что, лишившись практики в группах, я точно намерен наверстать это, особенно внимательно прикидывая это на рутинную работу.
О чем было
- Типы оргструктур (плоская, линейная, матричная, функциональная, проектная и т.д.). Надо понимать, когда какая нужна, плюсы и минусы разных подходов. Особенно важно в небольших компаниях, чтобы при росте уметь сформировать подходящую, а в больших компаниях, чтобы не страдать на тему «Ну почему же так? Ведь в моей прошлой маленько было иначе, и нормально же жили!»
- Ну и дальше всё связанное с оргструктурой и ролевой моделью. Типа не просто берите оргструктуру, наложите её на людей и погнали. А у вас должны быть роли лидеров, интеграторов, поддерживающие всякие, и разберитесь, кто какую роль будет закрывать в вашем конкретном случае, а не в базовом трафарете.
- Очевидная, вроде бы, история про систематизацию и формализацию бизнес-процессов. Кажется, что капитанство, однако очень часто нет процесса, а есть клубок в паре голов старожилов с лейблом «так исторически сложилось».
- Вторая тоже очевидная мысль, но редко проваливаемая — делегирование через бизнес-процесс. Хочешь делегировать и пойти заниматься другими делами? Сделай процесс, формализуй, опиши, научи и гуляй смело.
- Матрица «доверие-прозрачность». Золотая классика, всем рекомендую так работать. Чем понятнее и прозрачнее то, что вы делаете, тем больше к вам доверия и отношения как к профессионалу.
- Разные способы оптимизации бизнес-процессов, типа теории ограничений, 7 потоков потерь и прочего. Всё это очень интересно, но за один урок так, чисто по верхам рассмотрели, и дальше надо самим углубляться. Во что-то я когда-то уже ходил и пробовал, что-то так и осталось на поверхностном уровне.
- И кууууча всего про метрики продуктовые, канбановые, скрамовые, HEART, PROJECT, и т.д.
- Системы отчетности: кому, когда, как, в каком формате, на основе каких метрик.
- KPI и как они совместимы с работой. Например, видел в одной компании, как человеку поставили KPI для премии — ряд доработок и нового функционала на одном из важных сайтов компании. А разработчиков не дали. Вот и крутись как хочешь. Ну, как вы понимаете, премии, конечно же, не было 🙂
Какое мнение
Обычно я делаю описание того, какой контент был мне знаком, а какой нет. В этот раз мне было это сделать очень трудно, поэтому я выделил одной портянкой важные, на мой взгляд, темы.
С одной стороны, практически всё мне было известно и понятно. Только мало кто всё это разумно делает. Основной вызов для меня лично тут не в том, чтобы что-то новое узнать, а чтобы унести это в практику, да еще и никому не навредить. А то знаете эти приколы, когда кто-то наслушается на конфе про метрики, прибежит на работу и как давай внедрять во все места всё, что услышал? 🙂
Прошел шестой месяц курса Стратоплана «Руководитель отдела». Две трети позади
Контент первого, второго, третьего, четвертого и пятого месяцев я описывал ранее.
Это второй по счету месяц, в котором я не смог посетить онлайн. А очень жаль. Контент был важный и полезный, так что, лишившись практики в группах, я точно намерен наверстать это, особенно внимательно прикидывая это на рутинную работу.
О чем было
- Типы оргструктур (плоская, линейная, матричная, функциональная, проектная и т.д.). Надо понимать, когда какая нужна, плюсы и минусы разных подходов. Особенно важно в небольших компаниях, чтобы при росте уметь сформировать подходящую, а в больших компаниях, чтобы не страдать на тему «Ну почему же так? Ведь в моей прошлой маленько было иначе, и нормально же жили!»
- Ну и дальше всё связанное с оргструктурой и ролевой моделью. Типа не просто берите оргструктуру, наложите её на людей и погнали. А у вас должны быть роли лидеров, интеграторов, поддерживающие всякие, и разберитесь, кто какую роль будет закрывать в вашем конкретном случае, а не в базовом трафарете.
- Очевидная, вроде бы, история про систематизацию и формализацию бизнес-процессов. Кажется, что капитанство, однако очень часто нет процесса, а есть клубок в паре голов старожилов с лейблом «так исторически сложилось».
- Вторая тоже очевидная мысль, но редко проваливаемая — делегирование через бизнес-процесс. Хочешь делегировать и пойти заниматься другими делами? Сделай процесс, формализуй, опиши, научи и гуляй смело.
- Матрица «доверие-прозрачность». Золотая классика, всем рекомендую так работать. Чем понятнее и прозрачнее то, что вы делаете, тем больше к вам доверия и отношения как к профессионалу.
- Разные способы оптимизации бизнес-процессов, типа теории ограничений, 7 потоков потерь и прочего. Всё это очень интересно, но за один урок так, чисто по верхам рассмотрели, и дальше надо самим углубляться. Во что-то я когда-то уже ходил и пробовал, что-то так и осталось на поверхностном уровне.
- И кууууча всего про метрики продуктовые, канбановые, скрамовые, HEART, PROJECT, и т.д.
- Системы отчетности: кому, когда, как, в каком формате, на основе каких метрик.
- KPI и как они совместимы с работой. Например, видел в одной компании, как человеку поставили KPI для премии — ряд доработок и нового функционала на одном из важных сайтов компании. А разработчиков не дали. Вот и крутись как хочешь. Ну, как вы понимаете, премии, конечно же, не было 🙂
Какое мнение
Обычно я делаю описание того, какой контент был мне знаком, а какой нет. В этот раз мне было это сделать очень трудно, поэтому я выделил одной портянкой важные, на мой взгляд, темы.
С одной стороны, практически всё мне было известно и понятно. Только мало кто всё это разумно делает. Основной вызов для меня лично тут не в том, чтобы что-то новое узнать, а чтобы унести это в практику, да еще и никому не навредить. А то знаете эти приколы, когда кто-то наслушается на конфе про метрики, прибежит на работу и как давай внедрять во все места всё, что услышал? 🙂