Интересное что-то
517 subscribers
2.72K photos
253 videos
138 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
Forwarded from epsilon correct
Claude Code

Вчера Antropic представили обновлённую модельку Sonnet 3.7 и вместе с ней локального агента Claude Code. Вместе с обновлением, которое значительно подняло метрики по выполнению кода, получилась пушка для как минимум хобби-разработчиков.

Агент работает по API, час работы выходит примерно 10-20$. Агент работает на локальной машине через свой терминал, запуская команды на локальной машине. За полтора часа работы у меня получилось "написать" ~5k строк C++ кода для системы быстрого построения графов при помощи locality-sensitive hashing проекций. Ничего сложного, но время разработки существенно скоратилось, а скаффолдинг можно и поправить.

За весь час я вообще не редактировал код, а давал только общие указания (напиши бенчмарк, напиши тесты). В результате получилась система, которая вроде бы даже работет – агент сам старается всё тестировать и себя проверять. В результате получилось написать то, на что у меня бы ушло недели две работы, да ещё и C++ вышел довольно читаемым.

Будущее, получается, уже совсем рядом – нужно только отстёгивать $20/час за такое удовольствие.
Forwarded from ML Underhood
YandexGPT 5 уже в опенсорсе и Алисе

Сегодня Яндекс показал миру новое поколение больших языковых моделей — YandexGPT 5. Старшая модель YandexGPT 5 Pro доступна в чате с Алисой и Yandex Cloud через API. Ну а претрейн-версия младшей модели YandexGPT 5 Lite Pretrain — уже лежит на Hugging Face.

Все подробности о процессе обучения можно прочитать в статье на Хабре. А в этом посте — главные факты о свежей опенсорсной модели Яндекса.

YandexGPT 5 Lite Pretrain — модель на 8 миллиардов параметров с длиной контекста 32 тысячи токенов. Претрейн проходил в два этапа: сначала модель обучили на 15 триллионах токенов текста на русском и английском языках, а потом использовали 320 миллиардов токенов высококачественных данных, включая образовательный контент.

На первом этапе датасет больше чем на половину состоял из веб-документов, остальное — код, математика и специфичные данные. Под последними подразумеваются синтетика (сгенерированные YandexGPT 4 вопросы на основе проверенных источников) и внутренние наработки компании (например, внутренняя база Яндекса Fact Snippet и новый корпус данных Переводчика).

На втором этапе датасет на четверть состоял из веб-страниц и почти в равных пропорциях содержал математику, код и образовательные данные. Также была небольшая часть аугментаций фактовых документов, другой синтетики и датасетов сервисов.

По сравнению с моделью предыдущего поколения, YandexGPT 4 Lite Pretrain, новая модель показывает ощутимый рост качества в решении математических задач и написании кода. А в сравнении с зарубежными аналогами, такими как LLaMa3.1-8B и Qwen-2.5-7B-base, она лидирует почти во всех типах задач.

Ещё раз приглашаем пощупать модель, почитать статью на Хабре с деталями обучения и не забыть поделиться впечатлениями в комментариях!


ML Underhood
Forwarded from Quant Valerian
Очередная итерация по повышению точности прогнозирования сроков проектов 🤓

В этой работе нами было показано

В какой-то раз, похоже, придется реально статью уже писать 😁
КОРОЧЕ, опять Канеманн меня вдохновил на идею. В главе «Взгляд извне» он рассказывает, что они с коллегами собрались написать учебник. Попланировали, поприкидывали, написали несколько глав.

❗️ВНИМАНИЕ!❗️Планинг покер!❗️ Канеманн попросил каждого участника независимо оценить срок, в который они закончат книгу. В среднем они оценили срок в два года.

А потом они спросили одного из членов группы, специалиста по спецкурсам, как исторически справлялись другие группы?💡
Он ответил, что в среднем книгу такого объема пишут минимум за семь лет, но не больше, чем за десять. Ещё он сказал, что их группа несколько слабее среднего по уровню подготовки и ресурсов.
Услышав это, они погрустнели.

И забили хер на эту информацию! 😁 В итоге, книгу они писали ещё восемь лет с того эпизода.😱

Что с этим делать?
Я уже рассказывал, что мы пользуемся статистикой. Кратко 🤡 напомню:

1. Собираем диаграмму Гантта (там нарезано на MOVE a la стори, других задач там нет, даже самое мелкое внесено через MOVE) 😋

2. Оцениваем стори маечно (совсем мелочь / что-то невообразимо большое / всё остальное) 📏

3. Смотрим цикл-тайм (на самом деле lead time) диаграммы в разрезе этих размеров (медианы и 85%%)👩‍🔬

4. Выделяем критический путь в Гантте (с учетом ресурсов) ☢️

5. Для критического пути считаем медиану (как сумму медиан задач) и 85%% (как сумму 85%%), вообще говоря, так нельзя делать математически, но нам для примерности сойдет (распределения там логнормальные примерно, я проверял на разных командах из разных частей компании) 🧮

6. Теперь мы знаем, когда закончим с вероятностью 50%, когда с вероятностью 85% — скорее всего где-то между этими значениями и получится 🤞

7*. Не надо закладывать никакие буферы, они учтены в статистике 🤌

Это работает, мы пробовали. Но не так хорошо, как на бумаге. Потому что люди (ну мы) туповаты 🤤 и, например, на старте проекта забывают, не учитывают какой-то кусок работы. Или приходит какой-нибудь аудитор/регулятор/юрист🤵🏼‍♂️ и наваливает вам 💩 еще обязательного в скоуп.

!!!НОВАЯ ИНФОРМАЦИЯ!!! 🎉

Поэтому предлагается ко взгляду извне (метод выше) добавить ещё субъективщины. И важно, что я говорю не о том, что мы ко всем проектам просто будем докидывать какой-то одинаковый (в абсолютах или процентах) запас. А о том, что у нас есть:

1. Чуйка (aka интуиция aka насмотренность) 🐕

2. Осознанное знание, как шли какие-то похожие проекты 👴🏻

И вот тут уже, имея опору в виде объективной априорной оценки, стоит опросить членов команды, что они думают о сроках. И эти данные использовать, как поправку. Конкретную методику я ещё не пробовал, поэтому мне нечего вам посоветовать. 🌝 Пока!

Из этой истории, btw, можно сделать вывод, что не работают не только стори поинты, но и планинг покер. Хотя для взвешивания быка 🐂 вроде работает. Разница в том, что при планировании работы, мы оцениваем себя, а от веса быка нам ни холодно, ни жарко.
Forwarded from MWS AI
Может ли LLM с 1 миллиардом параметров обойти LLM c 405 миллиардами?

Всем привет, сегодня хотел обсудить статью с многообещающим названием "Can 1B LLM Surpass 405B LLM?".

забегая вперед, ответ - да (можно увидеть на картинке 1), конечно, с оговоркой, что на некоторых задачах и при определенных условиях

что за задачи и условия? об этом и поговорим; задач в статье рассмотрено две, точнее два набора задач - MATH-500 и AIME24

MATH-500 - это 500 математических задач уровня старшей школы, которые предназначены для решения школьниками в классе, AIME24 - это 24 олимпиадных задачи также уровня старшей школы; в последнее время эти два набора стали популярны для оценки моделей по математике


теперь про условия, условие здесь самое важное - это дополнительные рассуждения модели в момент ответа на вопрос

для рассуждения в статье используют и Llama 3 и Qwen 2.5,, точнее по несколько разновеликих моделей из этих семейств

тут есть хитрость, рассуждения сейчас принято делить на несколько видов:

выбор из нескольких параллельно сгенерированных вариантов (Best of N, BoN), построения дерева рассуждений (Beam Search) и выбор из нескольких таких деревьев (Diverse Verifier Tree Search, DVTS), они все показаны на картинке 2; у каждого из этих вариантов есть свои гиперпараметры, например, количество вариантов для BoN или деревьев для DVTS


но сгенерировать набор гипотез мало, необходимо еще как-то из этих гипотез выбрать, а чтобы выбрать, необходимо сначала оценить, и тут коллеги разошлись на полную - используют 7 разных моделей, каждая из которых еще может быть в разных весовых категориях; эти модели могут использоваться по-разному - например, для оценки конечного результата Beam Search или каждого шага

дополнительно, они исследуют разные схемы выбора из нескольких оцененных вариантов, такие как - выбор самого частого варианта, выбор варианта с самой высокой оценкой и другие

после всех ухищрений с поиском оптимального сочетания всех факторов, они как раз и приходят к картинке 1 и положительному ответу на вопрос, но на мой взгляд тут на мой взгляд интересна картинка 3: она показывает, что общие затраты вычислений на все рассуждения маленькой моделькой и затраты на вычисление ответа большой моделью оказываются сопоставимы

это на мой взгляд фундаментально - качество зависит от того, сколько вы "думаете" над задачей, не так важно - большая у вас модель или маленькая; этому есть аналогия в живой природе - есть такой род пауков Portia (порция), которые демонстрируют сложность поведения сравнимую с кошкой, они своим небольшим нервным узлом, заменяющим им мозг, могут рассчитывать сложные прыжки, например, хотя количество нейронов у них в сотни раз меньше; делают они это за счет обработки задачи по частям, то есть они сначала долго сидят и думают, а потом - как прыгнут!

на этой оптимистической ноте я бы хотел закончить свой рассказ; в комментариях накидывайте варианты статей для будущих разборов 🔚
Please open Telegram to view this post
VIEW IN TELEGRAM
Как подойти к дизайну визуализации?🪜

Вчера в рассылке писала про модель Тамары Мунзнер, которая предлагает учитывать разные уровни вложенности в процессе визуализации. Идея в том, что ошибка на предыдущем уровне ломает все на следующем, поэтому важно идти по ступенькам:

👩‍💻1. Понимание домена – кто целевая аудитория и что они делают?
Самое опасное тут – неправильно понять конечные цели пользователей. Решать можно через качественный сбор требований:
- Dashbaord Canvas Ромы Бунина
- Про пользовательские интервью от Nielsen Group
- Jobs to be Done

🔎2. Задача и данные – какие данные мы показываем и зачем люди на них смотрят?
Из опасностей – выбор не тех данных и трансформация к ним, непревильно подобранные аналитические вопросы к данным
- Lean Anlaytics
- Как измерять?
- Дата команды и пониманием метрик бизнеса
- Одинаковые данные, разные вопросы

📊3. Визуальное представление – как это визуализировано?
Важен правильный выбор визуализаций.
- Как выбрать график?
- Эффективность базовых графиков
- Когнитивные искажения

🛠4. Валидация алгоритма – можем ли мы это сделать?
Проверка, что с визуализаций реально взаимодействовать и она технически реализуема.
- Про перфоманс дэшбордов в Tableau и перфоманс тестирование
Forwarded from ML Baldini • Nikita Boyandin (Nikita Boyandin)
#Инструменты Docker

Docker медленно, но очень верно становится обязательным приложением для Data Science(особенно, в связке в kuber). Возможность сохранять особенности своего окружения, при этом разворачивать проекты на своем устройстве делает Docker на 1000 процентов обязательный для человека в IT😍

Поэтому в этом посте я собрал бесплатные материалы для изучения, для тех, кто давно хотел, но руки не доходили:
1. Karpov.cources
Классный курс, сам его проходил (буквально пару недель назад), немного душноват ну а как еще с docker
2. Docker для начинающий на Stepik + практический опыт
3. Docker, GIT и Gitlab CI для начинающих от преподавателей МФТИ
4. Ну и куда же без хабра

Надеюсь, данный пост вам был полезен, и вы сможете улучшить свои навыки🫡
Всех обнял, приподнял💗
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Nik | Growth and Product
CAC:LTV. Как много в этой аббревиатуре для сердца предпринимателя слилось.🚬

На самом деле академический LTV считается криво, и как правило мало кому понятен 😂

Поэтому я использую LTGM - Life time gross margin - сколько денег заработали с пользователя в течение его срока жизни как клиента.⌨️ - и вам советую использовать эту метрику.

Почему так? Потому что метрика любая должна быть легко интерпретируема, и понятна любому, а не только людям с финансовым образованием 😂

Почему CAC - LTGM чуть ли не самая важная метрика в бизнесе? Потому что она дает вам самое четкое представление о том:

1. Сколько вы зарабатываете с одного клиента
2. Как быстро вы отбиваете затраты на его привлечение и совершение сделки

Далее исходя из этих двух переменных вы строите стратегию:
1. Либо апсейлов 😐
2. Либо увеличения среднего чека 😐
3. Либо снижения затрат на привлечение (что к слову, сложнее, чем увеличить средний чек). 😔

Бенчмарки - при CAC:LTGM = 1:3 делается устойчивый бизнес.💰
При 1:10 или 1:20 делается тонна денег и знакомые задают вопрос, а легально ли ты вообще зарабатываешь🤨

К слову, чтобы достичь 1:10 нужен определенный набор навыков у фаундера🤑

Как только получилось достичь соотношения 1:3 и выше - заливаете деньгами воронку привлечения клиентов, и кайфуете (на самом деле нет, поскольку к скейлингу надо подготовить бэк оффис, в виде сапорта, онбординг команду и ИТ отдел. Но об этом в следующей серии)😘
Please open Telegram to view this post
VIEW IN TELEGRAM
Как раскачаться на максимальную продуктивность в 2025. Делюсь 8-ю методами, проверенными на собственном опыте

Ребята, астрологи-инфобизнесмены объявили, что прошло уже 8% года и население с невыполненными целями удвоилось. 🔥.

Сейчас будет полезно сравнить факты и планы января. Проверить, что маршрут на 2025 реально построен и время прибытия к ожидаемым результатам полностью совпадает с вашим темпом работы.


В этом году у меня получился классный и размеренный старт, за что огромное спасибо моей команде и работе по методике из
8 «буду делать».

Детали и примеры к каждому пункту - в статье на vc.ru:
• Как быстро выйти на максимальную продуктивность в 2025?
• Как находить время на личные задачи, не срываться на встречи и перестать прокрастинировать?
• Как разобраться, для каких задач действительно полезны нейросети?


1️⃣Формулировать цели в OKR на 6 и 12 месяцев. Методику и примеры описания целей я разобрал в моем посте ранее.

2️⃣Распределять зоны ответственности и ресурсы для команды. Самое важное — определить бюджет, роли и время сотрудников для достижения OKR. Комбинация OKR и зон ответственности команд (пример шаблона) — самый ценный инструмент для фокусной работы над планированием года.

3️⃣Применять выводы с прошлых ретро по запущенным проектам. В начале года анализ ретро помогает предвидеть потенциальные проблемы и заранее учесть лернинги прошлого для планирования будущего.

4️⃣Мониторить прогресс по OKR в трекере задач команды. После утверждения с руководителями OKR команды переезжают в трекер задач, чтобы все понимали прогресс, обсуждали проблемы и пути их решения.

5️⃣Управлять всем своим временем через календарь: решать сложные задачи (те самые «лягушки» Брайана Трейси) утром, забивать слоты для «подумать», сверяться с целями и перепланировать следующие дни.

6️⃣Приходить на встречи, чтобы принимать решения. Год назад я адаптировал для себя правила проведения встреч в Amazon, про которые рассказывал Андрей Стыскин. Готовлю краткую адженду (цель, ключевые вопросы и проблемы с краткими вариантами решения) к каждой встрече и прошу делать то же самое других организаторов.

7️⃣Фиксировать мелкие задачи в бэклог долгов и возвращаться к ним позже. Обычно такие задачи не сильно влияют на OKR, но требуют внимания и связаны с идеями, замечаниями, наблюдениями команды в рабочих чатах. Для бэклога я использую шаблон, который можно вести как в доке, так и в таск-трекере.

8️⃣Применять нейросети для рабочих задач: разобравшись, где они полезны.
🔴Для сообщений в рабочие чаты, текстов для презентаций и документов пользуюсь Нейроредактором Яндекс 🙂 Браузера: исправляю ошибки и делаю длинные тексты короче, чтобы они подходили для переписки.
🔴В случаях, когда быстро нужен один емкий ответ с ссылками на источники в интернете, использую Нейро.
🔴Для творческих задач и аналитики часто пишу одинаковый запрос в несколько сервисов из списка: Алиса Про с YandexGPT, ChatGPT, Gemini, Claude. Забираю или доуточняю лучшие результаты для дальнейшей работы.

За 3 года взаимодействия с нейросетями я сформулировал для себя 3 правила работы с GPT

❇️Если ожидаю высокое качество результата и процесса размышлений (Reasoning) от нейросетевых моделей — пишу задачу только через промпт. Варианты короткого и длинного шаблона на заполнение промпта перечислил вот в этом посте ранее.
❇️Продолжаю писать задачи в чаты, в которых уже выдавал комментарии или ставил промпт на постановку темы, роли и формата ответа для GPT. Это существенно экономит время на описание контекста вместо создания новых чатов с нуля.
❇️Если сам могу решить задачу быстрее, чем буду писать и итерировать с нейросетями над запросом, то сделаю всё самостоятельно. 👍

❤️ и 👍 - если пост полезен. Написал его по мотивам моих наблюдений за тем, как знакомые мне люди все еще раскачиваются после новогодних.
💬 - поделитесь опытом как справляетесь справляетесь с потоком задач и выполнением целей. Какие у вас лайфхаки по организации продуктивной работы и взаимодействию с командой? Мне интересно 🙂

Мальцев: Карьера. Маркетинг. AI.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya
🌸Курс AI Safety от DeepMind🌸
#nlp #про_nlp #ai_alignment

DeepMind выпустил серию коротких видео с мини-лекциями про безопасность в ИИ
— Введение в AI Safety
— Глава 2: 5 частей про проблему AI Alignment
— Глава 3, Технические решения: обучение моделей и мониторинг качества, интерпретируемость, более безопасные дизайн-паттерны, стресс-тестирование
— Глава 4, Подходы к управлению рисками: институциональный подход к ИИ-безопасности, лучшие практики, оценка экзистенциальных рисков

🟣План курса: https://deepmindsafetyresearch.medium.com/introducing-our-short-course-on-agi-safety
(В конце есть две вакансии, в Лондоне и Нью-Йорке)
🟣Youtube-плейлист: https://youtube.com/playlist?list=PLw9kjlF6lD5UqaZvMTbhJB8sV-yuXu5eW&si=mSHlo4s7u6Q_aXSy
Please open Telegram to view this post
VIEW IN TELEGRAM