Интересное что-то
517 subscribers
2.72K photos
253 videos
139 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
Forwarded from Синтографист
Превратите любой текст в умные, действенные заметки . Идеально подходит для студентов, исследователей и профессионалов, которым нужно быстро извлечь ценность.

Основные характеристики

📝 Анализируйте тексты любой длины (статьи, отчеты, стенограммы)
🚀 Создавайте неограниченное количество заметок с помощью ИИ
🔍 Интеллектуальное обнаружение ключевых слов и выделение контекста
📂 Экспорт в форматах Markdown, JSON и Text
Приоритетный доступ к поддержке
🎯 Почему вам это понравится

Студенты: «Погружены в учебу? Text2Note быстро схватывает ключевые концепции».
Юристы: «Каждая строка имеет решающее значение? Мы отмечаем прецеденты и обязательные к знанию пункты».
Разработчики: «Документация раздута? Мгновенно извлекает спецификации API и фрагменты кода».
Дизайнеры: «Интервью пользователя — это беспорядок? Выявляет скрытые болевые точки».
Исследователи: «Тонем в статьях? Вытаскиваем методологии и выводы».
Умные заметки, никаких усилий. Просто вставьте и вперед. text2note.com
Forwarded from РИСЕРЧОШНАЯ
YouTube выкинул item ID и поднял качество рекомендаций. Почему это сработало?

Недавно наткнулся на статью с RecSys 2024 — Better Generalization with Semantic IDs. Ребята из Google Research разобрали, как улучшить рекомендательные системы, чтобы они не тупили на новых или редких объектах.

📥 Проблема старая, как мир
Обычно в РС каждому видео или товару дают случайный ID — просто номерок, за которым стоит эмбеддинг. Модель запоминает, что популярно, и круто ранжирует хиты. Но стоит появиться новому видео или нишевому контенту — всё, привет, она теряется. Почему? Потому что ID ничего не говорит о смысле: два похожих ролика для модели — как чужие. Плюс таблицы эмбеддингов раздуваются до миллиардов строк, а хеширование ID в кучу только добавляет шума.

😊 Что придумали?
Авторы предложили Semantic IDs — коды, которые не просто числа, а отражают содержание. Берут контент видео (аудио, картинку), прогоняют через нейронку (VideoBERT), получают вектор, а потом сжимают его в 8 коротких кодов с помощью RQ-VAE. Главное — похожие видео получают похожие коды. Например, два ролика про котиков будут частично совпадать, и модель это поймет.

Сначала коды генерят и замораживают, а потом пихают в ранжирующую модель YouTube. Есть два варианта: разбить коды на кусочки (N-граммы) или сделать умное разбиение через SentencePiece (SPM). SPM оказался круче — он сам решает, где склеить частые комбинации, а где оставить детали для редких видео.

Тестили на миллиардах видео YouTube. Обычные контентные эмбеддинги без ID провалились — модель забыла популярное. А вот Semantic IDs дали прирост: новые видео (cold-start) стали ранжироваться лучше, редкие тоже, а хиты не пострадали. SPM вообще показал себя звездой — гибко балансирует между запоминанием и обобщением.

Что это значит?
С такими ID модель не просто зубрит, а понимает связи между контентом. Новое видео про котиков сразу подхватывает опыт старых — и в топ! Плюс экономия памяти: вместо миллиардов эмбеддингов — тысячи осмысленных кодов. Масштабируется на ура.

🌸 Куда дальше?
Можно прикрутить это к профилям юзеров, улучшить кодировщик или даже замиксовать с генеративными рекомендациями. Короче, будущее РС — за умными ID, которые не просто цифры, а смысл.

➡️ Статья тут

Что думаете, зайдет такой подход в реальной жизни?

#RESEARCH #RECSYS
Please open Telegram to view this post
VIEW IN TELEGRAM
Что самое главное в b2c маркетинге? 💻

Как вы наверное заметили, я не маркетолог 😅 Но в стартапе иногда приходится делать все и сразу, поэтому сейчас я занимаюсь в том числе этим направлением. Мой подход довольно фундаментальный - я верю, что везде, и в кодинге, и в маркетинге должна быть система и фреймворк, а не "я так чувствую" или "делаю по опыту" особенно когда этого опыта нет 🐵

👀 Поэтому чем больше изучаю эту тему, общаюсь с другими фаундерами, CPO и CMO, тем больше убеждаюсь, что самое важное - это не бюджет и не количество креаторов, а:

- Четкое понимание ценности продукта для пользователей
- Трендвотчинг


Если с первым все индивидуально и требует глубокого погружения в продукт, то со вторым есть общий фреймворк, который значительно снижает рандомность и помогает привлекать именно ту аудиторию, которая вам нужна. И это работает на любой площадке: инста, тик ток, шортс, что угодно 🙂

Лично мне невероятно помогла разобраться в этой теме Саша - наш эдвайзор по маркетингу, которая умеет разложить все по полочкам: от трендвотчинга до стратегий роста. Сейчас у нее небольшое агентство, и она фокусируется на стартапах, выходящих на US и Европу.

Например, для американского бьюти-бренда с фаундером из снг она разработала коммуникационную стратегию, которая попала прямо в сердце аудитории: себестоимость контента снизилась в 3 раза, а один из роликов набрал 55М просмотров ⚡️

Если вы ищете мощную экспертизу в маркетинге, трендвотчинге и стратегиях роста на западные рынки, очень рекомендую обратиться к Саше 😎

Кстати, а вот и тот самый гайд по трендвотчингу 🤝
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study

- Здесь аналогичное наблюдение, что "Aha moment" (которое в статье про r1 преподносилось как доказательство emergent capability к рефлексии своего ответа) наблюдается и до обучения, особенно у моделей Qwen и особенно при высоких температурах
- При этом, в base models (без RL-дообучения) эти размышления большую часть времени не приводят к правильному ответу или исправляют ответ на неправильный в ходе решения (это оценивали по Qwen2.5-Math-1.5B, но хотелось бы увидеть и модель побольше если честно)
- Еще одно наблюдение про связь длины ответа и reasoning capabilities: в своем эксперименте с возспроизведением тренировки r1 авторы показываеют, что на начальных шагах обучения модель больше всего выбивает реворд из следования формату, так как это выучить проще всего. В течение этой стадии, средняя длина ответа падает. Дальше модель начинает пытаться получать более высокий реворд за счет правильных ответов. Здесь длина генераций начинает расти, так как модель предепринимает много попыток прийти к правильному решению за раз. Как побочный эффект появляются и superficial self-reflections, когда модель рассуждает долго, но к правильному ответу не приходит, из-за такого специфичного misalignment. Получается, что все правильные ответы достигаются при длинных рассуждениях, и модель учится генерировать много, но не обязательно правильно
- При этом, дополнительно авторы показывают, что с длиной ответа не растет число self-reflection keywords вроде "check again", "let's verify" и так далее. До есть длина ответа снова получается не гарант того, что модель чему-то полезному научилась

Это как будто порождает еще больше новых вопросов касательно того, за счет чего скоры в ходе RL-тренировки продолжают расти, если увеличивается только длина, но не объем какой-то полезной саморефлексии. Может быть, наиболее правильные и выигрышные цепочки рассуждений просто требуют больше текста, даже если он не разбивается на большее число повторений "let's revisit our solution" и подобных? И можно ли найти тогда оптимальную длину ответа, при которой уже есть какое-от насыщение от ризонинга, и остановиться тогда на ней, вместо того, чтобы дальше скейлить число токенов?

🤔 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Очень хорошая статья, тем более обожаю когда выводы в названии. Еще там необычные задачи для RL – карточная игра и визуальная задача по навигации по картам – обе из которых можно решить в pure language и vision-language формате
- SFT и для языковой, и для VLM модели лучше себя показывает, когда нужно просто выучить правила какой-нибудь игры, но только RL оказывается способен генерализоваться достаточно, чтобы решать out of distribution вариации задачи
- Но при этом SFT очень нужен, если модель изначально плохо следует формату или инструкциям – тогда RL просто не заводится
- RL скейлится с числом verification steps на инференсе, что уже в принципе было понятно из тех же экспериментов NVIDIA с генерацией cuda kernels по кругу, добавляя фидбек от модели-критика в промпт. Но теперь на это есть целая академическая ссылка ✏️

Для меня эта статья объясняет немного успех SFT-файнтюна на reasoning traces в стиле s1, о котором я писала парой постов выше. Если стартовать с уже неплохой модели (Qwen) и трениться, как это обычно делают, на математике, то ожидаемо вырастут скоры на математическихх и кодерским бенчах, на которые сейчас все смотрят. Но вряд ли из этого получится модель класса o1 / r1 в целом
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
SO CoT - самый полезный паттерн при создании продуктов с LLM под капотом

Так выходит, если судить по комментариям в моем прошлом опросе.

Я обещал расписать самый полезный паттерн постом в канале. Поскольку сам ответ не влазит в масштаб и формат поста, вот вам две статьи с более подробным описанием и примерами:

- Structured Output (SO): https://abdullin.com/structured-output/
- Custom Chain of Thought (SO CoT): https://abdullin.com/custom-chain-of-thought/

Ваш, @llm_under_hood 🤗
Как получить магистратуру по Computer Science в топовом вузе США без переезда и лишних трат (и почему я в итоге отказался)

Я уже работал в IT, писал код в Barclays, но у меня была четкая цель — попасть в Microsoft. Я знал, что это не будет просто, поэтому плотно готовился: учил алгоритмы, разбирал задачи, шлифовал резюме.

Меня 6 раз рефералили в Microsoft, и 5 раз мне отказывали на этапе резюме. Это было странно, потому что я не просто на коленке резюме писал, а консультировался с профессионалами, разбирал каждую деталь. Но отказы продолжались.

В какой-то момент я начал задаваться вопросом: а может, проблема не в резюме, а в образовании?

У меня инженерный бэкграунд, но не Computer Science. И хотя я уже работал в индустрии, у меня засела мысль: а вдруг рекрутеры просто срезают меня по этому критерию?

И тут я подумал: а что, если получить CS-образование?



Можно ли получить американский диплом по CS онлайн?

Я начал искать варианты и наткнулся на удивительную штуку: оказывается, несколько топовых американских университетов предлагают магистратуру по CS онлайн. Не какие-то сомнительные курсы, а полноценный Master’s Degree с дипломом.

Я сразу решил, что если и учиться, то только в американском вузе – раз я хочу в американскую компанию, то и образование должно быть соответствующее.

И тут я нашел идеальный вариант – Georgia Tech (Georgia Institute of Technology).

💡 Почему Georgia Tech?
Высокий рейтинг:
• Топ-40 среди всех вузов США.
• Топ-10 среди государственных университетов.
Цена – просто космос (в хорошем смысле): вся магистратура стоит $7,000, а не $50-70K, как у других вузов.
Полностью онлайн: можно учиться, не переезжая в США.
Гибкость: можно учиться в своем темпе, брать паузы.
Можно приехать на выпускной и получить диплом на церемонии, как в американских фильмах.

Я подумал: ну все, это оно! Начал изучать процесс поступления.



Как поступить в OMSCS в Georgia Tech?

📌 Дедлайны:
• Осенний семестр – до 1 марта.
• Весенний семестр – до 15 августа.

📌 Что нужно для поступления?
Диплом бакалавра (желательно в CS, но не обязательно).
GPA 3.0 и выше.
TOEFL / IELTS (если ты не учился в англоязычном вузе).
Три рекомендации (от коллег, преподавателей).

😎 GRE сдавать не нужно!

После поступления нужно в первый год пройти два базовых курса и сдать их на B или выше – это что-то типа теста на прочность.



Как проходит обучение?

👨‍🎓 Для получения диплома нужно 30 кредитных часов (примерно 10 курсов).

🔹 Можно выбрать специализацию:
• Machine Learning
• Computing Systems
• Robotics & AI
• Interactive Intelligence

🔹 Темп обучения – как хочешь:
• 1 курс за семестр → закончишь за ~3,5-4 года.
• 2 курса за семестр → можно уложиться в 2-2,5 года.
• Можно делать перерывы, но всё нужно закончить за 6 лет.

💰 Стоимость:
• $195 за кредитный час.
• Тех. сбор – $107 за семестр.
• Вся магистратура ~$7,000 (что для США — просто подарок). Например, та же программа в очном формате стоит порядка $60,000.



Почему я в итоге не поступил?

Я был настолько замотивирован, что уже начал готовиться к TOEFL, чтобы податься в следующий прием.

Но… внезапно мне пришло приглашение на собеседование в Microsoft.

Вы сами понимаете, все приоритеты мгновенно изменились. Я переключился на подготовку к собеседованию, и в итоге… я его прошел.

Магистратура уже не была нужна – цель-то была достигнута.



Вывод

Если у вас нет CS-образования, но хочется американский диплом без переезда и за нормальные деньги, Georgia Tech OMSCS – топовый вариант.

Мне он в итоге не пригодился, но сам факт, что можно получить американскую магистратуру по CS онлайн за $7,000, – это очень крутая возможность, о которой мало кто знает.

Если эта возможность вас заинтересовала, вот несколько статей от выпускников программы, которые мне попадались, когда я глубже изучал этот вопрос.

https://habr.com/en/articles/645663/

https://habr.com/en/articles/682310/


Официальный сайт Georgia Tech, где помимо онлайн-магистратуры по Computer Science также доступны:
• Online Master of Science in Analytics
Forwarded from Data Blog
Which LIME should I trust? Concepts, Challenges, and Solutions

🦙 Доброго утра, друзья!

Продолжаю читать кликбейтные статьи, и в этот раз — пришла к вам с полезной для практики.

💡Про что:

LIME (local model agnostic explanation) — один из самых популярных инструментов XAI, в том числе для глубоких моделей. В простом приближении задача LIME — построить простую (линейную) модель, интерполирующую поведение основной в окрестностях конкретного примера.

Метод прост, легко реализуем и масштабируем до глобальных объяснений (то есть на всем наборе данных, а не только для одной точки). Однако, для него есть место критике критике: нестабильность результатов, низкая достоверность, проблемы с интерпретацией и масштабируемостью.

💡Что:

Статья "Which LIME Should I Trust?" Не вводит ничего нового, но дает шикарный обзор существующих улучшений LIME. Внутри — таксономия (классификация) более 50ти модификаций оригинального LIME.

Они поделены:

— по типу улучшения — что надстроено над оригинальным LIME (например, изменение выборки, модели-суррогата или визуализации объяснений);
— по типу решаемой проблемы (локальность, достоверность, стабильность и др.).
Forwarded from Data Blog
💡Что полезно:

В обзоре есть прекрасный практико-ориентированный раздел — описано, какие версии LIME работают лучше для изображений, текста, временных рядов или графов и где их найти. Так что если вы хотите использовать LIME в работе, вам может пригодится интерактивный сайт, где собрана и регулярно обновляется (по заявлению авторов) информация обо всех вариантах LIME — which-lime-to-trust.

Сохраняйте куда-то, вдруг :)

Потыкать LIME на табличках и почитать про метод: можно тут.

Отличных выходных и хорошего настроя на новую неделю, друзья!
Ваш Дата-автор!
Forwarded from Kali Novskaya
🌸LLM-агенты для науки: теперь и от OpenAI🌸
#nlp #про_nlp #nlp_papers

Вчера OpenAI зарелизили PaperBench — новый бенчмарк для оценки агентов по их способности понять и полностью воспроизвести основной технический вклад научной статьи, с кодом и результатами.

🌸TLDR Claude 3.5 оказался на нем лучше всех на задачах длиной 12 часов.

Бенчмарк состоит из 20 статей ICML 2024 года, принятых к представлению в Spotlight и устных докладов. Полное воспроизведение включает в себя понимание статьи, разработку кодовой базы с нуля для реализации всех экспериментов, а также запуск, мониторинг и устранение неполадок этих экспериментов по мере необходимости. Каждая задача репликации является крайне сложной и требует от экспертов-людей как минимум нескольких дней работы.

Все отобранные статьи
— представляют темы reinforcement learning, robustness, probabilistic methods.
— сделаны лабораториями без прямого индустриального финансирования (что интересно! см пост про независимость науки)
— отвечают критериям воспроизводимости и машиночитаемости из authors checklist — имеют четкое описание вычислительного бюджета, конкретных датасетов, бенчмарков, версий моделей.

Агентам можно ходить в интернет, но нельзя пользоваться непосредственным списком ресурсов из статей (защита от списывания слабоватая, конечно, обычно статью подробно разбирают в каком-нибудь блоге с кусочками кода). Для оценки используются LLM-судьи и автоматические метрики. На выполнение каждой задачи дается 12 часов, на одну статью — 3 попытки.

На основе текста и кода статей составляются 8,316 отдельных подзадач для агентов, и ряд LLM (O1, O3, Claude 3.5, Gemini) тестируются в нескольких агентских фреймворках:
— Basic Agent — по сути ReACT
— Iterative Agent — openai-ишное поделие, которое использует всю ту же логику, но убирает возможность закончить эксперимент раньше срока, пытаться надо как бы до конца, и это все будет одной попыткой.
У бенчмарка два подмножества: основное на 20 задачах, и мини на 3х статьях.

🌸Из интересного:
— в отличие от результатов MLE-bench, где лучшим вполне осмысленно оказался AIDE + O1— самым лучшим в базовой постановке задачи оказался обычный ReACT + Anthropic Claude 3.5
— Не совсем ясно, пробовали ли еще какие-то агентские фреймворки вообще, и не опробованными оказались более новые модели — Claude 3.7, Deepseek R1 новый, Gemini 2.5
— в целом работа производит впечатление очень сырой, что авторы и сами отмечают: работа с развитием агентных методов может существенно улучшить текущие результаты моделей.
— Лидерборд меняется, если ограничить решение задачи 36 часами, а не 12: тогда комбинация итеративного агента с О1 побеждает Claude + ReAct.
— В статье достаточно интересные результаты относительно сравнения с настоящими исследователями: агенты могут опережать их в течение первого часа автоматической работы, но затем выходят на плато, и после 12-24 часов работы человеческий результат стабильно обгоняет текущие решения ML-агентов. Учитывая наметившийся тренд и внимание к долгим задачам, постепенное улучшение в этом направлении очень ожидаемо.

🟣Paper
🟣Github (спросила про лицензию, у всего репозитория вроде MIT)
🟣Blogpost
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya
🌸METRики хайпа: найти экспонентциальный рост любой ценой🌸
#nlp #про_nlp #nlp_papers

На прошлой неделе вышел анализ от METR (Model Evaluation & Threat Research) — независимой организации оценки способностей и рисков ИИ систем.

🌸TLDR: предлагается измерять производительность ИИ с точки зрения продолжительности задач, которые могут выполнить агенты.
При этом вводится новый бенчмарк и показывается, что продолжительность решаемых задач постоянно экспоненциально растет в течение последних 6 лет, и удваивается примерно раз в 7 месяцев. Экстраполяция этой тенденции предсказывает, что менее чем через пять лет мы увидим агентов, которые смогут самостоятельно выполнять большую часть программных задач, на которые в настоящее время у людей уходят дни или недели.

Для точности вводится новая метрика: учитывается время, которое обычно требуется людям для выполнения задач, которые модели ИИ могут выполнить с 50%-ным успехом.
У Claude 3.7 Sonnet, например, этот временной горизонт около 50 минут.

Красивая экспонента и оценки будущих горизонтов агентов уже ушли в заголовки.

🌸А теперь самое интересное: на чем меряем?

На немотивированно странном подмножестве бенчмарков.
— 97 задач из HCAST: инженерные задачи от 30 сек до 30 минут
— 7 сложных ML задач из RE-Bench по 8 часов каждая
— 66 очень простых софтверных задач от 1 до 30 секунд (новый бенчмарк, Software atomic actions, SWAA)
— 1 (одна, Карл!) задача из GAIA

🌸Что не так с такими оценками?

— если бы это было так просто, новую метрику бы вводить в целом не потребовалось, можно было бы взять 100+, а то и 1000+ задач предыдущих лет (у нас что, дефицит бенчмарков??) и спокойно построить результат. К сожалению, так не получилось, поэтому пришлось черри-пикать задачи и даже придумывать новые, которые бы дали нужную картину.

— сложность и время выполнения задачи — не одно и то же, можно придумать много долгих тупых задач;

— даже если считать, что в целом это правда, что мы постепенно научились автоматизировать более сложные задачи (конечно), то давайте прямо скажем, что улучшение качества происходит за счет разных компонент прогресса: доступности обучающих данных, бюджета на разметку, вычислительного бюджета на масштабирование модели, и самое интересное — за счет алгоритмической новизны. Все эти факторы имеют совершенно разный вес в каждой из приведенных задач. Соотношение этих факторов во многом для closed source моделей нам совершенно не известно. Смысла искать в них общую экспоненциальную тенденцию немного.

— компьют и данные не скейлятся по экспоненте, при этом только их вклад является наиболее предсказуемым; а алгоритмические улучшения отдельно без скейлинга трудно прогнозировать.

В общем и целом, перебор результатов, чтобы найти экспоненту — это уже самостоятельная бизнес-модель и вообще, залог будущих инвестиций.

Ну и напоследок, результаты опроса AAAI 2025 :"Большинство респондентов (76%) утверждают, что «масштабирование текущих подходов к ИИ» для создания AGI «маловероятно» или «крайне маловероятно» приведет к успеху, что вызывает сомнения относительно того, достаточны ли текущие парадигмы машинного обучения для достижения AGI."

🟣Пост METR
🟣Arxiv
Please open Telegram to view this post
VIEW IN TELEGRAM