Forwarded from Artem Ryblov’s Data Science Weekly
Machine Learning from Scratch by Danny Friedman
This book is for readers looking to learn new machine learning algorithms or understand algorithms at a deeper level. Specifically, it is intended for readers interested in seeing machine learning algorithms derived from start to finish. Seeing these derivations might help a reader previously unfamiliar with common algorithms understand how they work intuitively. Or, seeing these derivations might help a reader experienced in modeling understand how different algorithms create the models they do and the advantages and disadvantages of each one.
This book will be most helpful for those with practice in basic modeling. It does not review best practices—such as feature engineering or balancing response variables—or discuss in depth when certain models are more appropriate than others. Instead, it focuses on the elements of those models.
Link: Book
Navigational hashtags: #armbooks
General hashtags: #ml #machinelearning
@data_science_weekly
This book is for readers looking to learn new machine learning algorithms or understand algorithms at a deeper level. Specifically, it is intended for readers interested in seeing machine learning algorithms derived from start to finish. Seeing these derivations might help a reader previously unfamiliar with common algorithms understand how they work intuitively. Or, seeing these derivations might help a reader experienced in modeling understand how different algorithms create the models they do and the advantages and disadvantages of each one.
This book will be most helpful for those with practice in basic modeling. It does not review best practices—such as feature engineering or balancing response variables—or discuss in depth when certain models are more appropriate than others. Instead, it focuses on the elements of those models.
Link: Book
Navigational hashtags: #armbooks
General hashtags: #ml #machinelearning
@data_science_weekly
Forwarded from Quant Valerian
Пятничная рубрика "Пыльный чулан"
Вообще должен был быть юбилей с достижением мной пятидесяти проведенных архитектурных секций, но кандидаты посливались в последний момент.
Но это не повод оставить вас без поста с полезняхами! Вспоминаем всё полезное для подготовки к систем дизайну (архитектуре).
- Теория распределенных систем и вычислений. Неплохой пост для тех, кто чувствует нехватку теоретической базы. Особенно полезная там ссылка на гигантскую компиляцию Йельского университета, она регулярно обновляется. В ней есть все современные темы, о которых я слышал.
- Применение теории для построения реальных систем. Мне нравится курс Олега Бунина в на Физтехе. Там разобрано много стандартных паттернов проектирования высоконагруженных систем. Особенно классно, что в записи есть и разборы кейсов.
- Если мы говорим про собесы, то недавно мне скинули целый сайт методичку для FAANG'овских систем дизайнов. Там и задачи есть, можно порешать, а потом свериться с решением. Для меня особенно полезно было посмотреть, как они оценивают уровень, и насколько это совпадает с нашими оценками. Довольно сильно совпадает, BTW.
- Ну и наконец максимально практичная штука — заказ железа. Мы этим занимаемся раз в год стабильно. Чаще всего можно оттолкнуться от текущей утилизации и прикидок по росту, но иногда в планах какие-то новые сервисы или даже системы сервисов. Как быть рассказываю в моих постах.
Вообще должен был быть юбилей с достижением мной пятидесяти проведенных архитектурных секций, но кандидаты посливались в последний момент.
Но это не повод оставить вас без поста с полезняхами! Вспоминаем всё полезное для подготовки к систем дизайну (архитектуре).
- Теория распределенных систем и вычислений. Неплохой пост для тех, кто чувствует нехватку теоретической базы. Особенно полезная там ссылка на гигантскую компиляцию Йельского университета, она регулярно обновляется. В ней есть все современные темы, о которых я слышал.
- Применение теории для построения реальных систем. Мне нравится курс Олега Бунина в на Физтехе. Там разобрано много стандартных паттернов проектирования высоконагруженных систем. Особенно классно, что в записи есть и разборы кейсов.
- Если мы говорим про собесы, то недавно мне скинули целый сайт методичку для FAANG'овских систем дизайнов. Там и задачи есть, можно порешать, а потом свериться с решением. Для меня особенно полезно было посмотреть, как они оценивают уровень, и насколько это совпадает с нашими оценками. Довольно сильно совпадает, BTW.
- Ну и наконец максимально практичная штука — заказ железа. Мы этим занимаемся раз в год стабильно. Чаще всего можно оттолкнуться от текущей утилизации и прикидок по росту, но иногда в планах какие-то новые сервисы или даже системы сервисов. Как быть рассказываю в моих постах.
Telegram
Quant Valerian
Как считать железо
У меня в очередной раз наступила пора подсчёта железа (пока я писал пост, она уже закончилась, но да ладно). Нужно прикинуть, сколько процессоров, памяти, дисков и сети понадобится сервисам и базам данных, за которые я отвечаю. Навык считать…
У меня в очередной раз наступила пора подсчёта железа (пока я писал пост, она уже закончилась, но да ладно). Нужно прикинуть, сколько процессоров, памяти, дисков и сети понадобится сервисам и базам данных, за которые я отвечаю. Навык считать…
Forwarded from AbstractDL
M-Attack: как обмануть GPT-4.5 и Gemini
Все привыкли, что атаковать современные мультимодальные модели (типа GPT-4o, Claude, Gemini и т.п.) крайне сложно — особенно, если это black-box модели, где нет доступа к градиентам и архитектуре. Стандартные подходы атак типа "выдать одну картинку за другую" часто генерируют какие-то невнятные шумы, которые либо игнорируются моделью, либо приводят к абстрактным ответам типа "размытое изображение".
Но оказалось, что проблема была не в самих моделях, а в подходе к генерации возмущений. В свежей статье предложили очень простой, но мощный подход — M-Attack:
1. Берём исходную и целевую картинки.
2. На каждом шаге рандомно crop'аем кусок исходного изображения (50-100% площади) и затем ресайзим обратно до исходного размера.
3. Заставляем эмбеддинги этого кусочка максимально приблизиться к эмбеддингам целевого изображения оптимизируясь в white-box режиме по ансамблю открытых визуальных моделей (например, CLIP, ViT и тп).
И всё! После нескольких итераций в центральной области картинки "проявляется" целевая семантика, при этом возмущения выглядят крайне незаметно и аккуратно (в отличие от других подходов).
Авторы добились совершенно впечатляющих результатов: успех атаки (ASR) превышает 90% (!) для GPT-4.5, GPT-4o и даже для o1 и Gemini. Код и датасет из 100 атакованных картинок выложили в открытый доступ.
Статья, GitHub, dataset
Все привыкли, что атаковать современные мультимодальные модели (типа GPT-4o, Claude, Gemini и т.п.) крайне сложно — особенно, если это black-box модели, где нет доступа к градиентам и архитектуре. Стандартные подходы атак типа "выдать одну картинку за другую" часто генерируют какие-то невнятные шумы, которые либо игнорируются моделью, либо приводят к абстрактным ответам типа "размытое изображение".
Но оказалось, что проблема была не в самих моделях, а в подходе к генерации возмущений. В свежей статье предложили очень простой, но мощный подход — M-Attack:
1. Берём исходную и целевую картинки.
2. На каждом шаге рандомно crop'аем кусок исходного изображения (50-100% площади) и затем ресайзим обратно до исходного размера.
3. Заставляем эмбеддинги этого кусочка максимально приблизиться к эмбеддингам целевого изображения оптимизируясь в white-box режиме по ансамблю открытых визуальных моделей (например, CLIP, ViT и тп).
И всё! После нескольких итераций в центральной области картинки "проявляется" целевая семантика, при этом возмущения выглядят крайне незаметно и аккуратно (в отличие от других подходов).
Авторы добились совершенно впечатляющих результатов: успех атаки (ASR) превышает 90% (!) для GPT-4.5, GPT-4o и даже для o1 и Gemini. Код и датасет из 100 атакованных картинок выложили в открытый доступ.
Статья, GitHub, dataset
Forwarded from Артем
Мне кажется это из разряда подобных иллюзий. Если смотреть издали видно одно, вглядеться в детали - другое. Современные нейросети явно делают упор на детали. В данном изображении ни одна сетка не смогла разглядеть Че Гевару.
Forwarded from rizzearch
Forgetting Transformer: Softmax Attention with a Forget Gate
авторы из Милы и дипмаинда сделали очень естественную концепцию форгет гейта для софтмакс аттеншна
а естественность эта заключается в том, что
- если вспомнить линейный аттеншн, то его преимущество на инференсе (теоретически) заключается в возможности записать его в рекуррентном виде
- где уже дальше можно внести момент data-dependent форгет гейта (взятый по аналогии с LSTM или xLSTM если поновее (кстати его смогли отскейлить до 7б), только там экспоненциальное забывание)
- однако, это самое забывание можно внести и в привычную формулу параллельного линейного аттеншна (что в принципе похоже на GLA & обобщение ссм и аттеншна мамбы 2)
- но тогда там в формуле появляется уравнение forget_matrix * sim(q, k), которую снова можно развернуть в forget_matrix * softmax(q @ k)
и из этого мы возвращаемся к стандартному софтмаксу с перформансом лучше → так еще и можно засунуть элемент забывания под софтмакс, получится что-то типа
softmax(q @ k + log[forget_matrix])
где уже есть аналогии как и с навороченной каузальной маской, так и с позиционным кодированием (именно поэтому в своей архитектуре они вырубают роуп, хотя можно включить и чуть-чуть результат будет получше) где похожее было и в алиби и в ретнете например, только маски там были в data-independent манере
так еще и реализовано во флеш-аттн лайк манере, где эта матрица не высчитывается сразу, а постепенно, храня в HBM промежуточные результаты forget gate’ов для каждого таймстепа,и попарно высчитывается далее уже в онлайн стиле (в статье очень хорошо и понятно описано, рекомендуем)
сделали все на основе флаг аттеншн - оч крутая репа, да и сам код от FoX (Forgetting Transformer) не отстает
по состоятельности экспериментов можно сказать то, что реально присутствует улучшение в языковом моделировании, зеро-шот, в длинный контекст и все такое, однако скейл моделей был примерно в районе 125М-350М-760М, ну и скейл датасета соответствующий
👀LINK
авторы из Милы и дипмаинда сделали очень естественную концепцию форгет гейта для софтмакс аттеншна
а естественность эта заключается в том, что
- если вспомнить линейный аттеншн, то его преимущество на инференсе (теоретически) заключается в возможности записать его в рекуррентном виде
- где уже дальше можно внести момент data-dependent форгет гейта (взятый по аналогии с LSTM или xLSTM если поновее (кстати его смогли отскейлить до 7б), только там экспоненциальное забывание)
- однако, это самое забывание можно внести и в привычную формулу параллельного линейного аттеншна (что в принципе похоже на GLA & обобщение ссм и аттеншна мамбы 2)
- но тогда там в формуле появляется уравнение forget_matrix * sim(q, k), которую снова можно развернуть в forget_matrix * softmax(q @ k)
и из этого мы возвращаемся к стандартному софтмаксу с перформансом лучше → так еще и можно засунуть элемент забывания под софтмакс, получится что-то типа
softmax(q @ k + log[forget_matrix])
где уже есть аналогии как и с навороченной каузальной маской, так и с позиционным кодированием (именно поэтому в своей архитектуре они вырубают роуп, хотя можно включить и чуть-чуть результат будет получше) где похожее было и в алиби и в ретнете например, только маски там были в data-independent манере
так еще и реализовано во флеш-аттн лайк манере, где эта матрица не высчитывается сразу, а постепенно, храня в HBM промежуточные результаты forget gate’ов для каждого таймстепа,и попарно высчитывается далее уже в онлайн стиле (в статье очень хорошо и понятно описано, рекомендуем)
сделали все на основе флаг аттеншн - оч крутая репа, да и сам код от FoX (Forgetting Transformer) не отстает
по состоятельности экспериментов можно сказать то, что реально присутствует улучшение в языковом моделировании, зеро-шот, в длинный контекст и все такое, однако скейл моделей был примерно в районе 125М-350М-760М, ну и скейл датасета соответствующий
👀LINK
Forwarded from Реймер | AI Трансформация Бизнеса
Мои ИИ-стек инструментов
За последние два года я попробовал больше сотни разных ИИ-инструментов. Многие не оправдали своих ожиданий, но есть звездочки, которые не только доказали свою ценность, но и стали незаменимыми партнерами в ежедневной деятельности.
Так получился мой ИИ-стек, которым я пользуюсь практически ежедневно.
▶️ Базовые LLM:
1. Claude - скоро будет год как для меня Claude - LLM #1. Долгое время я его использовал только через API в своих агентах, но с выходом 3.7 Sonnet и появлением интерактивного интерфейса, добавил подписку и на claude.ai.
2. ChatGPT - всегда рядом, на случай второго мнения. Использую только через API.
3. Deepseek - хорош, но на каждый день он слабее.
4. Google Gemini - открыл его для себя заново с появлением Gemini 2.0 Flash и расширением возможностей AI Studio, включая Realtime режим анализа стриминга с камеры (фильм "Она" все помним).
5. Grok - Deep Research с поиском в интернет и "думающий" режим, да еще и бесплатно (в одном из запросов модель пока размышляла, собрала 103 источника и сгенерировала 140 листов текста.... для выдачи ответа на 1 лист. не жалеет grok себя :) )
▶️ Для работы с информацией
6. NotebookLM - лучший бесплатный инструмент от Google для работы с документами. Загружаем до 50 источников (ссылки на youtube, pdf, видео файлы) и получаем интерактивный инструмент с поиском по документам. Практически все отчеты теперь читаю в нем.
7. Perplexity - отлично ищет информацию в интернет, но мне не нравится как он ее обрабатывает последние месяцы. Использую как инструмент через API в агентах.
▶️ Генерация изображений
8. Midjourney - 99% изображений создаю в нём. С настройкой собственных профилей (фактически файн-тюнинг по себя) всё чаще радует с первого раза.
9. DALL-E - для генерации изображений в своих агентах. (midjourney бы твой API)
10. Adobe - photoshop c ИИ хорош.
▶️ Видео и Аудио
11. Hailuo, Runway, Pika - как правило экспериментирую сразу с несколькими [1] [2]. Результат пока 50/50 - чаще не попадает в ожидания. Но сделать видео-поздравление по фотографиям - с этим инструменты справляются на ура.
12. Suno - лучший генератор песен и первый инструмент, у которого я сразу на год купил подписку. Песни-поздравления, треки для тренировок в нужном темпе, каверы в том стиле, в котором хочется. [1] [2] [3]
13. ElevenLabs - клонирование собственного голоса (настолько похоже, что сам пугаюсь). использую для своих аватаров и агентов. Ждем эмоции.
14. HeyGen - непосредственно создание цифровых аватаров. можно и через api.
▶️ Автоматизация и ИИ-агенты
- Интерфейс для работы с агентами - Телеграм или google таблицы - самые удобные для меня.
- Notion - обновление таблиц агентами, а Obsidian еще и как база данных для агента (через RAG).
- n8n - основной инструмент автоматизации. Есть несколько сценариев работающих на make, но они постепенно переписываются в n8n. В n8n очень удобная среда настройки агентов и добавление внешних инструментов. А скоро еще и MCP можно будет добавить... [1] [2] [3]
- IFTTT удобен для ряда сценариев, которые в n8n и make требуют кучу усилий или денег - например, выгрузка новостей из feedly в google таблицу.
- Для хранения данных нам нужна - классическая база данных (настройки и данные между процессами), быстрая база - ключ/значение (контекст и память) и векторная база в качестве RAG для агентов. Я пока остановился на Airtable, Xata и Pinecone.
- Ну и куда сегодня без вайб-кодинга. Использую Replit и Cursor. С выходом Claude 3.7 оба стали работать намного лучше. [1] [2]
А как прибавил сам Сlaude! - смотрим.
Универсальных решений нет, поэтому каждый собирает под себя свою удобную ИИ-команду!
Всех с пятницей! и нескучного погружения в мир ии-инструментов!
🅰️ 🅱️ @ReymerDigital
Что из звездочек я пропустил? пишите в комментарии
За последние два года я попробовал больше сотни разных ИИ-инструментов. Многие не оправдали своих ожиданий, но есть звездочки, которые не только доказали свою ценность, но и стали незаменимыми партнерами в ежедневной деятельности.
Так получился мой ИИ-стек, которым я пользуюсь практически ежедневно.
1. Claude - скоро будет год как для меня Claude - LLM #1. Долгое время я его использовал только через API в своих агентах, но с выходом 3.7 Sonnet и появлением интерактивного интерфейса, добавил подписку и на claude.ai.
2. ChatGPT - всегда рядом, на случай второго мнения. Использую только через API.
3. Deepseek - хорош, но на каждый день он слабее.
4. Google Gemini - открыл его для себя заново с появлением Gemini 2.0 Flash и расширением возможностей AI Studio, включая Realtime режим анализа стриминга с камеры (фильм "Она" все помним).
5. Grok - Deep Research с поиском в интернет и "думающий" режим, да еще и бесплатно (в одном из запросов модель пока размышляла, собрала 103 источника и сгенерировала 140 листов текста.... для выдачи ответа на 1 лист. не жалеет grok себя :) )
6. NotebookLM - лучший бесплатный инструмент от Google для работы с документами. Загружаем до 50 источников (ссылки на youtube, pdf, видео файлы) и получаем интерактивный инструмент с поиском по документам. Практически все отчеты теперь читаю в нем.
7. Perplexity - отлично ищет информацию в интернет, но мне не нравится как он ее обрабатывает последние месяцы. Использую как инструмент через API в агентах.
8. Midjourney - 99% изображений создаю в нём. С настройкой собственных профилей (фактически файн-тюнинг по себя) всё чаще радует с первого раза.
9. DALL-E - для генерации изображений в своих агентах. (midjourney бы твой API)
10. Adobe - photoshop c ИИ хорош.
11. Hailuo, Runway, Pika - как правило экспериментирую сразу с несколькими [1] [2]. Результат пока 50/50 - чаще не попадает в ожидания. Но сделать видео-поздравление по фотографиям - с этим инструменты справляются на ура.
12. Suno - лучший генератор песен и первый инструмент, у которого я сразу на год купил подписку. Песни-поздравления, треки для тренировок в нужном темпе, каверы в том стиле, в котором хочется. [1] [2] [3]
13. ElevenLabs - клонирование собственного голоса (настолько похоже, что сам пугаюсь). использую для своих аватаров и агентов. Ждем эмоции.
14. HeyGen - непосредственно создание цифровых аватаров. можно и через api.
- Интерфейс для работы с агентами - Телеграм или google таблицы - самые удобные для меня.
- Notion - обновление таблиц агентами, а Obsidian еще и как база данных для агента (через RAG).
- n8n - основной инструмент автоматизации. Есть несколько сценариев работающих на make, но они постепенно переписываются в n8n. В n8n очень удобная среда настройки агентов и добавление внешних инструментов. А скоро еще и MCP можно будет добавить... [1] [2] [3]
- IFTTT удобен для ряда сценариев, которые в n8n и make требуют кучу усилий или денег - например, выгрузка новостей из feedly в google таблицу.
- Для хранения данных нам нужна - классическая база данных (настройки и данные между процессами), быстрая база - ключ/значение (контекст и память) и векторная база в качестве RAG для агентов. Я пока остановился на Airtable, Xata и Pinecone.
- Ну и куда сегодня без вайб-кодинга. Использую Replit и Cursor. С выходом Claude 3.7 оба стали работать намного лучше. [1] [2]
А как прибавил сам Сlaude! - смотрим.
Универсальных решений нет, поэтому каждый собирает под себя свою удобную ИИ-команду!
Всех с пятницей! и нескучного погружения в мир ии-инструментов!
Что из звездочек я пропустил? пишите в комментарии
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM