Интересное что-то
517 subscribers
2.72K photos
253 videos
140 files
4.53K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
Мои ИИ-стек инструментов

За последние два года я попробовал больше сотни разных ИИ-инструментов. Многие не оправдали своих ожиданий, но есть звездочки, которые не только доказали свою ценность, но и стали незаменимыми партнерами в ежедневной деятельности.

Так получился мой ИИ-стек, которым я пользуюсь практически ежедневно.

▶️Базовые LLM:

1. Claude - скоро будет год как для меня Claude - LLM #1. Долгое время я его использовал только через API в своих агентах, но с выходом 3.7 Sonnet и появлением интерактивного интерфейса, добавил подписку и на claude.ai.

2. ChatGPT - всегда рядом, на случай второго мнения. Использую только через API.

3. Deepseek - хорош, но на каждый день он слабее.

4. Google Gemini - открыл его для себя заново с появлением Gemini 2.0 Flash и расширением возможностей AI Studio, включая Realtime режим анализа стриминга с камеры (фильм "Она" все помним).

5. Grok - Deep Research с поиском в интернет и "думающий" режим, да еще и бесплатно (в одном из запросов модель пока размышляла, собрала 103 источника и сгенерировала 140 листов текста.... для выдачи ответа на 1 лист. не жалеет grok себя :) )

▶️ Для работы с информацией

6. NotebookLM - лучший бесплатный инструмент от Google для работы с документами. Загружаем до 50 источников (ссылки на youtube, pdf, видео файлы) и получаем интерактивный инструмент с поиском по документам. Практически все отчеты теперь читаю в нем.

7. Perplexity - отлично ищет информацию в интернет, но мне не нравится как он ее обрабатывает последние месяцы. Использую как инструмент через API в агентах.

▶️ Генерация изображений

8. Midjourney - 99% изображений создаю в нём. С настройкой собственных профилей (фактически файн-тюнинг по себя) всё чаще радует с первого раза.

9. DALL-E - для генерации изображений в своих агентах. (midjourney бы твой API)

10. Adobe - photoshop c ИИ хорош.

▶️ Видео и Аудио

11. Hailuo, Runway, Pika - как правило экспериментирую сразу с несколькими [1] [2]. Результат пока 50/50 - чаще не попадает в ожидания. Но сделать видео-поздравление по фотографиям - с этим инструменты справляются на ура.

12. Suno - лучший генератор песен и первый инструмент, у которого я сразу на год купил подписку. Песни-поздравления, треки для тренировок в нужном темпе, каверы в том стиле, в котором хочется. [1] [2] [3]

13. ElevenLabs - клонирование собственного голоса (настолько похоже, что сам пугаюсь). использую для своих аватаров и агентов. Ждем эмоции.

14. HeyGen - непосредственно создание цифровых аватаров. можно и через api.

▶️ Автоматизация и ИИ-агенты

- Интерфейс для работы с агентами - Телеграм или google таблицы - самые удобные для меня.

- Notion - обновление таблиц агентами, а Obsidian еще и как база данных для агента (через RAG).

- n8n - основной инструмент автоматизации. Есть несколько сценариев работающих на make, но они постепенно переписываются в n8n. В n8n очень удобная среда настройки агентов и добавление внешних инструментов. А скоро еще и MCP можно будет добавить... [1] [2] [3]

- IFTTT удобен для ряда сценариев, которые в n8n и make требуют кучу усилий или денег - например, выгрузка новостей из feedly в google таблицу.

- Для хранения данных нам нужна - классическая база данных (настройки и данные между процессами), быстрая база - ключ/значение (контекст и память) и векторная база в качестве RAG для агентов. Я пока остановился на Airtable, Xata и Pinecone.

- Ну и куда сегодня без вайб-кодинга. Использую Replit и Cursor. С выходом Claude 3.7 оба стали работать намного лучше. [1] [2]
А как прибавил сам Сlaude! - смотрим.

Универсальных решений нет, поэтому каждый собирает под себя свою удобную ИИ-команду!

Всех с пятницей! и нескучного погружения в мир ии-инструментов!

🅰️🅱️@ReymerDigital

Что из звездочек я пропустил? пишите в комментарии
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#prompt

A few tips to master prompt engineering

Prompt engineering is one of the highest leverage skills in 2025

Here are a few tips to master it:

1. Be clear with your requests: Tell the LLM exactly what you want. The more specific your prompt, the better the answer.

Instead of asking “what's the best way to market a startup”, try “Give me a step-by-step guide on how a bootstrapped SaaS startup can acquire its first 1,000 users, focusing on paid ads and organic growth”.


2. Define the role or style: If you want a certain type of response, specify the role or style.

Eg: Tell the LLM who it should act as: “You are a data scientist. Explain overfitting in machine learning to a beginner.”

Or specify tone: “Rewrite this email in a friendly tone.”


3. Break big tasks into smaller steps: If the task is complex, break it down.

For eg, rather than one prompt for a full book, you can first ask for an outline, then ask it to fill in sections


4. Ask follow-up questions: If the first answer isn’t perfect, tweak your question or ask more.

You can say "That’s good, but can you make it shorter?" or "expand with more detail" or "explain like I'm five"


5. Use Examples to guide responses: you can provide one or a few examples to guide the AI’s output

Eg: Here are examples of a good startup elevator pitches: Stripe: ‘We make online payments simple for businesses.’ Airbnb: ‘Book unique stays and experiences.’ Now write a pitch for a startup that sells AI-powered email automation.


6. Ask the LLM how to improve your prompt: If the outputs are not great, you can ask models to write prompts for you.

Eg: How should I rephrase my prompt to get a better answer? OR I want to achieve X. can you suggest a prompt that I can use?


7. Tell the model what not to do: You can prevent unwanted outputs by stating what you don’t want.

Eg: Instead of "summarize this article", try "Summarize this article in simple words, avoid technical jargon like delve, transformation etc"


8. Use step-by-step reasoning: If the AI gives shallow answers, ask it to show its thought process.

Eg: "Solve this problem step by step." This is useful for debugging code, explaining logic, or math problems.


9. Use Constraints for precision: If you need brevity or detail, specify it.

Eg: "Explain AI Agents in 50 words or less."


10. Retrieval-Augmented Generation: Feed the AI relevant documents or context before asking a question to improve accuracy.

Eg: Upload a document and ask: “Based on this research paper, summarize the key findings on Reinforcement Learning”


11. Adjust API Parameters: If you're a dev using an AI API, tweak settings for better results

Temperature (Controls Creativity): Lower = precise & predictable responses, Higher = creative & varied responses
Max Tokens (Controls Length of Response): More tokens = longer response, fewer tokens = shorter response.
Frequency Penalty (Reduces Repetitiveness)
Top-P (Controls answer diversity)


12. Prioritize prompting over fine-tuning:
For most tasks, a well-crafted prompt with a base model (like GPT-4) is enough. Only consider fine-tuning an LLM when you need a very specialized output that the base model can’t produce even with good prompts.
Forwarded from Data Secrets
Наткнулись на свежее видео, в котором PhD MIT объясняет, как правильно и быстро читать ML статьи

Вашему вниманию краткое содержание: три способа ускорить процесс чтения и понимания папир 👇

1. Birds-eye. Подойдет, если нужно просто понять общую идею, не углубляясь. Читаем абстракт, изучаем все графики и таблицы и описания к ним, читаем заключение (conclusion), и пишем резюме на 5-7 предложений без помощи ChatGPT.

Примечание от нашей редакции: часто абстракт совсем абстрактный. Если из него вообще ничего не понятно, прочитайте еще 3-4 последних абзаца Introduction. Там обычно содержатся все основные идеи авторов.

2. Podcast Mode – если нужно окунуться немного глубже. Повторяем все то же самое, затем заходим в Notebook LM от Google, создаем блокнот, загружаем туда PDF и нажимаем «Аудиопересказ». Инструмент недолго подумает и сгенерирует емкий подкаст по статье в стиле «вопрос-ответ». Это бесплатно.

3. In-depth mode – если статью нужно понимать вдоль и поперек. Идем по статье по порядку. Читаем полностью Abstract, Methodology и Conclusion. В остальных разделах изучаем графики и таблицы.

По ходу чтения составляем заметки в виде дерева Идея -> Реализация -> Детали. Если встречаем незнакомое понятие, сначала ищем его по статье и смотрим все упоминания. Если не стало понятнее, идем в Google/ChatGPT. Если остались вопросы, задаем их Notebook LM.

Попробуйте. Может быть так у статей, которые вы сохраняете, все-таки будет шанс быть прочитанными

https://youtu.be/RjG689EwG5g
Forwarded from Dealer.AI
RAG system design на хабр.

Вот хороший пост про то, как чел сделал сам RAG и прошел все основные этапы проектирования. Хороший system design, советую к прочтению в выходные.

От себя добавлю чего не хватает. И вы должны себе в рамках дизайна об этом всегда напоминать. Если заявляется SOTA не хватает описания системы метрик. В каких осях SoTA, как измеряли качество извлечения информации, как измеряли качество ризонинга, или все измерялось e2e, то тоже как?

Всегда есть типы ошибок, которые рассматриваются: ошибка поиска (в топ выдачи нет полезных подсказок), ошибка ризонинга (когда ллмка получила подсказки) и даже эта ошибка распадается на ошибку, когда в топе была подсказка и модель не ответила, когда подсказки не было и не ответила (те не сработала из весов). А еще интересное, когда модель сама принимает решение ответить из весов, несмотря на плохие подсказки. Вот этого не хватило. В остальном лайк, закладка.
Forwarded from Quant Valerian
😡 СТАДИЯ КРИЗИСА (ШТОРМИНГ)

Кризис возникает из-за производственных сложностей, тяжелых условий, разного видения целей и несправедливости. Несправедливость и борьба за статус могут привести к конфликтам и разделению группы. Отсутствие возможности сменить контекст и кризис мотивации также способствуют кризису.

Кризис может проявляться по-разному: подавленное настроение, пассивный конфликт, активный неконтролируемый конфликт и т.д. Важно снять страх говорить о проблемах и работать с конфликтами. Активный модерируемый конфликт с положительной динамикой является лучшим вариантом.

• Здоровый кризис помогает людям учиться взаимодействовать. Отличается наличием модерации и положительной динамики.
• Нездоровый кризис деструктивен и не способствует командообразованию.

• Кризис может быть вызван работой и отношениями в группе.
• Работа включает производственные трудности и бытовые условия.
• Отношения включают личные симпатии и антипатии, борьбу за статус и справедливость.

• Степень напряженности зависит от умения участников выстраивать отношения.
• Подготовленные командные игроки с отлично идущими делами избегают кризиса.
• Подготовленные командные игроки с переменным успехом в работе проходят кризис легче.

Обычные люди ориентированы на себя и не готовы подстраиваться. В благоприятных условиях процесс командообразования может не запуститься. Группа может зависнуть на стадии формирования, если нет проблем и конфликтов.
В группе с отлично идущей работой и отличными отношениями можно запустить процесс командообразования искусственно. Это требует усилий и может быть нецелесообразным, если дела и так идут хорошо.

⭐️ ПРОБЛЕМЫ КОМАНДООБРАЗОВАНИЯ

Процесс командообразования болезнен и может привести к потере до трети состава группы. Прежде чем инициировать процесс, нужно тщательно взвесить необходимость и риски. Важно понимать, что получение командной синергии сопряжено с большими затратами и рисками.

⭐️ ТИПОВЫЕ СЦЕНАРИИ КОМАНДООБРАЗОВАНИЯ (ШТОРМИНГА)

Координаты:
• Работа может идти в диапазоне от очень плохо до отлично.
• Отношения могут быть от полного неприятия до полной любви.

Сценарии:
1. Дела идут исключительно хорошо, условия кофмортные + между людьми нет напряжения, есть доверие
2. Дела идут с переменным успехом + подготовленные люди
3. Дела хорошо + обычные люди
4. Переменный успех + обычные люди

Причины кризиса в монтажной бригаде

• Внешние стресс и давление, а также недостаточная продвинутость участников в вопросах отношений и конфликтов.
• Кризис в монтажной бригаде был вызван несправедливостью в оплате труда.
• Если бы оплата была стабильной, кризис мог бы не возникнуть или быть менее болезненным.

В четвертом сценарии группа переживает перманентный кризис, который может не получить активного развития. Кризис протекает в пассивной форме, с напряженной атмосферой и избеганием друг друга. Причины: подавление конфликтов руководством, отсутствие заинтересованности в слаженности коллектива и низкий барьер выхода из группы.
Forwarded from Quant Valerian
⭐️ РЕКОМЕНДАЦИИ ШТОРМИНГ

• В первых двух сценариях группа сама превращается в команду без вмешательства.
• В третьем сценарии лучше не инициировать командную динамику, чтобы избежать развала группы.
• В четвертом сценарии важно обеспечить последовательное развитие групповой динамики и безболезненное прохождение кризиса.

• Рекомендации носят общий характер и могут быть опасны.
• Важно тщательно изучить участников, их мотивацию и возможности.
• Необходимо отслеживать состояние участников и способствовать разрешению конфликтов.

Практика стимулирования групповой динамики

Конфликты помогают людям притираться друг к другу и учиться доверять. Практика стимулирует развитие командной динамики и помогает группе пройти стадию шторма. Суть практики: высказываться самому и поощрять других, чтобы помочь группе двигаться вперед.

Высказывания и рефлексия

• Участники должны высказываться прямо и без обиняков.
• Важно не бояться эмоциональных оценок.
• Практика помогает сбрасывать напряжение и проговаривать негативные эмоции.

Работа с конфликтами

• Конфликты должны развиваться, а не оставаться в подвешенном состоянии.
• Практика ускоряет процесс и предотвращает накопление напряжения.
• Важно учитывать чувствительность людей и контекст.

Индивидуальный подход

• Лидер должен подбирать правильные слова и выражения.
• Работать с динамикой нужно на индивидуальном уровне.
• Сначала обсуждать вопросы с непосредственными участниками, а затем выносить на группу.

Работа с агрессией

• Принять нормальность агрессии и токсичности.
• Не отвечать агрессией на агрессию, а переводить в плоскость конкретики.
• Критиковать действия, а не личность.
Forwarded from Data Blog
PrivacyScalpel: Enhancing LLM Privacy via Interpretable Feature Intervention with Sparse Autoencoders
Или какие только названия не придумают. Похоже, в науку пришел маркетинг-принцип, когда название должно быть very attention-grabbing.

Привет, друзья! Ещё одна красивая статья. Она показалась мне полезной как задача на обзор и идея на блюдечке применения SAE в XAI (и, кстати, повышения Safety).

Мотивация:
При условии хорошо собранного запроса, LLM могут раскрывать конфиденциальную информацию (адреса электронной почты или номера телефонов). Это создает утечку риска персональной информации => с этим нужно бороться.

Способы борьбы:
Тривиальный метод — удаление конфиденциальных данных из обучающего набора. Однако, он требует полного анализа всего набора данных для трейда и может привести к потере в способностях модели. ,

Что предлагают авторы:

Для извлечения информации, связанной с персональными данными, авторы предлагают 3х шаговую структуру.

1️⃣ Определение слоя, ответственного за утечку PII (Personally Identifiable Information).
Задача переформирована в «найти слой A_l, такой что разделение информации, связанной и нет с PII на нем максимально. Для этого на активациях обучается линейный зонд — то есть классификатор, задача которого лейбелить представления на связанные с PIII и нет.


2️⃣ Обучение разреженного автоэнкодера (k-Sparse Autoencoder, k-SAE)
После выбора слоя A_l, на нём обучают разреженный автоэнкодер (SAE) для представления активаций через интерпретируемые признаки.

То есть мы активацию a_l и строим ее признаки, как:

z = TopK(W_{enc} (a^l - b_{pre})) — жду когда в тг добавят латех, а пока простите...

W_{enc} — матрица весов энкодера,
(a_l - b_{pre}) — скрытое представление, от которого отнят биас.
TopK() — функция, оставляющая только k наибольших значений (остальные зануляются).

Ещё, авторы используют дополненный (против классического MSE для AE-шек loss):

L = a_l - a_{l, predicted} ^2 + а||e - e_{topK}||^2

первая часть здесь — MSE, вторая — auxiliary loss — разность между ошибкой e = a_l - a_{l, predicted} и e_{topK} = W_{Decoder}*z_{topK}

3️⃣ Имея обученный автоэнкодер, применяется две стратегии для защиты (в комбинации и в соло).

1. Feature Ablation— отключение латентных признаков, связанных с PII.

Для этого:
Собирают датасет с PII, и для каждого примера строим его скрытый вектор z. Однако строят не для примера целиком, а начиная с токена, который содержит персональную информацию (в данном случае email).

Полученные активации в SAE пространстве усредняют и сортируют. А после зануляют активации, связанные с ними.

2. Feature Vector Steering — модификация латентных признаков, чтобы подавить утечки.

Steering — дословно «рулевое» управление и тут в качестве руля выступает вектор v. Он считается так:

v = MEAN(Z_{PII}) - MEAN(Z_{notPII) — то есть среднее активаций на представлениях данных с PII и без.

После вычисления этого вектора, вычисляется сдвиг представление z в сторону, удаляющую PII:

z' = z + a*v

К чему приходит такой танец:

На моделях Gemma2-2b и Llama2-7b удается снизить количество утечек с малой потерей производительности (максимальное падание примерно 2%, при этом утечки уходят до 0.

Ограничение работы, конечно, концентрация на одном нежелательном поведении, но всё же это хороший пример того что вмешательства в параметры (основанные на интерпретируемых представлениях), способны оставить модель "полезной" и при этом, сделать её более хорошей.

Рассчитываю скоро и с SAE потыкать что-то под туториал, пока что руки доходили только до просто AE. Но и для интересных результатов нужно работать с большими модельками, кажется, пора задуматься об аренде GPU...

Где-то в весенних работах, дипломах и вот этом всём,
Ваш Дата автор!
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Визуализация работы трансформеров позволяет наглядно представить, как модели вроде ChatGPT формируют ответы, подбирая слова и фразы.

Это помогает лучше понять процессы, происходящие внутри языковых моделей.

Простыми словами: такие визуализации дают возможность увидеть, как ChatGPT выбирает слова для формирования своих ответов.

https://moebio.com/mind/

@machinelearning_interview
✔️ ReasonGraph: инструмент для анализа ризонинга LLM.

ReasonGraph - опенсорсная веб-платформа, разработанная Кембриджским университетом, для визуализации и анализа процессов рассуждений LLM. Она поддерживает как последовательные, так и древовидные методы рассуждений, легко интегрируясь с основными провайдерами LLM и более чем 50 языковыми моделями.
Платформа построена на модульном каркасе и имеет выбор метода мета-рассуждения и настраиваемые параметры визуализации.

ReasonGraph улучшает обнаружение ошибок в логических процессах и способствует более эффективной разработке приложений на основе LLM. Оценка платформы показала практически 100% точность rule-based XML-парсинга при извлечении и визуализации путей рассуждений.

Репозиторий проекта на Github. Демо на HuggingFace.
arxiv.org


@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⭐️ «Open-Source Handwritten Signature Detection Model» - отличная статья, в которой подробно показно решение прикладной ML задачи.

Это подробный гайд, где описан процесс разработки приложения для автоматического обнаружения рукописных подписей в документах.

Автор протестировал все доступные модели YOLO для данной задачи и опубликовал результаты. В итоге получился очень годный гайд, со множеством технических деталей.

🟡Подготовка данных: использование двух публичных датасетов (Tobacco800 и Signatures-XC8UP) с последующей предобработкой и аугментацией изображений.

🟡Архитектурное сравнение: в статье приводится детальный анализ современных алгоритмов обнаружения объектов – от семейства YOLO до трансформерных моделей (DETR, RT-DETR, YOLOS).

🟡Оптимизация гиперпараметров:
Сравнительный анализ архитектур показал, что YOLOv8 - обеспечивает идеальный баланс между скоростью и точностью для данной задачи, достигая 94,74 % точности и 89,72 % после оптимизации гиперпараметров с помощью Optuna.

🟡Развёртывание: модель оптимизирована для работы с Triton Inference Server и OpenVINO, что обеспечивает быстрый инференс на CPU и GPU (до 7.657 мс на T4)

🟡 Результаты экспериментов:
Достигнута высокая точность распознавания: mAP@50 – 94.50%, mAP@50-95 – 67.35%.

Итоговая модель демонстрирует сбалансированное соотношение между точностью, скоростью инференса и экономичностью ресурсов.

Статья демонстрирует, как грамотное сочетание современных архитектур обнаружения объектов, тщательная подготовка данных и оптимизация гиперпараметров позволяет создать эффективное и готовое к развёртыванию решение, очень рекомендуем прочесть ее полностью.
А здесь можно почитать описание семейства моделей Yolo.

🟡 Читать: https://huggingface.co/blog/samuellimabraz/signature-detection-model

#yolo #guide #detection #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM