💸 Хотите повысить прибыль бизнеса с помощью CPA-маркетинга?
CPA (Cost per Action) — это модель, где вы платите только за реальные действия вашей аудитории: покупки, регистрации или заполнения форм.
Подписавшись на CPAInform, вы получите:
💪 Тренды и стратегии CPA-маркетинга.
💪 Полезные материалы для оптимизации расходов.
💪 Советы по увеличению конверсии и дохода.
Не упустите возможность изучить эффективные методы продвижения и внедрить их в свой бизнес!
✅ Присоединяйтесь: CPAInform и станьте частью сообщества профессионалов.
CPAExchange_RegistrationBot– твоя возможность зарабатывать на арбитраже
❕Не упусти свою прибыль – подключайся прямо сейчас
CPA (Cost per Action) — это модель, где вы платите только за реальные действия вашей аудитории: покупки, регистрации или заполнения форм.
Подписавшись на CPAInform, вы получите:
💪 Тренды и стратегии CPA-маркетинга.
💪 Полезные материалы для оптимизации расходов.
💪 Советы по увеличению конверсии и дохода.
Не упустите возможность изучить эффективные методы продвижения и внедрить их в свой бизнес!
✅ Присоединяйтесь: CPAInform и станьте частью сообщества профессионалов.
CPAExchange_RegistrationBot– твоя возможность зарабатывать на арбитраже
❕Не упусти свою прибыль – подключайся прямо сейчас
👍3
Тюним гипер параметры для RAG
Под капотом у RAG системы можно найти несколько различных компонентов. Причем набор и структура этих компонентов может серьезно различаться в зависимости от задачи и выбранного подхода. И каждый их этих компонентов обладает собственным набором параметров. И весь этот зоопарк надо как-то настраивать, потому что от этого сильно зависит качество поиска. Сейчас мы попробуем сформировать список гипер параметров для настройки RAG на каждом этапе
➡️ Чанки
Принимаем файлы, читаем их, разбиваем на чанки с помощью библиотеки langchain. Здесь мы можем управлять следующим
-
-
-
➡️ Bi-encoder
Конвертируем строку в вектор. Про bi-encoder важно понимать следующее
- Сколько текста он может обработать за раз, остальное будет отброшено. Если у вас длинные чанки или длинные вопросы, то вам, возможно, стоит подобрать bi-encoder с большей длиной контекста
- Какого размера вектора он возвращает. При прочих равных, чем больше длина вектора, тем больше информации в нем можно закодировать
- Также можно пробовать разные bi-encoder'ы и смотреть, какой из них лучше себя покажет
➡️ Векторная БД
Конвертируем переданные чанки в эмбеддинги и помещаем в БД, например Qdrant. При этом удаляем и вновь создаем коллекцию (аналог таблиц в реляционных БД), в которой складируем чанки. Последовательно перебираем файлы, каждый из которых делим на чанки и кладет в Qdrant
Здесь нужно обратить внимание:
- Коллекцию мы создаем такого же размера, какого размера вектора возвращает bi-encoder
- Вместе с вектором мы будем хранить сам чанк, из которого он сформирован и название файла, из которого он взят
➡️ Поиск векторов
Кодируем вопрос в вектор, далее ищем по косинусному расстоянию наиболее похожие вектора в Qdrant. Возвращаем содержимое чанков, привязанных к топ N отобранных векторов. Отсюда параметр
- n_top_cos: количество топ N отобранных векторов
➡️ LLM
Хотя LLM мы не дообучаем, но все равно можем тюнить инференс, используя следующие параметры
-
-
-
После того, как мы выделили эти параметры, то можем поручить задачу их оптимизации Optun'е
Под капотом у RAG системы можно найти несколько различных компонентов. Причем набор и структура этих компонентов может серьезно различаться в зависимости от задачи и выбранного подхода. И каждый их этих компонентов обладает собственным набором параметров. И весь этот зоопарк надо как-то настраивать, потому что от этого сильно зависит качество поиска. Сейчас мы попробуем сформировать список гипер параметров для настройки RAG на каждом этапе
➡️ Чанки
Принимаем файлы, читаем их, разбиваем на чанки с помощью библиотеки langchain. Здесь мы можем управлять следующим
-
sep: разделитель по которому мы будем шинковать файл-
chunk_size: размер чанков (в символах)-
chunk_overlap: с каким перехлестом будут делаться чанки➡️ Bi-encoder
Конвертируем строку в вектор. Про bi-encoder важно понимать следующее
- Сколько текста он может обработать за раз, остальное будет отброшено. Если у вас длинные чанки или длинные вопросы, то вам, возможно, стоит подобрать bi-encoder с большей длиной контекста
- Какого размера вектора он возвращает. При прочих равных, чем больше длина вектора, тем больше информации в нем можно закодировать
- Также можно пробовать разные bi-encoder'ы и смотреть, какой из них лучше себя покажет
➡️ Векторная БД
Конвертируем переданные чанки в эмбеддинги и помещаем в БД, например Qdrant. При этом удаляем и вновь создаем коллекцию (аналог таблиц в реляционных БД), в которой складируем чанки. Последовательно перебираем файлы, каждый из которых делим на чанки и кладет в Qdrant
Здесь нужно обратить внимание:
- Коллекцию мы создаем такого же размера, какого размера вектора возвращает bi-encoder
- Вместе с вектором мы будем хранить сам чанк, из которого он сформирован и название файла, из которого он взят
➡️ Поиск векторов
Кодируем вопрос в вектор, далее ищем по косинусному расстоянию наиболее похожие вектора в Qdrant. Возвращаем содержимое чанков, привязанных к топ N отобранных векторов. Отсюда параметр
- n_top_cos: количество топ N отобранных векторов
➡️ LLM
Хотя LLM мы не дообучаем, но все равно можем тюнить инференс, используя следующие параметры
-
max_new_tokens: максимальное количество токенов, которое будет сгенерировано LLM (не считая токены в промте)-
temperature: определяет насколько “творческим” будет ответ LLM. Чем выше значение, тем выше “творчество”-
top_k: ограничивает количество вариантов, которые модель рассматривает при генерации следующего токенаПосле того, как мы выделили эти параметры, то можем поручить задачу их оптимизации Optun'е
❤2👍1🔥1
Для тех, кто в Москве. Камерная тусовка под названием «Programmatic Status» для adtech/programmatic-народа — без докладов, с живыми разговорами о закупках, оптимизации, атрибуции, антифроде и bid-стратегиях.
Когда: четверг, 18 сентября, 19:00
Где: бар «Проточный» — Проточный переулок, 2/1
Формат: напитки, нетворк, обсуждаются тренды
Я сам в этот раз не доберусь, но смело рекомендую сообщество — хорошая возможность встретить «своих» и обсудить реальные кейсы.
Регистрация и подробности: https://dmcrus.timepad.ru/event/3560268/
Когда: четверг, 18 сентября, 19:00
Где: бар «Проточный» — Проточный переулок, 2/1
Формат: напитки, нетворк, обсуждаются тренды
Я сам в этот раз не доберусь, но смело рекомендую сообщество — хорошая возможность встретить «своих» и обсудить реальные кейсы.
Регистрация и подробности: https://dmcrus.timepad.ru/event/3560268/
🔥5👍1
Google Ads AI Max
Google Ads представил новые метрики для отчетов по кампаниям AI Max, которые показывают трафик, приходящий от ключевых слов
Ранее рекламодатели могли только видеть, на какие целевые страницы заходили пользователи
Что за метрики?
Expanded matches: показывает трафик, генерируемый по ключевым словам с широким соответствием, которые AI Max создает на основе ключевых слов, предоставленных рекламодателем
Expanded landing pages: показывает трафик из поисковых запросов, которые совпали благодаря целевым страницам или ресурсам, работающим независимо от таргетинга по ключевым словам
Если у рекламодателя нет дополнительных фильтров или ограничений по таргетингу (например, задача сделать только охваты), то AI Max может привести к снижению контроля за РК и перекрутке бюджета
Google Ads представил новые метрики для отчетов по кампаниям AI Max, которые показывают трафик, приходящий от ключевых слов
Ранее рекламодатели могли только видеть, на какие целевые страницы заходили пользователи
Что за метрики?
Expanded matches: показывает трафик, генерируемый по ключевым словам с широким соответствием, которые AI Max создает на основе ключевых слов, предоставленных рекламодателем
Expanded landing pages: показывает трафик из поисковых запросов, которые совпали благодаря целевым страницам или ресурсам, работающим независимо от таргетинга по ключевым словам
Если у рекламодателя нет дополнительных фильтров или ограничений по таргетингу (например, задача сделать только охваты), то AI Max может привести к снижению контроля за РК и перекрутке бюджета
👍2🔥1
В чем проблема Last Click или why branding matters?
Рассмотрим модель атрибуции по last click. В ней, как источник конверсии учитывается площадка, с которой перешел пользователь, совершивший целевое действие. Если пользователь пришел по ссылке из контекстной рекламы, то будет считаться, что именно контекст помог привести клиента. Все логично!
Модель last click, хоть и широко используется, но имеет свои ограничения
➡️ Реклама в разных каналах
Допустим, что пользователь сначала видит рекламу продукта в TikTok, затем замечает вашу рекламу в поисковой выдаче и, наконец, переходит на сайт через ссылку на слоте в Web. В модели last click атрибуции будет приписано значение только по последнему каналу, т.е. Web. Однако другие каналы также сыграли свою роль в привлечении и убеждении пользователя. Их влияние будет недооценено, если ориентироваться только на last click
➡️Множество взаимодействий
Допустим, пользователь взаимодействует с рекламой на разных площадках и в разное время. Он видит рекламу на CTV, увидев ее идет с телефона в интернет, видит баннерку, затем по ссылке с поисковой выдачи переходит на сайт. В last click'е будет учтен только крайний клик, т.е. поисковый запрос. Все предшествующие показы и взаимодействия оказывают влияние на решение пользователся, продвигая его дальше по воронке, и важны для формирования его мнения о бренде
Поэтому рекомендация не пренебрегать брендингом и учитывать вклад всех каналов взаимодействия с аудиторией
Рассмотрим модель атрибуции по last click. В ней, как источник конверсии учитывается площадка, с которой перешел пользователь, совершивший целевое действие. Если пользователь пришел по ссылке из контекстной рекламы, то будет считаться, что именно контекст помог привести клиента. Все логично!
Модель last click, хоть и широко используется, но имеет свои ограничения
➡️ Реклама в разных каналах
Допустим, что пользователь сначала видит рекламу продукта в TikTok, затем замечает вашу рекламу в поисковой выдаче и, наконец, переходит на сайт через ссылку на слоте в Web. В модели last click атрибуции будет приписано значение только по последнему каналу, т.е. Web. Однако другие каналы также сыграли свою роль в привлечении и убеждении пользователя. Их влияние будет недооценено, если ориентироваться только на last click
➡️Множество взаимодействий
Допустим, пользователь взаимодействует с рекламой на разных площадках и в разное время. Он видит рекламу на CTV, увидев ее идет с телефона в интернет, видит баннерку, затем по ссылке с поисковой выдачи переходит на сайт. В last click'е будет учтен только крайний клик, т.е. поисковый запрос. Все предшествующие показы и взаимодействия оказывают влияние на решение пользователся, продвигая его дальше по воронке, и важны для формирования его мнения о бренде
Поэтому рекомендация не пренебрегать брендингом и учитывать вклад всех каналов взаимодействия с аудиторией
🔥7👍3
RAG troubleshoot
Что делать, если RAG начал галлюцинировать на проде? Как проверить, что сломалось: retriever или generator?
Отталкиваемся от ключевой идеи:
➡️ Метрики retrieval (достали ли мы правильный контекст?)
- Contextual Relevancy: какой процент полученных чанков действительно релевантен?
- Contextual Recall: достали ли мы всю необходимую информацию?
- Contextual Precision: ранжируются ли релевантные чанки выше нерелевантных?
➡️Метрики Generation (правильно ли LLM использует контекст?)
- Faithfulness: насколько вывод соответствует предоставленным фактам?
- Answer Relevancy: отвечает ли ответ на заданный вопрос?
- Кастомные метрики: следует ли ответ нужному формату или стилю?
➡️Далее проводим диагностику
- Высокий faithfulness + низкий relevancy: проблема в retrieval
- Низкий faithfulness + высокий relevancy: проблема в generation
- Обе метрики низкие: сломан весь пайплайн
- Обе метрики высокие, а RAG продолжает галлюцинировать: ищем edge-кейсы
В целом для отлавливания большинства проблем на проде хорошо подходит contextual recall. Retriever может находить релевантный контент, но упускать критические детали. Идеальная точность при нулевой полноте = уверенные, но неправильные ответы. Это и есть галлюцинации
Что делать, если RAG начал галлюцинировать на проде? Как проверить, что сломалось: retriever или generator?
Отталкиваемся от ключевой идеи:
Качество RAG = Производительность Retriever'а × Производительность Generator'а
➡️ Метрики retrieval (достали ли мы правильный контекст?)
- Contextual Relevancy: какой процент полученных чанков действительно релевантен?
- Contextual Recall: достали ли мы всю необходимую информацию?
- Contextual Precision: ранжируются ли релевантные чанки выше нерелевантных?
➡️Метрики Generation (правильно ли LLM использует контекст?)
- Faithfulness: насколько вывод соответствует предоставленным фактам?
- Answer Relevancy: отвечает ли ответ на заданный вопрос?
- Кастомные метрики: следует ли ответ нужному формату или стилю?
➡️Далее проводим диагностику
- Высокий faithfulness + низкий relevancy: проблема в retrieval
- Низкий faithfulness + высокий relevancy: проблема в generation
- Обе метрики низкие: сломан весь пайплайн
- Обе метрики высокие, а RAG продолжает галлюцинировать: ищем edge-кейсы
В целом для отлавливания большинства проблем на проде хорошо подходит contextual recall. Retriever может находить релевантный контент, но упускать критические детали. Идеальная точность при нулевой полноте = уверенные, но неправильные ответы. Это и есть галлюцинации
👍3🔥1
RAG Multi-query
Продолжаем разбирать техники улучшения RAG. Сегодня рассмотрим Multi-query для повышения качества ретривера.
Когда пользователи пишут вопросы (в RAG) они часто допускают ошибки, пишут транслитом, путаются в формулировках и т.д. А это не хорошо для энкодера, и очень не хорошо для BM25 (и других компонентов ретривера). Multi-query позволяет это исправить за счёт разных формулировок одного и того же вопроса
Как это работает?
- Получаем исходный запрос
- Просим LLM написать несколько вариантов исходного запроса
- Выполняем поиск документов (чанков) по каждому из них (включая и исходный запрос)
- Результаты всех поисков объединяем или переаранжируем
Например: пользователь вводит: "Как испечь торт?". LLM на это может сгенерировать:
- "Рецепт торта"
- "Как приготовить торт в духовке?"
- "Ингредиенты для домашнего торта"
Такое разнообразие довольно сильно улучшит покрытие поисковой выдачи
Продолжаем разбирать техники улучшения RAG. Сегодня рассмотрим Multi-query для повышения качества ретривера.
Когда пользователи пишут вопросы (в RAG) они часто допускают ошибки, пишут транслитом, путаются в формулировках и т.д. А это не хорошо для энкодера, и очень не хорошо для BM25 (и других компонентов ретривера). Multi-query позволяет это исправить за счёт разных формулировок одного и того же вопроса
Как это работает?
- Получаем исходный запрос
- Просим LLM написать несколько вариантов исходного запроса
- Выполняем поиск документов (чанков) по каждому из них (включая и исходный запрос)
- Результаты всех поисков объединяем или переаранжируем
Например: пользователь вводит: "Как испечь торт?". LLM на это может сгенерировать:
- "Рецепт торта"
- "Как приготовить торт в духовке?"
- "Ингредиенты для домашнего торта"
Такое разнообразие довольно сильно улучшит покрытие поисковой выдачи
🔥8👍1
Каждый арбитражник знает: оффер решает всё. Но как сделать так, чтобы именно ваш оффер выбрали веб-мастера?
Онлайн-вебинар CPAExchange: «Запуск оффера, который захотят веб-мастера» состоится 16 октября в 12:00😉
Разберём ключевые факторы успеха, ошибки при запуске и реальные инсайты из практики: https://clck.ru/3PHodA
Спикеры: Сухарникова Екатерина и Хохлова Александра
Онлайн-вебинар CPAExchange: «Запуск оффера, который захотят веб-мастера» состоится 16 октября в 12:00😉
Разберём ключевые факторы успеха, ошибки при запуске и реальные инсайты из практики: https://clck.ru/3PHodA
Спикеры: Сухарникова Екатерина и Хохлова Александра
👍2🔥1
Когда правила аукциона не работают?
С 2020 года Минюст США ведёт дело против Google. Изначально его обвиняли только в монополизации рынка рекламы и сферы предустановленных приложений. После этого также выяснилось, что цены на рекламу в аукционах Search Ads Гугл искусственно завышались на 5%, а в отдельных вертикалях на 10%
В чем причина?
- Гугл владеет 85-90% search трафика и как монополист может устанавливать высокие барьеры для входа рекламодателей
- Низкая доля отклика рекламодателей
70 до 80% выручки Гугла делает рекламный рынок Google DV360 и Google Ads. Манипулируя ценами в обход аукциона, он в одиночку меняет весь рекламный бизнес, что вредит рынку и в моменте, и в перспективе
Что делать?
Инструмент для борьбы с монополистом это диверсифицировать DSP и перераспределить бюджеты, например между Amazon DSP, TTD etc. Могут быть проблемы с уровнем минимального бюджета и user tracking, но IMO прозрачный аукцион того стоит
С 2020 года Минюст США ведёт дело против Google. Изначально его обвиняли только в монополизации рынка рекламы и сферы предустановленных приложений. После этого также выяснилось, что цены на рекламу в аукционах Search Ads Гугл искусственно завышались на 5%, а в отдельных вертикалях на 10%
В чем причина?
- Гугл владеет 85-90% search трафика и как монополист может устанавливать высокие барьеры для входа рекламодателей
- Низкая доля отклика рекламодателей
70 до 80% выручки Гугла делает рекламный рынок Google DV360 и Google Ads. Манипулируя ценами в обход аукциона, он в одиночку меняет весь рекламный бизнес, что вредит рынку и в моменте, и в перспективе
Что делать?
Инструмент для борьбы с монополистом это диверсифицировать DSP и перераспределить бюджеты, например между Amazon DSP, TTD etc. Могут быть проблемы с уровнем минимального бюджета и user tracking, но IMO прозрачный аукцион того стоит
👍6
Как скорость загрузки сайта влияет на монетизацию паблишера?
Сегодня мощность железа пользователей и скорость интернета позволяют не заморачиваться с технической оптимизацией сайта и не париться про то, что популярные библиотеки для фронтенда используют фреймворки. Это с одной стороны. С другой покрытие 5G далеко не повсеместное, в некоторых городах миллионниках может преобладать разве что 3G/ 4G
Как результат, тяжелые сайты на JS будут грузиться долго. Еще дольше будут отправляться запросы в Гугл, будет разрешаться аукцион, отработает задержка загрузки кода и показ рекламы. За это время пользователь уже успеет уйти с сайта. А паблишеры потеряют выручку от отсутствия возможности пользователя удержать
По теории, на это все должно уходить до 400 миллисекунд, но средний время – 3 секунды. То есть в 7,5 раз выше. Сайт грузится не мгновенно, а реклама – еще дольше, она появляется через 2–3 секунды после загрузки страницы
Google реагирует резко отрицательно. Его KPI 3 секунды в зоне видимости экрана, тогда показ засчитывается. А если пользователь увидел placement и проскроллил, пока реклама загрузилась, viewability – ноль. Площадка не получит денег, рекламодатель не получит просмотр
Как боротся с проблемой долгой загрузки страниц?
- В Гугле доступен формат AMP (Accelerated Mobile Pages). Это страницы, где минимум скриптов, по факту – сразу контент и реклама. Быстро грузится, viewability не теряется, очень высокий CPM и доход по сравнению со статичными сайтами. Реклама на AMP отрабатывает в 2–3 раза лучше
- Кроме того Гугл пессимизирует выдачу и доход с медленных сайтов. Для этого используется PageSpeed, который выдает сайту коэффициент относительно скорости его работы. И этот же коэффициент применяется на доход. Если у паблишера по PageSpeed коэффициент 0,8, то доход на 100k монетизации с показов 80k
Что с рынком паблишеров?
Средние и малые паблишеры, которых большинство, работают через цепочку Prebid + GAM + SSP + DSP. Хотя Prebid удобен для паблишера, поскольку позволяет работать быстро, минус его в том, что 50-60% выручки оседает на платформах, и до паблишера доходит меньше половины
Рынок паблишеров будет поглощаться более крупными, а средние и мелкие продолжат дропаться, учитывая то, сколько стоит производство контента, создание и поддержка сайта и его продвижение. Бюджеты продолжат перераспределяться в сторону видеоформатов. Часть трафика с сайтов будет перетекать в соцсети
Сегодня мощность железа пользователей и скорость интернета позволяют не заморачиваться с технической оптимизацией сайта и не париться про то, что популярные библиотеки для фронтенда используют фреймворки. Это с одной стороны. С другой покрытие 5G далеко не повсеместное, в некоторых городах миллионниках может преобладать разве что 3G/ 4G
Как результат, тяжелые сайты на JS будут грузиться долго. Еще дольше будут отправляться запросы в Гугл, будет разрешаться аукцион, отработает задержка загрузки кода и показ рекламы. За это время пользователь уже успеет уйти с сайта. А паблишеры потеряют выручку от отсутствия возможности пользователя удержать
По теории, на это все должно уходить до 400 миллисекунд, но средний время – 3 секунды. То есть в 7,5 раз выше. Сайт грузится не мгновенно, а реклама – еще дольше, она появляется через 2–3 секунды после загрузки страницы
Google реагирует резко отрицательно. Его KPI 3 секунды в зоне видимости экрана, тогда показ засчитывается. А если пользователь увидел placement и проскроллил, пока реклама загрузилась, viewability – ноль. Площадка не получит денег, рекламодатель не получит просмотр
Как боротся с проблемой долгой загрузки страниц?
- В Гугле доступен формат AMP (Accelerated Mobile Pages). Это страницы, где минимум скриптов, по факту – сразу контент и реклама. Быстро грузится, viewability не теряется, очень высокий CPM и доход по сравнению со статичными сайтами. Реклама на AMP отрабатывает в 2–3 раза лучше
- Кроме того Гугл пессимизирует выдачу и доход с медленных сайтов. Для этого используется PageSpeed, который выдает сайту коэффициент относительно скорости его работы. И этот же коэффициент применяется на доход. Если у паблишера по PageSpeed коэффициент 0,8, то доход на 100k монетизации с показов 80k
Что с рынком паблишеров?
Средние и малые паблишеры, которых большинство, работают через цепочку Prebid + GAM + SSP + DSP. Хотя Prebid удобен для паблишера, поскольку позволяет работать быстро, минус его в том, что 50-60% выручки оседает на платформах, и до паблишера доходит меньше половины
Рынок паблишеров будет поглощаться более крупными, а средние и мелкие продолжат дропаться, учитывая то, сколько стоит производство контента, создание и поддержка сайта и его продвижение. Бюджеты продолжат перераспределяться в сторону видеоформатов. Часть трафика с сайтов будет перетекать в соцсети
Google for Developers
About PageSpeed Insights | Google for Developers
👍3🔥1
Как семантический поиск создает из документов интеллектуальную базу знаний
В корпоративных хранилищах часто лежат терабайты документов — от нормативных и договорных до технических спецификаций. Обычный поиск по ключевым словам тут бессилен: если вы ищете «сброс пароля», а в документе написано «восстановление доступа», система ничего не найдет. Как итог — для поиска нужной информации сотрудники могут тратить до 35% своего рабочего времени.
Команда Embedika создает ИТ-решения на основе ML и NLP, которые помогают решать эту проблему. Коллеги расскажут, как технология семантического поиска может превратить разрозненные данные компании в единую интеллектуальную базу знаний.
Семантический поиск — это не про слова, а про их смысл. Он понимает суть вашего запроса и находит документы, даже если формулировки не совпадают дословно.
Как это работает?
1️⃣ Процесс преобразования текста начинается с создания эмбеддингов — числовых векторв, которые отражают смысл текста. В словах «автомобиль» и «машина» почти числовые векторы будут практически совпадать, поскольку слова схожи по смыслу.
2️⃣ Прежде чем приступать к поиску, необходимо привести данные в порядок: происходит извлечение текста из PDF, DOCX и даже сканов через OCR, очистка текста от технических элементов и служебной информации, разбиение на смысловые блоки.
3️⃣ Запрос пользователя также превращается в числовой вектор. Учитываются даже дополнительные данные: к примеру, из какого отдела сотрудник и какие поисковые запросы у него были ранее. Так алгоритм быстро находит документы с похожими «кодами», используя математические методы сравнения векторов. Результаты ранжируются по релевантности, актуальности и даже роли сотрудника в компании.
Эта технология легла в основу бизнес-платформу Cursor от Embedika. Вот как она упрощает работу с корпоративными данными на практике:
✔️ Позволяет находить документы в базе по смыслу и неточным формулировкам, предлагает дополнительные термины и варианты поиска для более точного результата, ускоряя время обработки документации.
✔️ Автоматически строит связи между документами, формирует взаимные ссылки, показывает документы, которые схожи по тексту или имеют такую же смысловую нагрузку.
✔️ Версионность и уведомления об изменениях избавляют от работы с устаревшими версиями документов.
✔️ Визуальный конструктор позволяет методологам настраивать модели данных и поисковые правила, не погружаясь в код.
Хотите подробнее погрузиться в тему работы с корпоративными данными?
Подписывайтесь на канал @embedika — коллеги регулярно разбирают реальные практики применения ИИ в бизнесе и дают советы по внедрению подобных технологий.
В корпоративных хранилищах часто лежат терабайты документов — от нормативных и договорных до технических спецификаций. Обычный поиск по ключевым словам тут бессилен: если вы ищете «сброс пароля», а в документе написано «восстановление доступа», система ничего не найдет. Как итог — для поиска нужной информации сотрудники могут тратить до 35% своего рабочего времени.
Команда Embedika создает ИТ-решения на основе ML и NLP, которые помогают решать эту проблему. Коллеги расскажут, как технология семантического поиска может превратить разрозненные данные компании в единую интеллектуальную базу знаний.
Семантический поиск — это не про слова, а про их смысл. Он понимает суть вашего запроса и находит документы, даже если формулировки не совпадают дословно.
Как это работает?
1️⃣ Процесс преобразования текста начинается с создания эмбеддингов — числовых векторв, которые отражают смысл текста. В словах «автомобиль» и «машина» почти числовые векторы будут практически совпадать, поскольку слова схожи по смыслу.
2️⃣ Прежде чем приступать к поиску, необходимо привести данные в порядок: происходит извлечение текста из PDF, DOCX и даже сканов через OCR, очистка текста от технических элементов и служебной информации, разбиение на смысловые блоки.
3️⃣ Запрос пользователя также превращается в числовой вектор. Учитываются даже дополнительные данные: к примеру, из какого отдела сотрудник и какие поисковые запросы у него были ранее. Так алгоритм быстро находит документы с похожими «кодами», используя математические методы сравнения векторов. Результаты ранжируются по релевантности, актуальности и даже роли сотрудника в компании.
Эта технология легла в основу бизнес-платформу Cursor от Embedika. Вот как она упрощает работу с корпоративными данными на практике:
✔️ Позволяет находить документы в базе по смыслу и неточным формулировкам, предлагает дополнительные термины и варианты поиска для более точного результата, ускоряя время обработки документации.
✔️ Автоматически строит связи между документами, формирует взаимные ссылки, показывает документы, которые схожи по тексту или имеют такую же смысловую нагрузку.
✔️ Версионность и уведомления об изменениях избавляют от работы с устаревшими версиями документов.
✔️ Визуальный конструктор позволяет методологам настраивать модели данных и поисковые правила, не погружаясь в код.
Хотите подробнее погрузиться в тему работы с корпоративными данными?
Подписывайтесь на канал @embedika — коллеги регулярно разбирают реальные практики применения ИИ в бизнесе и дают советы по внедрению подобных технологий.
Telegram
Embedika | ИТ-решения для бизнеса
Научно-ориентированная ИТ-компания, разработчик корпоративных систем на основе технологий обработки естественного языка и машинного обучения. Data science, LegalTech, AI https://embedika.ru
👍3🔥2👏2
Инструменты Google Ads для оптимизации стратегий ставок
В Google Ads доступно большое количество способов настроить РК. Медиа байеры часто рулят креативами, сплитами бюджетов на ad group'ы, таргетингом под сегменты аудитории. Мне чаще доводится настраивать стратегии ставок кампании. Поэтому сегодня перечислю, что я использую для оптимизаций ставок
➡ Max bid
Корректируем максимальную ставку bid cost (в GA он представлен например cpm/cpv_bid_micros). В общем случае это делаем per ad group для большего контроля в рамках РК. Для search кампаний можем ставить биды по каждому ключевому слову
➡ Frequency cap
Также обращаем внимание на frequency cap. Он определяет максимальное число показов в неделю на данного uid пользователя. При слишком низком значении у вас просядет открутка бюджета, а при слишком высоком вы открутите бюджет, но завысятся косты на клик, конверсию. Оптимальное значение freq cap'а 5..10 показов в неделю
➡ Bid adjustment
В GA возможно выставляет коэффициенты-модификаторы ставок (bid adjustment) под разные типы девайсов: tablet, desktop, smartphone, ctv. Аналогично можно делать под демографические сегменты аудитории: age, household income, gender
Здесь нужно быть внимательным с частотой смены bid adjustment. После установки значений GA запускает подкапотно ML алгоритм ставок, который обучается под новые модификаторы. В этот момент будут завышенные косты в течении суток, после чего алгоритм сойдется и косты сгладятся
В Google Ads доступно большое количество способов настроить РК. Медиа байеры часто рулят креативами, сплитами бюджетов на ad group'ы, таргетингом под сегменты аудитории. Мне чаще доводится настраивать стратегии ставок кампании. Поэтому сегодня перечислю, что я использую для оптимизаций ставок
➡ Max bid
Корректируем максимальную ставку bid cost (в GA он представлен например cpm/cpv_bid_micros). В общем случае это делаем per ad group для большего контроля в рамках РК. Для search кампаний можем ставить биды по каждому ключевому слову
➡ Frequency cap
Также обращаем внимание на frequency cap. Он определяет максимальное число показов в неделю на данного uid пользователя. При слишком низком значении у вас просядет открутка бюджета, а при слишком высоком вы открутите бюджет, но завысятся косты на клик, конверсию. Оптимальное значение freq cap'а 5..10 показов в неделю
➡ Bid adjustment
В GA возможно выставляет коэффициенты-модификаторы ставок (bid adjustment) под разные типы девайсов: tablet, desktop, smartphone, ctv. Аналогично можно делать под демографические сегменты аудитории: age, household income, gender
Здесь нужно быть внимательным с частотой смены bid adjustment. После установки значений GA запускает подкапотно ML алгоритм ставок, который обучается под новые модификаторы. В этот момент будут завышенные косты в течении суток, после чего алгоритм сойдется и косты сгладятся
Google
Bid on viewable impressions using viewable CPM - Google Ads Help
Max. CPM is no longer available as a bid strategy. If you'd like to pay only for ad impressions measured as viewable, you can with viewable CPM (cost-per-thousand impressions). An
👍2🔥1🦄1
Продвижение с CPAExchange: Рекламные возможности💪
Хотите узнать, как эффективно продвигать свои продукты и услуги?
CPAExchange предлагает широкий спектр рекламных инструментов для достижения ваших целей
Узнайте, как CPAExchange может помочь вам привлечь больше клиентов.
Подробнее ознакомиться с предложением:
https://clck.ru/3QMp6u
Хотите узнать, как эффективно продвигать свои продукты и услуги?
CPAExchange предлагает широкий спектр рекламных инструментов для достижения ваших целей
Узнайте, как CPAExchange может помочь вам привлечь больше клиентов.
Подробнее ознакомиться с предложением:
https://clck.ru/3QMp6u
❤1
Как из сеньора прокачаться в тимлида?
Когда сотрудник из individual контрибьютера вырастает в лида или менеджера, я наблюдал две крайности:
- человек начинает тащить одновременно всё: пишет код, релизит фичи, чинит процессы, выгорает
- уходит в другую крайность: становится администратором, отрывается от команды
Как выдержать золотую середину?
Для тех, кто хочет выработать майндсет руководителя, особо ценен опыт из первых рук. Поэтому на правах дружеского поста хочу порекомендовать канал Quant Valerian. Здесь автор M2 менеджер в Яндексе честно разбирает эту работу по полочкам: как сделать так, чтобы задачи выполнялись, сотрудники развивались, а конфликты в команде решались или обходились стороной, и все это без риска выгорания руководителя
Что вы здесь найдете?
- Как справляться с факапами, разложить все по полочкам и превратить ошибки в опыт? link
- Как (не)мотивировать людей, чтобы сотрудники одновременно приносили пользу в команде и реализовывали свои стремления link
- Как правильно относиться к метрикам с точки зрения продуктового подхода link
- Самоорганизация: личный таск/тайм менеджент link
- Разборы книг по психологии и управлению с авторскими комментариями, примерами из работы и критикой link
Канал живой, с человеческим языком и самоиронией. Валерий делится тем, как сам решает кризисы, учится, ошибается, строит команды
@quant_valerian
Когда сотрудник из individual контрибьютера вырастает в лида или менеджера, я наблюдал две крайности:
- человек начинает тащить одновременно всё: пишет код, релизит фичи, чинит процессы, выгорает
- уходит в другую крайность: становится администратором, отрывается от команды
Как выдержать золотую середину?
Для тех, кто хочет выработать майндсет руководителя, особо ценен опыт из первых рук. Поэтому на правах дружеского поста хочу порекомендовать канал Quant Valerian. Здесь автор M2 менеджер в Яндексе честно разбирает эту работу по полочкам: как сделать так, чтобы задачи выполнялись, сотрудники развивались, а конфликты в команде решались или обходились стороной, и все это без риска выгорания руководителя
Что вы здесь найдете?
- Как справляться с факапами, разложить все по полочкам и превратить ошибки в опыт? link
- Как (не)мотивировать людей, чтобы сотрудники одновременно приносили пользу в команде и реализовывали свои стремления link
- Как правильно относиться к метрикам с точки зрения продуктового подхода link
- Самоорганизация: личный таск/тайм менеджент link
- Разборы книг по психологии и управлению с авторскими комментариями, примерами из работы и критикой link
Канал живой, с человеческим языком и самоиронией. Валерий делится тем, как сам решает кризисы, учится, ошибается, строит команды
@quant_valerian
Telegram
Quant Valerian
Авторский канал Валерия Овчинникова
Размышления про менеджмент команд, людей, проектов, себя и своих денег
Рандомный винегрет из мыслей и репостов тут https://t.me/quant_valerian_cooking
Размышления про менеджмент команд, людей, проектов, себя и своих денег
Рандомный винегрет из мыслей и репостов тут https://t.me/quant_valerian_cooking
🔥5❤2👍1
Памятка трейдеру Google Ads
Ранее мы уже рассмотрели инструменты для оптимизации стратегий ставок в Google Ads. Сегодня продолжаем этот список того, что я узнал за время работы с платформой. Допустим, мы создали РК, и теперь нам нужно ее мониторить on-fly
Когда РК запущена, оставляем ее на 1 неделю и даем ей "настояться" (warmup period)
➡️ Ad Groups
Мониторим, начиная с ad groups. Проверяем KPI в зависимости от цели РК: CPM, CPV, CPC. Повышаем target CPM/CPV для тех ad group, которые перформят хорошо. Приостанавливаем другие ad group'ы, которые перформят плохо
➡️ Audience
В GA Доступны срезы аудитории: age, gender, household income. Ищем те срезы, которые перформят плохо и приостанавливаем их. Если на срезе достаточно трафика, но выводов по результатам не сделать, пробуем сплитить его
➡️ Negative placement/ keywords
Чекаем brand safety. Хорошо иметь уже заготовленный шаблон ключевых слов под блэклист, чтобы его просто копировать на все ad group'ы
➡️ Devices
Перед тем, как подкручивать модификаторы ставок по девайсам, сначала ждем неделю warmup'а. Выставляем bid adjustment сразу на уровне ad group. Как правило, tablet показывает низкие досмотры, на CTV низкая доля кликов. В зависимости от таргета РК подрезаем нужный девайс.
➡️ Pacing
Если выставлять daily budget, то в GA проблем с объемом открутки бюджета не возникнет
➡️ Minimum unit of currency
Настройка валюты зависит от того, где происходит биллинг (в штатах USD, в Европе Euro), но нельзя выставлять target CPM/ CPV ниже 1 копейки выбранной валюты. Для костов по показам это не проблема, а вот CPV может измеряться десятыми долями копейки. Тогда в ходе РК переводим ее в индийские рупии, а после завершения меняем обратно в валюту биллинга
Ранее мы уже рассмотрели инструменты для оптимизации стратегий ставок в Google Ads. Сегодня продолжаем этот список того, что я узнал за время работы с платформой. Допустим, мы создали РК, и теперь нам нужно ее мониторить on-fly
Когда РК запущена, оставляем ее на 1 неделю и даем ей "настояться" (warmup period)
➡️ Ad Groups
Мониторим, начиная с ad groups. Проверяем KPI в зависимости от цели РК: CPM, CPV, CPC. Повышаем target CPM/CPV для тех ad group, которые перформят хорошо. Приостанавливаем другие ad group'ы, которые перформят плохо
➡️ Audience
В GA Доступны срезы аудитории: age, gender, household income. Ищем те срезы, которые перформят плохо и приостанавливаем их. Если на срезе достаточно трафика, но выводов по результатам не сделать, пробуем сплитить его
➡️ Negative placement/ keywords
Чекаем brand safety. Хорошо иметь уже заготовленный шаблон ключевых слов под блэклист, чтобы его просто копировать на все ad group'ы
➡️ Devices
Перед тем, как подкручивать модификаторы ставок по девайсам, сначала ждем неделю warmup'а. Выставляем bid adjustment сразу на уровне ad group. Как правило, tablet показывает низкие досмотры, на CTV низкая доля кликов. В зависимости от таргета РК подрезаем нужный девайс.
➡️ Pacing
Если выставлять daily budget, то в GA проблем с объемом открутки бюджета не возникнет
➡️ Minimum unit of currency
Настройка валюты зависит от того, где происходит биллинг (в штатах USD, в Европе Euro), но нельзя выставлять target CPM/ CPV ниже 1 копейки выбранной валюты. Для костов по показам это не проблема, а вот CPV может измеряться десятыми долями копейки. Тогда в ходе РК переводим ее в индийские рупии, а после завершения меняем обратно в валюту биллинга
🔥3👍1
Forwarded from CPAnews | Лидогенерация & Арбитраж Трафика 🚀
Хотите привлечь внимание потенциальных клиентов и укрепить имидж эксперта?
CPAExchange предлагает уникальный формат сотрудничества: организацию и проведение эксклюзивного онлайн-вебинара с Екатериной Шинкевич: https://clck.ru/3PjzqY
CPAExchange предлагает уникальный формат сотрудничества: организацию и проведение эксклюзивного онлайн-вебинара с Екатериной Шинкевич: https://clck.ru/3PjzqY
👍1🔥1
DOOH vs Web
В чем отличие программатика в наружной рекламе от вэба?
Исторически в Digital Out of Home (DOOH) можно провести следующий таймлайн: постер, приклеенный на стену -> trivision -> digital screen с заранее размещенной рекламой по кругу -> ад слоты, продаваемые через программатик. Но как по RTB продавать инвентарь, по которому нельзя определить пользователя и измерить показ? Давайте разбираться
В отличии от вэба DOOH inventory-based и обладает более ограниченным инвентарем с известными локациями слотов и временем их работы. При этом за один аукцион один показ может доводиться до множества пользователей. Здесь нет идентификации пользователя, а аукцион строится вокруг инвентаря и контекста (локация, погода etc.)
Аукцион проводится не на отдельный bid request, а на слот времени (ex 10 сек) в течении которого можно показать креатив, что ближе к guaranteed, чем к классическому rtb
Также в силу технических ограничений экранов, чье подключение к интернету может быть нестабильным, креативы часто предзагружают или pre-кэшируют. При этом инвентарь покупается также через механизм header bidding'а и отправку бид реквестов на SSP, но отсутствуют строгие ограничения на latency между запросом и показом (150 ms в вэбе), поэтому SSP могут кэшировать креатив и в случае потери показа заполнять слот по fallback'у креативом по умолчанию.
В DOOH посчитать метрики показов или досмотров сильно сложнее. CPM здесь чаще означает 1к воспроизведений кретива или т.н. OTS (opportunity to see), а эффективный CPM считают с учетом модификатора аудитории и slot-based коэффициентов
Тоже касатеся и frequency cap, который считается не с показа на пользователя, а оценивается для экрана по историческим данным
В чем отличие программатика в наружной рекламе от вэба?
Исторически в Digital Out of Home (DOOH) можно провести следующий таймлайн: постер, приклеенный на стену -> trivision -> digital screen с заранее размещенной рекламой по кругу -> ад слоты, продаваемые через программатик. Но как по RTB продавать инвентарь, по которому нельзя определить пользователя и измерить показ? Давайте разбираться
В отличии от вэба DOOH inventory-based и обладает более ограниченным инвентарем с известными локациями слотов и временем их работы. При этом за один аукцион один показ может доводиться до множества пользователей. Здесь нет идентификации пользователя, а аукцион строится вокруг инвентаря и контекста (локация, погода etc.)
Аукцион проводится не на отдельный bid request, а на слот времени (ex 10 сек) в течении которого можно показать креатив, что ближе к guaranteed, чем к классическому rtb
Также в силу технических ограничений экранов, чье подключение к интернету может быть нестабильным, креативы часто предзагружают или pre-кэшируют. При этом инвентарь покупается также через механизм header bidding'а и отправку бид реквестов на SSP, но отсутствуют строгие ограничения на latency между запросом и показом (150 ms в вэбе), поэтому SSP могут кэшировать креатив и в случае потери показа заполнять слот по fallback'у креативом по умолчанию.
В DOOH посчитать метрики показов или досмотров сильно сложнее. CPM здесь чаще означает 1к воспроизведений кретива или т.н. OTS (opportunity to see), а эффективный CPM считают с учетом модификатора аудитории и slot-based коэффициентов
eCPM = CPM x audience_factor x slot_based_factor
Тоже касатеся и frequency cap, который считается не с показа на пользователя, а оценивается для экрана по историческим данным
🔥5✍3❤1👍1