Forwarded from Korenev AI - GPT в тапочках🩴
Ребят, поделитесь плз 3-5 самыми полезными фичами в Обсидиане, которые чаще всего юзаете. Так, думаю, мы прекрасно сможем обменяться опытом его использования.
Для меня это:
А еще интересно было бы увидеть человека, который реально внедрил у себя zettelcasten. И вообще, нужен ли этот подход с появлением RAG?
В каментах Михаил @pljas поделился ссылкой на плагин для обсидиана, который существенно расширяет возможности за счет подключения LLM. С ним Обсидиан получает функции Курсора: генерация текста, контроль за изменениями, MCP, RAG!
Рекомендую по ссылке немного поскролить и посмотреть видосы с демонстрацией
Не забудьте отсыпать Михаилу огоньков!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from yulia
Советую пройти курс на степик «быстрый старт в искусственный интеллект» от мфти
Хотя бы базу закроешь
Если нужно еще пандас нампи и более школьный вариант, то курс «ИИ старт» также на степике
Хотя бы базу закроешь
Если нужно еще пандас нампи и более школьный вариант, то курс «ИИ старт» также на степике
Forwarded from IT путь
СОБЕС В МЕГАФОН🟢
SENIOR DATA ENGINEER
На удивление прошёл неплохо. Команда интересная. Собесили 2 лида: лид команды разработки, HR и лид, как я понял, со стороны бизнеса.
Вопросы задавал только лид разработки и HR. Было 3 секции:
1️⃣ О себе (прошлый опыт) + почему уходишь + что ищешь;
2️⃣ Тех вопросы (теория БД);
3️⃣ Лайвкод.
Банально, но адекватно, по делу - и это круто.
Так как общались в границах определённого типа архитектуры БД (DATA_VAULT-2.0), то вопросы были соответствующие:
1️⃣ Мои принципы проектирования ETL, сложные кейсы. (А Я НИЧО НЕ ВСПОМНИЛ СЛОЖНОГО);
2️⃣ Принципы секционирования таблиц. Какие вообще бывают виды партиций (а вот тут я всё нафиг забыл. Ну что сказать... кто вообще теорию держит в голове, кроме студентов ?);
3️⃣ Принципы SCD;
4️⃣ Динамический SQL;
5️⃣ Немного аналитики. Оконки;
6️⃣ Обсуждение плана запроса. Как выполнять, какой из 2 видов является
А дальше мы погнали в задачи.
🌁 🌁 🌁 🌁 🌃 🌁 задача была банальной. Там надо было по классике вывести те отделы, в которых нет сотрудников. Её не буду показывать, так как она и без того самая популярная, пожалуй. Однако, должен признать, мои навыки решения задач весьма хреновые - я решил её не за 1 секунду, как этого ожидают от синеваров, а за минут 5 наверно.
🌁 🌁 🌁 🌁 🌃 🌁 задача тоже многим знакома, но всё же она на "подумать". Задача решается в 2 этапа - определить где ошибка, исправить ошибку.
ИТАК.... Перед нами таблица таргетного слоя, хранящая айди факта и даты его его начала и завершенеия. Построена как раз по одному из SCD принципов.
Каждая строка - это момент жизни одного (в данном случае первого) факта. В каждой строке отображено начало жизни версии факта и окончание. В какой-то момент мы видим, что даты сбиваются. Сразу объясню: эти даты фиксируются автоматически в ETL процессе и дата окончания одной версии является датой начала следующей версии (в следующей строке). Поэтому между окончанием и строй версии и началом новой версии не может быть разрыва. А значит "начало" проблемы мы видим в строке №3. Она должна была начаться с '01.01.2023 11:15:00'.
ЗАДАНИЕ: нам надо написать SQL скрипт, который поставит эти даты правильным образом. Ещё раз - дата конца одной строки - это дата начала следующей строки.
KEY_ID START_DATE END_DATE
-------— ------------------- -------------------
1 01.01.1900 00:00:00 01.01.2022 13:43:00
1 01.01.2022 13:43:00 01.01.2023 11:15:00
1 01.01.2023 13:43:00 18.10.2023 11:08:54
1 01.01.2023 13:44:00 18.10.2023 11:07:54
1 18.10.2023 11:08:54 31.12.2999 23:59:59
На решение этой задачи я тоже потратил много времени. Где-то минут 10. Но зато решил без тренировок, без насмотренности😏
Предлагаю вам самостоятельно решить её в качестве очередной тренировки.
Подсказка: решать проще и лучше через оконку)
РЕШЕНИЕ ДАМ В СЛЕДУЮЩЕМ ПОСТЕ😏
SENIOR DATA ENGINEER
На удивление прошёл неплохо. Команда интересная. Собесили 2 лида: лид команды разработки, HR и лид, как я понял, со стороны бизнеса.
Вопросы задавал только лид разработки и HR. Было 3 секции:
Банально, но адекватно, по делу - и это круто.
Так как общались в границах определённого типа архитектуры БД (DATA_VAULT-2.0), то вопросы были соответствующие:
А дальше мы погнали в задачи.
ИТАК.... Перед нами таблица таргетного слоя, хранящая айди факта и даты его его начала и завершенеия. Построена как раз по одному из SCD принципов.
Каждая строка - это момент жизни одного (в данном случае первого) факта. В каждой строке отображено начало жизни версии факта и окончание. В какой-то момент мы видим, что даты сбиваются. Сразу объясню: эти даты фиксируются автоматически в ETL процессе и дата окончания одной версии является датой начала следующей версии (в следующей строке). Поэтому между окончанием и строй версии и началом новой версии не может быть разрыва. А значит "начало" проблемы мы видим в строке №3. Она должна была начаться с '01.01.2023 11:15:00'.
ЗАДАНИЕ: нам надо написать SQL скрипт, который поставит эти даты правильным образом. Ещё раз - дата конца одной строки - это дата начала следующей строки.
KEY_ID START_DATE END_DATE
-------— ------------------- -------------------
1 01.01.1900 00:00:00 01.01.2022 13:43:00
1 01.01.2022 13:43:00 01.01.2023 11:15:00
1 01.01.2023 13:43:00 18.10.2023 11:08:54
1 01.01.2023 13:44:00 18.10.2023 11:07:54
1 18.10.2023 11:08:54 31.12.2999 23:59:59
На решение этой задачи я тоже потратил много времени. Где-то минут 10. Но зато решил без тренировок, без насмотренности
Предлагаю вам самостоятельно решить её в качестве очередной тренировки.
Подсказка: решать проще и лучше через оконку)
РЕШЕНИЕ ДАМ В СЛЕДУЮЩЕМ ПОСТЕ
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from This is Data
Как эффективно взаимодействовать с ИИ
Недавно я проводил опрос, и 88% подписчиков канала ответили, что используют ИИ-чаты для решения каких-либо задач. А 19% делегируют ИИ даже ежедневную рабочую рутину. Цифры впечатляют.
Но как чаще всего выглядит это общение? Мы задаем какой-то вопрос, пишем призыв «сделай то-то и то-то», чуть уточняем и все. На самом деле можно получать гораздо более качественный результат, для этого существует такая штука, как промпт-инжиниринг.
Промпт-инжиниринг – это искусство создания эффективных запросов (промптов) для взаимодействия с большими языковыми моделями (LLM), такими как ChatGPT.
Умение составить качественный промпт помогает раскрывать весь огромный потенциал ИИ.
Основные техники
1. Zero-shot prompting – запрос без примеров. Модель должна понять задачу и попытаться ответить.
2. Few-shot prompting – запрос с несколькими примерами. Модель получает образцы правильных ответов, что помогает ей лучше понять задачу.
3. Chain-of-thought prompting – пошаговое рассуждение. Модель объясняет свой процесс мышления, что улучшает качество и прозрачность ответа.
4. Role prompting – задание роли. Указание модели определённой роли (например, «ты эксперт по статистике») помогает получить более целенаправленные ответы.
5. Context-enhanced prompting – использование контекста. Предоставление модели дополнительной информации о задаче или ситуации улучшает релевантность ее ответов.
Примеры использования
Zero-shot:
→ Модель даст общий обзор, понятный новичку.
Few-shot:
→ Модель ориентируется на стиль и уровень объяснения.
Chain-of-thought:
→ Модель подробно описывает последовательность действий и логику анализа.
Role + Context-enhanced:
→ Модель выдаёт экспертный разбор с конкретным примером, максимально приближённым к реальной задаче.
Что почитать?
▪️Руководство по промпт-инжинирингу – отличная база с примерами и техниками.
▪️Книга «The Art of Prompt Engineering» – практическое руководство с кейсами и советами.
ИИ-чаты уже стали частью нашей работы и жизни. Пока они не способны заменить человека, но это мощный инструмент автоматизации. Главное – уметь им правильно пользоваться. Экспериментируйте с промптами и выжимайте из ИИ максимум.
#опыт
Недавно я проводил опрос, и 88% подписчиков канала ответили, что используют ИИ-чаты для решения каких-либо задач. А 19% делегируют ИИ даже ежедневную рабочую рутину. Цифры впечатляют.
Но как чаще всего выглядит это общение? Мы задаем какой-то вопрос, пишем призыв «сделай то-то и то-то», чуть уточняем и все. На самом деле можно получать гораздо более качественный результат, для этого существует такая штука, как промпт-инжиниринг.
Промпт-инжиниринг – это искусство создания эффективных запросов (промптов) для взаимодействия с большими языковыми моделями (LLM), такими как ChatGPT.
Умение составить качественный промпт помогает раскрывать весь огромный потенциал ИИ.
Основные техники
1. Zero-shot prompting – запрос без примеров. Модель должна понять задачу и попытаться ответить.
2. Few-shot prompting – запрос с несколькими примерами. Модель получает образцы правильных ответов, что помогает ей лучше понять задачу.
3. Chain-of-thought prompting – пошаговое рассуждение. Модель объясняет свой процесс мышления, что улучшает качество и прозрачность ответа.
4. Role prompting – задание роли. Указание модели определённой роли (например, «ты эксперт по статистике») помогает получить более целенаправленные ответы.
5. Context-enhanced prompting – использование контекста. Предоставление модели дополнительной информации о задаче или ситуации улучшает релевантность ее ответов.
Примеры использования
Zero-shot:
Объясни p-value простыми словами.
→ Модель даст общий обзор, понятный новичку.
Few-shot:
Вот несколько примеров объяснения статистических понятий:
1. Среднее значение – это статистический показатель, который характеризует типичную величину набора числовых данных.
2. Дисперсия – это показатель разброса данных вокруг их среднего значения.
Теперь объясни p-value аналогичным образом.
→ Модель ориентируется на стиль и уровень объяснения.
Chain-of-thought:
Объясни p-value, рассуждая пошагово, чтобы я понял, как его вычисляют и как интерпретируют результаты A/B теста.
→ Модель подробно описывает последовательность действий и логику анализа.
Role + Context-enhanced:
Ты аналитик в финтех-компании. Мы проводим A/B тесты. Объясни p-value так, чтобы я понял его практическое значение и математическую интерпретацию. Приведи пример на основе сравнения двух выборок.
→ Модель выдаёт экспертный разбор с конкретным примером, максимально приближённым к реальной задаче.
Что почитать?
▪️Руководство по промпт-инжинирингу – отличная база с примерами и техниками.
▪️Книга «The Art of Prompt Engineering» – практическое руководство с кейсами и советами.
ИИ-чаты уже стали частью нашей работы и жизни. Пока они не способны заменить человека, но это мощный инструмент автоматизации. Главное – уметь им правильно пользоваться. Экспериментируйте с промптами и выжимайте из ИИ максимум.
#опыт
Forwarded from Dealer.AI
Ты следующий GPT-5 🇨🇩
Новая модель Qwen3-Next...
Забавно, что в блоге утек обзор, но ссылку почистили и поэтому довольствуемся hf релизом. Однако, спасибо коллегам, они засейвили страничку и приложу ее ниже.
Итак, погнали. Задача, которую решают авторы, заключается в кардинальном повышении эффективности LLM, как на этапе обучения, так и на этапе inference, особенно в условиях сверхдлинного контекста (до 256K+ токенов) и большого общего числа параметров.
Конкретные цели:
– Преодолеть квадратичную сложность стандартного внимания (Attention), которое становится "бутылочным горлышком" для длинных контекстов. Для этого и юзают хаки из Mamba2 архитектуры.
– Сочетать преимущества разных архитектур (линейное внимание для скорости, стандартное внимание для точности) в одной гибридной модели. Туда же в Mamba.
– Добиться максимального уровня сжатия активируемых параметров в архитектуре Mixture of Experts (MoE), чтобы при общем размере в 80B параметров активировалось всего ~3B (т.е. 3.7%), что резко снижает вычислительные затраты.
– Создать модель, которая по производительности будет сопоставима с их же гораздо более крупными и дорогими флагманами (Qwen3-235B) и лучшими закрытыми моделями (Gemini 2.5 Flash, GPT-4o), но при этом будет невероятно эффективной.
Идея алгоритма и ключевые архитектурные "инновации":
Суть алгоритма заключается в принципиально новой гибридной архитектуре под названием Qwen3-Next. Её ключевые компоненты:
1. Гибридный механизм внимания (Gated DeltaNet + Gated Attention): 75% слоев используют Gated DeltaNet – вариант линейного внимания, который имеет почти линейную, а не квадратичную сложность. Это обеспечивает высокую скорость работы с длинными контекстами. Остальнве 25% слоев используют Gated Attention – модифицированное внимание с выходными гейтами для стабильности и улучшенными головами (256 dim). Это отвечает за высокое качество и способность к "вспоминанию" информации.
2. Частичное Rotary Encoding: Позиционное кодирование применяется только к первым 25% измерений, что улучшает экстраполяцию на более длинные последовательности.
3. Сверхразреженная архитектура MoE:
– Всего экспертов: 512.
– Активируется за шаг 10 экспертов + 1 shared эксперт.
Соотношение параметров: 80B общих параметров, но активируется только ~3B (3.7%) на один токен. Это в 10 раз меньше, чем у плотной модели Qwen3-32B.
Оптимизации для стабильности обучения:
1. Zero-Centered RMSNorm: Замена LayerNorm для предотвращения "взрыва" весов. А с другой стороны за счёт квадратичности имеем быстрее сходимость.
2. Нормализация параметров маршрутизатора экспертов обеспечивает равномерное использование их на ранних этапах обучения.
3. Многотокенное предсказание (Multi-Token Prediction, MTP). Модель предсказывает несколько последующих токенов одновременно. Это не только ускоряет инференс через механизм Speculative Decoding (где эти предсказания используются как "черновик"), но и, по заявлению авторов, улучшает общее качество модели.
В общем-то и всё. Наконец-то пошел тренд на использование опыта mamba архитектур. Причем у меня в канале уже был обзор гибрида трансформеров и mamba, читаем подробнее тут.
Интересное решение, заявляют хорошие метрики, будем посмотреть.
Новая модель Qwen3-Next...
Забавно, что в блоге утек обзор, но ссылку почистили и поэтому довольствуемся hf релизом. Однако, спасибо коллегам, они засейвили страничку и приложу ее ниже.
Итак, погнали. Задача, которую решают авторы, заключается в кардинальном повышении эффективности LLM, как на этапе обучения, так и на этапе inference, особенно в условиях сверхдлинного контекста (до 256K+ токенов) и большого общего числа параметров.
Конкретные цели:
– Преодолеть квадратичную сложность стандартного внимания (Attention), которое становится "бутылочным горлышком" для длинных контекстов. Для этого и юзают хаки из Mamba2 архитектуры.
– Сочетать преимущества разных архитектур (линейное внимание для скорости, стандартное внимание для точности) в одной гибридной модели. Туда же в Mamba.
– Добиться максимального уровня сжатия активируемых параметров в архитектуре Mixture of Experts (MoE), чтобы при общем размере в 80B параметров активировалось всего ~3B (т.е. 3.7%), что резко снижает вычислительные затраты.
– Создать модель, которая по производительности будет сопоставима с их же гораздо более крупными и дорогими флагманами (Qwen3-235B) и лучшими закрытыми моделями (Gemini 2.5 Flash, GPT-4o), но при этом будет невероятно эффективной.
Идея алгоритма и ключевые архитектурные "инновации":
Суть алгоритма заключается в принципиально новой гибридной архитектуре под названием Qwen3-Next. Её ключевые компоненты:
1. Гибридный механизм внимания (Gated DeltaNet + Gated Attention): 75% слоев используют Gated DeltaNet – вариант линейного внимания, который имеет почти линейную, а не квадратичную сложность. Это обеспечивает высокую скорость работы с длинными контекстами. Остальнве 25% слоев используют Gated Attention – модифицированное внимание с выходными гейтами для стабильности и улучшенными головами (256 dim). Это отвечает за высокое качество и способность к "вспоминанию" информации.
2. Частичное Rotary Encoding: Позиционное кодирование применяется только к первым 25% измерений, что улучшает экстраполяцию на более длинные последовательности.
3. Сверхразреженная архитектура MoE:
– Всего экспертов: 512.
– Активируется за шаг 10 экспертов + 1 shared эксперт.
Соотношение параметров: 80B общих параметров, но активируется только ~3B (3.7%) на один токен. Это в 10 раз меньше, чем у плотной модели Qwen3-32B.
Оптимизации для стабильности обучения:
1. Zero-Centered RMSNorm: Замена LayerNorm для предотвращения "взрыва" весов. А с другой стороны за счёт квадратичности имеем быстрее сходимость.
2. Нормализация параметров маршрутизатора экспертов обеспечивает равномерное использование их на ранних этапах обучения.
3. Многотокенное предсказание (Multi-Token Prediction, MTP). Модель предсказывает несколько последующих токенов одновременно. Это не только ускоряет инференс через механизм Speculative Decoding (где эти предсказания используются как "черновик"), но и, по заявлению авторов, улучшает общее качество модели.
В общем-то и всё. Наконец-то пошел тренд на использование опыта mamba архитектур. Причем у меня в канале уже был обзор гибрида трансформеров и mamba, читаем подробнее тут.
Интересное решение, заявляют хорошие метрики, будем посмотреть.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Dealer.AI
Mem-agent еще одна концепция памяти 🧠
В своих постах про память, а также выступлении на datafest я обозревал самые популярные подходы к созданию памяти: long context, саммаризация, ner, function calling и rag. Однако мельком, буквально на слайдике одним пунктиком я упоминал про агентный подход для памяти. И обещал, что, как-нибудь, мы еще об этом поговорим.
После релиза manus и их восхитительного поста про то как они используют память на файлах и incontext learning, вышла еще одна интересная работа - MemAgent. И самое интересное, что у нее много общего и с решением Manus и с нашим подходом.
В центре всего стоит взаимодействие их small-LM на базе Qwen3-4b-thinking (т.е. рассуждающая моделька с CoT, SO, и т.п.). Кстати, модель обучена уже с GSPO против GRPO, но об этом в следующий раз. Вернёмся к малышке модельке, такой типоразмер, а главное способ обучения, и поддержка long-context позволяет нам не использовать RAG механики. Ввиду своей скорости, агент на такой модели может быстро серфить по их файловой системе памяти, основанной на двусторонней связи .md файлов по типу obsidian. Если мы вспомним мой рассказ про Manus, там тоже агенты пишут флоу/чекпоинты действий в "локальный" буфер в виде to-do файла. Это же, по словам авторов, позволяет не прибегать к сложному RAG подходу (векторным БД и т.п.), хотя использует поиск по ключевым словам. Да и я думаю, что rag механики только бы усилили этот сетап. Сейчас все-таки мода на гибридизацию памяти.
🗂️ Организация памяти
Mem-Agent использует иерархическую структуру хранения данных в формате Markdown:
· user.md: центральный файл с информацией о пользователе, содержащий ссылки на связанные сущности.
· entities/: каталог с дополнительными файлами, описывающими различные сущности (люди, организации, проекты).
Пример содержимого user.md:
Тут прям key/value подход как у нас.
🔗 Система связей
Mem-Agent реализует двунаправленные связи между файлами по аналогии с Obsidian, что позволяет агенту эффективно навигировать по данным и формировать контекстуально обогащенные ответы.
💻 MCP-сервер для интеграции.
Важно, стоит отметить, что данное решение только для работы с глобальной памятью. Поэтому это именно MemAgent, и для работы с ним даже есть свой MCP, чтобы можно было агрегировать в проекте любые доступные LLM-api и иметь локальную систему памяти на файлах.
В состав проекта входит MCP-сервер, который обеспечивает seamless-интеграцию с популярными платформами:
· Claude Desktop
· LM Studio
· ChatGPT
Это позволяет использовать Mem-Agent в качестве единого центра памяти для различных ИИ-помощников без необходимости переключения между платформами.
Итого на выходе получаем легкого агента для заполнения, и чтения/навигации по памяти. С возможностью работать с поиском, вызовом функций, MCP протоколом и интеграцией с популярными LLM api.
В своих постах про память, а также выступлении на datafest я обозревал самые популярные подходы к созданию памяти: long context, саммаризация, ner, function calling и rag. Однако мельком, буквально на слайдике одним пунктиком я упоминал про агентный подход для памяти. И обещал, что, как-нибудь, мы еще об этом поговорим.
После релиза manus и их восхитительного поста про то как они используют память на файлах и incontext learning, вышла еще одна интересная работа - MemAgent. И самое интересное, что у нее много общего и с решением Manus и с нашим подходом.
В центре всего стоит взаимодействие их small-LM на базе Qwen3-4b-thinking (т.е. рассуждающая моделька с CoT, SO, и т.п.). Кстати, модель обучена уже с GSPO против GRPO, но об этом в следующий раз. Вернёмся к малышке модельке, такой типоразмер, а главное способ обучения, и поддержка long-context позволяет нам не использовать RAG механики. Ввиду своей скорости, агент на такой модели может быстро серфить по их файловой системе памяти, основанной на двусторонней связи .md файлов по типу obsidian. Если мы вспомним мой рассказ про Manus, там тоже агенты пишут флоу/чекпоинты действий в "локальный" буфер в виде to-do файла. Это же, по словам авторов, позволяет не прибегать к сложному RAG подходу (векторным БД и т.п.), хотя использует поиск по ключевым словам. Да и я думаю, что rag механики только бы усилили этот сетап. Сейчас все-таки мода на гибридизацию памяти.
🗂️ Организация памяти
Mem-Agent использует иерархическую структуру хранения данных в формате Markdown:
memory/
├── user.md
└── entities/
└── [entity_name_1].md
└── [entity_name_2].md
└── …· user.md: центральный файл с информацией о пользователе, содержащий ссылки на связанные сущности.
· entities/: каталог с дополнительными файлами, описывающими различные сущности (люди, организации, проекты).
Пример содержимого user.md:
# User Information
- user_name: Atakan Tekparmak
- birth_date: 2001-09-27
- birth_location: Istanbul, Turkey
## User Relationships
- employer: [[entities/dria.md]]Тут прям key/value подход как у нас.
🔗 Система связей
Mem-Agent реализует двунаправленные связи между файлами по аналогии с Obsidian, что позволяет агенту эффективно навигировать по данным и формировать контекстуально обогащенные ответы.
Важно, стоит отметить, что данное решение только для работы с глобальной памятью. Поэтому это именно MemAgent, и для работы с ним даже есть свой MCP, чтобы можно было агрегировать в проекте любые доступные LLM-api и иметь локальную систему памяти на файлах.
В состав проекта входит MCP-сервер, который обеспечивает seamless-интеграцию с популярными платформами:
· Claude Desktop
· LM Studio
· ChatGPT
Это позволяет использовать Mem-Agent в качестве единого центра памяти для различных ИИ-помощников без необходимости переключения между платформами.
Итого на выходе получаем легкого агента для заполнения, и чтения/навигации по памяти. С возможностью работать с поиском, вызовом функций, MCP протоколом и интеграцией с популярными LLM api.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Dealer.AI
This media is not supported in your browser
VIEW IN TELEGRAM
Перекрёсток семи фичей вот и я – DeepCrossNetwok.
Вспомним, как деды воевали с кодированием категориальных признаков(это те, что представляют собой спец.теги, категории транзакций и пр. не всегда мнимоническое текстовое) :
1. OneHot - когда мы разворачиваем категории в плоский табличный вид, где столбцы название категорий, а строки принимают значения 0/1 есть ли у наблюдения такая категория. Просто, интерпретируем и даже комбинации для моделей в виде регрессии, дерева или бустинга понятные. Сюда же я отнесу binary/dummy и прочие сродственные подходы.
2. Можно делать one-hot на интеракциях фичей аля склеивание их в комбинации, например, цвет "серый" и категория "рыбалка" превращаются в "серый-рыбалка". Далее также 0/1 и т.п.
3. Label encoding. Тут все "просто" категории дается число (ее уникальный номер). Далее эта хака может превращаться в ранг, если можно прям позиционность закодировать. Например низкий-средний-высокий, как 0,1,2. У нас и лейблы и мы понимаем, что 0<1<2 как и позиция высоты. Но еще id категорий можно превращать в их частоты...
4. Кодирование частотами. Тут конечно повеселее, нужно хитро и без ликов прокинуть на train/test частотки той или иной категории по выборке. Обычно не раздувает число столбцов, как в п.п. 1,2, но требует осторожности – частоты считаем всегда по train. В целом тут можно и в лоб пройтись каунтером, но мое любимое переиспользовать tfidf :) Тут будет у вас term = лейбл категории, далее каждой такой фиче для всех принимаемых категорий можно построить tfidf меру. А как вы помните tfidf почти всегда (99%) считается по train сету, если иного не требует какая-нибудь хитрость .
5. Target encoding. Как п. 2 был развитием п.1 этот пункт развитие предыдущего. Но тут пилотаж повыше нужен. Т.к. кодировать фичи нужно мат. ожиданием совместного появления категории с таргетом. Т.е. концептуально(т. к. есть разные методы кодирования таргетом) для регрессии – это среднее значение переменной по категории, для классификации совместная вероятность класса и категории. Тут важно также не напортачить с ликом в данных, т.к. вы прокидываете переменную в фичи, там и схемы хитрой валидации и в т.ч. хитрый расчёт этих энкодингов, загуглите, не поленитесь.
Ладно, к чему эта вся телега. Да к тому, что дяди (уже не деды), придумали для того, чтобы работать с категориями и интеракциям фичей прям на слое нейросети. И назвали это deep crows network - DCN. В центре внимания находится механизм кодирования и интеракций признаков, напоминающий МГУА (деды придумали метод группового учета аргументов), но с большей нелинейностью, эмбами, skip-connections и т.п.
В общем, стала модна эта штука в рекомендациях, CTR prediction и конечно же в табформерах. Вспомним даже LIMIX выше.
Если тебе интересно познакомиться с этим поближе, советую прочитать статью и глянуть pytorch код, не все же тебя на keras отсылать.
Вспомним, как деды воевали с кодированием категориальных признаков
1. OneHot - когда мы разворачиваем категории в плоский табличный вид, где столбцы название категорий, а строки принимают значения 0/1 есть ли у наблюдения такая категория. Просто, интерпретируем и даже комбинации для моделей в виде регрессии, дерева или бустинга понятные. Сюда же я отнесу binary/dummy и прочие сродственные подходы.
2. Можно делать one-hot на интеракциях фичей аля склеивание их в комбинации, например, цвет "серый" и категория "рыбалка" превращаются в "серый-рыбалка". Далее также 0/1 и т.п.
3. Label encoding. Тут все "просто" категории дается число (ее уникальный номер). Далее эта хака может превращаться в ранг, если можно прям позиционность закодировать. Например низкий-средний-высокий, как 0,1,2. У нас и лейблы и мы понимаем, что 0<1<2 как и позиция высоты. Но еще id категорий можно превращать в их частоты...
4. Кодирование частотами. Тут конечно повеселее, нужно хитро и без ликов прокинуть на train/test частотки той или иной категории по выборке. Обычно не раздувает число столбцов, как в п.п. 1,2, но требует осторожности – частоты считаем всегда по train. В целом тут можно и в лоб пройтись каунтером, но мое любимое переиспользовать tfidf :) Тут будет у вас term = лейбл категории, далее каждой такой фиче для всех принимаемых категорий можно построить tfidf меру. А как вы помните tfidf почти всегда (99%) считается по train сету
5. Target encoding. Как п. 2 был развитием п.1 этот пункт развитие предыдущего. Но тут пилотаж повыше нужен. Т.к. кодировать фичи нужно мат. ожиданием совместного появления категории с таргетом. Т.е. концептуально
Ладно, к чему эта вся телега. Да к тому, что дяди (уже не деды), придумали для того, чтобы работать с категориями и интеракциям фичей прям на слое нейросети. И назвали это deep crows network - DCN. В центре внимания находится механизм кодирования и интеракций признаков, напоминающий МГУА (деды придумали метод группового учета аргументов), но с большей нелинейностью, эмбами, skip-connections и т.п.
В общем, стала модна эта штука в рекомендациях, CTR prediction и конечно же в табформерах. Вспомним даже LIMIX выше.
Если тебе интересно познакомиться с этим поближе, советую прочитать статью и глянуть pytorch код, не все же тебя на keras отсылать.
Forwarded from Тагир Анализирует
Сейчас у нас в стартап треке AI Talent Hub проходит пре-акселератор. Мы встречаемся раз в неделю, слушаем полезную инфу и получаем задания на неделю – подготовить питч, провести CustDev, сформировать ценностные предложения своего продукта
Нам рекомендовали прочитать 2 книжки. Сейчас я много времени провожу в самолетах, поэтому у меня есть куча возможностей для чтения
Вот какие книги советовали:
1) "Спроси маму: Как общаться с клиентами и подтвердить правоту своей бизнес-идеи, если все кругом врут?", Фитцпатрик Роб
2) "От нуля к единице. Как создать стартап, который изменит будущее", Питер Тиль, Блейк Мастерс
Я довольно быстро прочитал первую книгу. Там подробно и на примерах рассказывают, как получать честную и полезную обратную связь о своей идее. Суть в том, что люди склонны говорить то, что собеседник хочет услышать, чтобы не огорчить его
С помощью конкретных шагов можно возвращать разговор в нужное русло, задавать правильные вопросы и с максимальной пользой использовать полученную информацию
Еще там рассказывают, почему важно как можно чаще общаться со своими клиентами и почему нельзя додумывать за него
Звучит, что даже крупные знакомые мне продукты грешат этим и сами пытаются придумать проблемы, которые пользователь хочет решить с помощью их продукта, хотя эта информация не только может оказаться бесполезной, но и может сильно навредить
С другой стороны, в больших продуктах аналитик обычно не общается с пользователями
Но ведь продакт и есть пользователь аналитики. Если ты не понимаешь, какую задачу решаешь для продакта, аналитика может быть бесполезной
В Яндексе один из самых популярных вопросов – «какую задачу ты решаешь?»
Это очень крутая часть продуктовой культуры. Сначала ты приходишь в компанию и бесишься от частоты этого вопроса, а потом сам не приступаешь к задаче, пока досконально не разберешься в проблематике
А как часто вы задаете подобные вопросы?
@tagir_analyzes
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from креативный the creator
Считаем денежки 💸
Устала от того, что деньги постоянно куда-то деваются. Причем я не транжира, каждую трату стараюсь делать осознанно, но блин каждый раз не вписываюсь в план. Решила обратиться за помощью к ИИ и сделала промпт «финансовый консультант»😘
Работает так: выкачиваете выписку с тратами из банка, копируете промпт и все вместе закидываете в чат. ИИ все разбирет, найдет «слепые зоны» и даст план экономии без жёстких ограничений. Плюс добавит пару неожиданных инсайтов на основе ваших привычек.
Лучше кидать в Excel, но CSV, PDF и скриншоты тоже подойдут. Обычно в таких отчетах нет чувствительных данных, так что с безопасностью все ок.
Рекомендациями довольна, все детально и с примерами. По моим ощущениям Gemini 2.5 Pro справился лучше GPT-5 — больше паттернов считал и советы получились глубже. Буду их применять🤩
@creativethecreator
Устала от того, что деньги постоянно куда-то деваются. Причем я не транжира, каждую трату стараюсь делать осознанно, но блин каждый раз не вписываюсь в план. Решила обратиться за помощью к ИИ и сделала промпт «финансовый консультант»
Работает так: выкачиваете выписку с тратами из банка, копируете промпт и все вместе закидываете в чат. ИИ все разбирет, найдет «слепые зоны» и даст план экономии без жёстких ограничений. Плюс добавит пару неожиданных инсайтов на основе ваших привычек.
Лучше кидать в Excel, но CSV, PDF и скриншоты тоже подойдут. Обычно в таких отчетах нет чувствительных данных, так что с безопасностью все ок.
Промпт большой, положила сюда.
Рекомендациями довольна, все детально и с примерами. По моим ощущениям Gemini 2.5 Pro справился лучше GPT-5 — больше паттернов считал и советы получились глубже. Буду их применять
@creativethecreator
Please open Telegram to view this post
VIEW IN TELEGRAM