Контролируемая эволюция RAG-системы: оценка mcp серверов и кеширование результатов запрос-ответ
В статье рассматриваются теоретические выкладки как возможно эволюционировать RAG-систему на одном домене (документация 1С). Эволюцию можно расширить на использование нескольких доменов (финансы, бух.учет, юриспруденция, кодинг и.т.п.)
Статические промпты в RAG быстро перестают соответствовать реальным запросам. в статье описана реализация механизма контролируемой эволюции: модель предлагает варианты настроек («геномы»), судья оценивает их на запросах и ставит среднюю оценку по выборке, а в прод попадает только то, что администратор явно утвердил. Ниже — идея, три слоя пайплайна и фрагменты кода из реализации.
В существующих пайплайнах часто используют модель (LLM) судью которая оценивает только один запрос-ответ. А что делать если уже накоплен массив данных запрос-ответов? Где узкое место в системных промтах когда пользователь задает вопросы системе, как лучше дать оценку что должно попадать в кеш, а что нет?
https://habr.com/ru/articles/1019018/
Алгоритмы и Структуры данных
В статье рассматриваются теоретические выкладки как возможно эволюционировать RAG-систему на одном домене (документация 1С). Эволюцию можно расширить на использование нескольких доменов (финансы, бух.учет, юриспруденция, кодинг и.т.п.)
Статические промпты в RAG быстро перестают соответствовать реальным запросам. в статье описана реализация механизма контролируемой эволюции: модель предлагает варианты настроек («геномы»), судья оценивает их на запросах и ставит среднюю оценку по выборке, а в прод попадает только то, что администратор явно утвердил. Ниже — идея, три слоя пайплайна и фрагменты кода из реализации.
В существующих пайплайнах часто используют модель (LLM) судью которая оценивает только один запрос-ответ. А что делать если уже накоплен массив данных запрос-ответов? Где узкое место в системных промтах когда пользователь задает вопросы системе, как лучше дать оценку что должно попадать в кеш, а что нет?
https://habr.com/ru/articles/1019018/
Алгоритмы и Структуры данных
Хабр
Контролируемая эволюция RAG-системы: оценка mcp серверов и кеширование результатов запрос-ответ
В статье рассматриваются теоретические выкладки как возможно эволюционировать RAG-систему на одном домене (документация 1С). Эволюцию можно расширить на использование нескольких доменов (финансы,...
Почему одна запись может изменить KPI: разложение агрегированных метрик на вклад отдельных событий
Меня зовут Иван Васильев, я ведущий аналитик в Ви.Tech, IT-дочке ВсеИнструменты.ру. Хочу показать, как из на первый взгляд простой формулы KPI выросла инженерная задача: нам нужно было не просто посчитать интегральный показатель эффективности поставщика, а объяснить, какая именно закупка его ухудшила и почему. В статье разберу, почему для агрегированных метрик не работает наивный подход, как мы пришли к remove-one analysis и где пришлось отдельно фиксировать логику расчета, чтобы результат вообще можно было интерпретировать.
В одной из систем, над которой я работаю, мы рассчитываем интегральный показатель эффективности поставщика. Сначала задача казалась очень простой: несколько метрик, несколько весов, обычная агрегированная формула. Но однажды бизнес задал вопрос:
https://habr.com/ru/articles/1019170/
Алгоритмы и Структуры данных
Меня зовут Иван Васильев, я ведущий аналитик в Ви.Tech, IT-дочке ВсеИнструменты.ру. Хочу показать, как из на первый взгляд простой формулы KPI выросла инженерная задача: нам нужно было не просто посчитать интегральный показатель эффективности поставщика, а объяснить, какая именно закупка его ухудшила и почему. В статье разберу, почему для агрегированных метрик не работает наивный подход, как мы пришли к remove-one analysis и где пришлось отдельно фиксировать логику расчета, чтобы результат вообще можно было интерпретировать.
В одной из систем, над которой я работаю, мы рассчитываем интегральный показатель эффективности поставщика. Сначала задача казалась очень простой: несколько метрик, несколько весов, обычная агрегированная формула. Но однажды бизнес задал вопрос:
https://habr.com/ru/articles/1019170/
Алгоритмы и Структуры данных
Хабр
Почему одна запись может изменить KPI: разложение агрегированных метрик на вклад отдельных событий
Меня зовут Иван Васильев, я ведущий аналитик в Ви.Tech, IT-дочке ВсеИнструменты.ру. Хочу показать, как из на первый взгляд простой формулы KPI выросла инженерная задача: нам нужно было не просто...
❤1
Тихая сторона крипторынка: что на самом деле стоит за «магией» торговых ботов
На дворе 2026 год. В мире неспокойно. Военные конфликты, санкционные войны, передел рынков, борьба за ресурсы. Кажется, что мировая финансовая система уже давно живёт в режиме постоянной турбулентности, и никого это не удивляет.
https://habr.com/ru/articles/1019202/
Алгоритмы и Структуры данных
На дворе 2026 год. В мире неспокойно. Военные конфликты, санкционные войны, передел рынков, борьба за ресурсы. Кажется, что мировая финансовая система уже давно живёт в режиме постоянной турбулентности, и никого это не удивляет.
https://habr.com/ru/articles/1019202/
Алгоритмы и Структуры данных
Хабр
Тихая сторона крипторынка: что на самом деле стоит за «магией» торговых ботов
Изображение сгенерировано GPT На дворе 2026 год. В мире неспокойно. Военные конфликты, санкционные войны, передел рынков, борьба за ресурсы. Кажется, что мировая финансовая система уже давно живёт в...
❤2
Почему argsort(argsort(x)) возвращает ранги элементов массива
Однажды мне понадобилось вычислить ранги элементов массива, или другими словами, на какой позиции окажется каждый элемент после сортировки.
Беглый поиск по интернету дал неожиданно короткий ответ: достаточно применить двойной argsort —argsort(argsort(x)) из библиотеки NumPy. Фокус работает, но почти нигде не объясняется почему именно. Обращаться с таким вопросом к ChatGPT тогда казалось рискованным — в интернете как раз ходили мемы о его ошибках в арифметике. Отсутствие строгого обоснования не давало мне покоя, и в итоге я решил дойти до доказательства самостоятельно.
Ниже я поделюсь этим доказательством. Оно не претендует на уникальность — возможно, существуют более короткие или более элегантные способы прийти к тому же ответу. Тем не менее, оно позволит вам понять, почему двойной argsort действительно возвращает ранги элементов, и избавит вас от необходимости тратить время на самостоятельное разбирательство.
На самом деле в Python в библиотеке scipy уже есть функция rankdata, которая реализует то, что нам нужно. Единственное отличие — rankdata возвращает ранги начиная с 1, тогда как argsort использует нулевую индексацию. Чуть ниже мы сравним их результаты, а пока формализуем нашу задачу.
https://habr.com/ru/articles/1019144/
Алгоритмы и Структуры данных
Однажды мне понадобилось вычислить ранги элементов массива, или другими словами, на какой позиции окажется каждый элемент после сортировки.
Беглый поиск по интернету дал неожиданно короткий ответ: достаточно применить двойной argsort —argsort(argsort(x)) из библиотеки NumPy. Фокус работает, но почти нигде не объясняется почему именно. Обращаться с таким вопросом к ChatGPT тогда казалось рискованным — в интернете как раз ходили мемы о его ошибках в арифметике. Отсутствие строгого обоснования не давало мне покоя, и в итоге я решил дойти до доказательства самостоятельно.
Ниже я поделюсь этим доказательством. Оно не претендует на уникальность — возможно, существуют более короткие или более элегантные способы прийти к тому же ответу. Тем не менее, оно позволит вам понять, почему двойной argsort действительно возвращает ранги элементов, и избавит вас от необходимости тратить время на самостоятельное разбирательство.
На самом деле в Python в библиотеке scipy уже есть функция rankdata, которая реализует то, что нам нужно. Единственное отличие — rankdata возвращает ранги начиная с 1, тогда как argsort использует нулевую индексацию. Чуть ниже мы сравним их результаты, а пока формализуем нашу задачу.
https://habr.com/ru/articles/1019144/
Алгоритмы и Структуры данных
Хабр
Почему argsort(argsort(x)) возвращает ранги элементов массива
Однажды мне понадобилось вычислить ранги элементов массива , или другими словами, на какой позиции окажется каждый элемент после сортировки . Беглый поиск по интернету дал неожиданно короткий ответ:...
Интересный способ сгруппировать натуральный ряд
Вопрос читателю: Как можно сгруппировать натуральный ряд {1, 2, 3, ..., n} в n / 2 групп, чтобы внутри каждой лежали только взаимно-простые числа?
Далее в статье я расскажу о том, как я нашел нестандартный способ решения такой задачи.
https://habr.com/ru/articles/1019254/
Алгоритмы и Структуры данных
Вопрос читателю: Как можно сгруппировать натуральный ряд {1, 2, 3, ..., n} в n / 2 групп, чтобы внутри каждой лежали только взаимно-простые числа?
Далее в статье я расскажу о том, как я нашел нестандартный способ решения такой задачи.
https://habr.com/ru/articles/1019254/
Алгоритмы и Структуры данных
Хабр
Интересный способ сгруппировать натуральный ряд
Вопрос читателю : Как можно сгруппировать натуральный ряд в групп, чтобы внутри каждой лежали только взаимно-простые числа? Далее в статье я расскажу о том, как я нашел нестандартный способ решения...
Глухой телефон для ИИ: мы замерили физику LLM-графов и поняли, почему добавление агентов всё ломает
Сейчас, в 2026 году, индустрия ИИ переживает бум мультиагентных систем. Все собирают свои «рои», фреймворки и crew-команды. Логика проста: если одна LLM умная, давайте свяжем десять, дадим им роли, и они свернут горы.
Но на практике мы часто сталкиваемся с магией черного ящика. Иногда 10 агентов действительно решают сложную задачу. А иногда они скатываются в бесконечные галлюцинации, теряют изначальный контекст и выдают результат хуже, чем базовая модель соло. И индустрия решает эту проблему в стиле алхимиков: «просто добавьте еще агентов» или «дайте им больше токенов на общение».
Мы решили, что с нас хватит алхимии. Нам нужен был измерительный прибор - эдакий МРТ-аппарат для мультиагентных сетей, который покажет механику общения нейросетей изнутри, в условиях жестко ограниченных бюджетов.
https://habr.com/ru/articles/1019490/
Алгоритмы и Структуры данных
Сейчас, в 2026 году, индустрия ИИ переживает бум мультиагентных систем. Все собирают свои «рои», фреймворки и crew-команды. Логика проста: если одна LLM умная, давайте свяжем десять, дадим им роли, и они свернут горы.
Но на практике мы часто сталкиваемся с магией черного ящика. Иногда 10 агентов действительно решают сложную задачу. А иногда они скатываются в бесконечные галлюцинации, теряют изначальный контекст и выдают результат хуже, чем базовая модель соло. И индустрия решает эту проблему в стиле алхимиков: «просто добавьте еще агентов» или «дайте им больше токенов на общение».
Мы решили, что с нас хватит алхимии. Нам нужен был измерительный прибор - эдакий МРТ-аппарат для мультиагентных сетей, который покажет механику общения нейросетей изнутри, в условиях жестко ограниченных бюджетов.
https://habr.com/ru/articles/1019490/
Алгоритмы и Структуры данных
Хабр
Глухой телефон для ИИ: мы замерили физику LLM-графов и поняли, почему добавление агентов всё ломает
Сейчас, в 2026 году, индустрия ИИ переживает бум мультиагентных систем. Все собирают свои «рои», фреймворки и crew-команды. Логика проста: если одна LLM умная, давайте свяжем десять, дадим им роли, и...
❤2
Стратификационный анализ ECDSA-подписей и дефектных режимов генерации nonce
25 с., 10 табл., 2 рис., 2 прил., 10 источников. Работа посвящена исследованию ECDSA-подписей над кривой secp256k1 как фазовых корпусов, в которых дефекты генерации nonce проявляются не как случайные единичные сбои, а как устойчивые семейства. В качестве объекта исследования рассмотрены редактированные агрегаты пользовательского архива проекта; в качестве предмета исследования — математические, геометрические и статистические признаки defect-family.
Цель работы — изложить научную суть проекта, не теряя математической строгости, и при этом зафиксировать доказанные результаты и границы их интерпретации. В работе использованы: стандартная модель ECDSA, переход к координатам (u_r, u_z), торическая геометрия, результанты корпуса, kNN-поиск кандидатов, перестановочные проверки значимости, synthetic-only контроль и аудит безопасной публикации.
https://habr.com/ru/articles/1019612/
Алгоритмы и Структуры данных
25 с., 10 табл., 2 рис., 2 прил., 10 источников. Работа посвящена исследованию ECDSA-подписей над кривой secp256k1 как фазовых корпусов, в которых дефекты генерации nonce проявляются не как случайные единичные сбои, а как устойчивые семейства. В качестве объекта исследования рассмотрены редактированные агрегаты пользовательского архива проекта; в качестве предмета исследования — математические, геометрические и статистические признаки defect-family.
Цель работы — изложить научную суть проекта, не теряя математической строгости, и при этом зафиксировать доказанные результаты и границы их интерпретации. В работе использованы: стандартная модель ECDSA, переход к координатам (u_r, u_z), торическая геометрия, результанты корпуса, kNN-поиск кандидатов, перестановочные проверки значимости, synthetic-only контроль и аудит безопасной публикации.
https://habr.com/ru/articles/1019612/
Алгоритмы и Структуры данных
Хабр
Стратификационный анализ ECDSA-подписей и дефектных режимов генерации nonce
Математическая модель, экспериментальная валидация и границы интерпретации РЕФЕРАТ 25 с., 10 табл., 2 рис., 2 прил., 10 источников. Работа посвящена исследованию ECDSA-подписей над кривой secp256k1...
Что такое наблюдатель и при чём здесь фильтр Калмана
Прочитал на Хабр статью [1], в которой автор простым языком даёт достаточно глубокое представление такого сложного и важного математического объекта как фильтр Калмана и захотел предложить читателям посмотреть на него (фильтр Калмана) несколько с другого ракурса. Сразу хочу предупредить, что перед чтением данной статьи хорошо бы прочесть статью [1], так как даже формулы были специально взяты ровно оттуда, дабы данная статья базировалась на материале упомянутой работы [1].
https://habr.com/ru/articles/1019716/
Алгоритмы и Структуры данных
Прочитал на Хабр статью [1], в которой автор простым языком даёт достаточно глубокое представление такого сложного и важного математического объекта как фильтр Калмана и захотел предложить читателям посмотреть на него (фильтр Калмана) несколько с другого ракурса. Сразу хочу предупредить, что перед чтением данной статьи хорошо бы прочесть статью [1], так как даже формулы были специально взяты ровно оттуда, дабы данная статья базировалась на материале упомянутой работы [1].
https://habr.com/ru/articles/1019716/
Алгоритмы и Структуры данных
Хабр
Что такое наблюдатель и при чём здесь фильтр Калмана
Прочитал на Хабр статью [1] , в которой автор простым языком даёт достаточно глубокое представление такого сложного и важного математического объекта как фильтр Калмана и захотел предложить читателям...
Человек и алгоритм — история возникновения процедурального искусства
В середине прошлого века люди задумались, способен ли человек передать некоторой системе (например, компьютеру) роль непосредственного создателя художественного произведения. Можно ли не просто превратить устройство в инструмент, а сделать его автономным генератором формы, цвета или звука? Так зародилось процедуральное (или генеративное) искусство.
В этой статье расскажем, как художники воображали себя компьютерами, почему алгоритмические произведения долго не находили признания, и обсудим, можно ли вообще считать результат работы алгоритма искусством.
https://habr.com/ru/companies/ispsystem/articles/1019714/
Алгоритмы и Структуры данных
В середине прошлого века люди задумались, способен ли человек передать некоторой системе (например, компьютеру) роль непосредственного создателя художественного произведения. Можно ли не просто превратить устройство в инструмент, а сделать его автономным генератором формы, цвета или звука? Так зародилось процедуральное (или генеративное) искусство.
В этой статье расскажем, как художники воображали себя компьютерами, почему алгоритмические произведения долго не находили признания, и обсудим, можно ли вообще считать результат работы алгоритма искусством.
https://habr.com/ru/companies/ispsystem/articles/1019714/
Алгоритмы и Структуры данных
Хабр
Человек и алгоритм — история возникновения процедурального искусства
В середине прошлого века люди задумались, способен ли человек передать некоторой системе (например, компьютеру) роль непосредственного создателя художественного произведения. Можно ли не просто...
❤1
Claude Code слил 512 000 строк кода. Никто не разобрался в архитектуре. Утечка показала, что это не обёртка, а ОС
512 000 строк утекшегокода. 44 feature‑флага. Система питомцев в духе тамагочи. Имена вроде «Tengu», «Fennec» и «Penguin mode». Всё это — то, о чём написали сотни новостей. Но не это главное.
Пока интернет разбирал по косточкам внутренности Claude Code, увлечённо споря, игрушка это или серьёзная архитектура, настоящая ценность утечки осталась почти незамеченной. Anthropic случайно показала миру не список фич. Она показала, как на самом деле думает её ИИ‑агент.
За милыми именами и игровыми механиками скрывается жёсткая инженерная реальность: самовосстанавливающийся цикл запросов, вычисления во сне и двухуровневая система отсечения функций. Это уже не обёртка над API. Это операционная система для ИИ. И сегодня мы разберём три паттерна, которые делают Claude Code не просто дорогим автокомплитом, а продуктом на 2,5 млрд $ в год.
https://habr.com/ru/companies/bothub/articles/1019942/
Алгоритмы и Структуры данных
512 000 строк утекшегокода. 44 feature‑флага. Система питомцев в духе тамагочи. Имена вроде «Tengu», «Fennec» и «Penguin mode». Всё это — то, о чём написали сотни новостей. Но не это главное.
Пока интернет разбирал по косточкам внутренности Claude Code, увлечённо споря, игрушка это или серьёзная архитектура, настоящая ценность утечки осталась почти незамеченной. Anthropic случайно показала миру не список фич. Она показала, как на самом деле думает её ИИ‑агент.
За милыми именами и игровыми механиками скрывается жёсткая инженерная реальность: самовосстанавливающийся цикл запросов, вычисления во сне и двухуровневая система отсечения функций. Это уже не обёртка над API. Это операционная система для ИИ. И сегодня мы разберём три паттерна, которые делают Claude Code не просто дорогим автокомплитом, а продуктом на 2,5 млрд $ в год.
https://habr.com/ru/companies/bothub/articles/1019942/
Алгоритмы и Структуры данных
🤯1
Пост-квантовый гибридный алгоритм шифрования для высоко-нагруженных систем с реализацией на TypeScript
Данный алгоритм реализовывался как часть сетевого протокола, но из него было исключено много лишнего, чтобы дать возможность для внедрения в различные системы без привязки к архитектуре.
Далее в статье представлен алгоритм QuarkDash включая реализацию библиотеки на языке TypeScript в качестве основы для клиент-серверных веб приложений. Сама реализация библиотеки есть на GitHub и NPM, для тех, кто хочет пропустить детали и покопаться на практике.
Алгоритм QuarkDash (или если хотите, протокол) - сочетает пост‑квантовый обмен ключами на основе Ring‑LWE, быстрый потоковый шифр на выбор (ChaCha20 или Gimli), квантово‑устойчивую KDF и MAC на базе SHAKE256, а также встроенные механизмы защиты от replay‑атак и timing‑атак.
https://habr.com/ru/articles/1020092/
Алгоритмы и Структуры данных
Данный алгоритм реализовывался как часть сетевого протокола, но из него было исключено много лишнего, чтобы дать возможность для внедрения в различные системы без привязки к архитектуре.
Далее в статье представлен алгоритм QuarkDash включая реализацию библиотеки на языке TypeScript в качестве основы для клиент-серверных веб приложений. Сама реализация библиотеки есть на GitHub и NPM, для тех, кто хочет пропустить детали и покопаться на практике.
Алгоритм QuarkDash (или если хотите, протокол) - сочетает пост‑квантовый обмен ключами на основе Ring‑LWE, быстрый потоковый шифр на выбор (ChaCha20 или Gimli), квантово‑устойчивую KDF и MAC на базе SHAKE256, а также встроенные механизмы защиты от replay‑атак и timing‑атак.
https://habr.com/ru/articles/1020092/
Алгоритмы и Структуры данных
Хабр
Пост-квантовый гибридный алгоритм шифрования для высоко-нагруженных систем с реализацией на TypeScript
QuarkDash - пост-квантовый гибридный алгоритм шифрования Перед прочтением Данный алгоритм реализовывался как часть сетевого протокола, но из него было исключено много лишнего, чтобы дать возможность...
❤1
Как собрать дашборд для анализа алготрейдинга без программирования: кейс на HTML + LLM
400 000 строк в файле Excel, а пропущенный день это дырка в истории и отчёты, которые тормозят даже на мощном ПК — именно с этим столкнулся алготрейдер Дмитрий Овчинников. Но он смог при помощи ИИ ассистента создать дашборд, который упрощает управлением его 100+ стратегиями в алготрейдинге. И это, по его словам, как пересесть с запорожца на вертолёт.
На Хабре вообще очень мало пишут про алготрейдеров, а уж про работающие алгоритмы так и вообще ничего. А есть такая важная для любого сторонника алгоритмов тема как управление и отображение результатов трейдинга и она определенно заслуживает внимания.
https://habr.com/ru/articles/1019640/
Алгоритмы и Структуры данных
400 000 строк в файле Excel, а пропущенный день это дырка в истории и отчёты, которые тормозят даже на мощном ПК — именно с этим столкнулся алготрейдер Дмитрий Овчинников. Но он смог при помощи ИИ ассистента создать дашборд, который упрощает управлением его 100+ стратегиями в алготрейдинге. И это, по его словам, как пересесть с запорожца на вертолёт.
На Хабре вообще очень мало пишут про алготрейдеров, а уж про работающие алгоритмы так и вообще ничего. А есть такая важная для любого сторонника алгоритмов тема как управление и отображение результатов трейдинга и она определенно заслуживает внимания.
https://habr.com/ru/articles/1019640/
Алгоритмы и Структуры данных
Хабр
Как собрать дашборд для анализа алготрейдинга без программирования: кейс на HTML + LLM
400 000 строк в файле Excel, а пропущенный день это дырка в истории и отчёты, которые тормозят даже на мощном ПК — именно с этим столкнулся алготрейдер Дмитрий...
Зная эти паттерны ты решишь 60% задач на собеседовании
У меня 1000+ баллов на Codewars, много решённых задач на LeetCode и просто бесконечное множество решенных задач из разных приложений и собеседований.
Но каждый раз я сталкиваюсь с одними проблемами: при решении задачи я часто путаюсь, выбираю не самый оптимальный путь, трачу время на странные подходы и в итоге прихожу к неоптимальному решению с лишними затратами времени, знакомо?
Проведя небольшую рефлексию, я понял в чем проблема: решая задачи, я вообще не задумывался о паттернах, хотя это главное из чего должно строиться решение задачи!
https://habr.com/ru/articles/1020222/
Алгоритмы и Структуры данных
У меня 1000+ баллов на Codewars, много решённых задач на LeetCode и просто бесконечное множество решенных задач из разных приложений и собеседований.
Но каждый раз я сталкиваюсь с одними проблемами: при решении задачи я часто путаюсь, выбираю не самый оптимальный путь, трачу время на странные подходы и в итоге прихожу к неоптимальному решению с лишними затратами времени, знакомо?
Проведя небольшую рефлексию, я понял в чем проблема: решая задачи, я вообще не задумывался о паттернах, хотя это главное из чего должно строиться решение задачи!
https://habr.com/ru/articles/1020222/
Алгоритмы и Структуры данных
Хабр
Зная эти паттерны ты решишь 60% задач на собеседовании
У меня 1000+ баллов на Codewars, много решённых задач на LeetCode и просто бесконечное множество решенных задач из разных приложений и собеседований. Но каждый раз я сталкиваюсь с одними проблемами:...
Зачем дата-сайенсу дисперсия
Дисперсия — один из важнейших статистических показателей: oна играет центральную роль в оценке изменчивости данных, понимании поведения ML-моделей и снижении ошибок. В этой статье мы разберeм, почему правильное использование дисперсии критично для Data Science и разработаем нашу собственную модель Random Forest.
https://proglib.io/p/zachem-data-sayentistu-dispersiya-2025-04-11
Алгоритмы и Структуры данных
Дисперсия — один из важнейших статистических показателей: oна играет центральную роль в оценке изменчивости данных, понимании поведения ML-моделей и снижении ошибок. В этой статье мы разберeм, почему правильное использование дисперсии критично для Data Science и разработаем нашу собственную модель Random Forest.
https://proglib.io/p/zachem-data-sayentistu-dispersiya-2025-04-11
Алгоритмы и Структуры данных
Библиотека программиста
📊🧑💻 Зачем дата-сайентисту дисперсия
Рассказываем, как использование дисперсии помогает создавать точные и эффективные модели машинного обучения - на примере Random Forest
Как мы пересобрали сборку мусора в Vinyl
В предыдущей статье о Vinyl я рассказывал об архитектуре LSM-движка Tarantool. Восемь лет, прошедшие с момента с написания статьи, показали, что Vinyl сразу получился идеальным и менять его не нужно :). Если серьёзно, сегодня я расскажу о тех изменениях, которые мы внесли в алгоритм в форке Tarantool от Picodata, и неизбежно коснусь более глубокой проблематики работы LSM-деревьев, а конкретнее – работы планировщика слияний (compaction scheduler).
https://habr.com/ru/companies/arenadata/articles/1018042/
Алгоритмы и Структуры данных
В предыдущей статье о Vinyl я рассказывал об архитектуре LSM-движка Tarantool. Восемь лет, прошедшие с момента с написания статьи, показали, что Vinyl сразу получился идеальным и менять его не нужно :). Если серьёзно, сегодня я расскажу о тех изменениях, которые мы внесли в алгоритм в форке Tarantool от Picodata, и неизбежно коснусь более глубокой проблематики работы LSM-деревьев, а конкретнее – работы планировщика слияний (compaction scheduler).
https://habr.com/ru/companies/arenadata/articles/1018042/
Алгоритмы и Структуры данных
Хабр
Как мы пересобрали сборку мусора в Vinyl
В предыдущей статье о Vinyl я рассказывал об архитектуре LSM-движка Tarantool. Восемь лет, прошедшие с момента с написания статьи, показали, что Vinyl сразу получился идеальным и менять его не...
Как бы я рассказал про линейную регрессию (если б меня кто-то спросил)
Да не читайте вы этот абзац, — лучше проскролльте статью в течение двух минут до конца. Акцентируя внимание только на визуализациях вы сможете понять стоит ли вчитываться (поскольку все ключевые темы обозначены не только в тексте, но и в графиках и анимациях). От себя же добавлю, что данный пост может быть полезен как и начинающим дата саентистам и всем специалистам кто так или иначе работает с данными, так и коллегам с опытом, которым хочется освежить в памяти некоторые аспекты.
https://habr.com/ru/articles/1013998/
Алгоритмы и Структуры данных
Да не читайте вы этот абзац, — лучше проскролльте статью в течение двух минут до конца. Акцентируя внимание только на визуализациях вы сможете понять стоит ли вчитываться (поскольку все ключевые темы обозначены не только в тексте, но и в графиках и анимациях). От себя же добавлю, что данный пост может быть полезен как и начинающим дата саентистам и всем специалистам кто так или иначе работает с данными, так и коллегам с опытом, которым хочется освежить в памяти некоторые аспекты.
https://habr.com/ru/articles/1013998/
Алгоритмы и Структуры данных
Хабр
Как бы я рассказал про линейную регрессию (если б меня кто-то спросил)
Дорожная карта текущей статьи со всеми побочными (необязательными) ответвлениями. Цвет дорог соотносится с окантовкой графиков соответствующих разделов, то есть ниже по тексту все графики относящиеся...
👍1
Краткий справочник про внимания (self-attention, cross-attention, multi-head attention)
Механизм внимания (Attention) - это метод в искусственном интеллекте, который позволяет нейросети динамически определять, какие части входных данных наиболее важны для текущей задачи. Он работает через вычисление весов важности для разных элементов входа: более важные элементы получают больший вес, а менее важные - меньший. Затем модель формирует взвешенную сумму представлений, создавая новый контекстный вектор.
Self-attention, в свою очередь, помогает модели понимать, как разные элементы входных данных связаны между собой. Например, как разные части информации взаимодействуют и влияют друг на друга в общем контексте. Этот механизм обеспечивает логическую связность и целостное понимание всей структуры данных
https://habr.com/ru/articles/1020624/
Алгоритмы и Структуры данных
Механизм внимания (Attention) - это метод в искусственном интеллекте, который позволяет нейросети динамически определять, какие части входных данных наиболее важны для текущей задачи. Он работает через вычисление весов важности для разных элементов входа: более важные элементы получают больший вес, а менее важные - меньший. Затем модель формирует взвешенную сумму представлений, создавая новый контекстный вектор.
Self-attention, в свою очередь, помогает модели понимать, как разные элементы входных данных связаны между собой. Например, как разные части информации взаимодействуют и влияют друг на друга в общем контексте. Этот механизм обеспечивает логическую связность и целостное понимание всей структуры данных
https://habr.com/ru/articles/1020624/
Алгоритмы и Структуры данных
Хабр
Краткий справочник про внимания (self-attention, cross-attention, multi-head attention)
Механизм внимания (Attention) - это метод в искусственном интеллекте, который позволяет нейросети динамически определять, какие части входных данных наиболее важны для текущей задачи. Он работает...
Укрощаем рыночный хаос: Пишем Liquid Neural Network (LNN) на PyTorch для алготрейдинга
Если вы когда-нибудь пытались натравить классическую LSTM на минутные свечи волатильных активов, вы знаете эту боль. Сначала Loss красиво падает на трейне, вы предвкушаете покупку острова, а на тесте модель превращается в тыкву. Она либо предсказывает скользящую среднюю со сдвигом на один шаг, либо упирается в «стену» Loss = 0.693 (то есть −ln(0.5)), сводя всё к подбрасыванию монетки.
Проблема не в вас. Проблема в том, что рекуррентные сети (RNN, LSTM, GRU) живут в дискретном времени. Для них шаг между 10:00 и 10:01 абсолютно идентичен шагу между пятницей и утром понедельника. Они не умеют сжимать и растягивать восприятие времени, когда волатильность взрывается.
В этой статье мы отойдем от мейнстримных архитектур и напишем с нуля Liquid Neural Network (Жидкую Нейронную Сеть). Мы заставим время течь непрерывно, используя численные методы дифференциальных уравнений прямо внутри PyTorch-графа, и посмотрим, как она вытаскивает скрытый макро-тренд из абсолютного рыночного хаоса.
https://habr.com/ru/articles/1020630/
Алгоритмы и Структуры данных
Если вы когда-нибудь пытались натравить классическую LSTM на минутные свечи волатильных активов, вы знаете эту боль. Сначала Loss красиво падает на трейне, вы предвкушаете покупку острова, а на тесте модель превращается в тыкву. Она либо предсказывает скользящую среднюю со сдвигом на один шаг, либо упирается в «стену» Loss = 0.693 (то есть −ln(0.5)), сводя всё к подбрасыванию монетки.
Проблема не в вас. Проблема в том, что рекуррентные сети (RNN, LSTM, GRU) живут в дискретном времени. Для них шаг между 10:00 и 10:01 абсолютно идентичен шагу между пятницей и утром понедельника. Они не умеют сжимать и растягивать восприятие времени, когда волатильность взрывается.
В этой статье мы отойдем от мейнстримных архитектур и напишем с нуля Liquid Neural Network (Жидкую Нейронную Сеть). Мы заставим время течь непрерывно, используя численные методы дифференциальных уравнений прямо внутри PyTorch-графа, и посмотрим, как она вытаскивает скрытый макро-тренд из абсолютного рыночного хаоса.
https://habr.com/ru/articles/1020630/
Алгоритмы и Структуры данных
Хабр
Укрощаем рыночный хаос: Пишем Liquid Neural Network (LNN) на PyTorch для алготрейдинга
Если вы когда-нибудь пытались натравить классическую LSTM на минутные свечи волатильных активов, вы знаете эту боль. Сначала Loss красиво падает на трейне, вы предвкушаете покупку острова, а на тесте...
Обзор последних исследований Semrush про AI-поиск: как на самом деле формируются ИИ-ответы
Рынок потихоньку обретает опору вновь.
Semrush выкатывает одни из первых внятных исследований про механику AI-ответов: какая логика отбора, какие используются источники и критерии контента.
https://habr.com/ru/articles/1025504/
Алгоритмы и Структуры данных
Рынок потихоньку обретает опору вновь.
Semrush выкатывает одни из первых внятных исследований про механику AI-ответов: какая логика отбора, какие используются источники и критерии контента.
https://habr.com/ru/articles/1025504/
Алгоритмы и Структуры данных
Хабр
Обзор последних исследований Semrush про AI-поиск: как на самом деле формируются ИИ-ответы
Рынок потихоньку обретает опору вновь. Semrush выкатывает одни из первых внятных исследований про механику AI-ответов: какая логика отбора, какие используются источники и критерии контента....
Как я выбираю моменты для Shorts: почему LLM + транскрипт почти всегда дают мусор
Это третья статья про мой "аниме завод" — систему, которая автоматически превращает длинные эпизоды в Shorts.
Если хотите полный контекст, вот предыдущие части:
https://habr.com/ru/articles/1021552/
Алгоритмы и Структуры данных
Это третья статья про мой "аниме завод" — систему, которая автоматически превращает длинные эпизоды в Shorts.
Если хотите полный контекст, вот предыдущие части:
https://habr.com/ru/articles/1021552/
Алгоритмы и Структуры данных
Хабр
Как я выбираю моменты для Shorts: почему LLM + транскрипт почти всегда дают мусор
Это третья статья про мой "аниме завод" — систему, которая автоматически превращает длинные эпизоды в Shorts. Если хотите полный контекст, вот предыдущие части: Как я построил «аниме-завод»: систему,...
Простая нейронная сеть на чистом C++
Ни Python, ни PyTorch, ни NumPy, … всего 260 строк кода на чистом C++ достаточно, чтобы обучить, оценить и протестировать простой двоичный классификатор, различающий рукописные цифры 0 и 1.
https://habr.com/ru/companies/piter/articles/1021738/
Алгоритмы и Структуры данных
Ни Python, ни PyTorch, ни NumPy, … всего 260 строк кода на чистом C++ достаточно, чтобы обучить, оценить и протестировать простой двоичный классификатор, различающий рукописные цифры 0 и 1.
https://habr.com/ru/companies/piter/articles/1021738/
Алгоритмы и Структуры данных
Хабр
Простая нейронная сеть на чистом C++
Ни Python, ни PyTorch, ни NumPy, … всего 260 строк кода на чистом C++ достаточно, чтобы обучить, оценить и протестировать простой двоичный классификатор, различающий рукописные цифры 0 и 1. Недавно за...