Всё про Алгоритмы и Структуры данных
7.8K subscribers
342 photos
36 videos
5 files
3.09K links
Мы не претендуем на оригинальность контента, мы лишь собираем материал из открытых источников.

Ссылка: @Portal_v_IT

Сотрудничество, авторские права: @oleginc, @tatiana_inc

Канал на бирже: https://telega.in/c/structuredata
Download Telegram
Как собрать дашборд для анализа алготрейдинга без программирования: кейс на HTML + LLM

400 000 строк в файле Excel, а пропущенный день это дырка в истории и отчёты, которые тормозят даже на мощном ПК — именно с этим столкнулся алготрейдер Дмитрий Овчинников. Но он смог при помощи ИИ ассистента создать дашборд, который упрощает управлением его 100+ стратегиями в алготрейдинге. И это, по его словам, как пересесть с запорожца на вертолёт.

На Хабре вообще очень мало пишут про алготрейдеров, а уж про работающие алгоритмы так и вообще ничего. А есть такая важная для любого сторонника алгоритмов тема как управление и отображение результатов трейдинга и она определенно заслуживает внимания.

https://habr.com/ru/articles/1019640/

Алгоритмы и Структуры данных
Зная эти паттерны ты решишь 60% задач на собеседовании

У меня 1000+ баллов на Codewars, много решённых задач на LeetCode и просто бесконечное множество решенных задач из разных приложений и собеседований.

Но каждый раз я сталкиваюсь с одними проблемами: при решении задачи я часто путаюсь, выбираю не самый оптимальный путь, трачу время на странные подходы и в итоге прихожу к неоптимальному решению с лишними затратами времени, знакомо?

Проведя небольшую рефлексию, я понял в чем проблема: решая задачи, я вообще не задумывался о паттернах, хотя это главное из чего должно строиться решение задачи!

https://habr.com/ru/articles/1020222/

Алгоритмы и Структуры данных
Зачем дата-сайенсу дисперсия

Дисперсия — один из важнейших статистических показателей: oна играет центральную роль в оценке изменчивости данных, понимании поведения ML-моделей и снижении ошибок. В этой статье мы разберeм, почему правильное использование дисперсии критично для Data Science и разработаем нашу собственную модель Random Forest.

https://proglib.io/p/zachem-data-sayentistu-dispersiya-2025-04-11

Алгоритмы и Структуры данных
Как мы пересобрали сборку мусора в Vinyl

В предыдущей статье о Vinyl я рассказывал об архитектуре LSM-движка Tarantool. Восемь лет, прошедшие с момента с написания статьи, показали, что Vinyl сразу получился идеальным и менять его не нужно :). Если серьёзно, сегодня я расскажу о тех изменениях, которые мы внесли в алгоритм в форке Tarantool от Picodata, и неизбежно коснусь более глубокой проблематики работы LSM-деревьев, а конкретнее – работы планировщика слияний (compaction scheduler).

https://habr.com/ru/companies/arenadata/articles/1018042/

Алгоритмы и Структуры данных
Как бы я рассказал про линейную регрессию (если б меня кто-то спросил)

Да не читайте вы этот абзац, — лучше проскролльте статью в течение двух минут до конца. Акцентируя внимание только на визуализациях вы сможете понять стоит ли вчитываться (поскольку все ключевые темы обозначены не только в тексте, но и в графиках и анимациях). От себя же добавлю, что данный пост может быть полезен как и начинающим дата саентистам и всем специалистам кто так или иначе работает с данными, так и коллегам с опытом, которым хочется освежить в памяти некоторые аспекты.

https://habr.com/ru/articles/1013998/

Алгоритмы и Структуры данных
👍1
Краткий справочник про внимания (self-attention, cross-attention, multi-head attention)

Механизм внимания (Attention) - это метод в искусственном интеллекте, который позволяет нейросети динамически определять, какие части входных данных наиболее важны для текущей задачи. Он работает через вычисление весов важности для разных элементов входа: более важные элементы получают больший вес, а менее важные - меньший. Затем модель формирует взвешенную сумму представлений, создавая новый контекстный вектор.

Self-attention, в свою очередь, помогает модели понимать, как разные элементы входных данных связаны между собой. Например, как разные части информации взаимодействуют и влияют друг на друга в общем контексте. Этот механизм обеспечивает логическую связность и целостное понимание всей структуры данных

https://habr.com/ru/articles/1020624/

Алгоритмы и Структуры данных
Укрощаем рыночный хаос: Пишем Liquid Neural Network (LNN) на PyTorch для алготрейдинга

Если вы когда-нибудь пытались натравить классическую LSTM на минутные свечи волатильных активов, вы знаете эту боль. Сначала Loss красиво падает на трейне, вы предвкушаете покупку острова, а на тесте модель превращается в тыкву. Она либо предсказывает скользящую среднюю со сдвигом на один шаг, либо упирается в «стену» Loss = 0.693 (то есть −ln(0.5)), сводя всё к подбрасыванию монетки.

Проблема не в вас. Проблема в том, что рекуррентные сети (RNN, LSTM, GRU) живут в дискретном времени. Для них шаг между 10:00 и 10:01 абсолютно идентичен шагу между пятницей и утром понедельника. Они не умеют сжимать и растягивать восприятие времени, когда волатильность взрывается.

В этой статье мы отойдем от мейнстримных архитектур и напишем с нуля Liquid Neural Network (Жидкую Нейронную Сеть). Мы заставим время течь непрерывно, используя численные методы дифференциальных уравнений прямо внутри PyTorch-графа, и посмотрим, как она вытаскивает скрытый макро-тренд из абсолютного рыночного хаоса.

https://habr.com/ru/articles/1020630/

Алгоритмы и Структуры данных
Обзор последних исследований Semrush про AI-поиск: как на самом деле формируются ИИ-ответы

Рынок потихоньку обретает опору вновь.

Semrush выкатывает одни из первых внятных исследований про механику AI-ответов: какая логика отбора, какие используются источники и критерии контента.

https://habr.com/ru/articles/1025504/

Алгоритмы и Структуры данных
Как Pizza Tycoon симулировала дорожное движение на процессоре с частотой 25 МГц

Я работал над Pizza Legacy — опенсорсным воссозданием игры 1994 года Pizza Tycoon для DOS. В игре есть вид на улицы города, при скроллинге которого игрок наблюдает постоянный поток машин. Это примерно 20-30 маленьких спрайтов, однако они едут по дорожной сети, создают очереди на перекрёстках и в целом выглядят как оживлённый город. Да, симуляция иногда глючит, машины проезжают друг через друга, но этого достаточно, чтобы придать карте ощущение жизни. И всё это на процессоре 386 с частотой 25 МГц.

https://habr.com/ru/articles/1021804/

Алгоритмы и Структуры данных
Поиск по коду: почему просто проиндексировать все коммиты — плохая идея

Привет, Хабр! Меня зовут Владимир Бобров, я разработчик в Yandex Infrastructure. Занимаюсь навигацией и поиском по коду на нашей платформе для полного цикла разработки IT-продуктов — SourceCraft.

Все мы сталкивались с классическими алгоритмами на курсах, олимпиадах или собеседованиях и, куда более редко, на практике. Но даже в реальной разработке возникают ситуации, когда готового решения нет, а простое не подходит.

Сегодня расскажу как раз о такой задаче, над которой работала наша команда, — поиск по коду относительно произвольного коммита. Покажу, как много вариантов мы перебрали, что в итоге выбрали и почему.

https://habr.com/ru/companies/sourcecraft/articles/1021852/

Алгоритмы и Структуры данных
1👍1
Как попасть в ответы нейросетей: ChatGPT, Google AI, Яндекс.Алиса, Perplexity, Claude, Gemini, DeepSeek

Как далеко вперёд собирается рынок?
Цифры и впечатляют, и оставляют за собой кучу вопросов одновременно:

Глобальный рынок генеративного ИИ растёт кратно: оценки доходят до $1,3–1,5 трлн к 2032–2035 году

Только рынок LLM прогнозируется на уровне $149+ млрд к 2035 году

В России — рынок ИИ уже измеряется сотнями миллиардов рублей и растёт двузначными темпами ежегодно

И главное — каждый третий пользователь уже использует ИИ для принятия решений (покупки, выбор подрядчиков, анализ)

58% потребителей уже заменяют традиционные поисковики генеративным ИИ при поиске рекомендаций товаров и услуг, а 71% хотят видеть такие инструменты встроенными в покупательский опыт.

https://habr.com/ru/articles/1021980/

Алгоритмы и Структуры данных
Парадокс ансамблей: почему «слабые» модели иногда побеждают «сильные»

Недавно я провёл эксперимент, который противоречит интуиции большинства практиков: пул из индивидуально более слабых моделей стабильно превосходит пул из более качественных моделей при объединении в ансамбль.

https://habr.com/ru/articles/1022318/

Алгоритмы и Структуры данных
1
AGC или как перестать подстраивать громкость вручную

Я не являюсь профессиональным DSP разработчиком, моя стезя — системное программирование и разработках встраиваемых систем, в частности, специальных систем связи для работы с VoIP. Данная статья рассчитана на тех, кому интересны алгоритмы обработки звука и кто начинает свой путь в их изучении. Здесь я хочу описать свой путь в исследовании и реализации одного из алгоритмов. На Хабре уже выходили статьи на данную тему. Первая касалась аппаратной реализации, а вторая вышла довольно давно, но теория в ней не потеряла актуальности.

https://habr.com/ru/articles/1022424/

Алгоритмы и Структуры данных
Как мы перестали молиться на AI и собрали параноидальный конвейер для МРТ (с открытым кодом)

На каждой второй конференции по медицинскому AI звучит один и тот же сценарий: «Дообучим мультимодальную модель, скормим ей DICOM, и она сама выдаст диагноз». На практике, когда этот скрипт пытается попасть в реальную клинику, начинаются неожиданности. OOM на GPU, врачи не понимают, где галлюцинация модели, а где финальный отчёт, двухгигабайтные NIfTI-исследования рвут таймауты балансировщика.

Я какое-то время тоже думала, что главное — это модель. А потом пересмотрела собственный код. У меня уже есть MRI Second Opinion. Но это не нейросеть. Это контур с доменной моделью, конвейером приёма данных, циклом обработки, обязательным врачебным рецензированием, финализацией и отдельным репозиторием с открытым кодом. В медицинском IT модель — не главная проблема. Главная проблема — чтобы между входом и выходом ничего не потерялось и не сломалось.

https://habr.com/ru/articles/1022436/

Алгоритмы и Структуры данных
2
Объясняем векторные базы данных на трех уровнях сложности

Из этого материала вы узнаете о том, как работают векторные базы данных, разобравшись с широким диапазоном тем — от основ поиска по сходству, до стратегий индексирования, которые позволяют применять на практике крупномасштабный поиск данных.

https://habr.com/ru/companies/wunderfund/articles/1022820/

Алгоритмы и Структуры данных
Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь

Мы решаем эту задачу через матричный фильтр. На датасете в 50 млн точек это даёт ~100% Coverage, ~100% Visual Score. LTTB на тех же данных — 16.4% и 40.8% соответственно. По производительности мы остаёмся в тех же пределах.

Под катом — почему стандартные алгоритмы фундаментально не подходят для scatter-графиков, как устроен наш подход и результаты бенчмарка на ~3 000 реальных промышленных датасетах от 19 тысяч до 50+ миллионов точек.

https://habr.com/ru/articles/1022894/

Алгоритмы и Структуры данных
Почему баг в imageproc потребовал изменения API в image-rs

Речь пойдет о двух крейтах: imageproc и image. imageproc - библиотека обработки изображений, основанная на библиотеке image.

При рендере текста в imageproc я столкнулся с багом: алгоритм корректно работал для RGB, но ломался для RGBA.

Попытка исправить его привела к неожиданному результату - фикс оказался невозможен без изменения API image-rs.

Разберём, почему так произошло.

https://habr.com/ru/articles/1023514/

Алгоритмы и Структуры данных
Как мы погрузились в теорию компиляторов и написали свой транслятор кода

Всем привет! Меня зовут Егор Ермаков, я бэкенд‑разработчик в группе разработки процессинга Техплатформы городских сервисов Яндекса.

Техплатформа — это инфраструктурная платформа для всех городских сервисов Яндекса: Такси, Еды, Лавки, Доставки, а также для различных шеринговых сервисов — каршеринга, зарядных станций, самокатов и других.

Один из ключевых сервисов нашей команды — ProcaaS (Processing as a Service). Он предназначен для асинхронного выполнения динамических сценариев, которые:

https://habr.com/ru/companies/yandex/articles/1021956/

Алгоритмы и Структуры данных
1
Моцарт ex Machina: Кто научил ИИ сочинять музыку

По всей видимости, робот действительно может написать симфонию. По крайней мере, творения нейро-Бетховенов и Мэдлибов могут водрузить кромешное иго на стриминговых площадках уже в обозримом будущем — в конце 2025 туда загружалось порядка 30 000 нейротреков ежедневно.

Но кто первым познакомил компьютер с моцартовским ремеслом? И при чем здесь “Уральские напевы”?

Брамс (и бадабумс) из коробки
Механическая музыка, наверно, стара как мир. Известно, что автоматизацию “прикрутили” к звуку еще в 250 году до н.э. Ктесибий из Александрии сконструировал часы-клепсидры, в которых меняющийся уровень воды заставлял звенеть маленький колокол. В других вариациях там была гудящая труба, своеобразная вувузела античности.

https://habr.com/ru/companies/studyai/articles/1023710/

Алгоритмы и Структуры данных