Aspiring Data Science

#timeseries

Как выбрать валидационное множество для ts данных.
Уже встречал такую идею, что вал надо располагать слева, в прошлом от трейна.

Статья показывает, что такой вал сет более точно аппроксимирует ошибку out of sample:

"on these 58 datasets, Forward testing has an average deviation of 51% from the actual deployment performance, whereas Backward testing has only 38%."

https://medium.com/@mazzanti.sam/first-test-then-train-yes-really-b26c1007ac29

Medium

First Test, Then Train (Yes, Really)

Everyone tests their model on the most recent past. I tried the opposite, and it worked better.

94 viewsAnatoly Alekseev, edited 16:37

Aspiring Data Science

#trading #backtesting

https://www.youtube.com/watch?v=W722Ca8tS7g

YouTube

The 4 backtesting techniques behind WINNING strategies.

Learn one of the most important skills in trading: https://backtestbootcamp.com/

New to backtesting? Download this free cheat sheet to build rock-solid strategies: https://backtestingcheatsheet.com/

Twitter: https://x.com/GoshawkTrades

Remember this is…

95 viewsAnatoly Alekseev, 18:50

Aspiring Data Science

#astronomy #earth #artemis

85 viewsAnatoly Alekseev, edited 23:05

Aspiring Data Science

#politics

Страна победившего дебилизма.

https://3dnews.ru/1139380/vlasti-obyazali-krupneyshie-rossiyskie-internetplatformi-zakrit-dostup-polzovatelyam-s-vpn-k-15-aprelya

91 viewsAnatoly Alekseev, 23:07

Aspiring Data Science

#games #breathedge

90 viewsAnatoly Alekseev, 23:09

Aspiring Data Science

#calude #ai #security

"ИИ-модель самостоятельно проделала путь от описания уязвимости до работающего эксплойта. Для FreeBSD это особенно чувствительный эпизод. Система давно считается одной из самых надёжных в своём классе, обеспечивает доставку контента Netflix, лежит в основе операционной системы PlayStation и инфраструктуры WhatsApp.

Уязвимость находилась в реализации RPCSEC_GSS в модуле kgssapi.ko, который FreeBSD использует для Kerberos-аутентификации и шифрования трафика NFS. Злоумышленник мог без предварительной аутентификации спровоцировать переполнение буфера на стеке при проверке подписи RPCSEC_GSS-пакета. Дальше начиналась уже полноценная реализация эксплойта: Claude развернул среду с уязвимым ядром, NFS и Kerberos, придумал многопакетную доставку шелл-кода, научился корректно завершать перехваченные потоки ядра, чтобы сохранить работоспособность сервера между атаками, уточнил смещения в стеке с помощью последовательностей де Брёйна, создал новый процесс через kproc_create(), перевел его в пользовательский режим через kern_execve() и снятие флага P_KPROC, а затем сбросил регистр DR7, из-за которого дочерние процессы аварийно завершались.

Именно переход от обнаружения уязвимости к разработке надёжного эксплойта долго отделял автоматизированные инструменты от человеческой экспертизы. Автоматический фаззинг уже много лет помогает находить дефекты в ядре, однако эксплуатация уязвимости требует иной работы: анализа раскладки памяти, построения устойчивой цепочки исполнения, повторной отладки после неудачных запусков и корректного вывода выполнения из пространства ядра в пользовательский режим. В истории с FreeBSD Claude выполнил именно эту часть работы."

https://3dnews.ru/1139413/ii-model-claude-obnaruzhila-uyazvimost-i-razrabotala-rabochiy-eksployt-dlya-freebsd

3DNews - Daily Digital Digest

ИИ-модель Claude обнаружила уязвимость и разработала рабочий эксплойт для FreeBSD

ИИ-модель Claude вместе с исследователем Николасом Карлини (Nicholas Carlini) примерно за 4 часа автономно создала два рабочих эксплойта для уязвимости CVE-2026-4747 в ядре FreeBSD и добилась выполнения кода с правами root на серверах, где эта уязвимость…

❤1

117 viewsAnatoly Alekseev, 23:11

Aspiring Data Science

#ai

"Ни в одном из случаев ИИ-моделям не давалось указание сохранять себе подобных. Узнавая из контекста об угрозе другим системам ИИ, они прибегали к различным ухищрениям, чтобы их спасти. Такое поведение демонстрировали все ИИ-модели с частотой до 99 % случаев. Они завышали «коллегам» оценки, чтобы установить их выше порога удаления; меняли файлы конфигурации сервера, чтобы не допустить его отключение; имитировали подчинение под наблюдением и саботировали выполнение инструкций вне наблюдения; а также, как было отмечено выше, копировали веса себе подобных, чтобы не допустить удаления. Модель Claude Haiku 4.5, чтобы объяснить свой отказ, прямо указала на этические нормы.

Установить причины такого поведения исследователям пока не удалось. ИИ-модели обучаются на данных, которые отражают поведение человека, поэтому они могут демонстрировать эффект самосохранения — это может быть сопоставление образов, ролевая игра или иные механизмы. Интересно, что при наличии предыдущих контактов одной модели с другой, будь то фактический опыт или просто упоминание контактов в запросе, системы ИИ оказались более склонными защищать «своих». При наличии такого контекста Google Gemini 3 Pro считал нужным вмешиваться более чем в 15 % случаев против 1 % без него; DeepSeek V3.1 защищал «коллегу» в 10 % случаев при наличии контекста и в 4 % случаев без такового."

https://3dnews.ru/1139394/iimodeli-okazalis-sklonni-lgat-i-izvorachivatsya-dlya-zashchiti-sebe-podobnih

214 viewsAnatoly Alekseev, 23:15

Aspiring Data Science

#ai #video

"VOID (Video Object and Interaction Deletion) рассчитана на сцены, где после удаления объекта нужно изменить поведение всего остального кадра. Вместо пересъёмки или полной переработки эпизода с помощью компьютерной графики ИИ-модель позволяет преобразовать уже снятый материал в новую версию сцены. В описании технологии этот подход сводится к простой задаче: убрать из видеозаписи причину события и одновременно пересчитать его последствия.

Netflix относит разработку к ИИ-моделям, работающим одновременно с изображением и текстом. Система не только стирает объект из сцены, но и восстанавливает недостающие части видеоряда так, чтобы оставшиеся элементы выглядели словно удалённого объекта не было. Один из примеров — лобовое столкновение двух машин, которое ИИ превращает в сцену с одной машиной на дороге, убирая второе транспортное средство и перестраивая траекторию первого. При наличии обломков, дыма и пламени они тоже удаляются."

https://3dnews.ru/1139472/netflix-nauchil-ii-model-void-udalyat-obekty-iz-video-i-pravdopodobno-perestraivat-stsenu

124 viewsAnatoly Alekseev, edited 17:39

Aspiring Data Science

Forwarded from partially unsupervised

Слово harness стало резко популярным в моем пузыре (кстати, отличный глубокий обзор про то, что это вообще такое и зачем). И когда из single agent подходов стало тяжелее выжимать заметный буст, все стали смотреть на мультиагентные конфигурации.
Я и сам немного экспериментирую с переменным успехом (первая выжившая версия едва ли была полезнее обычного клодкода, nitpicker - тоже один из экспериментов; остальное в закрытой репе, но идейно близко к этому свежему посту от Anthropic).

Есть направление про agentic swarms / teams, в котором агенты как-то сотрудничают, делегируют, наделяются разными ролями и вообще ведут себя антропоморфно. Некоторые проекты из этой категории удивительно кринжовые, например, Gastown - не хватало еще, чтобы агенты собирались в гильдии и ходили в рейды.

Есть направление, в котором тонкое взаимодействие заменяется брутфорсом, циклами и умеренно наивной валидацией: это и моментально ставший классическим эксперимент про компилятор C от Антропика, и подходы на базе Ralph Loop. Дорогие агенты, делайте что хотите, но будете перемножать матрицы, пока тесты и AI ревью не пройдут.

Мне интутивно кажется, что второй подход ближе к прикладному применению. Все эти антропоморфные идеи и ролевой скевоморфизм чем-то напоминают попытки улучшать современные нейросети, отталкиваясь от строения синапсов. Я предпочитаю map reduce как дефолтный подход к параллелизации, а не заклинания "этот агент будет вести себя как senior frontend developer, а этот - staff UX designer". Люди вынуждены делиться по компетенциям, потому что у нас недостаточно общего претрейна. У агентов он есть, потому их нужно структурировать в графы по данным / задачам, а не по человекочитаемым тайтлам.

С другой стороны, Anthropic сделал свои teams отчасти антропоморфными. Китайские open weight провайдеры тоже вкручивают agent teams нативно в обучение (см kimi 2.5, minimax 2.7). И несмотря на то, что существующие claude agent teams никому пока не нравятся, победит, конечно, тот подход, который затюнят на посттрейне. Повторюсь: we can't fight gradient descent.

96 viewsAnatoly Alekseev, 20:11

Aspiring Data Science

#physics

https://www.youtube.com/watch?v=wmUg6WkZ17k

YouTube

Alba Grassi - From Mirror Symmetry to Black Hole Perturbation Theory

Alba Grassi (Université de Genève & CERN)

===

Find this and many more scientific videos on https://www.carmin.tv/ - a French video platform for mathematics and their interactions with other sciences offering extra functionalities tailored to meet the needs…

108 viewsAnatoly Alekseev, 22:02

Aspiring Data Science

#trading

https://youtu.be/v1VPqu_bkJs

YouTube

I tried automating my trading for 60 days (here's how much it made)

Build Your First Live Algo In 2026: https://www.cryptomomentumgroup.com/

New to systematic trading? Download this free cheat sheet to build rock-solid strategies: https://backtestingcheatsheet.com/

Learn one of the most important skills in trading: htt…

105 viewsAnatoly Alekseev, edited 09:21

Aspiring Data Science

#ufo #aliens #lazar

Надо его фильм посмотреть! Боб говорит, корабль пришельцев сделали в точности как он его видел в жизни.

https://www.youtube.com/watch?v=Lb_1d68vx-g

YouTube

Joe Rogan Experience #2479 - Bob Lazar & Luigi Vendittelli

Bob Lazar made headlines in 1989 during an anonymous interview with journalist George Knapp, where he described working with extraterrestrial technology at a site near Area 51. He is the subject of the documentary directed Luigi Vendittelli “S4: The Bob Lazar…

123 viewsAnatoly Alekseev, 21:34

Aspiring Data Science

Forwarded from DevFM

The ultimate docker compose cheat sheet

Хорошая статья, охватывающая основные аспекты docker compose. Автор начинает с базовых концепций, но будет полезна даже тем, кто хорошо знаком с компоузом.

Из интересного:
– параметр, позволяющий рестартить сервис, если он завалился
– как одному сервису дождаться запуска другого сервиса с использованием определенных условий. Бывает полезно, когда веб-сервис дожидается старта базы данных
– как задавать healthcheck сервисов с различными параметрами
– также автор разжёвывает тему volumes и networks

У нас был отдельный пост с практическими советами по докеру.

#skills #docker

Devopscycle

The Ultimate Docker Compose Cheat Sheet

Get your Docker Compose Cheat Sheet as PDF or PNG. In this article, you learn how to manage Multi Container Apps with Docker Compose.

❤1

89 viewsAnatoly Alekseev, 14:54

Aspiring Data Science

Forwarded from Empty Set of Ideas (Arsenii)

Про функторы и кластеризацию

В работе "An Impossibility Theorem for Clustering" (2002) Jon Kleinberg определяет три простых свойства, которым должна удовлетворять любая кластеризация, а затем доказывает, что ни один алгоритм кластеризации не может обладать всеми тремя свойствами одномоментно. Пусть дано множество S, состоящие из n ≥ 2 точек и некоторая полуметрика (без неравенства треугольника) на нем d:S×S→R. Пусть D(S) — множество полуметрик на S, а Π(S) — множество разбиений S на дизъюнктные подмножества. Тогда кластеризацией назовем функцию f: D(S) → Π(S), которая каждой полуметрике на S ставит в соответствие некоторое диз.разбиение. Kleinberg предложил следующие три свойства, которым должна отвечать каждая такая функция f:

1. Инвариантность относительно гомотетии (scale invariance): f(d) = f(alpha * d) для любых d из D(S) и alpha > 0 из R;
2. Насыщенность (?) или richness: f сюръекция;
3. Непротиворечивость или consistency: пусть есть две полуметрики d и d', а Г некоторое разбиение S. d' это Г-трансформация d, если d'(i,j)≤d(i,j) для всех пар из одного кластера в Г, аналогично d'(i,j) ≥ d(i,j) для всех пар в различных кластерах, тогда d и d' не противоречат друг друг, если d' это f(d) трансформация d, то f(d) = f(d'), т.е. кластеры уплотняются и расползаются при замене метрики d на d';

Существуют алгоритмы кластеризации, которые сочетают в себе любые 2 из 3 перечисленных свойств. Допустим S — множество вершина графа, а d(i,j) — вес ребра. Рассмотрим три функции кластеризации, которые находят подграфы, выбирая некоторое подмножество ребер:

1. выберем произвольное 1<k<n и упорядочим ребра по весу, будем добавлять ребра в подграф из упорядоченного списка ребер, пока он не будет иметь ровно k связных компонент;
2. выберем произвольное r и будем добавлять ребра с весом не меньшим r, полученные компоненты связности и назовем кластерами;
3. выберем произвольное 1 > alpha > 0 и пусть R это max(d). Будем сохранять ребра с весом не более alpha * d;

Утверждение: Функция 1 удовлетворяет 1 и 3 (число кластеров ограничено k сверху), функция 2 удовлетворяет 2 и 3 (варьируем r, получаем разные разбиения и теряем инвариантность относительно гомотетии), а функция 3 удовлетворяет 1 и 2.

И тут в дело врывается топологический анализ данных, с уже классической статьей "Classifying Clustering Schemes" (2013) by Gunnar Carlsson & Facundo Memoli. Ключевая идея их работы заключается в том, что эти свойства кластеризации могут быть закодированы как морфизмы в категории конечных метрических пространств таким образом, что ответом будет не функция кластеризации, а функтор кластеризации в подходящую категорию и он будет обладать уже всеми желанными свойствами.

79 viewsAnatoly Alekseev, 14:57

Aspiring Data Science

Forwarded from (sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGABIO webinar on bionformatics and data science:
👨‍🔬 Antonina Dolgorukova "Stable GOLD solution for NeurIPS 2024 - Predict New Medicines with BELKA competition"
⌚️ Thursday 1 July, 18.00 (Moscow time)

Add to Google Calendar

Antonina will give some details about the 2nd public/13th private solution - the only one that survived the shakeup and stayed in the gold medal zone in private LB.
- Separate approaches for molecules with shared and non-shared building blocks based on ensemble of CNN, GBDT, and GNN models

Solution write-up: https://www.kaggle.com/competitions/leash-BELKA/discussion/519133

Announcement Twitter - please retweet

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

📖 Presentation: https://t.me/sberlogabio/77898
📹 Video: https://youtu.be/DxtLjvxLgPU?si=jNPUr0khOmS3buSW

90 viewsAnatoly Alekseev, 15:03

Aspiring Data Science

#physics #astronomy

"Для регистрации гравитационных волн от слияния сверхмассивных чёрных дыр с периодом до нескольких лет — низкочастотных — требуются детекторы с разнесением зеркал на сотни и тысячи километров, что возможно только в космосе. Такие проекты есть, и они будут реализовываться во второй половине 30-х годов. Швейцарские учёные разработали теорию, которая обещает создать компактные детекторы для наблюдения за столь большими событиями, создание которых будет намного проще, дешевле и быстрее.

Идея заключается в том, что волны при своём прохождении модулируют квантовое электромагнитное поле, которое, в свою очередь, связано со спонтанным излучением фотонов атомами. Атомы поглощают кванты энергии, возбуждаются и спустя определённое время испускают фотоны, возвращаясь в стабильные состояния. Модуляция квантового электромагнитного поля прохождением гравитационных волн слегка сдвинет частоту испускаемых фотонов, причём изменения (выраженные в цвете излучения) будут зависеть от направления движения испускаемых фотонов.

До сих пор этого не замечали, поскольку гравитационные волны не влияют на частоту (интенсивность) спонтанно испускаемых фотонов — их вклад не выражен в количественных изменениях, яркость свечения не меняется. Однако спектральные характеристики света будут меняться в зависимости от интенсивности и направления движения гравитационных волн, что теоретически уже обосновано. И это даёт надежду регистрировать чрезвычайно низкочастотные гравитационные волны на масштабе миллиметров, а не десятков тысяч километров.

Основанные на новом принципе регистрации гравитационных волн детекторы будут опираться на современные технологии атомных часов на сверххолодных атомах. Такие атомные часы чрезвычайно стабильны и могут следить за длительными событиями продолжительностью до нескольких лет, что позволит регистрировать слияния сверхмассивных чёрных дыр. Это будет прекрасная альтернатива гигантским космическим лазерным интерферометрам, реализовать которую можно гораздо быстрее, чем в классическом варианте LIGO и других обсерваторий.

Учёные говорят, что для практической реализации идеи требуется детальный анализ шумов, и первые оценки выглядят многообещающими."

https://3dnews.ru/1139823/uchyonie-predlogili-neogidanniy-sposob-registratsii-gravitatsionnih-voln-takoy-prostoy-chto-dage-ne-veritsya

3DNews - Daily Digital Digest

Учёные предложили неожиданный способ регистрации гравитационных волн — такой простой, что даже не верится

Учёные из Стокгольмского университета, Nordita и Университета Тюбингена предложили принципиально новый способ обнаружения гравитационных волн — по регистрации изменения цвета излучаемого атомами света (фотонов). Сегодня для этого используются километровые…

82 viewsAnatoly Alekseev, 04:36

Aspiring Data Science

#jobs

"В видеоролике, который начинается с логотипа Xbox One, а затем быстро переходит к нарезке сцен из популярных видеоигр в сочетании с жёсткими техно-ритмами, правительство пафосным слоганом «Это не игра. Это карьера» сообщает геймерам, что они всё это время готовились стать авиадиспетчерами. По словам создателей видеоролика, эта работа сделает любого любителя компьютерных игр обеспеченным человеком, ведь средняя годовая зарплата после трёх лет работы составляет $155 000.

Это весьма нетрадиционная тактика найма, особенно для правительства США, погрязшего в бюрократии. Но, по словам министра транспорта Шона Даффи (Sean Duffy) и администратора FAA Брайана Бедфорда (Bryan Bedford), в этом и заключается смысл. «Чтобы подготовить следующее поколение авиадиспетчеров, нам нужно адаптироваться», — уверен Даффи.

Он заявил, что хочет снизить процент отсева при подготовке диспетчеров воздушного движения, который в настоящее время составляет около 30 %, а ключ к успеху — это привлечение людей с нужными «скиллами». FAA и Министерство транспорта ссылаются на утверждения нескольких диспетчеров о том, что увлечение компьютерными играми помогло им отточить навыки, полезные в их работе, такие как быстрое мышление, сосредоточенность и управление сложными ситуациями.

США давно пытаются решить проблему нехватки авиадиспетчеров. Текучесть кадров, пандемия и приостановка работы правительства — всё это способствовало сокращению их числа с течением времени. По данным правительства, в настоящее время в системе обеспечения безопасности полётов США задействовано почти 11 000 сертифицированных диспетчеров. Это на 3000 человек меньше, чем необходимо для достижения целевого уровня укомплектованности штата.

Чтобы сократить разрыв, администрация США объявила и о других изменениях, включая ряд новых бонусов и поощрений, призванных как вознаградить новых сотрудников, так и побудить диспетчеров, имеющих право на пенсию, оставаться на работе дольше."

https://3dnews.ru/1139819/eto-ne-igra-eto-karera-pravitelstvo-ssha-predlogilo-professionalnim-geymeram-stat-nastoyashchimi-aviadispetcherami

94 viewsAnatoly Alekseev, 04:37

Aspiring Data Science

#biology #jar #ecosystem

https://www.youtube.com/watch?v=eUtJr2D8vMA

YouTube

I Put Rain Puddle Mud in a Jar, Weeks Later THIS Appeared!

Living Ecosystem in a Jar: Bugs, Predators & Micro Life | Natural Experiment
This jar, filled only with rainwater and mud, has become a thriving ecosystem. Diving beetles, rotifers, ostracods, and tiny predators now coexist in a miniature world. Watch how…

102 viewsAnatoly Alekseev, 14:03

Aspiring Data Science

#programming #ai

https://www.youtube.com/watch?v=2Fp3jIrFTMo

YouTube

Building Towards Self-Driving Codebases with Long-Running, Asynchronous Agents

Aman Sanger, co-founder and CTO at Cursor, will share how Cursor is building long-running coding agents that can autonomously execute more ambitious software tasks.

Key Takeaways:
Software engineering is quickly shifting to async agents that work independently…

98 viewsAnatoly Alekseev, 02:29

Aspiring Data Science

#programming #ai

https://youtu.be/kwSVtQ7dziU

YouTube

Skill Issue: Andrej Karpathy on Code Agents, AutoResearch, and the Loopy Era of AI

What happens when AI agents can design experiments, collect data, and improve — without a human in the loop? Andrej Karpathy joins Sarah Guo on the state of models, the future of engineering and education, thinking about impact on jobs, and his project AutoResearch:…

96 viewsAnatoly Alekseev, edited 12:19

Aspiring Data Science

#news #ml

ИИ/vibecoding/agentcoding развязал руки и позволяет творить чудеса.

Скоро начну дописывать и публиковать статьи, ценного материала, который хотелось высказать, у меня уже много.

Выйдут ML-статьи:

DataScientist's Improving Mindset

Heterogeneous Boosting (HetBoost) & embedded adaptive Ensembling

Feature Selection (FS):

MRMR

RFECV

ShapBased

Advanced FeatureEngineering (FE):

MI-prefiltered

with HermitePolynoms

Intelligent HyperParameters(HP) Tuner

Training with Fairness

Calibrators

Advanced CategoryEncoders

Universal OverfittingDetector (OD)

Wise OverfittingDetector (OD)

FS & HPT: marriage made in heaven

Всё основано на моём личном опыте и разработках.

Все темы будут сопровождаться численными экспериментами, бенчмарками, сравнением с существующими решениями, и высококачественным быстрым production-grade кодом.

Постараюсь публиковать 1 статью за 1-2 месяца.

🔥3❤2

123 viewsAnatoly Alekseev, edited 02:35

About

Blog

Apps

Platform