Aspiring Data Science

Forwarded from DevFM

The ultimate docker compose cheat sheet

Хорошая статья, охватывающая основные аспекты docker compose. Автор начинает с базовых концепций, но будет полезна даже тем, кто хорошо знаком с компоузом.

Из интересного:
– параметр, позволяющий рестартить сервис, если он завалился
– как одному сервису дождаться запуска другого сервиса с использованием определенных условий. Бывает полезно, когда веб-сервис дожидается старта базы данных
– как задавать healthcheck сервисов с различными параметрами
– также автор разжёвывает тему volumes и networks

У нас был отдельный пост с практическими советами по докеру.

#skills #docker

Devopscycle

The Ultimate Docker Compose Cheat Sheet

Get your Docker Compose Cheat Sheet as PDF or PNG. In this article, you learn how to manage Multi Container Apps with Docker Compose.

❤1

89 viewsAnatoly Alekseev, 14:54

Aspiring Data Science

Forwarded from Empty Set of Ideas (Arsenii)

Про функторы и кластеризацию

В работе "An Impossibility Theorem for Clustering" (2002) Jon Kleinberg определяет три простых свойства, которым должна удовлетворять любая кластеризация, а затем доказывает, что ни один алгоритм кластеризации не может обладать всеми тремя свойствами одномоментно. Пусть дано множество S, состоящие из n ≥ 2 точек и некоторая полуметрика (без неравенства треугольника) на нем d:S×S→R. Пусть D(S) — множество полуметрик на S, а Π(S) — множество разбиений S на дизъюнктные подмножества. Тогда кластеризацией назовем функцию f: D(S) → Π(S), которая каждой полуметрике на S ставит в соответствие некоторое диз.разбиение. Kleinberg предложил следующие три свойства, которым должна отвечать каждая такая функция f:

1. Инвариантность относительно гомотетии (scale invariance): f(d) = f(alpha * d) для любых d из D(S) и alpha > 0 из R;
2. Насыщенность (?) или richness: f сюръекция;
3. Непротиворечивость или consistency: пусть есть две полуметрики d и d', а Г некоторое разбиение S. d' это Г-трансформация d, если d'(i,j)≤d(i,j) для всех пар из одного кластера в Г, аналогично d'(i,j) ≥ d(i,j) для всех пар в различных кластерах, тогда d и d' не противоречат друг друг, если d' это f(d) трансформация d, то f(d) = f(d'), т.е. кластеры уплотняются и расползаются при замене метрики d на d';

Существуют алгоритмы кластеризации, которые сочетают в себе любые 2 из 3 перечисленных свойств. Допустим S — множество вершина графа, а d(i,j) — вес ребра. Рассмотрим три функции кластеризации, которые находят подграфы, выбирая некоторое подмножество ребер:

1. выберем произвольное 1<k<n и упорядочим ребра по весу, будем добавлять ребра в подграф из упорядоченного списка ребер, пока он не будет иметь ровно k связных компонент;
2. выберем произвольное r и будем добавлять ребра с весом не меньшим r, полученные компоненты связности и назовем кластерами;
3. выберем произвольное 1 > alpha > 0 и пусть R это max(d). Будем сохранять ребра с весом не более alpha * d;

Утверждение: Функция 1 удовлетворяет 1 и 3 (число кластеров ограничено k сверху), функция 2 удовлетворяет 2 и 3 (варьируем r, получаем разные разбиения и теряем инвариантность относительно гомотетии), а функция 3 удовлетворяет 1 и 2.

И тут в дело врывается топологический анализ данных, с уже классической статьей "Classifying Clustering Schemes" (2013) by Gunnar Carlsson & Facundo Memoli. Ключевая идея их работы заключается в том, что эти свойства кластеризации могут быть закодированы как морфизмы в категории конечных метрических пространств таким образом, что ответом будет не функция кластеризации, а функтор кластеризации в подходящую категорию и он будет обладать уже всеми желанными свойствами.

79 viewsAnatoly Alekseev, 14:57

Aspiring Data Science

Forwarded from (sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGABIO webinar on bionformatics and data science:
👨‍🔬 Antonina Dolgorukova "Stable GOLD solution for NeurIPS 2024 - Predict New Medicines with BELKA competition"
⌚️ Thursday 1 July, 18.00 (Moscow time)

Add to Google Calendar

Antonina will give some details about the 2nd public/13th private solution - the only one that survived the shakeup and stayed in the gold medal zone in private LB.
- Separate approaches for molecules with shared and non-shared building blocks based on ensemble of CNN, GBDT, and GNN models

Solution write-up: https://www.kaggle.com/competitions/leash-BELKA/discussion/519133

Announcement Twitter - please retweet

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

📖 Presentation: https://t.me/sberlogabio/77898
📹 Video: https://youtu.be/DxtLjvxLgPU?si=jNPUr0khOmS3buSW

90 viewsAnatoly Alekseev, 15:03

Aspiring Data Science

#physics #astronomy

"Для регистрации гравитационных волн от слияния сверхмассивных чёрных дыр с периодом до нескольких лет — низкочастотных — требуются детекторы с разнесением зеркал на сотни и тысячи километров, что возможно только в космосе. Такие проекты есть, и они будут реализовываться во второй половине 30-х годов. Швейцарские учёные разработали теорию, которая обещает создать компактные детекторы для наблюдения за столь большими событиями, создание которых будет намного проще, дешевле и быстрее.

Идея заключается в том, что волны при своём прохождении модулируют квантовое электромагнитное поле, которое, в свою очередь, связано со спонтанным излучением фотонов атомами. Атомы поглощают кванты энергии, возбуждаются и спустя определённое время испускают фотоны, возвращаясь в стабильные состояния. Модуляция квантового электромагнитного поля прохождением гравитационных волн слегка сдвинет частоту испускаемых фотонов, причём изменения (выраженные в цвете излучения) будут зависеть от направления движения испускаемых фотонов.

До сих пор этого не замечали, поскольку гравитационные волны не влияют на частоту (интенсивность) спонтанно испускаемых фотонов — их вклад не выражен в количественных изменениях, яркость свечения не меняется. Однако спектральные характеристики света будут меняться в зависимости от интенсивности и направления движения гравитационных волн, что теоретически уже обосновано. И это даёт надежду регистрировать чрезвычайно низкочастотные гравитационные волны на масштабе миллиметров, а не десятков тысяч километров.

Основанные на новом принципе регистрации гравитационных волн детекторы будут опираться на современные технологии атомных часов на сверххолодных атомах. Такие атомные часы чрезвычайно стабильны и могут следить за длительными событиями продолжительностью до нескольких лет, что позволит регистрировать слияния сверхмассивных чёрных дыр. Это будет прекрасная альтернатива гигантским космическим лазерным интерферометрам, реализовать которую можно гораздо быстрее, чем в классическом варианте LIGO и других обсерваторий.

Учёные говорят, что для практической реализации идеи требуется детальный анализ шумов, и первые оценки выглядят многообещающими."

https://3dnews.ru/1139823/uchyonie-predlogili-neogidanniy-sposob-registratsii-gravitatsionnih-voln-takoy-prostoy-chto-dage-ne-veritsya

3DNews - Daily Digital Digest

Учёные предложили неожиданный способ регистрации гравитационных волн — такой простой, что даже не верится

Учёные из Стокгольмского университета, Nordita и Университета Тюбингена предложили принципиально новый способ обнаружения гравитационных волн — по регистрации изменения цвета излучаемого атомами света (фотонов). Сегодня для этого используются километровые…

82 viewsAnatoly Alekseev, 04:36

Aspiring Data Science

#jobs

"В видеоролике, который начинается с логотипа Xbox One, а затем быстро переходит к нарезке сцен из популярных видеоигр в сочетании с жёсткими техно-ритмами, правительство пафосным слоганом «Это не игра. Это карьера» сообщает геймерам, что они всё это время готовились стать авиадиспетчерами. По словам создателей видеоролика, эта работа сделает любого любителя компьютерных игр обеспеченным человеком, ведь средняя годовая зарплата после трёх лет работы составляет $155 000.

Это весьма нетрадиционная тактика найма, особенно для правительства США, погрязшего в бюрократии. Но, по словам министра транспорта Шона Даффи (Sean Duffy) и администратора FAA Брайана Бедфорда (Bryan Bedford), в этом и заключается смысл. «Чтобы подготовить следующее поколение авиадиспетчеров, нам нужно адаптироваться», — уверен Даффи.

Он заявил, что хочет снизить процент отсева при подготовке диспетчеров воздушного движения, который в настоящее время составляет около 30 %, а ключ к успеху — это привлечение людей с нужными «скиллами». FAA и Министерство транспорта ссылаются на утверждения нескольких диспетчеров о том, что увлечение компьютерными играми помогло им отточить навыки, полезные в их работе, такие как быстрое мышление, сосредоточенность и управление сложными ситуациями.

США давно пытаются решить проблему нехватки авиадиспетчеров. Текучесть кадров, пандемия и приостановка работы правительства — всё это способствовало сокращению их числа с течением времени. По данным правительства, в настоящее время в системе обеспечения безопасности полётов США задействовано почти 11 000 сертифицированных диспетчеров. Это на 3000 человек меньше, чем необходимо для достижения целевого уровня укомплектованности штата.

Чтобы сократить разрыв, администрация США объявила и о других изменениях, включая ряд новых бонусов и поощрений, призванных как вознаградить новых сотрудников, так и побудить диспетчеров, имеющих право на пенсию, оставаться на работе дольше."

https://3dnews.ru/1139819/eto-ne-igra-eto-karera-pravitelstvo-ssha-predlogilo-professionalnim-geymeram-stat-nastoyashchimi-aviadispetcherami

94 viewsAnatoly Alekseev, 04:37

Aspiring Data Science

#biology #jar #ecosystem

https://www.youtube.com/watch?v=eUtJr2D8vMA

YouTube

I Put Rain Puddle Mud in a Jar, Weeks Later THIS Appeared!

Living Ecosystem in a Jar: Bugs, Predators & Micro Life | Natural Experiment
This jar, filled only with rainwater and mud, has become a thriving ecosystem. Diving beetles, rotifers, ostracods, and tiny predators now coexist in a miniature world. Watch how…

102 viewsAnatoly Alekseev, 14:03

Aspiring Data Science

#programming #ai

https://www.youtube.com/watch?v=2Fp3jIrFTMo

YouTube

Building Towards Self-Driving Codebases with Long-Running, Asynchronous Agents

Aman Sanger, co-founder and CTO at Cursor, will share how Cursor is building long-running coding agents that can autonomously execute more ambitious software tasks.

Key Takeaways:
Software engineering is quickly shifting to async agents that work independently…

98 viewsAnatoly Alekseev, 02:29

Aspiring Data Science

#programming #ai

https://youtu.be/kwSVtQ7dziU

YouTube

Skill Issue: Andrej Karpathy on Code Agents, AutoResearch, and the Loopy Era of AI

What happens when AI agents can design experiments, collect data, and improve — without a human in the loop? Andrej Karpathy joins Sarah Guo on the state of models, the future of engineering and education, thinking about impact on jobs, and his project AutoResearch:…

96 viewsAnatoly Alekseev, edited 12:19

Aspiring Data Science

#news #ml

ИИ/vibecoding/agentcoding развязал руки и позволяет творить чудеса.

Скоро начну дописывать и публиковать статьи, ценного материала, который хотелось высказать, у меня уже много.

Выйдут ML-статьи:

DataScientist's Improving Mindset

Heterogeneous Boosting (HetBoost) & embedded adaptive Ensembling

Feature Selection (FS):

MRMR

RFECV

ShapBased

Advanced FeatureEngineering (FE):

MI-prefiltered

with HermitePolynoms

Intelligent HyperParameters(HP) Tuner

Training with Fairness

Calibrators

Advanced CategoryEncoders

Universal OverfittingDetector (OD)

Wise OverfittingDetector (OD)

FS & HPT: marriage made in heaven

Всё основано на моём личном опыте и разработках.

Все темы будут сопровождаться численными экспериментами, бенчмарками, сравнением с существующими решениями, и высококачественным быстрым production-grade кодом.

Постараюсь публиковать 1 статью за 1-2 месяца.

🔥3❤2

123 viewsAnatoly Alekseev, edited 02:35

Aspiring Data Science

Aspiring Data Science pinned «#news #ml ИИ/vibecoding/agentcoding развязал руки и позволяет творить чудеса. Скоро начну дописывать и публиковать статьи, ценного материала, который хотелось высказать, у меня уже много. Выйдут ML-статьи: DataScientist's Improving Mindset Heterogeneous…»

02:47

Aspiring Data Science

#ufo

https://youtu.be/7DxqzzftkrA

YouTube

It Wasn't Made For a Human - Bob Lazar - DEBRIEFED ep. 83

Full Episode: https://www.youtube.com/watch?v=fZyKcJQZrDA&
Main Channel: https://www.youtube.com/@Area52Investigations
MERCH: https://area52.shop/
Patreon: https://www.patreon.com/c/Area52investigations
DISCORD: https://discord.com/invite/C7ZB5M3qjv

88 viewsAnatoly Alekseev, edited 14:05

Aspiring Data Science

#bilogy #dolphins

https://youtube.com/shorts/kSGRHStIlPk

YouTube

Scientists Caught Dolphins Doing This for 20 Minut

These dolphins exhibit remarkable animal intelligence, understandin...

83 viewsAnatoly Alekseev, edited 12:21

Aspiring Data Science

#ai

"OpenAI обучила большую языковую модель на 50 наиболее распространённых биологических алгоритмах, а также на механизмах работы с основными общедоступными базами данных с информацией по биологии. При дальнейшем обучении система получила возможность предлагать вероятные механизмы клеточных процессов и расставлять приоритеты для мишеней при разработке препаратов. Разработчики снизили свойственную большим языковым моделям склонность к подхалимскому поведению, сделав GPT-Rosalind более скептической в ответах, в том числе при создании препаратов. Компания обеспечила модели способность к рассуждениям — к обработке многоэтапных процессов, — а также высокий экспертный уровень, который подтвердился на тестовых примерах.

На текущий момент OpenAI ограничила доступ к модели из опасений, что ей могут злоупотреблять, например, попросив повысить инфекционность вируса — заявки принимаются только от американских организаций. Впоследствии компания выпустит Life Sciences Research Plugin — ограниченный по возможностям вариант системы."

https://3dnews.ru/1140163/openai-predstavila-iimodel-gptrosalind-dlya-uchyonihbiologov

98 viewsAnatoly Alekseev, 23:31

Aspiring Data Science

#weather #timeseries

Интересная идея с этим резервуарным методом, снова.

In standard NARMA tests – a benchmark for time-series prediction – the quantum model reduced prediction errors by one to two orders of magnitude. These results underpin its strong showing in real-world forecasting scenarios. - обалдеть, если не врут.

"Государственные и частные структуры в США уже вложили и планируют вкладывать в классические ИИ-платформы по предсказанию погоды сотни миллионов долларов. По утверждению китайских исследователей, за всего 1 % от этих денег можно создать простую и компактную квантовую платформу, которая либо сравнится, либо превзойдёт по точности предсказаний классический суперкомпьютер с искусственным интеллектом. В конце марта в журнале Physical Review Letters исследователи из Китая опубликовали работу, в которой показали, что такое возможно.

Техническая сторона исследования — это организация так называемого квантового резервуарного вычисления (QRC) на платформе ядерного магнитного резонанса (ЯМР). Данные кодировались на взаимодействующих ядерных спинах (4 углеродных и 5 протонных) молекулы кротоновой кислоты с метками из изотопа углерода-14. Учёные описывают эксперимент как чашку с кофе, в которой ингредиенты перемешали ложечкой и оставили приходить в равновесное состояние.

По большому счёту — это не вычисления, а симуляция. Она не может быть универсальной, но для решения специфических задач может считаться работой вычислительного алгоритма. В данном случае квантовая платформа анализировала временные ряды, чем обычно занимаются алгоритмы прогнозирования погоды и не только. Резервуарный метод, кстати, способен использовать для анализа даже шум в системе и при этом работает при комнатной температуре.

Предложенный китайскими исследователями подход существенно снижает аппаратные требования и энергопотребление по сравнению с классическими нейронными сетями, делая технологию доступной для решения реальных задач уже на современном оборудовании. В случае классических суперкомпьютеров с ИИ для решения той же задачи с существенно меньшей точностью потребовалась бы система с 10 тыс. узлов. Тем самым учёные делают вывод, что это первый доказанный случай, когда квантовая система превзошла классические в решении задач, имеющих прикладную ценность."

https://3dnews.ru/1140034/superkompyuteri-s-ii-proigrali-prostim-kvantovim-kompyuteram-iz-kitaya-v-predskazanii-pogodi

102 viewsAnatoly Alekseev, edited 23:40

Aspiring Data Science

#weather #timeseries

https://youtu.be/1aPyawjtlvc

YouTube

Will AI replace traditional weather forecasting methods?

Subscribe to our YouTube channel for free here:
https://sc.mp/subscribe-youtube

The Hong Kong Observatory was set up in 1883 to tell the public about weather conditions in the city. Despite advances in forecasting technology over the past nearly 150 years…

112 viewsAnatoly Alekseev, 23:42

Aspiring Data Science

#programming #testing

Недавно узнал про сенсор-тесты.

Разница с "обычным" тестом — в том, что ты проверяешь:

Обычный тест: "функция складывает два числа → я проверяю что 2+2=4"

Sensor: "в продакшене 2026-04-19 случилось X. Фикс прошёл. Если через полгода кто-то отрефакторит этот код и баг вернётся — этот тест обязан упасть"

111 viewsAnatoly Alekseev, edited 03:11

Aspiring Data Science

Forwarded from adapt compete evolve or die

https://arxiv.org/abs/2412.04529

Саша с Антоном опубликовали классную статью про CAFA5! А я в соавторах. Много умных слов и понятных картинок. Год назад мы участвовали в соревновании на kaggle, в котором надо было определить функции белка по его аминокислотному составу и таксономии. Соревнование отличалось высоким порогом входа, поскольку таргеты, коих было десятки тысяч, были организованы иерархически и метрика расчитывалась пропагацией по этому дереву. Отдельно стоит отметить разметку, где 1 означала наличие функции у белка, но 0 не означал, что функции нет, она просто еще не была обнаружена, возможно.

Мы заняли 2 место 🎉, уступив профессионалам в области, которые в том числе парсили выходящие во время соревнования статьи про новые экспериментально обнаруженные функции белков. Последующее тестирование решений на еще более свежих данных подтвердило, что распределение мест не было случайностью. Организаторы соревнования настоящие ученые, измерили множество метрик и провели полноценное исследование полученных решений.

В статье показываем подход ProtBoost, в основе которого Py-Boost, линейки и mlp, а так же графовые нейросетки в качестве умного ансамбля (помните про иерархические таргеты?). В качестве признаков эмбединги последовательностей и мета-информация о происхождении белка. Обнаружили, что не все эмбединги одинаково полезно и хайпово не значит лучше.

Соревнования шло 3 месяца, а статья выходит спустя год. Это вам не бустинги стекать 🙈

Из каггл-выводов:
* pyboost хорош, особо хорош, когда таргетов много и бустинги в принципе можно успешно применять на эмбедингах.
* GCN стекер можно применять не только здесь.
* иногда ошибки приводят к интересным открытиям, перепутав айдишники моделей, получили интересную аугментацию.
* если соревнование про науку, то где-то в интернете хранятся разные полезные датасеты и код, но коду организаторов слепо верить не стоить

arXiv.org

ProtBoost: protein function prediction with Py-Boost and Graph...

Predicting protein properties, functions and localizations are important tasks in bioinformatics. Recent progress in machine learning offers an opportunities for improving existing methods. We...

❤1

85 viewsAnatoly Alekseev, 14:16

Aspiring Data Science

#fun #politics

https://www.youtube.com/shorts/24dqCc69BTQ

YouTube

Камер много можешь говорить😅 | Плюшки #shorts #юмор #плюшки #богданлисевский

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

100 viewsAnatoly Alekseev, 15:26

Aspiring Data Science

#physics

https://youtu.be/YKX7Lc5zVGk

YouTube

Откуда берётся масса и как работает поле Хиггса?

В нашем сегодняшнем видео поговорим о самом привычном и, казалось бы, хорошо знакомом понятии из школьной физики - о массе, которая на поверку оказывается вовсе не так проста, как может показаться!

Подпишитесь на мой канал в Telegram: https://t.me/physiovisio…

91 viewsAnatoly Alekseev, edited 06:33

Aspiring Data Science

❤1

102 viewsAnatoly Alekseev, 06:40

Aspiring Data Science

Forwarded from Дата аналитикс

2:08

Media is too big

VIEW IN TELEGRAM

Подкаст с BI-тимлидом из Авито!

В гостях Маша Аничкова - тимлид BI-аналитиков в 📱, ex-аналитик в Ozon💳

И если вы до сих пор думаете, что BI - это просто “собрать дэш и не мешать взрослым людям делать продукт”, то у нас для вас интересный разговор))

Обсудили:

• почему в Авито в какой-то момент развели продуктовых и BI-аналитиков, и в чем вообще реальная зона ответственности биайщиков.
• как собрать дашборд, который реально смотрят топы, а не просто складировать 200 метрик в одну красивую братскую могилу.
• почему иногда лучший дашборд - это отсутствие дашборда)
• как правильно отвечать на кейс “сделай крутой дашборд” на собесе
• почему если после недели работы заказчику вдруг нужна “одна большая красная циферка”, то где-то, скорее всего, недожали этап сбора требований)
• как устроена матрица компетенций в Авито и как там понимают, кто джун, кто миддл, а кто уже сеньорный сеньор.
• сколько по времени реально занимают витрины данных и почему работа с разработчиками - это всегда отдельный квест со звездочкой.
• как проходить собесы на BI-роли, если хочется не просто “попробоваться”, а дойти до оффера.
• почему у Маши конверсия в оффер 100% [ да, здесь можно немного словить тильт ]
• правда ли, что математика больнее, чем базы данных.
• почему в огромном количестве запросов от заказчиков проблема не в данных, не в витринах и не в аналитике, а просто в том, что человек не выспался))

По времени: 45 мин

Ссылка на ВК видео

🌐

Ссылка на YouTube

🌐

Ссылка на Rutube

Получился очень живой выпуск:

про BI без душноты, про карьеру без успешного успеха,
и про аналитику так, как она выглядит в реальности, а не в вакансиях. Еще и ипотеку обсудили...

Делитесь мнениями, комментами и подписывайтесь на канал Маши! Маша - класс!

Жмем заинтригованного жаба 📃 если хотите еще гостей из 📱
прогрессивного жаба 📈 за следующий сильный выпуск про аналитику и карьеру
Ставим лайк ❤️, чтобы поддержать или если вы уже знакомы с Машей

Please open Telegram to view this post

VIEW IN TELEGRAM

95 viewsAnatoly Alekseev, 13:52

About

Blog

Apps

Platform