У вас митинги на работе не полчаса, а 25 минут, не для экономии времени, а потому, что в книжке »Сам себе MBA. Самообразование на 100%. Джош Кауфман« написано, что это способ сэкономить время менеджеров. Причем вообще-то эта идея предложена для оптимизации кастдева и сапорта
Скелетрон вернется с умными мыслями завтра
Скелетрон вернется с умными мыслями завтра
🤡16❤11 6🤮3💩1
Ваш проект называют стартапом-внутри-компании не из-за его перспективности и инновационности, а потому что Эрику Рису в »Lean Startup« нужно было продать свою книжку не только предпринимателям, но и менеджерам среднего звена без специального образования.
Весь кейс построен на примере компании Intuit, где они в качестве эксперимента сделали систему отчетности для малого бизнеса. Но вот шутка в том, что команде дали карт-бланш на самоуправление. Полный. Дают ли стартапам-внутри-нашего-сувереннного-бигтеха такой карт-бланш? Вопрос риторический
Скелетрон вернется с умными мыслями завтра
Весь кейс построен на примере компании Intuit, где они в качестве эксперимента сделали систему отчетности для малого бизнеса. Но вот шутка в том, что команде дали карт-бланш на самоуправление. Полный. Дают ли стартапам-внутри-нашего-сувереннного-бигтеха такой карт-бланш? Вопрос риторический
Скелетрон вернется с умными мыслями завтра
❤21🤡4🤮2💩1
У вас вообще появились продакты потому, что Мэнти Кейган написал о том, какие они полезные в книге »Inspired«. При этом он опирался на свой десятилетний опыт работы инженером в HP с 1980 по 1990. После этого он еще 10 лет совмещал роли CTO и CPO в Netscape и Ebay. И в 2002 (за 15 лет до публикации), он ушел в консалтеры и продает свой ценнейший опыт за почасовую оплату. Смог бы ваш продакт буквально придумать объекто-ориентированное программирование в лабе HP? Надеюсь, да
Скелетрон пока не вернется, я так книжки не успеваю быстро читать
Скелетрон пока не вернется, я так книжки не успеваю быстро читать
❤14😁6👍1👏1😴1
Теперь на каггле дают 'предупреждения' за то, что выкладываешь даталик в паблик.
Два предупреждения- бан
https://www.kaggle.com/competitions/neurips-open-polymer-prediction-2025/discussion/588565
🤡️️️️🤡️️️️🤡️️️️
Два предупреждения- бан
https://www.kaggle.com/competitions/neurips-open-polymer-prediction-2025/discussion/588565
🤡️️️️🤡️️️️🤡️️️️
Kaggle
NeurIPS - Open Polymer Prediction 2025
Predicting polymer properties with machine learning to accelerate sustainable materials research.
🤡29❤2
Вчера все верно догадались: Кагл убрал дискашны насовсем. Теперь осталась только ачивка Kaggle Legacy discussion Master/GM. А еще он убрал Novice/Contributor и оставил просто Unranked/Expert/master/GM
И это отлично. Каглу уже давно пора воровать элементы вовлечения у другого популярного сайта и толкать аналитику катализируюшую гиперфокус. Только не за подписку, а ради вовлечения пользователей и удержания. Теперь можно посмотреть, как менялся ваш рейтинг во времени. Верю, что ASI построят все равно кагглеры, а не резерчеры.
Из открытий- ранкинг не так быстро падает, как я ожидал. Все еще есть смысл концентрироваться на циферках.
А еще теперь апвоуты ноутбуков считаются только от экспертов и форк ноутбуков автоматически ставит на него палец вверх.
И это отлично. Каглу уже давно пора воровать элементы вовлечения у другого популярного сайта и толкать аналитику катализируюшую гиперфокус. Только не за подписку, а ради вовлечения пользователей и удержания. Теперь можно посмотреть, как менялся ваш рейтинг во времени. Верю, что ASI построят все равно кагглеры, а не резерчеры.
Из открытий- ранкинг не так быстро падает, как я ожидал. Все еще есть смысл концентрироваться на циферках.
А еще теперь апвоуты ноутбуков считаются только от экспертов и форк ноутбуков автоматически ставит на него палец вверх.
🔥4💩4🤝4🤡3❤2👍1
Без багов кстати не обошлось:
Из-за изменения системы учета лайков на ноутбук, циферки теперь расходятся. В профиле я бывал максимум 283, а судя по графику бывал и повыше
Из-за изменения системы учета лайков на ноутбук, циферки теперь расходятся. В профиле я бывал максимум 283, а судя по графику бывал и повыше
🤡6🤔3❤2💩2
Топ-2 в #BirdClef2025
В этот раз опытне птичники, у которых в команде чел с первым местом в 2022 и 2023 годах!
📊 Данные
Использовали данные из прошлых соревнований, что собственно и помогала в прошлые года +
Подтянули дополнительно записи из Xeno Archive.
Тут помог баг, который был обнаружен еще в 2023: API Xeno Archive выдаёт максимум 500 семплов на вид — большинство команд этого не учли. Багу два года, и его никто не чинит. Кто знает- тот знает
🎛️ Предобработка
Для обучения берём первые 7 секунд каждого файла и рандомно вырезаем 5 секунд.
Баланс между разнообразием данных и интуицией: голос птицы чаще слышен в начале записи.
🛠️ Архитектура и оптимизация
tf_efficientnetv2_s + RAdam
eca_nfnet_l0 + AdamW
Обе модели тренировали 50 эпох
Loss: Focal + BCE
Scheduller: Cosine LR
⚖️ Веса семплов
Учли с весами, чтобы компенсировать дисбаланс классов:
🚀 Ключевые бусты
1. Предтренинг на всём Xeno Archive
Вычистили низкочастотные классы и текущее тесто-трейн
Предобучили на задаче классификации и получили бекбон с глубоким пониманием спектрограмм записей животных
Результат: 0.84 → 0.87
2. Псевдолейблинг(запрещенная техника)
Предсказываем на неразмеченных данных → pseudo1
Оставляем только скоры > 0.5 → pseudo2
Зануляем слабые метки (< 0.1): pseudo2[pseudo2 < 0.1] = 0
Обучаем модель на таргет pseudo2 и повторяем цикл
После двух итераций: 0.87 → 0.89 → 0.91 (третий круг не даёт профита)
3. TTA
Сдвигали записи в Test time augmentation на 2.5 секунды влево и вправо, а потом усредняли предсказания.
0.91 -> 0.922
В общем опыт прошлых соревнований доовольно сильно решает, особенно если помнишь интересные баги связанные с источниками данных
В этот раз опытне птичники, у которых в команде чел с первым местом в 2022 и 2023 годах!
📊 Данные
Использовали данные из прошлых соревнований, что собственно и помогала в прошлые года +
Подтянули дополнительно записи из Xeno Archive.
Тут помог баг, который был обнаружен еще в 2023: API Xeno Archive выдаёт максимум 500 семплов на вид — большинство команд этого не учли. Багу два года, и его никто не чинит. Кто знает- тот знает
🎛️ Предобработка
Для обучения берём первые 7 секунд каждого файла и рандомно вырезаем 5 секунд.
Баланс между разнообразием данных и интуицией: голос птицы чаще слышен в начале записи.
🛠️ Архитектура и оптимизация
tf_efficientnetv2_s + RAdam
eca_nfnet_l0 + AdamW
Обе модели тренировали 50 эпох
Loss: Focal + BCE
Scheduller: Cosine LR
⚖️ Веса семплов
Учли с весами, чтобы компенсировать дисбаланс классов:
python
sample_weights = (
all_primary_labels.value_counts() /
all_primary_labels.value_counts().sum()
) ** (-0.5)
🚀 Ключевые бусты
1. Предтренинг на всём Xeno Archive
Вычистили низкочастотные классы и текущее тесто-трейн
Предобучили на задаче классификации и получили бекбон с глубоким пониманием спектрограмм записей животных
Результат: 0.84 → 0.87
2. Псевдолейблинг
Предсказываем на неразмеченных данных → pseudo1
Оставляем только скоры > 0.5 → pseudo2
Зануляем слабые метки (< 0.1): pseudo2[pseudo2 < 0.1] = 0
Обучаем модель на таргет pseudo2 и повторяем цикл
После двух итераций: 0.87 → 0.89 → 0.91 (третий круг не даёт профита)
3. TTA
Сдвигали записи в Test time augmentation на 2.5 секунды влево и вправо, а потом усредняли предсказания.
0.91 -> 0.922
В общем опыт прошлых соревнований доовольно сильно решает, особенно если помнишь интересные баги связанные с источниками данных
❤20⚡3
Топ-1 в #BirdClef2025 от Никиты Бабича запретите ему псевдолйблить
Никита всё соревнование доминировал — был на первом или втором месте. Я лично не видел его ниже чем на втором.
Данные
Дополнительные птицы
Докачал из архива Xeno ещё 5 489 записей по тем же классам, что и в трейне.
Дополнительные лягушки и насекомые из других таксонов
17 197 записей насекомых и амфибий, в том числе не входящих в лейблы для соревнования. Амфибии и насекомые имеют высокую частоту повторяющихся специфичных звуков, что сильно отличается от птиц — отлично прокачивает модель на низкочастотных и “других” классах.
SED-модели (Sound Event Detection).
Прошлые участники тоже их использовали, но я хотел именно тут объяснить что за SED такой.
Классическая классификация говорит «что это за звук», а SED ещё и «где он начинается и где кончается».
На шумных данных, где вокруг слышно несколько видов на одной записи, это был ключ к успеху вместе с псевдолейблингом.
По сути это мост от per-sample к per-frame разметке, похожий на MIL-задачу. Сильно мне напоминает MIL модели, которые делают что-то похожее, но на картинках
На картинке пример инференса SED: как и почему он помогает на шуме.
Валидация
Нормальной валидации не нашлось, поэтому Никита валидировался по ЛБ. :chad:
Многоэтапное обучение
Бейзлайн
15 эпох, Cross-Entropy, AdamW, Cosine Scheduler
backbone’ы: EfficientNet-0 + RegNetY-8
LB: 0.872
Псевдолейблинг I + MixUp
Генерим псевдолейблы на неразмеченной части.
Смешиваем MixUp: настоящие лейблы + псевдолейблы (малый вес последних).
Добавляем StochasticDepth (drop whole conv-блоки, p=0.15). StochasticDepth- это когда у нас есть дропауты, которые выкидывают целые блоки из бекбона и глубина получается недетерминированной.
Тренируем 25–35 эпох.
LB: 0.872 → 0.898
Power Scaling + псевдолейблинг II
Просто в лоб вторая итерация давала слишком шумные псевдолейблы, которые нельзя было повторно переиспользовать.
Решение:
new_preds_i = preds_i^(1/power_c) / sum(preds_j^(1/power_c))
Это позволило пройти 4 раунда псевдолейблинга с улучшением качества.
LB: 0.898 → 0.930
Отдельный пайплайн для насекомых и амфибий
Тренируем классификатор на этих данных.
Берём предикты по нужным классам из трейна и заменяем ими результаты в основном ансамбле.
LB: 0.930 → 0.933
В конечно итоге собираем ансамбль:
EfficientNet-l0, B4, B3 (3 раунда псевдолейблинга)
RegNetY-016 (2 штуки, 4 раунда)
RegNetY-008 (1 штука, 1 раунд)
Отдельный EfficientNet-B0 для классификации насекомых и амфибий
Из этого решения наверно для себя самыми горячими идеям вынесу:
1. PowerTransform для псевдолейблов, чтобы идти в несколько раундов. Идея будто даже похожая на жесткие псевдолейблы чем-то
2. SED как способ уточнить разметку на псевдолейблах
Никита всё соревнование доминировал — был на первом или втором месте. Я лично не видел его ниже чем на втором.
Данные
Дополнительные птицы
Докачал из архива Xeno ещё 5 489 записей по тем же классам, что и в трейне.
Дополнительные лягушки и насекомые из других таксонов
17 197 записей насекомых и амфибий, в том числе не входящих в лейблы для соревнования. Амфибии и насекомые имеют высокую частоту повторяющихся специфичных звуков, что сильно отличается от птиц — отлично прокачивает модель на низкочастотных и “других” классах.
SED-модели (Sound Event Detection).
Прошлые участники тоже их использовали, но я хотел именно тут объяснить что за SED такой.
Классическая классификация говорит «что это за звук», а SED ещё и «где он начинается и где кончается».
На шумных данных, где вокруг слышно несколько видов на одной записи, это был ключ к успеху вместе с псевдолейблингом.
По сути это мост от per-sample к per-frame разметке, похожий на MIL-задачу. Сильно мне напоминает MIL модели, которые делают что-то похожее, но на картинках
На картинке пример инференса SED: как и почему он помогает на шуме.
Валидация
Нормальной валидации не нашлось, поэтому Никита валидировался по ЛБ. :chad:
Многоэтапное обучение
Бейзлайн
15 эпох, Cross-Entropy, AdamW, Cosine Scheduler
backbone’ы: EfficientNet-0 + RegNetY-8
LB: 0.872
Псевдолейблинг I + MixUp
Генерим псевдолейблы на неразмеченной части.
Смешиваем MixUp: настоящие лейблы + псевдолейблы (малый вес последних).
Добавляем StochasticDepth (drop whole conv-блоки, p=0.15). StochasticDepth- это когда у нас есть дропауты, которые выкидывают целые блоки из бекбона и глубина получается недетерминированной.
Тренируем 25–35 эпох.
LB: 0.872 → 0.898
Power Scaling + псевдолейблинг II
Просто в лоб вторая итерация давала слишком шумные псевдолейблы, которые нельзя было повторно переиспользовать.
Решение:
new_preds_i = preds_i^(1/power_c) / sum(preds_j^(1/power_c))
Это позволило пройти 4 раунда псевдолейблинга с улучшением качества.
LB: 0.898 → 0.930
Отдельный пайплайн для насекомых и амфибий
Тренируем классификатор на этих данных.
Берём предикты по нужным классам из трейна и заменяем ими результаты в основном ансамбле.
LB: 0.930 → 0.933
В конечно итоге собираем ансамбль:
EfficientNet-l0, B4, B3 (3 раунда псевдолейблинга)
RegNetY-016 (2 штуки, 4 раунда)
RegNetY-008 (1 штука, 1 раунд)
Отдельный EfficientNet-B0 для классификации насекомых и амфибий
Из этого решения наверно для себя самыми горячими идеям вынесу:
1. PowerTransform для псевдолейблов, чтобы идти в несколько раундов. Идея будто даже похожая на жесткие псевдолейблы чем-то
2. SED как способ уточнить разметку на псевдолейблах
❤25🤯9🔥2🍌1 1 1
Пора создать канал в мессенджере, где можно вычислять ставящих клоунов по госуслугам?
Да 😍
Нет 🗿
Да 😍
Нет 🗿
🤡95😍36🗿23❤3😁3😈3🖕2🤝2
Папищики, бесплатная реклама Rust тулзами:
Вместо того, чтобы использовать по большим файлам grep, можно установить себе😡
А то мне тут понадобилось поискать по логам на 200 гб в формате txt и это оказывается может быть долго
И теперь у вас уже 8 тредов, вместо одного. А можно ведь и больше тредов поставить
Вместо того, чтобы использовать по большим файлам grep, можно установить себе
ripgrepи пользоваться мультитредингом, чтобы искать по патерну в N раз быстрее
А то мне тут понадобилось поискать по логам на 200 гб в формате txt и это оказывается может быть долго
!rg -Fi 'keyword1' my_big_dump.txt -j8 > search_result.txt
И теперь у вас уже 8 тредов, вместо одного. А можно ведь и больше тредов поставить
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19❤6🤯6😱2🤡2👍1
Волчат уволили из Газпром медиа. Потешно, что за год никто не заметил разницы, но это скорее говорит о самом работодателе, чем о работниках. Хотя я уже давно заметил, что лучшие наймы- это когда ты знакомых с прошлых работ кандидата спросил про то, какой он человек и инженер. Always has been
https://t.me/rockyourdata/5344
А еще Дуров включил принудительные платные лайки и мне это не нравится. Теперь они отображаются даже если их никто не поставил. Слишком навязчиво.
https://t.me/rockyourdata/5344
А еще Дуров включил принудительные платные лайки и мне это не нравится. Теперь они отображаются даже если их никто не поставил. Слишком навязчиво.
Telegram
Инжиниринг Данных
В русскоязычном IT прямо сейчас разворачивается один из крупнейших скандалов в этом году. Я не могу пройти мимо и хочу высказаться.
Для контекста. Из компании Газпром-Медиа уволили накрутчика опыта, который работал над Rutube. Сотрудники службы безопасности…
Для контекста. Из компании Газпром-Медиа уволили накрутчика опыта, который работал над Rutube. Сотрудники службы безопасности…
❤12👍5🗿5🍌2
Пока я мало пишу в канал про свои соревнования, позволю себе украсть вдохновение у @abacabadabacaba404 и предложить вам почитать классный блогпост про КФ. Автор дважды брал золото IOI и в этом году взял серебро:
https://codeforces.com/blog/entry/142591
Отправьте своим школьникам и первокурсникам, если они хотят быть лучшими
https://codeforces.com/blog/entry/142591
Отправьте своим школьникам и первокурсникам, если они хотят быть лучшими
Codeforces
FAQ, Advice & AMA
This post assumes you're super ambitious.
❤10👍3🍌2🤝1
Forwarded from Information Retriever
RecSys Challenge 2025.
Я уже рассказывал, что в этом году мы заняли четвертое место на RecSys Challenge. В июле подали статью на воркшоп соревнования, который проходит на самой конфе RecSys. Статью приняли! Мы доделали camera-ready версию, и с сегодняшнего дня подробное описание нашего решения можно почитать на arXiv.
От ревьюверов есть strong accept и комментарий “goldmine of practical insights” :)
Пригодится как разработчикам рексистем, так и участникам всевозможных соревнований по рекомендашкам.
Ссылочка — https://arxiv.org/abs/2508.06970
Я уже рассказывал, что в этом году мы заняли четвертое место на RecSys Challenge. В июле подали статью на воркшоп соревнования, который проходит на самой конфе RecSys. Статью приняли! Мы доделали camera-ready версию, и с сегодняшнего дня подробное описание нашего решения можно почитать на arXiv.
От ревьюверов есть strong accept и комментарий “goldmine of practical insights” :)
Пригодится как разработчикам рексистем, так и участникам всевозможных соревнований по рекомендашкам.
Ссылочка — https://arxiv.org/abs/2508.06970
👍13🍌3 2✍1🔥1