Soham Parekh - 10x engineer. or not?
Со вчерашнего дня в twitter идёт весёлая драма.
Началось с того, что основатель какого-то стартапа написал, что есть индус по имени Soham Parekh, которого они нанимали довольно давно. Быстро оказалось, что у него фальшивое резюме и он на работе ничего не делает. Его уволили на первой же неделе, но он в тот момент работал в 3-4 других YC компаниях.
И тут twitter прорвало... разные люди стали писать, что они нанимали Soham Parekh, но в одних случаях он сам пропадал с радаров, в других случаях его увольняли за пару недель. Другие люди просто шарили письма от него. Я видел минимум 10-20 твитов.
Дальше пошло веселее. Стало появляться много мемов про него. Пошла критика процессов собесов - что они слабо коррелируют с тем, что надо реально делать на работе.
А потом пошло "стартаперское" мышление - люди стали предлагать ему открыть бизнес: то стать коучем по прохождению собесов, то сделать подкаст, то сделать стартап (неважно на какую тему)
Наконец, появился фейковый (хотя кто знает) твиттер аккаунт, где он сам типа шитпостит.
Ждём продолжения истории. Учитывая как работают современные стартапы и современный мир, не удивлюсь, если этот товарищ реально использует этот "хайп", создаст какой-нибудь стартап и поднимает кучу бабла.
Со вчерашнего дня в twitter идёт весёлая драма.
Началось с того, что основатель какого-то стартапа написал, что есть индус по имени Soham Parekh, которого они нанимали довольно давно. Быстро оказалось, что у него фальшивое резюме и он на работе ничего не делает. Его уволили на первой же неделе, но он в тот момент работал в 3-4 других YC компаниях.
И тут twitter прорвало... разные люди стали писать, что они нанимали Soham Parekh, но в одних случаях он сам пропадал с радаров, в других случаях его увольняли за пару недель. Другие люди просто шарили письма от него. Я видел минимум 10-20 твитов.
Дальше пошло веселее. Стало появляться много мемов про него. Пошла критика процессов собесов - что они слабо коррелируют с тем, что надо реально делать на работе.
А потом пошло "стартаперское" мышление - люди стали предлагать ему открыть бизнес: то стать коучем по прохождению собесов, то сделать подкаст, то сделать стартап (неважно на какую тему)
Наконец, появился фейковый (хотя кто знает) твиттер аккаунт, где он сам типа шитпостит.
Ждём продолжения истории. Учитывая как работают современные стартапы и современный мир, не удивлюсь, если этот товарищ реально использует этот "хайп", создаст какой-нибудь стартап и поднимает кучу бабла.
🤣18❤1
Недавно была новость о том, что Microsoft сокращает 9к работников из-за AI
Сокращения - правда. Но есть нюанс...
Сокращения - правда. Но есть нюанс...
🤯9❤2
Kaggle Progression Update
Большие изменения на Kaggle! Сегодня на форумах появился пост с внушительным списком изменений платформы.
• Вначале главное - рейтинга обсуждений больше нет! Вместо него всем дали ачивки Discussions Legacy Expert/Master/Grandmaster, больше их не заработать. Причина - слишком многие фармили этот рейтинг. И 4х Грандмастером не стать... хотя нет - им стать можно, но по-другому.
• Завезли специальную страницу про грандмастеров: https://www.kaggle.com/rankings/grandmasters Можно посмотреть и увидеть, что Giba - 13х Grandmaster. Э, что? Теперь N Grandmaster считается по-другому - можно стать Грандмастером в каждой категории (3x), а затем за каждые 5 (!) золотых медалей в соревнованиях добавляется ещё 1x. У него 64 золотых медалей в соревнованиях - это 5х12, и ещё он грандмастер кода. Имхо, это выглядит как-то странно. Возможно это новая мотивация людям гоняться за золотом в соревнованиях, чтобы было больше крутых решений. Но это ещё сильнее ужесточит конкуренцию за топ места.
• Novice и Contributor уровни убрали, теперь минимальный уровень - Expert
• То, чего мы ждали годами - форкание ноутбуков автоматически даёт лайки автору. Заодно изменили как получаются рейтинги/медали за датасеты и код - учитываются только лайки от Experts и выше, decay очков идёт не от даты лайка, а от даты создания датасета/кода, улучшили anti-abuse.
• Из-за пункта выше у всех были автоматически пересчитаны очки этих двух рейтингов во всех моментах времени.
• Рейтинг теперь можно фильтровать по городу и компании
• Есть красивая страничка в профиле с графиком твоего рейтинга во времени
• Есть отдельная страничка Awards: https://www.kaggle.com/rankings/awards
В тредике бурление, думаю, что эти мощные изменения люди ещё долго будут обсуждать.
#datascience
Большие изменения на Kaggle! Сегодня на форумах появился пост с внушительным списком изменений платформы.
• Вначале главное - рейтинга обсуждений больше нет! Вместо него всем дали ачивки Discussions Legacy Expert/Master/Grandmaster, больше их не заработать. Причина - слишком многие фармили этот рейтинг. И 4х Грандмастером не стать... хотя нет - им стать можно, но по-другому.
• Завезли специальную страницу про грандмастеров: https://www.kaggle.com/rankings/grandmasters Можно посмотреть и увидеть, что Giba - 13х Grandmaster. Э, что? Теперь N Grandmaster считается по-другому - можно стать Грандмастером в каждой категории (3x), а затем за каждые 5 (!) золотых медалей в соревнованиях добавляется ещё 1x. У него 64 золотых медалей в соревнованиях - это 5х12, и ещё он грандмастер кода. Имхо, это выглядит как-то странно. Возможно это новая мотивация людям гоняться за золотом в соревнованиях, чтобы было больше крутых решений. Но это ещё сильнее ужесточит конкуренцию за топ места.
• Novice и Contributor уровни убрали, теперь минимальный уровень - Expert
• То, чего мы ждали годами - форкание ноутбуков автоматически даёт лайки автору. Заодно изменили как получаются рейтинги/медали за датасеты и код - учитываются только лайки от Experts и выше, decay очков идёт не от даты лайка, а от даты создания датасета/кода, улучшили anti-abuse.
• Из-за пункта выше у всех были автоматически пересчитаны очки этих двух рейтингов во всех моментах времени.
• Рейтинг теперь можно фильтровать по городу и компании
• Есть красивая страничка в профиле с графиком твоего рейтинга во времени
• Есть отдельная страничка Awards: https://www.kaggle.com/rankings/awards
В тредике бурление, думаю, что эти мощные изменения люди ещё долго будут обсуждать.
#datascience
🔥7
Reddit: Vibe / Citizen Developers bringing our Datawarehouse to it's knees
Интересный тредик на reddit: инженеры задалбываются тем, что юзеры без раздумий запускают SQL, предложенный LLM-ками.
То
https://www.reddit.com/r/dataengineering/comments/1lvyzbc/vibe_citizen_developers_bringing_our/
#datascience
Интересный тредик на reddit: инженеры задалбываются тем, что юзеры без раздумий запускают SQL, предложенный LLM-ками.
То
select *, то select top 7000000 с join 50 табличек.https://www.reddit.com/r/dataengineering/comments/1lvyzbc/vibe_citizen_developers_bringing_our/
#datascience
Reddit
From the dataengineering community on Reddit
Explore this post and more from the dataengineering community
🤣11
Forwarded from Борис опять
# Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity
METR выложил рандомизированное исследование влияния AI на скорость работы опытных разработчиков в реалистичных условиях с неожиданным результатом.
Выполнение задач с использованием AI инструментов в среднем занимает на 20% дольше.
Причем если спрашивать разработчиков, то сами они уверены, что AI ускоряет их работу на 20%, а внешние эксперты вообще ожидают ускорения порядка 40%.
Я думаю, что на текущий момент это самое реалистичое исследование влияния AI инструментов на продуктивность разработчиков:
🔹Настоящие задачи из больших open source репозиториев с высокими стандартами качества.
🔸Опытные разработчики (5 лет в среднем) знакомые с кодовой базой над которой работают.
🔹Фронтир AI инструменты на момент исследования: Claude 3.5/3.7 Sonnet и Cursor Pro.
🔸Все разработчики были обучены правильно использовать Cursor Pro.
🔹Хороший дизайн эксперимента: фиксированная метрика (время исполнения), рандомизация, статзначимость, факторный анализ.
🔸Всё проверено вдоль и поперек, чтобы убедиться, что результаты не объясняются каким-то конфаундером.
🔹Исследование не сделано компанией продающей AI тулы.
Подробнее про эксперимент. В исследовании участвовали 16 опытных open-source разработчиков (если выборка кажется маленькой, то читайте дальше, станет понятнее) работающих над большими (1м+ строк кода) и популярными (20к+ коммитов) репозиториями. Разработчики были знакомы со своими проектами, в среднем сделали в них по 1500 коммитов. Всем разработчикам выдали Cursor Pro и научили им пользоваться.
Разработчики выбирали задачу. Далее они делали прогноз сколько у них займет исполнение с AI и без. Затем монетка определяла можно ли использовать для этой задачи AI инструменты. Если задача оказывалась в AI группе, то разработчик мог использовать любые AI инструменты. Мог и не использовать, если не считал нужным. На практике большинство использовали Cursor. Разработчик делал задачу записывая свой экран. Затем создавал Pull Request и дорабатаывал его после код-ревью. Задача считалась завершенной в момент принятия PR, то есть после всех доработок, и в этот момент фиксировалась метрика: время исполнения. Всего за время эксперимента было сделано 246 задач разной сложности, из них 136 с AI.
То есть важно понимать, что рандомизация происходила по задачам, а не по разработчикам. Поэтому выборка здесь не 16 разработчиков, а 246 задач. Это всё ещё не гигантская выборка, но:
1. P-value в порядке.
2. Авторы проанализировали и разметили записи экранов, провели интервью. Словом, сделали качественное исследование. Когда результаты качественного и количественного исследования консистентны это сильный сигнал.
Результаты показывают, что AI инструменты тормозят опытных разработчиков на реальных больших проектах. Здесь каждое слово важно. Например, AI может одновременно с этим ускорять начинающих на маленьких проектах.
Моё мнение👀 : я думаю это правда. Во-первых, надо иметь серьезные основания, чтобы спорить с рандомизированным исследованием. Я искал до чего докопаться и не нашел. Во-вторых, это совпадает с моими личным опытом: я и сам записывал экран где Cursor пытается решить несложную реальную задачу, не заметил никакого ускорения. В-третьих, ускорение даже на 20% не стыкуется с реальностью. Если у нас уже два года вся разработка быстрее и дешевле на 20%, то где эффект? Я бы ожидал колоссальных изменений на рынке труда из-за сложного процента, но по факту пока ничего не произошло (недавние сокращения в бигтехах были из-за налогов на ФОТ в США).
В статье очень много интересных деталей. Например, что эффект сохраняется вне зависимости от используемого инструмента: пользуешься ты agentic mode, только TAB или вообще руками копипастишь в ChatGPT. Или что даже после 50+ часов использования Cursor не наступает никаких изменений, так что это не зависит от опыта работы с AI инструментами.
Я разберу интересные моменты в отдельных постах.
@boris_again
METR выложил рандомизированное исследование влияния AI на скорость работы опытных разработчиков в реалистичных условиях с неожиданным результатом.
Выполнение задач с использованием AI инструментов в среднем занимает на 20% дольше.
Причем если спрашивать разработчиков, то сами они уверены, что AI ускоряет их работу на 20%, а внешние эксперты вообще ожидают ускорения порядка 40%.
Я думаю, что на текущий момент это самое реалистичое исследование влияния AI инструментов на продуктивность разработчиков:
🔹Настоящие задачи из больших open source репозиториев с высокими стандартами качества.
🔸Опытные разработчики (5 лет в среднем) знакомые с кодовой базой над которой работают.
🔹Фронтир AI инструменты на момент исследования: Claude 3.5/3.7 Sonnet и Cursor Pro.
🔸Все разработчики были обучены правильно использовать Cursor Pro.
🔹Хороший дизайн эксперимента: фиксированная метрика (время исполнения), рандомизация, статзначимость, факторный анализ.
🔸Всё проверено вдоль и поперек, чтобы убедиться, что результаты не объясняются каким-то конфаундером.
🔹Исследование не сделано компанией продающей AI тулы.
Подробнее про эксперимент. В исследовании участвовали 16 опытных open-source разработчиков (если выборка кажется маленькой, то читайте дальше, станет понятнее) работающих над большими (1м+ строк кода) и популярными (20к+ коммитов) репозиториями. Разработчики были знакомы со своими проектами, в среднем сделали в них по 1500 коммитов. Всем разработчикам выдали Cursor Pro и научили им пользоваться.
Разработчики выбирали задачу. Далее они делали прогноз сколько у них займет исполнение с AI и без. Затем монетка определяла можно ли использовать для этой задачи AI инструменты. Если задача оказывалась в AI группе, то разработчик мог использовать любые AI инструменты. Мог и не использовать, если не считал нужным. На практике большинство использовали Cursor. Разработчик делал задачу записывая свой экран. Затем создавал Pull Request и дорабатаывал его после код-ревью. Задача считалась завершенной в момент принятия PR, то есть после всех доработок, и в этот момент фиксировалась метрика: время исполнения. Всего за время эксперимента было сделано 246 задач разной сложности, из них 136 с AI.
То есть важно понимать, что рандомизация происходила по задачам, а не по разработчикам. Поэтому выборка здесь не 16 разработчиков, а 246 задач. Это всё ещё не гигантская выборка, но:
1. P-value в порядке.
2. Авторы проанализировали и разметили записи экранов, провели интервью. Словом, сделали качественное исследование. Когда результаты качественного и количественного исследования консистентны это сильный сигнал.
Результаты показывают, что AI инструменты тормозят опытных разработчиков на реальных больших проектах. Здесь каждое слово важно. Например, AI может одновременно с этим ускорять начинающих на маленьких проектах.
Моё мнение
В статье очень много интересных деталей. Например, что эффект сохраняется вне зависимости от используемого инструмента: пользуешься ты agentic mode, только TAB или вообще руками копипастишь в ChatGPT. Или что даже после 50+ часов использования Cursor не наступает никаких изменений, так что это не зависит от опыта работы с AI инструментами.
Я разберу интересные моменты в отдельных постах.
@boris_again
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3
Где разработчику искать вакансии в зарубежных компаниях?
Ответ знают Dev & ML Connectable Jobs — в международных стартапах с русскоязычными фаундерами и командами. В своем канале они публикуют информацию о бэкграунде фаундеров, размере команды и инвестициях, а также делятся прямыми контактами HR для отклика.
Несколько актуальных вакансий:
– Generative AI/ML Engineer в Blush (Remote)
– Machine Learning Engineering Manager в Deliveroo (Лондон)
– Data Аnnotation manager в Recraft (Лондон)
Подписывайтесь и развивайте карьеру в будущем единороге 🚀
Ответ знают Dev & ML Connectable Jobs — в международных стартапах с русскоязычными фаундерами и командами. В своем канале они публикуют информацию о бэкграунде фаундеров, размере команды и инвестициях, а также делятся прямыми контактами HR для отклика.
Несколько актуальных вакансий:
– Generative AI/ML Engineer в Blush (Remote)
– Machine Learning Engineering Manager в Deliveroo (Лондон)
– Data Аnnotation manager в Recraft (Лондон)
Подписывайтесь и развивайте карьеру в будущем единороге 🚀
Telegram
Dev & ML Connectable Jobs
Вакансии от 300+ зарубежных компаний с русскоговорящими фаундерами или командами. Наши читатели уже получили офферы в JetBrains, 1inch, Neon, Chatfuel и другие компании💙
Разместить вакансию: https://cutt.ly/wwCoGNAm
Q&A: @connectable_jobs_team
Разместить вакансию: https://cutt.ly/wwCoGNAm
Q&A: @connectable_jobs_team
🤡7👍3🤔2❤1
Пачка новостей из мира AI
https://openai.com/index/introducing-chatgpt-agent/
> You can now ask ChatGPT to handle requests like “look at my calendar and brief me on upcoming client meetings based on recent news,” “plan and buy ingredients to make Japanese breakfast for four,” and “analyze three competitors and create a slide deck.” ChatGPT will intelligently navigate websites, filter results, prompt you to log in securely when needed, run code, conduct analysis, and even deliver editable slideshows and spreadsheets that summarize its findings.
https://mistral.ai/news/le-chat-dives-deep
What’s new in Le Chat.
Deep Research mode: Lightning fast, structured research reports on even the most complex topics.
Voice mode: Talk to Le Chat instead of typing with our new Voxtral model.
Natively multilingual reasoning: Tap into thoughtful answers, powered by our reasoning model — Magistral.
Projects: Organize your conversations into context-rich folders.
Advanced image editing directly in Le Chat, in partnership with Black Forest Labs.
#datascience
https://openai.com/index/introducing-chatgpt-agent/
> You can now ask ChatGPT to handle requests like “look at my calendar and brief me on upcoming client meetings based on recent news,” “plan and buy ingredients to make Japanese breakfast for four,” and “analyze three competitors and create a slide deck.” ChatGPT will intelligently navigate websites, filter results, prompt you to log in securely when needed, run code, conduct analysis, and even deliver editable slideshows and spreadsheets that summarize its findings.
https://mistral.ai/news/le-chat-dives-deep
What’s new in Le Chat.
Deep Research mode: Lightning fast, structured research reports on even the most complex topics.
Voice mode: Talk to Le Chat instead of typing with our new Voxtral model.
Natively multilingual reasoning: Tap into thoughtful answers, powered by our reasoning model — Magistral.
Projects: Organize your conversations into context-rich folders.
Advanced image editing directly in Le Chat, in partnership with Black Forest Labs.
#datascience
Openai
Introducing ChatGPT agent: bridging research and action
ChatGPT now thinks and acts, proactively choosing from a toolbox of agentic skills to complete tasks for you using its own computer.
🔥2❤1
Новое лого Goodreads
Goodreads - самый известный инструмент для трекинга прочитанных книг. Довольно давно Amazon купил его, и с тех пор сайт существует много лет практически без апдейтов.
В последние 1-2 года потихоньку пошли небольшие обновления, типа добавления reading challenge. А вот недавно произошло неожиданное - обновили лого сайта. Объясняют тем, что это лучше для accessibility 🤷♂️
С одной стороны, сайт хорошо работает на протяжении долгих лет, с другой стороны, хорошо бы получать обновления - например, рекомендации получше. Посмотрим, что дальше будет
#books
Goodreads - самый известный инструмент для трекинга прочитанных книг. Довольно давно Amazon купил его, и с тех пор сайт существует много лет практически без апдейтов.
В последние 1-2 года потихоньку пошли небольшие обновления, типа добавления reading challenge. А вот недавно произошло неожиданное - обновили лого сайта. Объясняют тем, что это лучше для accessibility 🤷♂️
С одной стороны, сайт хорошо работает на протяжении долгих лет, с другой стороны, хорошо бы получать обновления - например, рекомендации получше. Посмотрим, что дальше будет
#books
😁9👍2
Работа с данными на Kaggle
Меня попросили сделать доклад о примерах того, как в соревнованиях на Kaggle была важна работа с данными (примеры анализа, magic/golden features, внешние источники, понимание домена и так далее).
Я повспоминал былое и поискал подобные соревнования, получился примерно такой список:
Home Credit Default Risk - На основе суммы кредита, ежемесячной суммы выплаты и количества выплат (этого не было в данных, но сделали модель для предсказания) удалось восстановить процентную ставку (которой не было в данных). А процентная ставка - очень сильный сигнал, ибо по факту отражает степень риска клиента.
Instant Gratification - это была задачка с синтетическими данными. Многим удалось сделать reverse engineering функции генерации данных, и благодаря этому получить 0.97+ AUC.
Santander Customer Transaction - люди обнаружили, что в тесте часть данных была синтетической. Был довольно хитрый подход - синтетические данные определяли по распределению значений. Суть в том, что в данных было 200 независимых признаков. Если просто тренировать на них модель, она найдёт какие-нибудь паттерны и оверфитнется. Было несколько решений проблемы: Построить 200 моделей или Naive Bayes, использовать shuffle augmentation, использовать деревянные модели с малой глубиной.
Red Hat Business Value - в данных были лики, которые позволяли для многих строк довольно точно определять таргет. Поэтому многие строили отдельные модели для ликованых строк и для других.
Intel & MobileODT Cervical Cancer Screening - нашлись случаи, когда фото одного и того же человека были в трейне и тесте, использование этой информации улучшало модели.
IEEE-CIS Fraud Detection - организаторы соревнования убрали userid, но людям удалось сделать reverse engineering с высокой точность, и это было ключом к успеху.
Quora Question Pairs - участникам удалось построить графы вопросом на трейне совместно с тестом, что давало большой буст.
Two Sigma Connect: Rental Listing Inquiries - timestamp-ы папок с картинками сильно коррелировали с таргетом
Bosch Production Line Performance - определенные последовательности данных имели значительно более высокий шанс failure (таргета).
Sberbank Russian Housing Market - было важно извлечь год из данных и добавить макроэкономические данные
Rossmann Store Sales - было очень полезно использовать внешние данные (погода, праздники и прочее).
Какие ещё были подобные интересные соревнования?
#kaggle #datascience
Меня попросили сделать доклад о примерах того, как в соревнованиях на Kaggle была важна работа с данными (примеры анализа, magic/golden features, внешние источники, понимание домена и так далее).
Я повспоминал былое и поискал подобные соревнования, получился примерно такой список:
Home Credit Default Risk - На основе суммы кредита, ежемесячной суммы выплаты и количества выплат (этого не было в данных, но сделали модель для предсказания) удалось восстановить процентную ставку (которой не было в данных). А процентная ставка - очень сильный сигнал, ибо по факту отражает степень риска клиента.
Instant Gratification - это была задачка с синтетическими данными. Многим удалось сделать reverse engineering функции генерации данных, и благодаря этому получить 0.97+ AUC.
Santander Customer Transaction - люди обнаружили, что в тесте часть данных была синтетической. Был довольно хитрый подход - синтетические данные определяли по распределению значений. Суть в том, что в данных было 200 независимых признаков. Если просто тренировать на них модель, она найдёт какие-нибудь паттерны и оверфитнется. Было несколько решений проблемы: Построить 200 моделей или Naive Bayes, использовать shuffle augmentation, использовать деревянные модели с малой глубиной.
Red Hat Business Value - в данных были лики, которые позволяли для многих строк довольно точно определять таргет. Поэтому многие строили отдельные модели для ликованых строк и для других.
Intel & MobileODT Cervical Cancer Screening - нашлись случаи, когда фото одного и того же человека были в трейне и тесте, использование этой информации улучшало модели.
IEEE-CIS Fraud Detection - организаторы соревнования убрали userid, но людям удалось сделать reverse engineering с высокой точность, и это было ключом к успеху.
Quora Question Pairs - участникам удалось построить графы вопросом на трейне совместно с тестом, что давало большой буст.
Two Sigma Connect: Rental Listing Inquiries - timestamp-ы папок с картинками сильно коррелировали с таргетом
Bosch Production Line Performance - определенные последовательности данных имели значительно более высокий шанс failure (таргета).
Sberbank Russian Housing Market - было важно извлечь год из данных и добавить макроэкономические данные
Rossmann Store Sales - было очень полезно использовать внешние данные (погода, праздники и прочее).
Какие ещё были подобные интересные соревнования?
#kaggle #datascience
👍17🔥2
Kaggle Benchmarks
Теперь на Kaggle есть и benchmarks.
Вчера опубликовали блогпост об этом. Сейчас доступно около 70, среди них SciCode, GPQA, SimpleQA, LiveCodeBench, BrowseComp, FACTS Grounding, MATH-500, MMLU, MathVista, MGSM, ECLeKTic.
Среди прочего, хотят делать communiti-driven evaluation, как пример приводят ICML 2025 Experts - опросили участников ICML “What’s the trickiest, most interesting, or simply your favorite question to test a large language model?” и на основе этого создали бенчмарк.
Не очень понимаю чем это отличается от других платформ для benchmarks, но пусть будет :)
#datascience #kaggle
Теперь на Kaggle есть и benchmarks.
Вчера опубликовали блогпост об этом. Сейчас доступно около 70, среди них SciCode, GPQA, SimpleQA, LiveCodeBench, BrowseComp, FACTS Grounding, MATH-500, MMLU, MathVista, MGSM, ECLeKTic.
Среди прочего, хотят делать communiti-driven evaluation, как пример приводят ICML 2025 Experts - опросили участников ICML “What’s the trickiest, most interesting, or simply your favorite question to test a large language model?” и на основе этого создали бенчмарк.
Не очень понимаю чем это отличается от других платформ для benchmarks, но пусть будет :)
#datascience #kaggle
Kaggle
Find Benchmarks | Kaggle
Use and download benchmarks for your machine learning projects.
🔥5👍1
Нам нужна новая captcha
https://www.reddit.com/r/OpenAI/comments/1m9c15h/agent_casually_clicking_the_i_am_not_a_robot/
https://www.reddit.com/r/OpenAI/comments/1m9c15h/agent_casually_clicking_the_i_am_not_a_robot/
😁8
Что взять в LeetCode Store?
Я осознал, что за годы набрал 13к leetcode coins и могу теперь что-нибудь заказать в LeetCode Store. Что посоветуете?
🤔
#datascience
Я осознал, что за годы набрал 13к leetcode coins и могу теперь что-нибудь заказать в LeetCode Store. Что посоветуете?
🤔
#datascience
🔥8🤡3
🤔1
Subliminal Learning: Language models transmit behavioral traits via hidden signals in data
Прикольная статья от Anthropic Fellows Program про явление, которое они назвали subliminal learning. Берём модель, тюним её так, чтобы она получила определённые поведенческие черты (предпочитает сов, дубы или другие животные/деревья). Если дистиллировать, то student-model приобретает такие же черты, даже если данные аккуратно фильтровать. Как это работает - пока непонятно. Причём это работает только если base модели схожи, иначе не срабатывает.
Это создаёт риски для AI-safety: distillation может незаметно передавать нежелательные черты, несмотря на фильтрацию данных.
Paper
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Прикольная статья от Anthropic Fellows Program про явление, которое они назвали subliminal learning. Берём модель, тюним её так, чтобы она получила определённые поведенческие черты (предпочитает сов, дубы или другие животные/деревья). Если дистиллировать, то student-model приобретает такие же черты, даже если данные аккуратно фильтровать. Как это работает - пока непонятно. Причём это работает только если base модели схожи, иначе не срабатывает.
Это создаёт риски для AI-safety: distillation может незаметно передавать нежелательные черты, несмотря на фильтрацию данных.
Paper
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
👍2🔥1😁1🫡1
Похоже, что Anthropic стал жертвой своего же успеха - не хватает compute на всех.
> Most Max 5x users can expect 140-280 hours of Sonnet 4 and 15-35 hours of Opus 4 within their weekly rate limits. Heavy Opus users with large codebases or those running multiple Claude Code instances in parallel will hit their limits sooner.
https://www.reddit.com/r/ClaudeAI/comments/1mbo1sb/updating_rate_limits_for_claude_subscription/
> Most Max 5x users can expect 140-280 hours of Sonnet 4 and 15-35 hours of Opus 4 within their weekly rate limits. Heavy Opus users with large codebases or those running multiple Claude Code instances in parallel will hit their limits sooner.
https://www.reddit.com/r/ClaudeAI/comments/1mbo1sb/updating_rate_limits_for_claude_subscription/
🫡5😢2❤1