Aspiring Data Science
389 subscribers
483 photos
16 videos
12 files
2.33K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Forwarded from Wazowski Recommends
Давно не писал — много работы, не хватало ни сил, ни вдохновения. Но сейчас лечу на неделю в командировку в Сан-Франциско, и в самолёте наконец-то появилось время.

С одной стороны, все вокруг пишут про AI. Этого так много, что не хочется за ними повторять и не хочется быть ещё одним AI-каналом. С другой стороны, AI-инструменты на мою работу так сильно повлияли (особенно с января этого года), что и совсем промолчать тоже странно.

Я начал очень активно использовать Claude Code и стал его большим фанатом. Я больше не пишу код руками, 100% за меня пишет Claude. В большинстве случаев это не вайб-кодинг, а вполне себе вдумчивая разработка. Но бывают места (и на работе, и в домашних проектах), где и вайб-кодить уместно.

Второй инструмент, который я начал активно использовать (хотя изначально был настроен скептически) — это Superwhisper. Он распознаёт голос и делает это хорошо. Он ещё запускает LLM поверх распознанного текста (можно выбрать, какую). Я теперь даже частенько в опен-спейсе, когда народу вокруг немного, немножко бубню себе под нос. А если нужно наговорить более серьёзно — просто ухожу в переговорку. Для задач, где текста нужно немало, это настолько удобнее и реально облегчает работу, что уже сложно перестать пользоваться. Черновик к этому посту я тоже надиктовал в самолёте и распознал через Superwhisper.

Расскажу ещё про пару экспериментальных техник, которые я пока исследую. Обе — от Андрея Карпаты. Кстати, если вы за ним не следите — очень рекомендую.

Первая — это autoresearch. Почитайте про неё. Это про то, как улучшать качество вашей системы или модели автоматически — при условии, что вы можете сделать такую среду, где можно быстро и относительно надежно измерять качество.

Он использовал это в своём проекте nanochat, в котором пытается на скорость обучить LLM до уровня GPT-2. И он собрал бенчмарк, в котором обучает модель 5 минут и смотрит на метрики. Оказалось, что этого достаточно, чтобы агент автоматически предлагал разумные улучшения. Качество улучшилось не только в игрушечном сетапе пятиминутного обучения, но и в полноценном обучении.

Я с этой техникой активно экспериментирую. Один раз я её уже успешно применил во временном проекте (расскажу про него в следующий раз), где у меня изначально качество было около-нулевое. Claude примерно за полчаса-час поднял его до приемлемого. Сам разобрался, где основные проблемы и как их поправить.

Сейчас я пробую применять это для своего основного проекта — и параллельно хочу как-то улучшить эту технику. В частности, я пытаюсь скрестить её с другим известным подходом в мире Claude Code — Ralph loop (Ralph Wiggum, Ralphex). Он про то, чтобы не одной большой сессией агента решать большую задачу, а решать её итеративно. На каждой итерации запускается агент с небольшим начальным контекстом и пытается совершить небольшой прогресс. И вот так в цикле, итерация за итерацией, решает задачу.

Ещё одна техника от Карпаты — это LLM Wiki. Она про то, как агенты могут вести, поддерживать и обновлять базу знаний. Я использовал это в своём основном проекте, собирая знания и про проект, и вокруг него. Также я стал прогонять через это все статьи, которые читаю (хотя сейчас это не очень много, но стало больше, благодаря llm wiki). Каждую новую статью, которую я хочу изучить, агент суммаризирует, пытается разбить на разные концепты, связывает её с другими статьями — и собирает такой граф знаний. Получается интересно, но я только начал.

Я ещё хочу попробовать LLM Wiki применить и для домашних задач, где нужно что-то изучить. Попробую, например, в личных финансах.

В общем, продуктивность у меня реально возросла, наверное, раз в десять. Да и фана от работы стало сильно больше. Кстати, спасибо работодателю за то, что позволяет всем этим пользоваться безлимитно и на максималках. Хотя и AI-стратегия компании иногда вызывает вопросы — но вот в этом аспекте не придерешься.
#randomness

"Другие исследовательские группы и стартапы изучают иные способы воплощения ТДВ: на основе мемристоров, магнитных туннельных переходов и даже сверхпроводящих схем. в Национальной лаборатории им. Лоуренса в Беркли (Lawrence Berkeley National Laboratory) предложили концепцию нелинейных «термодинамических нейронов», не нуждающихся в возврате к состоянию термодинамического равновесия перед началом нового цикла вычислений. Идея Стивена Уайтлама (Stephen Whitelam) и его коллеги Корнела Касерта (Corneel Casert), соавторов опубликованной в Nature Communications статьи на эту тему, заключается в том, чтобы научиться управлять эволюцией термодинамических состояний базовых элементов вычислительной схемы, заставляя их «развиваться» в нужном экспериментаторам направлении: «Если взять физическое устройство с энергетическим масштабом, сравнимым с масштабом тепловой энергии, и оставить его в покое, оно будет изменять своё состояние со временем под действием тепловых флуктуаций. Цель состоит в том, чтобы запрограммировать его таким образом, чтобы на этот раз эволюция принесла пользу. Классические и квантовые вычисления борются с шумом — но именно он заставляет термодинамические вычисления работать». Используя цифровое моделирование, Уайтлам и Касерт показали, что нелинейные вычисления — подобные тем, которые выполняются нейронными сетями, — действительно возможны с помощью ТДВ, не начинающих работу непременно из состояния равновесия. Это существенно расширяет спектр исполнимых на таком «железе» алгоритмов — позволяя, в частности, термодинамическому контуру вести себя подобно нейрону в биологической нейронной сети.

Термодинамические вычислители находятся — даже если сравнивать их с квантовыми — в самом начале пути: разнородных аппаратных платформ слишком много, эффективных алгоритмов маловато, подтверждённой эффективности гибридных применений в связке с фоннеймановскими системами откровенно недостаёт. И всё же по мере дальнейшего нарастания спроса на энергию для ИИ-вычислений в какой-то момент наверняка выяснится, что проинвестировать в ускорение развития ТДВ — лучше сразу по нескольким конкурирующим направлениям — выгоднее и эффективней, чем возводить где-нибудь за Полярным кругом очередной ИИ-ЦОД в комплекте с ядерным мини-реактором. Экономика, сколь обидно бы это ни звучало для визионеров и евангелистов «чистого» технического прогресса, — лучший и мощнейший двигатель науки!"

https://3dnews.ru/1140731/termodinamicheskie-vichisliteli
#jobs #law

"Письменный опрос 272 сокращённых, организованный бывшими сотрудниками совместно с центром защиты прав работников What We Will, показал, что 62 % респондентов старше 40 лет, а 22 % проработали в компании более 15 лет. Многие респонденты полагают, что Oracle целенаправленно сокращала более возрастных и высокооплачиваемых работников, у которых накопилось больше акций с ограниченным обращением (RSU) — формы вознаграждения, при которой компания обещает передать сотруднику акции по графику, и при увольнении до срока «созревания» (вестинга) акции просто аннулируются. 27 % опрошенных сообщили, что до ближайшего вестинга им оставалось менее 90 дней. Старший менеджер по разработке рассказал изданию TIME, что 70 % его компенсации составляли RSU и что до вестинга опционов на акции стоимостью $1 млн ему оставалось четыре месяца.

Часть уволенных находились в США по рабочим визам H-1B и теперь у них есть лишь 60 дней, чтобы найти нового работодателя или покинуть страну. В отрасли, где наём обычно растягивается на месяцы, это крайне узкое окно. «Поскольку я нахожусь в стране по визе H-1B, это не просто потеря работы, а конец моей жизни в США, — написал один из респондентов. — Всё, что я строил почти десять лет, рухнет за несколько недель».

Бывшие сотрудники добиваются увеличения выходного пособия, тем более что предложение Oracle существенно ниже отраслевых стандартов. Компания предлагает четыре недели базового оклада плюс одну неделю за каждый год стажа, тогда как Google и Meta дают вчетверо больше стартовую сумму и вдвое больше за год.

17 апреля 600 работников Oracle подписали письмо с требованием улучшить выходное пособие, обеспечить поддержку обладателям виз H-1B, ускорить вестинг акций и продлить медицинскую страховку, прежде всего для онкобольных, беременных женщин и ветеранов. Участники группы не объединены в профсоюз и уже уволены, поэтому их рычаги давления на компанию ограничены. Oracle ответила на письмо, что не намерена вести переговоры с ними как с группой лиц."

https://3dnews.ru/1141105/oracle-uvolila-do-30-000-sotrudnikov-radi-ii-i-data-tsentrov-a-uvolennye-obedinilis-dlya-borby-za-kompensatsii
#kaggle #competitions


Приятненькая сорева началась. Влез для разнообразия.

"Roughly 10,000 horizontal wells are drilled worldwide every year, yet much of the drilling process still relies on manual interpretation by experts. These operations require immense technical precision, where even small deviations from the target zone can lead to significant resource waste. If the well drifts into less favorable geology, it results in inefficient energy recovery and may require additional corrective measures that increase the overall environmental footprint of the site.

Interpreting the subsurface is challenging because direct measurements are inherently limited. Data from wells, seismic surveys, and logging tools only show part of the picture. Rock layers start out stacked like a layer cake, but can bend or break along faults, making it hard to know exactly where the drill bit sits within the formation. Geologists and engineers analyze incoming data to steer the well, but current analytical tools often struggle to match the nuance of expert interpretation.

In this competition, you’ll develop machine learning models that predict the geology encountered along a horizontal wellbore. Your models should identify favorable layers from drilling data and help guide well placement more accurately during operations.

Your solution could help reduce resource waste by minimizing redundant drilling, improve operational safety by better predicting geological hazards, and move the industry toward automated systems that make faster, more consistent, and data-driven decisions.

A clearer map beneath the surface could make every meter count."

🧠 Общая идея

Соревнование Rogii Wellbore Geology Prediction — это задача из нефтегаза про геонавигацию (geosteering).

👉 Если очень просто:

бурят горизонтальную скважину и хотят держать её внутри “полезного слоя” (например, нефтеносного).

Но проблема в том, что:

геология под землёй неизвестна точно
данные приходят по мере бурения (streaming / sequential)
решения нужно принимать в реальном времени

🎯 Что нужно предсказать

Ты получаешь данные измерений из скважины (well logs) и должен:

👉 предсказать геологию вокруг ствола скважины

Конкретно:

где находятся слои пород
где границы (top/bottom)
где “target zone” (полезный слой)


https://www.kaggle.com/competitions/rogii-wellbore-geology-prediction/overview
⚡️Kaggle запустил MCP сервер

Kaggle выпустил поддержку Model Context Protocol (MCP), что позволяет подключать LLM-агентов (например, в Claude Desktop, Windsurf, VS Code или Gemini CLI) напрямую к инфраструктуре платформы.

Это дает вашему AI-агенту «руки» на Kaggle. Агент больше не просто генерирует код, он может взаимодействовать с платформой:

запускать вычисления,
скачивать датасеты и отправлять решения конкурсов.

Ключевые возможности (Tools):

Notebooks (Кернелы):
- Поиск чужих и своих ноутбуков (search_notebooks).
- Создание и запуск сессий (Notesbook_session).
- Сохранение и запуск кода «сверху вниз» (save_notebook).
- Скачивание результатов работы (output) и логов.

Competitions (Соревнования):
- Автоматическая отправка решений (create_code_competition_submission).

Benchmarks:
- Создание задач для бенчмарков из промпта.
- Просмотр лидербордов.

Как подключить:
URL: https://www.kaggle.com/mcp

Авторизация: Требуется API Token (можно создать в настройках профиля Kaggle: Settings > Create New Token).

Пример конфига (для Claude Desktop/VS Code):
"kaggle": {
"url": "https://www.kaggle.com/mcp",
"type": "http",
"headers": {
"Authorization": "Bearer ${YOUR_KAGGLE_TOKEN}"
}
}


Так, ну все, за выходные майним себе Грандмастера.
no excuse!

#Kaggle #MCP
———
@tsingular
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡1