Если вы работаете с выгрузками из баз, логами сервисов или отчетами за годы — вы уже имеете дело со значениями, разделенными запятыми (CSV). Но умеете ли вы загружать CSV в Spark правильно?
На открытом уроке разберем, как из плоского файла получить распределенную коллекцию данных — DataFrame. Поймем, почему DataFrame — это не просто таблица, как настраивать разбор грязных данных, объявлять схему вручную и избегать ошибок в промышленной среде.
Вы увидите, как Spark взаимодействует с файловой системой, научитесь писать код для загрузки CSV в PySpark или Scala и разберетесь, когда достаточно pandas, а когда без Spark не обойтись.
Открытый урок проходит в преддверии старта курса «Spark-разработчик».
➡️ Подробности и регистрация: https://otus.pw/XM07/
На открытом уроке разберем, как из плоского файла получить распределенную коллекцию данных — DataFrame. Поймем, почему DataFrame — это не просто таблица, как настраивать разбор грязных данных, объявлять схему вручную и избегать ошибок в промышленной среде.
Вы увидите, как Spark взаимодействует с файловой системой, научитесь писать код для загрузки CSV в PySpark или Scala и разберетесь, когда достаточно pandas, а когда без Spark не обойтись.
Открытый урок проходит в преддверии старта курса «Spark-разработчик».
➡️ Подробности и регистрация: https://otus.pw/XM07/
❤4🥰2🔥1
🚀 Cursor сделал regex-поиск мгновенным
Instant Grep ищет по миллионам файлов за миллисекунды
16.8 сек → 13 мс
И главное:
они не ускоряли regex
они убрали лишний поиск
🧠 Как это работает
- создаётся индекс: куски текста → файлы
- используются триграммы (fil, ile, le_)
- сначала ищутся кандидаты
- потом запускается regex
👉 большинство файлов вообще не открывается
🔥 Ключевая идея - sparse n-grams
- индексируются не все куски
- только самые «полезные»
- редкие символы имеют больший вес
💾 Всё локально
- индекс хранится у тебя
- привязан к Git
- быстрый доступ через memory map
Скорость даёт не regex
а умный отбор файлов до поиска.
https://x.com/cursor_ai/status/2036122609931165985
Instant Grep ищет по миллионам файлов за миллисекунды
16.8 сек → 13 мс
И главное:
они не ускоряли regex
они убрали лишний поиск
🧠 Как это работает
- создаётся индекс: куски текста → файлы
- используются триграммы (fil, ile, le_)
- сначала ищутся кандидаты
- потом запускается regex
👉 большинство файлов вообще не открывается
🔥 Ключевая идея - sparse n-grams
- индексируются не все куски
- только самые «полезные»
- редкие символы имеют больший вес
💾 Всё локально
- индекс хранится у тебя
- привязан к Git
- быстрый доступ через memory map
Скорость даёт не regex
а умный отбор файлов до поиска.
https://x.com/cursor_ai/status/2036122609931165985
1👍20❤8🤯4🔥3
🚀 Похоже, в Claude Code появилась новая фича - Auto-dream
Пока официально не анонсирована, но её уже заметили в
• Что это такое
Auto-dream - это фоновый подагент Claude, который:
- анализирует последние сессии
- извлекает ключевые знания
- обновляет MEMORY.md
- очищает и переорганизует старые данные
• Как устроена память
- MEMORY.md - это индекс
- отдельные файлы - детали по темам
- /memory - управление системой
👉 по сути, как garbage collector, но для памяти
🐍 Python полезные ресурсы 🚀Max
@data_analysis_ml
Пока официально не анонсирована, но её уже заметили в
/memory• Что это такое
Auto-dream - это фоновый подагент Claude, который:
- анализирует последние сессии
- извлекает ключевые знания
- обновляет MEMORY.md
- очищает и переорганизует старые данные
• Как устроена память
- MEMORY.md - это индекс
- отдельные файлы - детали по темам
- /memory - управление системой
👉 по сути, как garbage collector, но для памяти
🐍 Python полезные ресурсы 🚀Max
@data_analysis_ml
🔥16❤6👍4
This media is not supported in your browser
VIEW IN TELEGRAM
Google представили TurboQuant - алгоритм, который сильно снижает требования к памяти при работе LLM.
KV-cache - это то, что хранит весь контекст во время генерации.
И именно он сейчас становится главным ограничением, а не сами модели.
Чем длиннее диалог или больше пользователей, тем быстрее заканчивается память на GPU.
TurboQuant решает это так:
- сжимает KV-cache минимум в 6 раз
- ускоряет инференс до 8 раз
- сохраняет качество без заметной потери
Это ключевой момент: раньше компрессия почти всегда ухудшала ответы.
Как это устроено:
- сначала данные преобразуются (rotation), чтобы их было проще сжимать
- затем применяется основной алгоритм сжатия (PolarQuant)
- после этого добавляется лёгкая коррекция (QJL), которая убирает ошибки
В итоге получается почти точное восстановление при сильно меньшем объёме.
С TurboQuant:
- модели можно запускать на меньшем количестве GPU
- один сервер может обслуживать больше запросов
- становится проще работать с длинным контекстом
- падает стоимость инференса
По сути, это не про “ускорить модель”, а про перераспределение ресурсов внутри всей системы.
Раньше оптимизировали веса моделей
теперь оптимизируют то, как они работают в проде
И KV-cache, как раз одна из самых дорогих частей.
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
🐍 полезные ресурсы 🚀Max
@data_analysis_ml
KV-cache - это то, что хранит весь контекст во время генерации.
И именно он сейчас становится главным ограничением, а не сами модели.
Чем длиннее диалог или больше пользователей, тем быстрее заканчивается память на GPU.
TurboQuant решает это так:
- сжимает KV-cache минимум в 6 раз
- ускоряет инференс до 8 раз
- сохраняет качество без заметной потери
Это ключевой момент: раньше компрессия почти всегда ухудшала ответы.
Как это устроено:
- сначала данные преобразуются (rotation), чтобы их было проще сжимать
- затем применяется основной алгоритм сжатия (PolarQuant)
- после этого добавляется лёгкая коррекция (QJL), которая убирает ошибки
В итоге получается почти точное восстановление при сильно меньшем объёме.
С TurboQuant:
- модели можно запускать на меньшем количестве GPU
- один сервер может обслуживать больше запросов
- становится проще работать с длинным контекстом
- падает стоимость инференса
По сути, это не про “ускорить модель”, а про перераспределение ресурсов внутри всей системы.
Раньше оптимизировали веса моделей
теперь оптимизируют то, как они работают в проде
И KV-cache, как раз одна из самых дорогих частей.
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
🐍 полезные ресурсы 🚀Max
@data_analysis_ml
👍19❤11🔥6
Как перейти от ИИ-экспериментов к рабочим системам
Рассказываем, где узнать реальный опыт тех, кто встроил искусственный интеллект в ключевые процессы компании и извлек из этого реальную выгоду. 22 апреля присоединяйтесь к конференции МЛечный путь от Selectel, провайдера инфраструктуры для ИИ.
Эксперты топовых ИТ-компаний расскажут:
🔺Как ускорить ML-пайплайны и снизить издержки на инференс без потери качества
🔺Как безопасно внедрить генеративные модели в ключевые процессы и управлять эффектом этого внедрения
🔺Как интегрировать модели в существующую ИТ-архитектуру
Конференция пройдет 22 апреля в Москве. Участие бесплатное, регистрируйтесь: https://slc.tl/ib77j
Реклама. АО "Селектел". erid:2W5zFHjUoay
Рассказываем, где узнать реальный опыт тех, кто встроил искусственный интеллект в ключевые процессы компании и извлек из этого реальную выгоду. 22 апреля присоединяйтесь к конференции МЛечный путь от Selectel, провайдера инфраструктуры для ИИ.
Эксперты топовых ИТ-компаний расскажут:
🔺Как ускорить ML-пайплайны и снизить издержки на инференс без потери качества
🔺Как безопасно внедрить генеративные модели в ключевые процессы и управлять эффектом этого внедрения
🔺Как интегрировать модели в существующую ИТ-архитектуру
Конференция пройдет 22 апреля в Москве. Участие бесплатное, регистрируйтесь: https://slc.tl/ib77j
Реклама. АО "Селектел". erid:2W5zFHjUoay
❤2👏2😁2👍1
В Claude Code агент теперь сам решает, какие действия можно выполнять 👇
Раньше было два режима:
- либо он постоянно спрашивает разрешение
- либо
Первое раздражает.
Второе - рискованно.
Теперь появился auto mode.
В этом режиме Claude:
- сам принимает решения о доступах
- оценивает каждое действие
- безопасные - выполняет сразу
- рискованные - блокирует или ищет альтернативу
По сути:
• это тот же
🧠 Под капотом - классификатор, который анализирует каждый шаг агента
🐍 полезные ресурсы 🚀Max
@data_analysis_ml
Раньше было два режима:
- либо он постоянно спрашивает разрешение
- либо
skip permissions - делает всё без спроса Первое раздражает.
Второе - рискованно.
Теперь появился auto mode.
В этом режиме Claude:
- сам принимает решения о доступах
- оценивает каждое действие
- безопасные - выполняет сразу
- рискованные - блокирует или ищет альтернативу
По сути:
• это тот же
skip permissions, но с встроенной проверкой на потенциальный вред 🧠 Под капотом - классификатор, который анализирует каждый шаг агента
🐍 полезные ресурсы 🚀Max
@data_analysis_ml
👍15❤5🔥3🤣1
⚡️ MWS Cloud выпустил сервис по работе с большими языковыми моделями.
MWS GPT Model Hub — облачный сервис, который предоставляет доступ к LLM внутри MWS Cloud Platform. Развертывание занимает секунды, модели подключаются через OpenAI‑совместимый API.
Сейчас в сервисе 10 моделей, включая DeepSeek, Google, Alibaba, Zhipu AI. До конца года добавят еще десяток — с поддержкой преобразования текста в речь и аудио в текст.
Что можно делать с помощью MWS GPT Model Hub:
• запускать AI‑ассистентов без настройки инфраструктуры;
• обрабатывать большие объемы текстовых данных;
• создавать внутренние AI‑сервисы для сотрудников;
• сокращать time‑to‑market вдвое за счет быстрого прототипирования;
• внедрять интеллектуальный поиск в продукты.
К плюшкам: встроенные инструменты биллинга и учета ресурсов отслеживают расходы на AI‑функции по проектам и командам.
MWS GPT Model Hub — облачный сервис, который предоставляет доступ к LLM внутри MWS Cloud Platform. Развертывание занимает секунды, модели подключаются через OpenAI‑совместимый API.
Сейчас в сервисе 10 моделей, включая DeepSeek, Google, Alibaba, Zhipu AI. До конца года добавят еще десяток — с поддержкой преобразования текста в речь и аудио в текст.
Что можно делать с помощью MWS GPT Model Hub:
• запускать AI‑ассистентов без настройки инфраструктуры;
• обрабатывать большие объемы текстовых данных;
• создавать внутренние AI‑сервисы для сотрудников;
• сокращать time‑to‑market вдвое за счет быстрого прототипирования;
• внедрять интеллектуальный поиск в продукты.
К плюшкам: встроенные инструменты биллинга и учета ресурсов отслеживают расходы на AI‑функции по проектам и командам.
❤3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
The AI Scientist официально вышел в Nature - и это уже не просто эксперимент.
Речь про систему, которая способна автоматизировать весь цикл научного исследования:
- генерировать идеи
- писать код
- запускать эксперименты
- оформлять научную статью
Обновлённая версия AI Scientist-v2 уже сгенерировала первую полностью AI-сгенерированную научную работу,
которая прошла полноценное рецензирование людьми.
Теперь вышла публикация в Nature,
где подробно разобрана архитектура системы и показано, как всё это работает на практике.
В ИИ-систему добавили Automated Reviewer - AI-рецензента, который оценивает статьи
на уровне человека и даже стабильнее, чем сами люди.
Исследователями обнаружен прямой закон масштабирования науки -
чем сильнее базовая модель,
тем выше качество научных работ, которые она генерирует.
Это означает простую вещь:
По мере роста моделей и удешевления вычислений
качество AI-науки будет расти автоматически.
Фактически мы подошли к точке, где исследования можно масштабировать так же, как сегодня масштабируют код или контент.
• Nature: https://nature.com/articles/s41586-026-10265-5
• Blog: https://sakana.ai/ai-scientist-nature
@data_analysis_ml
Речь про систему, которая способна автоматизировать весь цикл научного исследования:
- генерировать идеи
- писать код
- запускать эксперименты
- оформлять научную статью
Обновлённая версия AI Scientist-v2 уже сгенерировала первую полностью AI-сгенерированную научную работу,
которая прошла полноценное рецензирование людьми.
Теперь вышла публикация в Nature,
где подробно разобрана архитектура системы и показано, как всё это работает на практике.
В ИИ-систему добавили Automated Reviewer - AI-рецензента, который оценивает статьи
на уровне человека и даже стабильнее, чем сами люди.
Исследователями обнаружен прямой закон масштабирования науки -
чем сильнее базовая модель,
тем выше качество научных работ, которые она генерирует.
Это означает простую вещь:
По мере роста моделей и удешевления вычислений
качество AI-науки будет расти автоматически.
Фактически мы подошли к точке, где исследования можно масштабировать так же, как сегодня масштабируют код или контент.
• Nature: https://nature.com/articles/s41586-026-10265-5
• Blog: https://sakana.ai/ai-scientist-nature
@data_analysis_ml
🔥9👍5❤3
ARC-AGI-3 - бенчмарк,показал неприятную для всей индустрии вещь: даже топовые frontier-модели сейчас набирают меньше 1%.
Лучшие результаты на старте такие:
- Gemini 3.1 Pro Preview - 0.37%
- GPT-5.4 High - 0.26%
- Opus 4.6 Max - 0.25%
И это, пожалуй, главный вывод.
ARC-AGI-3 - это уже не набор статичных головоломок, как в прошлых версиях ARC. Теперь это интерактивные игровые миры, где агенту нужно самому разбираться, что вообще происходит.
Что именно проверяет новый тест:
- исследование незнакомой среды с нуля
- поиск целей и правил без текстовых инструкций
- построение своей модели мира по ходу задачи
- длинное планирование на много шагов вперёд
- обучение на опыте, а не по шаблону
- пересмотр гипотез, если первые догадки оказались неверными
То есть здесь уже мало просто "хорошо рассуждать в чате".
Нужно адаптироваться в реальном времени, помнить прошлые действия, извлекать сигналы из слабой обратной связи и не скатываться в перебор.
Внутри ARC-AGI-3:
- 150+ новых интерактивных окружений
- почти 1 000 уровней
- replay-сессии, где можно смотреть весь таймлайн решений агента
Скоринг считает не только факт решения, а то, насколько эффективно модель осваивает навык по сравнению с человеком.
Именно поэтому результаты выглядят настолько жёстко.
По сути, ARC Prize говорит прямо:
пока между человеком и ИИ есть такой разрыв в освоении новых задач, говорить о настоящем AGI рано.
И это, возможно, один из самых честных тестов за последнее время.
Не потому что модели "слабые".
А потому что реальная универсальная адаптация всё ещё не решена.
https://arcprize.org/
🐍 полезные ресурсы 🚀Max
@data_analysis_ml
Лучшие результаты на старте такие:
- Gemini 3.1 Pro Preview - 0.37%
- GPT-5.4 High - 0.26%
- Opus 4.6 Max - 0.25%
И это, пожалуй, главный вывод.
ARC-AGI-3 - это уже не набор статичных головоломок, как в прошлых версиях ARC. Теперь это интерактивные игровые миры, где агенту нужно самому разбираться, что вообще происходит.
Что именно проверяет новый тест:
- исследование незнакомой среды с нуля
- поиск целей и правил без текстовых инструкций
- построение своей модели мира по ходу задачи
- длинное планирование на много шагов вперёд
- обучение на опыте, а не по шаблону
- пересмотр гипотез, если первые догадки оказались неверными
То есть здесь уже мало просто "хорошо рассуждать в чате".
Нужно адаптироваться в реальном времени, помнить прошлые действия, извлекать сигналы из слабой обратной связи и не скатываться в перебор.
Внутри ARC-AGI-3:
- 150+ новых интерактивных окружений
- почти 1 000 уровней
- replay-сессии, где можно смотреть весь таймлайн решений агента
Скоринг считает не только факт решения, а то, насколько эффективно модель осваивает навык по сравнению с человеком.
Именно поэтому результаты выглядят настолько жёстко.
По сути, ARC Prize говорит прямо:
пока между человеком и ИИ есть такой разрыв в освоении новых задач, говорить о настоящем AGI рано.
И это, возможно, один из самых честных тестов за последнее время.
Не потому что модели "слабые".
А потому что реальная универсальная адаптация всё ещё не решена.
https://arcprize.org/
🐍 полезные ресурсы 🚀Max
@data_analysis_ml
👍24❤6🔥6🙏2
Для специалистов по анализу данных ключевой вопрос — как быстро и эффективно извлечь нужную информацию из разных источников. Для этого необходим универсальный инструмент. Например, таким может выступать File Search — встроенный инструмент, доступный на платформе Yandex AI Studio. Инструмент работает на базе RAG-подхода и позволяет большим языковым моделям обогащать контекст данными из корпоративной базы знаний.
🚀Недавно платформа представила обновление инструмента и добавила новые возможности:
- Поддержка таблиц CSV и Excel — поиск по структурированным данным теперь встроен, что упрощает работу с финансовыми, маркетинговыми и операционными отчетами.
- Мультимедиа — видео и аудио можно анализировать через специализированный пайплайн, извлекая ценные инсайты из нестандартных источников.
File Search позволяет аналитикам быстрее находить ответы на вопросы, формируя их на основе загруженных корпоративных данных, а не только общих знаний модели о мире, и упрощает интеграцию в существующие BI- и аналитические процессы.
🚀Недавно платформа представила обновление инструмента и добавила новые возможности:
- Поддержка таблиц CSV и Excel — поиск по структурированным данным теперь встроен, что упрощает работу с финансовыми, маркетинговыми и операционными отчетами.
- Мультимедиа — видео и аудио можно анализировать через специализированный пайплайн, извлекая ценные инсайты из нестандартных источников.
File Search позволяет аналитикам быстрее находить ответы на вопросы, формируя их на основе загруженных корпоративных данных, а не только общих знаний модели о мире, и упрощает интеграцию в существующие BI- и аналитические процессы.
❤6👍3🔥1🌭1
В Claude Code уже 93 команды.
Но чтобы получить 80% пользы, тебе хватит вот этих 16 👇
→ создаёт
→ сначала думает, потом пишет код
→ показывает, что именно съедает твои токены
→ очищает контекст прямо в середине сессии
→ сбрасывает состояние между задачами
→ переключает модели: Opus / Sonnet / Haiku
→ позволяет задать побочный вопрос, не ломая основной поток работы
→ откатывает назад, если всё пошло не туда
→ запускает несколько суб-агентов параллельно
→ управляет браузером: клик, ввод, навигация
→ прогоняет промпты по кругу, удобно для мониторинга
→ 3 агента вместе ревьюят твой код
→ заранее разрешает безопасные действия
→ полностью автоматический режим, без лишних подтверждений
→ мгновенное переключение режимов
→ максимальная глубина рассуждения
Большинство используют Claude Code как обычный чат-бот.
Поэтому и упираются в потолок.
Продвинутые пользователи работают с ним как с целой системой.
Но чтобы получить 80% пользы, тебе хватит вот этих 16 👇
/init→ создаёт
CLAUDE.md - память проекта и репозитория/plan→ сначала думает, потом пишет код
/context→ показывает, что именно съедает твои токены
/compact→ очищает контекст прямо в середине сессии
/clear→ сбрасывает состояние между задачами
/model→ переключает модели: Opus / Sonnet / Haiku
/btw→ позволяет задать побочный вопрос, не ломая основной поток работы
/rewind→ откатывает назад, если всё пошло не туда
/agents→ запускает несколько суб-агентов параллельно
/chrome→ управляет браузером: клик, ввод, навигация
/loop→ прогоняет промпты по кругу, удобно для мониторинга
/simplify→ 3 агента вместе ревьюят твой код
/permissions→ заранее разрешает безопасные действия
--dangerously-skip-permissions→ полностью автоматический режим, без лишних подтверждений
Shift + Tab→ мгновенное переключение режимов
ultra think→ максимальная глубина рассуждения
Большинство используют Claude Code как обычный чат-бот.
Поэтому и упираются в потолок.
Продвинутые пользователи работают с ним как с целой системой.
👍21❤8🔥6
Forwarded from AI VK Hub
Рекомендательные системы — один из ключевых механизмов, на которых держатся современные продукты. Они помогают пользователям находить контент, товары и сервисы, а бизнесу — повышать вовлеченность и качество пользовательского опыта. Вместе с Владимиром Байкаловым, ведущим исследователем AI VK, разбираем главные тренды в рекомендациях и последние значимые работы.
🔗 Список статей
#aivk #recsys
Масштабирование🟣 Действия говорят громче слов: последовательные преобразователи с триллионом параметров для генеративных рекомендаций🟣 Масштабирование трансформеров для рекомендательных систем до одного миллиарда параметров🟣 LLaTTE: законы масштабирования для многоэтапного моделирования последовательностей в крупномасштабных рекламных рекомендательных системах
Lifelong Recommendations🟣 TransAct V2: моделирование последовательностей действий пользователя на протяжении всей жизни в рекомендациях Pinterest🟣 TWIN V2: расширение моделирования ультра‑длинных последовательностей поведения пользователя для улучшения CTR‑предсказания в Kuaishou🟣 LONGER: повышение эффективности моделирования длинных последовательностей в промышленных рекомендательных системах🟣 Укрощение ультра-длинных последовательностей пользовательского поведения в генеративных рекомендациях на уровне сессий
Generative Retrieval🟣 Память трансформера как дифференцируемый поисковый индекс🟣 Рекомендательные системы с генеративным поиском🟣 Sparse Meets Dense: унифицированные генеративные рекомендации с каскадными разреженно-плотными представлениями
Semantic IDs🟣 Повышение стабильности эмбеддингов в рекомендательных системах с помощью Semantic ID🟣 ActionPiece: контекстная токенизация последовательностей действий для генеративных рекомендаций🟣 Обучаемая токенизация объектов для генеративных рекомендаций🟣 Semantic ID переменной длины для рекомендательных систем
End to End Рекомендации🟣 OneRec: объединение retrieval и ranking в генеративной рекомендательной модели с итеративным выравниванием предпочтений🟣 OxygenREC: генеративный фреймворк, следующий инструкциям, для рекомендаций в электронной коммерции🟣 EGA: унифицированный end-to-end генеративный фреймворк для промышленных рекламных систем
LLMxRecSys🟣 PLUM: адаптация предварительно обученных языковых моделей для генеративных рекомендаций промышленного масштаба🟣 OneRec‑Think: рассуждение в тексте для генеративной рекомендации🟣 ReaSeq: использование мировых знаний через рассуждение для последовательного моделирования
#aivk #recsys
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2🐳2