Когда pandas уже не хватает
Если вы работаете с выгрузками из баз, логами сервисов или отчетами за годы — вы уже имеете дело со значениями, разделенными запятыми (CSV). Но умеете ли вы загружать CSV в Spark правильно?
👨💻 На открытом уроке разберем, как из плоского файла получить распределенную коллекцию данных — DataFrame. Поймем, почему DataFrame — это не просто таблица, как настраивать разбор грязных данных, объявлять схему вручную и избегать ошибок в промышленной среде.
Вы увидите, как Spark взаимодействует с файловой системой, научитесь писать код для загрузки CSV в PySpark или Scala и разберетесь, когда достаточно pandas, а когда без Spark не обойтись.
Открытый урок проходит в преддверии старта курса «Spark-разработчик».
➡️ Подробности и регистрация: https://tglink.io/d79eddbe8858f8?erid=2W5zFK4VnuP
#реклама
О рекламодателе
Если вы работаете с выгрузками из баз, логами сервисов или отчетами за годы — вы уже имеете дело со значениями, разделенными запятыми (CSV). Но умеете ли вы загружать CSV в Spark правильно?
👨💻 На открытом уроке разберем, как из плоского файла получить распределенную коллекцию данных — DataFrame. Поймем, почему DataFrame — это не просто таблица, как настраивать разбор грязных данных, объявлять схему вручную и избегать ошибок в промышленной среде.
Вы увидите, как Spark взаимодействует с файловой системой, научитесь писать код для загрузки CSV в PySpark или Scala и разберетесь, когда достаточно pandas, а когда без Spark не обойтись.
Открытый урок проходит в преддверии старта курса «Spark-разработчик».
➡️ Подробности и регистрация: https://tglink.io/d79eddbe8858f8?erid=2W5zFK4VnuP
#реклама
О рекламодателе
❤3👍2
🚀 Удобный CLI для Google Workspace
gws — это универсальный инструмент командной строки для работы с Google Workspace, включая Drive, Gmail и Calendar. Он динамически строит команды, используя Google Discovery Service, и предоставляет структурированный JSON-вывод. Идеально подходит как для разработчиков, так и для ИИ-агентов.
🚀 Основные моменты:
- Поддержка более 40 навыков для ИИ-агентов.
- Автоматическое обновление команд при добавлении новых API.
- Удобная аутентификация и работа с несколькими аккаунтами.
- Интерактивные команды с подсказками и предварительным просмотром запросов.
📌 GitHub: https://github.com/googleworkspace/cli
gws — это универсальный инструмент командной строки для работы с Google Workspace, включая Drive, Gmail и Calendar. Он динамически строит команды, используя Google Discovery Service, и предоставляет структурированный JSON-вывод. Идеально подходит как для разработчиков, так и для ИИ-агентов.
🚀 Основные моменты:
- Поддержка более 40 навыков для ИИ-агентов.
- Автоматическое обновление команд при добавлении новых API.
- Удобная аутентификация и работа с несколькими аккаунтами.
- Интерактивные команды с подсказками и предварительным просмотром запросов.
📌 GitHub: https://github.com/googleworkspace/cli
🔥 Полезная подборка каналов только код, практика и самые передовые инструменты, которые используют разработчики прямо сейчас.👇
🖥 ИИ: t.me/ai_machinelearning_big_data
🖥 Python: t.me/pythonl
🖥 Linux: t.me/linuxacademiya
🖥 C++ t.me/cpluspluc
🖥 Docker: t.me/DevopsDocker
🖥 Хакинг: t.me/linuxkalii
🖥 Devops: t.me/DevOPSitsec
👣 Golang: t.me/Golang_google
🖥 Аналитика: t.me/data_analysis_ml
🖥 Javascript: t.me/javascriptv
🖥 C#: t.me/csharp_ci
🖥 Java: t.me/javatg
🖥 Базы данных: t.me/sqlhub
👣 Rust: t.me/rust_code
🤖 Технологии: t.me/vistehno
💰 Экономика и инвестиции в ИИ t.me/financeStable
💼 Актуальные вакансии: t.me/addlist/_zyy_jQ_QUsyM2Vi
🖥 Подборка по Golang: https://t.me/addlist/MUtJEeJSxeY2YTFi
⚡️ Лучшие ИИ ресурсы: https://t.me/addlist/2Ls-snqEeytkMDgy
Max ИИ: https://max.ru/ai_machinelearning_big_data
Max Ml: https://max.ru/vistehno
Max python: https://max.ru/pythonl
Max Go: https://max.ru/Golang_google
Max Linux: https://max.ru/linuxkalii
Max Java: https://max.ru/javatg
Max Sql: https://max.ru/sqlhub
Max Devops: https://max.ru/DevOPSitsec
Анализ данных: https://max.ru/data_analysis_ml
C++ : https://max.ru/cpluspluc
C#: https://max.ru/csharp_ci
🖥 Chatgpt бот в тг: t.me/Chatgpturbobot
📚 Бесплатные ит-книги: https://t.me/addlist/HwywK4fErd8wYzQy
💰 Экономика и инвестиции в ИИ t.me/financeStable
💼 Актуальные вакансии: t.me/addlist/_zyy_jQ_QUsyM2Vi
⚡️ Лучшие ИИ ресурсы: https://t.me/addlist/2Ls-snqEeytkMDgy
Max ИИ: https://max.ru/ai_machinelearning_big_data
Max Ml: https://max.ru/vistehno
Max python: https://max.ru/pythonl
Max Go: https://max.ru/Golang_google
Max Linux: https://max.ru/linuxkalii
Max Java: https://max.ru/javatg
Max Sql: https://max.ru/sqlhub
Max Devops: https://max.ru/DevOPSitsec
Анализ данных: https://max.ru/data_analysis_ml
C++ : https://max.ru/cpluspluc
C#: https://max.ru/csharp_ci
📚 Бесплатные ит-книги: https://t.me/addlist/HwywK4fErd8wYzQy
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3💩3
🤯 Вышло интересное исследование про Vision-Language-Action (VLA) модели - это ИИ, который позволяет роботу видеть объект, понимать задачу и действовать (например, схватить предмет).
Обычно для этого нужны огромные модели и дорогие GPU.
Но тут сделали иначе 👇
Команда разработала модель, где почти все вычисления сведены к 3 значениям:
-1, 0 и 1
Да, буквально.
За счёт этого:
- модель сжали до ~1.4GB
- убрали сложную математику
- сделали её пригодной для дешёвого железа
👉 точность осталась на уровне больших моделей
👉 скорость выросла в 4 раза
То есть робот двигается так же точно, но быстрее и дешевле:
- больше не нужны дорогие серверы и GPU
- роботов можно запускать прямо на локальных чипах
- открывается путь к массовой роботизации (дешёвой)
Paper Link – arxiv.org/abs/2506.07530
Обычно для этого нужны огромные модели и дорогие GPU.
Но тут сделали иначе 👇
Команда разработала модель, где почти все вычисления сведены к 3 значениям:
-1, 0 и 1
Да, буквально.
За счёт этого:
- модель сжали до ~1.4GB
- убрали сложную математику
- сделали её пригодной для дешёвого железа
👉 точность осталась на уровне больших моделей
👉 скорость выросла в 4 раза
То есть робот двигается так же точно, но быстрее и дешевле:
- больше не нужны дорогие серверы и GPU
- роботов можно запускать прямо на локальных чипах
- открывается путь к массовой роботизации (дешёвой)
Paper Link – arxiv.org/abs/2506.07530
❤6🤩4🔥3
🚨 Хотите парсить сложные PDF с точностью уровня SOTA, полностью локально? 📄🔍
Модель GLM-OCR всего с 0.9 млрд параметров можно просто загрузить в LM Studio и запускать почти на любом компьютере. 🥔
🧠 0.9B параметров
💾 Работает на менее чем 1.5GB VRAM (или около 1GB в квантованном виде)
💸 Никаких расходов на API
🔒 Полная приватность данных
Desktop-AI для работы с документами официально наступил. 💻⚡
https://huggingface.co/zai-org/GLM-OCR
Модель GLM-OCR всего с 0.9 млрд параметров можно просто загрузить в LM Studio и запускать почти на любом компьютере. 🥔
🧠 0.9B параметров
💾 Работает на менее чем 1.5GB VRAM (или около 1GB в квантованном виде)
💸 Никаких расходов на API
🔒 Полная приватность данных
Desktop-AI для работы с документами официально наступил. 💻⚡
https://huggingface.co/zai-org/GLM-OCR
❤12
Forwarded from Machinelearning
NVIDIA выложила в открытый доступ проект Kimodo - генеративную модель на основе диффузии, которая создает реалистичные трехмерные движения для человеческих и робототехнических скелетов.
Kimodo принимает на вход текстовые промпты и ключевые позы всего тела, позиции и вращения конечностей, двухмерные пути и контрольные точки. Это позволяет точно управлять генерацией: от общего описания наподобие "персонаж идет и садится на стул" до детального контроля положения рук и ног в кадрах.
Всего доступно 5 вариантов модели для 3 типов скелетов: SOMA, SMPL-X и Unitree G1. Первые два ориентированы на анимацию аватаров, третий - на робота Unitree G1.
Модели, обученные на полном датасете Bones Rigplay 1 (700 часов), NVIDIA рекомендует как основные рабочие.
Варианты на сете BONES-SEED (288 часов) предназначены для бенчмаркинга и сравнения с собственными разработками.
Для работы с Kimodo предусмотрены 3 интерфейса:
Под инференс потребуется около 17 ГБ видеопамяти, модели запускали на RTX 3090, RTX 4090 и NVIDIA A100.
ProtoMotions позволяет брать сгенерированные движения и обучать на них физически корректные политики управления в GPU-ускоренной симуляции — как для аватаров, так и для Unitree G1.
Через General Motion Retargeting движения, созданные на скелете SMPL-X, можно перенести на произвольных роботов.
Код проекта под Apache 2.0, большинство моделей под NVIDIA Open Model License.
Вариант SMPL-X имеет более ограниченную NVIDIA R&D Model License, она допускает только исследовательское применение.
@ai_machinelearning_big_data
#AI #ML #Robotics #Kimodo #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3
Эффективны ли ваши ETL-процессы? 👁
Проверьте это с бесплатным чек-листом
Эксперты Cloud․ru собрали чек-лист для простой и быстрой диагностики ETL-процессов. Внутри — опыт и лайфхаки в работе с данными.
По чек-листу можно оценить надежность, масштабируемость, управляемость и безопасность вашей Data-инфраструктуры, а еще соответствие cloud native-подходу.
Забрать чек-лист
Проверьте это с бесплатным чек-листом
Без регулярного аудита ETL-пайплайны начинают деградировать: растут затраты, ломаются дашборды, а решения принимаются на битых данных. При этом на полноценный аудит часто не хватает времени.
Эксперты Cloud․ru собрали чек-лист для простой и быстрой диагностики ETL-процессов. Внутри — опыт и лайфхаки в работе с данными.
По чек-листу можно оценить надежность, масштабируемость, управляемость и безопасность вашей Data-инфраструктуры, а еще соответствие cloud native-подходу.
Как это работает1️⃣ Пройдите чек-лист2️⃣ Подсчитайте баллы за реализованные практики3️⃣ Определите уровень зрелости ETL-процессов4️⃣ Получите персональные рекомендации от эксперта Cloud․ru
Забрать чек-лист
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1🔥1
🌐 Инфраструктура открытых данных Бразилии
br/acc — это проект, который объединяет открытые данные из различных государственных источников Бразилии в единую графовую структуру. Он предоставляет доступ к информации о компаниях, здравоохранении, образовании и многом другом, позволяя пользователям исследовать связи и делать выводы.
🚀 Основные моменты:
- 45 модулей ETL для обработки данных
- Графовая база данных Neo4j для нормализованных сущностей
- React-фронтенд для поиска и анализа
- Публичный API для доступа к графовым данным
- Соответствие требованиям LGPD для безопасности данных
📌 GitHub: https://github.com/World-Open-Graph/br-acc
#python
br/acc — это проект, который объединяет открытые данные из различных государственных источников Бразилии в единую графовую структуру. Он предоставляет доступ к информации о компаниях, здравоохранении, образовании и многом другом, позволяя пользователям исследовать связи и делать выводы.
🚀 Основные моменты:
- 45 модулей ETL для обработки данных
- Графовая база данных Neo4j для нормализованных сущностей
- React-фронтенд для поиска и анализа
- Публичный API для доступа к графовым данным
- Соответствие требованиям LGPD для безопасности данных
📌 GitHub: https://github.com/World-Open-Graph/br-acc
#python
❤4❤🔥3🔥2
Почему одного CLAUDE.md недостаточно и что реально дают Hooks в Claude Code
Многие ограничиваются CLAUDE.md и на этом останавливаются. Но это всего лишь рекомендации для модели, а не строгие правила. Claude старается им следовать, но не всегда.
Отсюда и проблемы: может забыть прогнать линтер, выполнить нежелательную команду или «закончить» задачу с падающими тестами.
Hooks решают это иначе. Они не про просьбы, а про контроль. Любое действие проходит через этапы - до выполнения, после и перед завершением. И в каждый из этих моментов можно встроить свои проверки.
Например, перед запуском команды можно отфильтровать опасные действия и просто не дать им выполниться. После - автоматически привести код в порядок. А перед завершением — не выпустить результат, пока тесты не проходят.
Важный момент - коды завершения. Только exit code 2 действительно останавливает выполнение и возвращает ошибку обратно модели. Остальные коды не дают нужного контроля.
В итоге разница простая:
CLAUDE.md - это возможность того, что всё будет сделано правильно
Hooks - это гарантия, что иначе просто не получится.
Многие ограничиваются CLAUDE.md и на этом останавливаются. Но это всего лишь рекомендации для модели, а не строгие правила. Claude старается им следовать, но не всегда.
Отсюда и проблемы: может забыть прогнать линтер, выполнить нежелательную команду или «закончить» задачу с падающими тестами.
Hooks решают это иначе. Они не про просьбы, а про контроль. Любое действие проходит через этапы - до выполнения, после и перед завершением. И в каждый из этих моментов можно встроить свои проверки.
Например, перед запуском команды можно отфильтровать опасные действия и просто не дать им выполниться. После - автоматически привести код в порядок. А перед завершением — не выпустить результат, пока тесты не проходят.
Важный момент - коды завершения. Только exit code 2 действительно останавливает выполнение и возвращает ошибку обратно модели. Остальные коды не дают нужного контроля.
В итоге разница простая:
CLAUDE.md - это возможность того, что всё будет сделано правильно
Hooks - это гарантия, что иначе просто не получится.
❤7🔥5👍3🤔2👎1🥰1
ИИ начал находить настоящие баги в ядре Linux. И никто не понимает, почему именно сейчас
Грег Кроа-Хартман, один из ключевых мейнтейнеров ядра Linux, заявил что ситуация с AI-сгенерированными баг-репортами кардинально изменилась.
Ещё недавно это был поток мусора - теперь это реальные баги с рабочими патчами.
Его слова: «Что-то произошло месяц назад, и мир переключился.
Теперь к нам приходят настоящие отчёты». И это не только Linux - по его словам, все крупные open source проекты видят то же самое. Команды безопасности общаются между собой неформально, и картина везде одинаковая.
Никто не понимает, что именно изменилось. Кроа-Хартман говорит прямо: «Мы не знаем. Никто не знает почему. То ли инструменты стали сильно лучше, то ли люди просто начали пробовать. Похоже, что это много разных групп и компаний одновременно».
Ядро Linux справляется - команда большая и распределённая.
Баги мелкие, не критические, но поток реальный и не замедляется.
А вот для маленьких open source проектов это проблема. У них просто нет людей, чтобы обработать внезапный наплыв качественных AI-репортов.
Раньше страдали от мусорных репортов, теперь страдают от настоящих.
По сути мы наблюдаем момент, когда AI-инструменты для поиска уязвимостей перешли из категории «игрушка» в категорию «инфраструктура». И open source к этому не готов.
https://vc.ru/dev/2830028-ii-nashel-bagi-kotorye-lyudi-propuskali-30-let-meinteiner-linux-my-ne-ponimaem-chto-proizoshlo
🐍 Linux полезные ресурсы 🚀Max
@linuxkalii
Грег Кроа-Хартман, один из ключевых мейнтейнеров ядра Linux, заявил что ситуация с AI-сгенерированными баг-репортами кардинально изменилась.
Ещё недавно это был поток мусора - теперь это реальные баги с рабочими патчами.
Его слова: «Что-то произошло месяц назад, и мир переключился.
Теперь к нам приходят настоящие отчёты». И это не только Linux - по его словам, все крупные open source проекты видят то же самое. Команды безопасности общаются между собой неформально, и картина везде одинаковая.
Никто не понимает, что именно изменилось. Кроа-Хартман говорит прямо: «Мы не знаем. Никто не знает почему. То ли инструменты стали сильно лучше, то ли люди просто начали пробовать. Похоже, что это много разных групп и компаний одновременно».
Ядро Linux справляется - команда большая и распределённая.
Баги мелкие, не критические, но поток реальный и не замедляется.
А вот для маленьких open source проектов это проблема. У них просто нет людей, чтобы обработать внезапный наплыв качественных AI-репортов.
Раньше страдали от мусорных репортов, теперь страдают от настоящих.
По сути мы наблюдаем момент, когда AI-инструменты для поиска уязвимостей перешли из категории «игрушка» в категорию «инфраструктура». И open source к этому не готов.
https://vc.ru/dev/2830028-ii-nashel-bagi-kotorye-lyudi-propuskali-30-let-meinteiner-linux-my-ne-ponimaem-chto-proizoshlo
🐍 Linux полезные ресурсы 🚀Max
@linuxkalii
🔥3❤1👍1