Big Data AI
19.1K subscribers
1.01K photos
131 videos
19 files
998 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
Март 2026
😁17💯1
🖥 Новый курс на Stepik - PostgreSQL для разработчиков: от основ к созданию API

Здесь на пальцах объясняют не только как писать SQL-запросы, а строить настоящие backend-сервисы с базой данных как у профи.

В этом курсе ты шаг за шагом создашь REST API на FastAPI + PostgreSQL:
от установки среды и первых таблиц - до масштабируемого приложения с безопасностью и CRUD-операциями.

🔹 На практике разберете:
• SQL-запросы, фильтры, агрегаты и подзапросы
• Связи между таблицами и нормализацию БД
• Взаимодействие Python и PostgreSQL
• Реализацию REST API и подключение базы
• Оптимизацию и разбор реальных задач с собеседований

После курса у вас будет свой работающий API-проект и реальные навыки работы с PostgreSQL в продакшене.

🎁 Торопись пока действует скидка в честь нвого года!

🚀 Прокачаю свои знания: https://stepik.org/course/255542/
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4
This media is not supported in your browser
VIEW IN TELEGRAM
🎵🔍 OSINT-инструмент, который вытаскивает нужные звуки из аудио

Если работаешь с OSINT или анализом записей, главное правило - не слушать ушами то, что можно искать алгоритмом.

Инструменты вроде AudioGhost AI как раз про это: ты не перематываешь час аудио, а формулируешь текстом, какой звук тебе нужен.

Подход к использованию:

Сначала думай не «что за запись», а какие события ты ищешь:
шаги, хлопок двери, выстрел, лай собаки, сирена, голос, крик, шум двигателя и т.д.
Дальше формулируешь это как текстовый запрос — и модель ищет похожие акустические паттерны по всей записи.

Это особенно мощно, когда:
- записи длинные
- звук грязный
- событий мало, но они критичны
- нужно быстро отфильтровать «пустоту»

Как запустить AudioGhost AI локально:


# 1. Клонируем проект
git clone https://github.com/0x0funky/audioghost-ai.git
cd audioghost-ai

# 2. Создаём окружение
python -m venv venv
source venv/bin/activate # Windows: venv\Scripts\activate

# 3. Ставим зависимости
pip install -r requirements.txt

# 4. Запуск интерфейса (обычно web UI или gradio/streamlit)
python app.py # либо main.py — смотри README проекта

# 5. Открываешь адрес из терминала в браузере
# Загружаешь аудиофайл
# Вводишь запрос, например:
# "gunshot", "door slam", "scream", "dog barking"
👍84
👍16😁10🤣6💯21
🎨🚀 MayaFlux: Новая эра мультимедийной обработки

MayaFlux — это архитектура, объединяющая аудио, видео и алгоритмическое создание в единую вычислительную среду. Она позволяет работать с мультимедийными данными без разделения на отдельные домены, обеспечивая синхронность и гибкость в реальном времени.

🚀Основные моменты:
- Прямой поток данных между аудио и графикой без переводов
- Живое редактирование алгоритмов с минимальной задержкой
- Рекурсивная композиция с использованием корутин C++20
- Синхронизация обработки аудио и графики на основе единого расписания
- Адаптивные алгоритмы, настраивающиеся в реальном времени

📌 GitHub: https://github.com/MayaFlux/MayaFlux
🔥4
Тебя заменит ИИ
👍158🤗3
Как меняется роль разработчика в 2026 году?

AI стремительно меняет то, как создаются продукты и пишется код. Всё чаще обсуждают не только новые инструменты, но и более фундаментальный вопрос: какой будет роль разработчика в ближайшие годы.

24 марта Mindbox проводит открытые дебаты, где эксперты по AI из SberDevices и Itsy обсудят, куда движутся технологии и как это влияет на работу инженеров.

Что будет на встрече:

— разговор о том, как на AI смотрят с двух сторон: со стороны бизнеса и со стороны разработки
— возможность задать свои вопросы и обсудить их прямо во время дебатов
— реальные идеи и практики, которые уже используют команды

Если вам интересно, как меняется индустрия и какие навыки будут важны дальше — подключайтесь и приносите свои вопросы.

Канал Сергея Маркова
Канал Никиты Архипова

📅 24 марта
19:00–20:30 мск
📍 Онлайн, бесплатно

👉 Зарегистрироваться

Реклама. ООО «Майндбокс», ИНН: 7713688880, erid: 2W5zFGn2zp1
👍53
Этот файл CLAUDE.md может сделать тебя разработчиком в 10 раз эффективнее 👇

В нём собраны лучшие практики работы с Claude Code от его создателя.

Борис Черны (создатель Claude Code в Anthropic) поделился в X внутренними подходами и рабочими процессами, которые его команда действительно использует каждый день. Позже эти материалы оформили в структурированный файл CLAUDE.md, который можно добавить в любой проект.

Что внутри:

- оркестрация рабочих процессов
- стратегия субагентов
- цикл самоулучшения
- проверка перед завершением задачи
- автономное исправление ошибок
- базовые принципы работы

Это система с накопительным эффектом.
Каждое исправление, которое ты вносишь, сохраняется как правило. Со временем Claude делает всё меньше ошибок, потому что учится на твоей обратной связи.

Если ты используешь AI в разработке каждый день - это может сэкономить тебе десятки часов.
10🥰5😁1
Бизнес-реал[ИИ]: конференция Навикон и Yandex Cloud об ИИ в бизнесе

19 марта | Москва | Только офлайн

Искусственный интеллект остаётся самым хайповым трендом. Но может ли бизнес получить от него реальную выгоду? Выясним на мероприятии Навикон & Yandex Cloud.

В списке спикеров и участников — ведущие компании, которые уже внедрили нейросети в бизнес. Со сторонниками и скептиками обсудим самые острые темы:

Приносит ли ИИ позитивный результат или только сжигает бюджет
Как подготовиться к внедрению
Как рассчитать TCO и ROI до старта проекта
Как не потеряться в море open-source и получить все инструменты в одном окне

Программа и регистрация доступны на сайте мероприятия.
2
🧩 Claw Compactor: Уменьшите затраты на токены AI

Claw Compactor — инструмент для эффективной компрессии данных AI-агентов. Он использует 5 слоев сжатия для уменьшения объема памяти и снижения затрат на токены, сохраняя при этом важные факты. Простой в использовании, он позволяет значительно оптимизировать работу с большими объемами данных.

🚀 Основные моменты:
- Пять слоев компрессии для максимальной экономии
- Без затрат на LLM — все методы детерминированы
- Потеря данных минимальна благодаря правилам и оптимизации
- Поддержка китайского, японского и корейского языков
- Одной командой можно запустить весь процесс

📌 GitHub: https://github.com/aeromomo/claw-compactor

#python
👍4
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Anthropic расширила контекстное окно до миллион токенов.

Claude Opus 4.6 и Sonnet 4.6 получили поддержку контекстного окна объемом в 1 миллион без наценок за объем. Обработка длинных запросов тарифицируется по стандартной ставке, а лимиты пропускной способности API остаются прежними на всей длине контекста.

Дополнительно лимит файлов в одном запросе увеличен в 6 раз: теперь Claude может за раз проанализировать до 600 изображений или страниц PDF. Обновление доступно в API Claude, а пользователи Claude Code на тарифах Max, Team и Enterprise при вызове Opus 4.6 по умолчанию будут автоматически использовать контекст 1M.
claude.com

✔️ Microsoft начинает масштабную ИИ-экспансию в Африке.

Корпорация запускает инициативу Microsoft Elevate, в рамках которой планирует до конца года бесплатно обучить ИИ-технологиям 3 млн. человек.

Цель программы - сдержать экспансию китайских ИИ-продуктов на самом молодом и быстрорастущем рынке мира. По внутренним оценкам Microsoft, DeepSeek уже занимает от 11% до 14% локального рынка чат-ботов, а в Эфиопии и Зимбабве его доля достигает 20% из-за активных вложений Пекина в цифровую инфраструктуру.

Чтобы вернуть инициативу, Microsoft делает ставку на развитие собственных вычислительных мощностей. До конца 2027 года компания инвестирует $330 млн. в расширение облачной и ИИ-инфраструктуры в ЮАР, а в Кении готовится строительство дата-центра, который будет полностью работать на геотермальной энергии. Ключевыми регионами для технологий и подготовки разработчиков также станут Нигерия и Марокко.
bloomberg.com

✔️ Илон Маск уволил еще 2-х сооснователей xAI.

В xAI прошла новая волна увольнений, вызванная недовольством CEO слабыми результатами. Компанию покинули еще 2 сооснователя: Цзыхан Дай и глава команды Imagine Годун Чжан, которого Маск обвинил в технических недоработках продукта. Таким образом, из 12 учредителей, запускавших xAI, в штате осталось всего 2 человека.

Кадровые чистки серьезно бьют по моральному духу команды. Источники сообщают, что инженеры массово уходят из-за выгорания, спровоцированного экстремально жесткими требованиями Маска к рабочему графику.

Пытаясь спасти проблемное направление и усилить экспертизу в разработке, xAI в конце недели переманила в свой штат Эндрю Милича и Джейсона Гинзберга из Cursor.
ft.com

✔️ Google представила крупнейшее обновление Maps.

Главным визуальным нововведением стал режим «Иммерсивной навигации». ИИ анализирует панорамы Street View и генерирует реалистичный маршрут с детализированными 3D-моделями зданий, точной разметкой полос и отображением светофоров.

Также сервис получил функцию Ask Maps на базе Gemini. Вместо поиска по ключевым словам теперь запросы на естественном языке - ИИ сопоставляет геоданные с личными предпочтениями, формирует персонализированные рекомендации и позволяет бронировать места в один клик.

Апдейт поэтапно развертывается в США. Вскоре новые инструменты появятся на платформах iOS и Android, а также в интерфейсах CarPlay и Android Auto.
blog.google

✔️ Amazon добавила в Alexa+ взрослый режим общения.

Голосовой ассистент получил новую опцию кастомизации - профиль Sassy для взрослой аудитории. Для его активации необходимо пройти дополнительную биометрическую аутентификацию. При работе профиля функция Amazon Kids автоматически блокируется.

В режиме Sassy ассистент выдает саркастичные ответы, жесткие шутки и использует мат, но на этом "взрослость" заканчивается: ИИ по-прежнему отказывается генерировать NSFW-контент, разжигать ненависть, переходить на личности или консультировать по незаконным действиям.

Взрослый режим стал частью крупной переработки Alexa+ (в прошлом месяце вышли стили Brief, Chill и Sweet).
techcrunch.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2🤔2
This media is not supported in your browser
VIEW IN TELEGRAM
Ккрупнейший open-source датасет записей работы за компьютером только что появился на HuggingFace - для обучения и оценки AI-агентов, которые умеют работать с компьютером.

В нём:

48 478 видеозаписей экранов
(примерно 12 300 часов использования профессионального софта).

https://huggingface.co/datasets/markov-ai/computer-use-large
6👍2
🔥 dots.ocr-1.5 — OCR-модель на 3B параметров от Rednote-hilab.
SOTA для мультиязычного парсинга документов — поддерживает практически любую систему письма.

📊 Elo 1089 на olmOCR-Bench и 1157 на XDocParse — выше, чем у GLM-OCR и PaddleOCR-VL-1.5
📄 На OmniDocBench (text edit 0.031) обгоняет Qwen3-VL-235B (0.069) и Gemini 2.5 Pro (0.075)
🎨 Может генерировать SVG-код для графиков, диаграмм и химических формул
🌐 Поддерживает парсинг веб-страниц, распознавание текста в сценах и подсчёт объектов
Работает через vLLM и запускается на одной GPU

🤖 Модель: https://modelscope.cn/models/rednote-hilab/dots.ocr-1.5

🔗 GitHub: https://github.com/rednote-hilab/dots.ocr

🎠 Демо: https://dotsocr.xiaohongshu.com

🎯Полезные Мл-ресурсы 🚀 Max

@bigdatai
👍5🔥31
😢20👍32💩2
Когда pandas уже не хватает

Если вы работаете с выгрузками из баз, логами сервисов или отчетами за годы — вы уже имеете дело со значениями, разделенными запятыми (CSV). Но умеете ли вы загружать CSV в Spark правильно?

👨‍💻 На открытом уроке разберем, как из плоского файла получить распределенную коллекцию данных — DataFrame. Поймем, почему DataFrame — это не просто таблица, как настраивать разбор грязных данных, объявлять схему вручную и избегать ошибок в промышленной среде.

Вы увидите, как Spark взаимодействует с файловой системой, научитесь писать код для загрузки CSV в PySpark или Scala и разберетесь, когда достаточно pandas, а когда без Spark не обойтись.

Открытый урок проходит в преддверии старта курса «Spark-разработчик».

➡️ Подробности и регистрация: https://tglink.io/d79eddbe8858f8?erid=2W5zFK4VnuP
#реклама
О рекламодателе
3👍2
🚀 Удобный CLI для Google Workspace

gws — это универсальный инструмент командной строки для работы с Google Workspace, включая Drive, Gmail и Calendar. Он динамически строит команды, используя Google Discovery Service, и предоставляет структурированный JSON-вывод. Идеально подходит как для разработчиков, так и для ИИ-агентов.

🚀 Основные моменты:
- Поддержка более 40 навыков для ИИ-агентов.
- Автоматическое обновление команд при добавлении новых API.
- Удобная аутентификация и работа с несколькими аккаунтами.
- Интерактивные команды с подсказками и предварительным просмотром запросов.

📌 GitHub: https://github.com/googleworkspace/cli
🔥 Полезная подборка каналов только код, практика и самые передовые инструменты, которые используют разработчики прямо сейчас.👇

🖥 ИИ: t.me/ai_machinelearning_big_data

🖥 Python: t.me/pythonl

🖥 Linux: t.me/linuxacademiya

🖥 C++ t.me/cpluspluc

🖥 Docker: t.me/DevopsDocker

🖥 Хакинг: t.me/linuxkalii

🖥 Devops: t.me/DevOPSitsec

👣 Golang: t.me/Golang_google

🖥 Аналитика: t.me/data_analysis_ml

🖥 Javascript: t.me/javascriptv

🖥 C#: t.me/csharp_ci

🖥 Java: t.me/javatg

🖥 Базы данных: t.me/sqlhub

👣 Rust: t.me/rust_code

🤖 Технологии: t.me/vistehno

💰 Экономика и инвестиции в ИИ t.me/financeStable

💼 Актуальные вакансии: t.me/addlist/_zyy_jQ_QUsyM2Vi


🖥Подборка по Golang: https://t.me/addlist/MUtJEeJSxeY2YTFi
⚡️ Лучшие ИИ ресурсы: https://t.me/addlist/2Ls-snqEeytkMDgy

Max ИИ: https://max.ru/ai_machinelearning_big_data
Max Ml: https://max.ru/vistehno
Max python: https://max.ru/pythonl
Max Go: https://max.ru/Golang_google
Max Linux: https://max.ru/linuxkalii
Max Java: https://max.ru/javatg
Max Sql: https://max.ru/sqlhub
Max Devops: https://max.ru/DevOPSitsec
Анализ данных: https://max.ru/data_analysis_ml
C++ : https://max.ru/cpluspluc
C#: https://max.ru/csharp_ci

🖥 Chatgpt бот в тг: t.me/Chatgpturbobot
📚 Бесплатные ит-книги: https://t.me/addlist/HwywK4fErd8wYzQy
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3💩3
🤯 Вышло интересное исследование про Vision-Language-Action (VLA) модели - это ИИ, который позволяет роботу видеть объект, понимать задачу и действовать (например, схватить предмет).

Обычно для этого нужны огромные модели и дорогие GPU.

Но тут сделали иначе 👇

Команда разработала модель, где почти все вычисления сведены к 3 значениям:
-1, 0 и 1

Да, буквально.

За счёт этого:
- модель сжали до ~1.4GB
- убрали сложную математику
- сделали её пригодной для дешёвого железа

👉 точность осталась на уровне больших моделей
👉 скорость выросла в 4 раза

То есть робот двигается так же точно, но быстрее и дешевле:

- больше не нужны дорогие серверы и GPU
- роботов можно запускать прямо на локальных чипах
- открывается путь к массовой роботизации (дешёвой)

Paper Link – arxiv.org/abs/2506.07530
6🤩4🔥3
🚨 Хотите парсить сложные PDF с точностью уровня SOTA, полностью локально? 📄🔍

Модель GLM-OCR всего с 0.9 млрд параметров можно просто загрузить в LM Studio и запускать почти на любом компьютере. 🥔

🧠 0.9B параметров
💾 Работает на менее чем 1.5GB VRAM (или около 1GB в квантованном виде)
💸 Никаких расходов на API
🔒 Полная приватность данных

Desktop-AI для работы с документами официально наступил. 💻

https://huggingface.co/zai-org/GLM-OCR
12
Forwarded from Machinelearning
🌟 Kimodo: диффузионная модель для генерации 3D-движений людей.

NVIDIA выложила в открытый доступ проект Kimodo - генеративную модель на основе диффузии, которая создает реалистичные трехмерные движения для человеческих и робототехнических скелетов.

Kimodo принимает на вход текстовые промпты и ключевые позы всего тела, позиции и вращения конечностей, двухмерные пути и контрольные точки. Это позволяет точно управлять генерацией: от общего описания наподобие "персонаж идет и садится на стул" до детального контроля положения рук и ног в кадрах.

Всего доступно 5 вариантов модели для 3 типов скелетов: SOMA, SMPL-X и Unitree G1. Первые два ориентированы на анимацию аватаров, третий - на робота Unitree G1.

Модели, обученные на полном датасете Bones Rigplay 1 (700 часов), NVIDIA рекомендует как основные рабочие.

Варианты на сете BONES-SEED (288 часов) предназначены для бенчмаркинга и сравнения с собственными разработками.

Для работы с Kimodo предусмотрены 3 интерфейса:

🟢Интерактивное веб-демо с таймлайн-редактором;
🟢CLI-утилита для пакетной генерации;
🟢Python API для тонкой настройки .

Под инференс потребуется около 17 ГБ видеопамяти, модели запускали на RTX 3090, RTX 4090 и NVIDIA A100.

🟡 Интеграция с робототехническим стеком NVIDIA.

ProtoMotions позволяет брать сгенерированные движения и обучать на них физически корректные политики управления в GPU-ускоренной симуляции — как для аватаров, так и для Unitree G1.

Через General Motion Retargeting движения, созданные на скелете SMPL-X, можно перенести на произвольных роботов.


📌Лицензирование:

Код проекта под Apache 2.0, большинство моделей под NVIDIA Open Model License.

Вариант SMPL-X имеет более ограниченную NVIDIA R&D Model License, она допускает только исследовательское применение.


🟡Набор моделей
🟡Техотчет
🖥Github


@ai_machinelearning_big_data

#AI #ML #Robotics #Kimodo #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3