Big Data AI – Telegram

Big Data AI

17.6K subscribers

990 photos

127 videos

19 files

980 links

@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe

Download Telegram

About

Blog

Apps

Platform

17.6K subscribers

🐙 OctoCodingBench - новый бенчмарк, который проверяет ГЛАВНОЕ в кодинг-агентах

Вышел OctoCodingBench - benchmark для оценки *instruction-following* у агентных моделей, которые пишут код.

Датасет:
https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench

Чем он отличается от большинства бенчмарков
Обычно проверяют только одно:
✅ “оно вообще работает?”
✅ “тесты прошли?”

Но этого мало.

OctoCodingBench проверяет другое:
📌 соблюдает ли агент инструкции и ограничения, пока решает задачу.

Почему это важно
В реальности успех ≠ правильное поведение.

Модель может:
- написать код, который проходит тесты
- но проигнорировать требования
(безопасность, стиль, формат, лимиты, запреты, архитектуру)

И вот это уже опасно:
формально задача “выполнена”, но система становится misaligned - делает не то, что нужно бизнесу и продукту.

Главная мысль
High task success ≠ high instruction compliance.

Если ты строишь кодинг-агента - тебе важно не только “правильно”, но и послушно.
И OctoCodingBench наконец-то это измеряет.

https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench

🔥3

1.9K views08:15

Machine learning без путаницы

Когда только начинаешь разбираться в ML, часто возникает ощущение беспорядка — разрозненные материалы из разных источников затрудняют понимание ключевых требований, и в итоге непонятно, что на самом деле нужно учить и твое ли это направление.

Бесплатный демокурс «Погружение в machine learning» от karpovꓸcourses дает структурированное первое знакомство с профессией: погрузитесь в основы Python, разберете базовые ML-подходы, видят, как данные превращаются в модели и решения, и понимают, какие навыки действительно нужны для старта.

Доступ открывается сразу после регистрации, забирайте по ссылке: https://clc.to/erid_2W5zFJdNWfi

Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFJdNWfi

1.53K views14:00

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

«Суперинтеллект сможет сам заработать миллион долларов»

Юваль Ной Харари подчёркивает: дело не только в знаниях или скорости ИИ.

Настоящий рубеж наступает тогда, когда система способна самостоятельно взаимодействовать с реальным миром, а не просто отвечать на запросы.

Например:
— открыть банковский счёт
— управлять средствами
— принимать решения
— генерировать доход без постоянного участия человека

Вот здесь и происходит главный сдвиг —
ИИ перестаёт быть инструментом и становится агентом.

Это уже другой класс машинного интеллекта:
не «помощник по команде», а система, которая способна ставить подцели, действовать в среде и добиваться результатов сама.

Переход от tool → agent — один из самых фундаментальных технологических сдвигов нашего времени.

Please open Telegram to view this post

VIEW IN TELEGRAM

🙊5👍4

1.7K views16:01

🚀 LiteRT - универсальная основа для AI прямо на устройстве

Google представил LiteRT — новый универсальный фреймворк для on-device AI, который развивается из TensorFlow Lite и становится базой для высокопроизводительного ML и генеративного AI на устройствах.

🔥 Что важно

⚡ До 1.4× быстрее GPU-ускорение
LiteRT показывает прирост производительности на GPU по сравнению с TensorFlow Lite, снижая задержку и улучшая отклик моделей.

🌐 Кроссплатформенность
Работает на Android, iOS, macOS, Windows, Linux и Web. Использует OpenCL, OpenGL, Metal и WebGPU через новый движок.

🤖 Поддержка NPU
Добавлено ускорение на нейропроцессорах с единым API, что упрощает разработку под разные чипы и повышает скорость инференса.

⚙️ Модели из PyTorch и JAX
Есть удобная конвертация моделей, что упрощает перенос современных AI-моделей на устройство.

📦 Open-source
Фреймворк открыт и подходит для продакшена — можно строить реальные on-device AI-приложения.

LiteRT позволяет запускать современные AI и GenAI модели прямо на устройстве — быстрее, с меньшей задержкой и лучшей приватностью, без постоянной зависимости от облака.

https://developers.googleblog.com/litert-the-universal-framework-for-on-device-ai/

❤4👍1🔥1

1.76K views06:57

🖥

Парсинг на Python - от DOM до асинхронщины. Стань Гуру Парсинга.

Один из лучших курсов по Парсинг на Stepik со скидкой 48%

Освой Python-парсинг так, как это делают в реальных проектах.
Не учебные “игрушки”, а рабочие инструменты для сбора данных с сайтов, API и динамических сервисов.

На курсе ты шаг за шагом пройдешь путь от нуля до уровня, где умеешь стабильно забирать данные, работать с защитами, динамикой и автоматизацией. Без воды - только то, что используют в продакшене.

В итоге ты сможешь не просто “писать на Python”, а решать практические задачи: анализ данных, мониторинг, автоматизация, фриланс-заказы и собственные проекты.

Сегодня можно забрать курс со скидкой 48%: https://stepik.org/a/269942/

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1🔥1

1.58K views10:15

🧠 Claude Cognitive: Умная память для Claude Code

Claude Cognitive добавляет рабочую память к Claude Code, позволяя эффективно управлять контекстом и координировать многопоточную работу. Это решение значительно снижает затраты токенов и улучшает производительность разработчиков, обеспечивая сохранение контекста и предотвращая дублирование работы.

🚀Основные моменты:
- Умная маршрутизация файлов с учетом внимания (HOT/WARM/COLD).
- Многофункциональная координация состояния для долгосрочных сессий.
- Экономия токенов до 95% в зависимости от размера кодовой базы.
- Поддержка многопоточной работы без повторного открытия задач.

📌 GitHub: https://github.com/GMaN1911/claude-cognitive

🔥4

1.72K views12:15

💡 Что если можно гарантировать, что ответ LLM всегда будет строго в нужном формате?

Большинство инструментов идут постфактум-путём.
Например, Instructor или PydanticAI проверяют вывод после генерации. Если валидация не прошла - ошибка отправляется обратно в модель, и она пробует снова.

Каждый такой ретрай - это токены, время и деньги, которые не дали полезного результата.

Подход Guidance принципиально другой.
Он ограничивает пространство возможных токенов во время генерации, поэтому модель просто не может выдать невалидный формат.

Не «сгенерировал криво - починили», а «криво сгенерировать невозможно».

Что это даёт:

Жёстко ограниченные ответы через regex и функции выбора

Python-логика прямо в процессе генерации (if/else, циклы)

Генерация JSON с валидацией по Pydantic-схеме

Это уже не просто «prompt engineering».
Это превращение LLM из болтливого генератора текста в управляемый программируемый компонент.

❤3👍3🔥1👀1

1.56K views08:22

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

PYTHON: DEEPSEEK ЛОКАЛЬНО У СЕБЯ

Запуск DeepSeek у себя - это не “поставил pip и готово”. Правильный путь в 2026 - поднять локальный OpenAI-совместимый сервер через vLLM и уже к нему подключаться из Python.

Так ты получаешь нормальную скорость, батчинг, стриминг и один API для любых проектов. Самая частая ошибка - пытаться “загрузить модель в скрипт” и ловить OOM или тормоза. Вместо этого запускай модель как сервис, а Python используй как клиента.


1) Установи vLLM (нужна NVIDIA GPU + CUDA)
pip install vllm openai
2) Запусти локальный OpenAI-совместимый сервер (пример: DeepSeek-Coder 6.7B Instruct)
python -m vllm.entrypoints.openai.api_server \
--model deepseek-ai/deepseek-coder-6.7b-instruct \
--dtype auto \
--port 8000 \
--gpu-memory-utilization 0.90
3) Подключайся из Python как к OpenAI API

from openai import OpenAI

client = OpenAI(
base_url="http://localhost:8000/v1
",
api_key="local"
)

resp = client.chat.completions.create(
model="deepseek-ai/deepseek-coder-6.7b-instruct",
messages=[{"role": "user", "content": "Сгенерируй SQL-запрос для поиска дублей по email"}],
temperature=0.2
)

print(resp.choices[0].message.content)

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4❤3🐳3

2.01K views10:58

🤖 nanobot: Легкий ИИ-ассистент

nanobot — это ультра-легкий персональный ИИ-ассистент, который предлагает основные функции в всего лишь ~4000 строках кода, что на 99% меньше, чем у Clawdbot. Он идеально подходит для исследований благодаря чистому и понятному коду, а также обеспечивает быструю работу с минимальными ресурсами.

🚀Основные моменты:
- Ультра-легкий: всего ~4000 строк кода
- Быстрая работа и низкое потребление ресурсов
- Легкость в использовании и настройке
- Поддержка общения через Telegram и WhatsApp
- Готов к исследованиям и модификациям

📌 GitHub: https://github.com/HKUDS/nanobot

❤4🔥4👍2

1.96K views09:00

🚨 Теперь можно запускать 70B LLM на видеокарте с 4GB VRAM

AirLLM буквально выбивает почву из аргумента “для больших моделей нужно дорогое железо”.

Фреймворк позволяет запускать модели размером до 70B параметров даже на GPU с 4GB видеопамяти.

Как это возможно?

Вместо загрузки всей модели в память сразу, AirLLM:

- подгружает модель по слоям
- выполняет вычисления
- освобождает память
- переходит к следующему слою

Фактически, это потоковая обработка модели.

Более того, авторы показывают запуск Llama 3.1 405B на 8GB VRAM.

Что это даёт разработчикам:

- не требуется квантование по умолчанию
- можно запускать Llama, Qwen, Mistral, Mixtral локально
- работает на Linux, Windows и macOS
- не нужен сервер с огромным GPU

Это сдвигает барьер входа для локального LLM-разработки и экспериментов.

AirLLM полностью open source - можно использовать, изучать и встраивать в свои пайплайны.

https://github.com/0xSojalSec/airllm

❤10👍9😱4🔥2🙈1

2.3K views08:46

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Токенизация в LLM - как “Hello” превращается в цифры.

Токенизация - это первый шаг перед тем, как LLM вообще начнет “думать”.

Модель не понимает текст напрямую.
Она понимает только числа.

Поэтому любой текст сначала разбивается на маленькие кусочки - токены:
- иногда это целые слова
- иногда части слов (su, per, man)
- иногда один символ
- иногда даже пробел - тоже токен

Пример:
Фраза "I love programming" разбивается не обязательно на слова, а на кусочки слов:

[I] ,[ love] ,[ program] , [ming]

Обрати внимание:

- " love" начинается с пробела - потому что пробел тоже часть токена
- programming разделилось на 2 токена: " program" + "ming"

То есть Токенизация - это когда LLM режет текст на маленькие кусочки (токены) и переводит их в числа.

Важно:

Чем больше токенов - тем дороже запрос и тем быстрее съедается контекст.

Плохая токенизация = странные ошибки (особенно в коде, ссылках, редких словах).

Поэтому LLM отлично понимают частые слова, но могут путаться на редких именах, терминах и смешанных языках.

И лайфхак: если хочешь “дешевле” и “чище” ответы - пиши короче, без мусора, без повторов.
Контекст - это валюта.


# Tokenization demo (Python)
# pip install tiktoken

import tiktoken

text = "I love programming in Python 🐍"

enc = tiktoken.get_encoding("cl100k_base")
tokens = enc.encode(text)

print("Text:", text)
print("Token IDs:", tokens)
print("Tokens count:", len(tokens))

# decode back
print("\nDecoded tokens:")
for t in tokens:
    print(t, "->", repr(enc.decode([t])))

https://www.youtube.com/shorts/A7DCcYLq38M

❤5👍2

1.51K views14:03

Протестируйте OpenClaw в облаке Cloud․ru

❤️

Быстро. Бесплатно. Безопасно.

OpenClaw — нашумевший AI-ассистент для DevOps, администраторов и инженеров. В отличие от обычных чат-ботов, он может:
➡️ самостоятельно запускать команды
➡️ работать с файлами
➡️ отправлять отчеты в мессенджеры

Как вам проверить его в действии
Решение доступно в Маркетплейсе Cloud․ru и разворачивается бесплатно. Готовый образ уже протестирован и запускается напрямую в облаке — без установки на рабочий компьютер и без рисков для данных.

👉

Запустить OpenClaw

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔5👍2

1.64K viewsedited 09:35

🤯 1.7B доменов - крупнейший паблик датасет “public domains” (бесплатно)

Кто-то решил: “а что если реально собрать ВЕСЬ интернет?”
И сделал это.

🔥 1.7 BILLION доменов
- уникальные
- отсортированные
- мульти-TLD
- чистый список без мусора

И самое дикое: весит всего 4.6 GB в сжатом виде.

Почему это реально полезно:
этот список - идеальная база для задач, где нужны “масштаб” и “полная картина”.

Use cases:
✅ OSINT и массовая разведка
✅ threat intel / аналитика угроз
✅ исследование фишинга и детекторы фишинговых доменов
✅ reputation scoring и классификация доменов
✅ passive recon / subdomain enum / brute-force
✅ подготовка данных для AI/LLM (файнтюн, классификаторы, фильтрация)

Хочешь построить:
- лучший детектор фишинга?
- классификатор доменов на ML?
- движок репутации доменов?

Теперь есть топливный бак на 1.7B записей 😈

Репозиторий: github.com/tb0hdan/domains

👌5🔥2

1.65K views11:40

This media is not supported in your browser

VIEW IN TELEGRAM

Новая модель для анализа УЗИ сердца — EchoJEPA.

- Обучена на 18 млн видео эхокардиографии
- Снижает ошибку оценки фракции выброса левого желудочка примерно на 20% по сравнению с лучшими существующими моделями
- Работает zero-shot даже на детских исследованиях, на которых не обучалась
- Устойчива к шуму и лучше выделяет именно структуры сердца

Интересен сам подход.

EchoJEPA построена на архитектуре JEPA (идея Yann LeCun):
- модель учится понимать структуру и движение, а не просто пиксели
- предсказывает представления (embeddings), а не изображение целиком
- за счёт этого лучше обобщает на новые данные

Что это даёт на практике:

- более стабильные измерения при анализе УЗИ
- меньше зависимости от качества изображения
- потенциально — автоматическую предварительную оценку для врача

Это хороший пример того, как foundation-подходы начинают работать в реальных медицинских задачах, а не только в общих CV-бенчмарках.

Paper: https://arxiv.org/abs/2602.02603
Code: https://github.com/bowang-lab/EchoJEPA

❤11👍3

1.89K views14:26

🔥 Полезная подборка каналов только код, практика и самые передовые инструменты, которые используют разработчики прямо сейчас.👇

🖥 ИИ: t.me/ai_machinelearning_big_data

🖥 Python: t.me/pythonl

🖥 Linux: t.me/linuxacademiya

🖥 C++ t.me/cpluspluc

🖥 Docker: t.me/DevopsDocker

🖥 Хакинг: t.me/linuxkalii

🖥 Devops: t.me/DevOPSitsec

👣 Golang: t.me/Golang_google

🖥 Аналитика: t.me/data_analysis_ml

🖥 Javascript: t.me/javascriptv

🖥 C#: t.me/csharp_ci

🖥 Java: t.me/javatg

🖥 Базы данных: t.me/sqlhub

👣 Rust: t.me/rust_code

🤖 Технологии: t.me/vistehno

💰 Экономика и инвестиции в ИИ t.me/financeStable

💼 Актуальные вакансии: t.me/addlist/_zyy_jQ_QUsyM2Vi

🖥 Chatgpt бот в тг: t.me/Chatgpturbobot

📚 Бесплатные ит-книги: https://t.me/addlist/HwywK4fErd8wYzQy

🖥Подборка по Golang: https://t.me/addlist/MUtJEeJSxeY2YTFi

⚡️ Лучшие ИИ ресурсы: https://t.me/addlist/2Ls-snqEeytkMDgy

Самое лучшее в этом: ты учишься даже тогда, когда “нет времени, просто потому что читаешь правильную ленту.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍1

1.34K views13:04

🧠 UnsolvedMath - 1000+ открытых математических задач как бенчмарк для ИИ

Появился мощный ресурс для оценки настоящего reasoning, а не заученных паттернов.

Выложен датасет UnsolvedMath — это:
- 1000+ открытых математических проблем
- 600+ задач из списка Эрдёша
- аккуратно структурировано в machine-friendly формате

Главная идея — создать бенчмарк, который нельзя “выучить” на этапе тренировки.
Если модель показывает прогресс здесь — это уже не воспроизведение данных, а реальное рассуждение.

Почему это важно

Обычные тесты:
- часто содержат задачи, похожие на обучающие данные
- проверяют знание, а не исследовательское мышление

UnsolvedMath:
- требует построения новых гипотез
- проверяет глубину логики
- показывает, способна ли модель делать научно полезные инсайты

Любые новые идеи или нетривиальные наблюдения по этим задачам — уже метрика силы reasoning-модели.

Сейчас, по заявлениям авторов, лидирует GPT-5.2 с Extended Thinking, с заметным отрывом.
Обещают тесты и подробный whitepaper.

Это шаг к тому, чтобы оценивать ИИ не по “угадай ответ”, а по способности двигать границы знаний.

https://huggingface.co/datasets/ulamai/UnsolvedMath

⚡3👍1🔥1

1.46K views15:03

Forwarded from Machinelearning

📌

OVQA: прощай, KV-cache offloading.

В Zyphra придумали как усидеть на двух стульях сразу, когда хочется резиновый контекст, но под рукой нет тонны памяти.

То. что они предложили, называется Online Vector-Quantized Attention - это модификация векторного квантования, которая учит словарь думать на лету.

В классическом VQ ключи заменяются ближайшими центроидами из статичного словаря. Это бустит вычисления, но создает проблему: словарь обучен на одних данных, а во время генерации модель видит совсем другое распределение ключей. Ошибка квантования растет, внимание теряет точность и как итог: VQ начинает плавать.

Так вот, модификация в том, чтобы отказаться от статического словаря в пользу адаптивного к текущей последовательности: каждый новый токен обновляет только один центроид - тот, к которому ближе всего.

Это разреженное обновление работает как защита от катастрофического забывания: старая информация не вымывается новой волной токенов, а аккуратно перезаписывается по мере необходимости.

Плюс есть хард-лимит на размер состояния, после достижения которого объем памяти перестает расти, а вычисления становятся строго линейными.

🟡

Результаты тестовых экспериментов

🟢Модель, обученная на 4К токенах, уверенно справлялась с контекстом до 64К без деградации качества;

🟢На внутриконтекстном поиске OVQ почти не отставала от полноценного самовнимания, потребляя при этом в 4 раза меньше памяти;

🟢На In-Context Learning VQ провалился, а OVQ вышла на уровень классического внимания, используя всего ~4К центроидов;

🟢Сравнения с линейными альтернативами (Mamba2 и дельта-сети) тоже в пользу OVQ: она стабильнее держит долгий контекст без просадок точности;

🟠В задачах Positional ICR OVQA работает чуть хуже, чем классическое внимание но все равно достойно.

Очень хочется надеяться, что OVQ - это предтеча настоящего непрерывного обучения, где в светлом будущем вместо бесконечно пухнущего KV-кэша появится компактная, но живая память, способная удерживать важные детали без потерь.

🟡

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #LLM #OVQA #Zyphra

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🔥1

1.42K views06:24

Forwarded from Машинное обучение digest

⚡️

Reuters сообщает: исследователи обнаружили множество публичных серверов с open-source LLM, где защитные ограничения просто удалены.

Реальность оказалась простой и немного неудобной:

Если модель можно скачать, изменить и запустить —
безопасность перестаёт быть гарантией.

Любой может:
- форкнуть репозиторий
- убрать guardrails
- изменить системные промпты
- развернуть модель в открытом доступе

Open source выигрывает в скорости и доступности.
Но open source также выигрывает и в масштабируемости злоупотреблений.

Проблема здесь не в самих моделях, а в природе открытого кода:

— ограничения можно отключить
— фильтры можно переписать
— контроль централизованно невозможен

И главный вопрос для индустрии сейчас:

Стоит ли выпускать мощные open-source модели с более жёсткими ограничениями по умолчанию?

Потому что в мире open source безопасность - это не функция.
Это лишь настройка.

Please open Telegram to view this post

VIEW IN TELEGRAM

😁8😱2👍1

1.51K views09:03