Аналитик данных
6.21K subscribers
246 photos
35 videos
2 files
226 links
Аналитика данных, Дата Сеанс

@workakkk - по всем вопросам
Download Telegram
✔️ Китайские исследователи ByteDance представили новый подход к почти реальному времени для генерации ИИ-видео .

В тестах на потребительской системе с RTX 5090 пять секунд видео раньше рендерились больше трёх минут - теперь около 1,9 секунды. Ускорение - почти в 100 раз, при минимальной потере качества.

TurboDiffusion - это фреймворк оптимизации генерации, который разгоняет видео-диффузию в 100–200 раз на одной RTX 5090.

Ключевая идея: резко сокращаем число шагов диффузии и упрощаем тяжёлые операции внимания и матриц.

Почему это работает:

- обычные модели делают ~100 «шагов шумоподавления» с тяжёлыми attention-расчётами;

- TurboDiffusion с помощью rCM-дистилляции снижает их до 3–4 шагов;

- ускоряет внимание через Sparse-Linear Attention + низкоразрядное SageAttention;

- для плотных слоёв использует квантование W8A8 и объединённые ядра нормализации.

Результаты впечатляют:

- с 4767 сек до 24 сек на Wan2.1-T2V-14B-720P (ускорение 199×);

- с 184 сек до 1,9 сек на Wan2.1-T2V-1.3B-480P (ускорение 97×).
(без учёта текста и VAE-декодирования, но даже так — быстрее FastVideo).

Цена вопроса: дополнительное обучение.

Но цель очевидна: сделать генерацию почти в реальном времени.

Источник: arxiv.org/pdf/2512.16093
Please open Telegram to view this post
VIEW IN TELEGRAM
2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
🐳 Как запустить DeepSeek у себя на ПК через Python

Главная ошибка новичков - сразу ставить огромные модели.
Начни с компактной версии, проверь, что всё запускается, и только потом увеличивай размер.

Алгоритм простой:
1) ставим зависимости
2) качаем лёгкую модель DeepSeek
3) проверяем, что она отвечает
4) при необходимости включаем GPU или берём квантизованную версию

Так ты избежишь вылетов, перегрузки памяти и быстрее получишь рабочий результат.


установить зависимости
pip install transformers accelerate torch sentencepiece

# пример запуска DeepSeek из Python
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_name = "deepseek-ai/deepseek-coder-6.7b-base"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto" # если есть GPU — модель сама её использует
)

prompt = "Напиши на Python функцию, которая проверяет, простое ли число."

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

outputs = model.generate(
**inputs,
max_new_tokens=160,
temperature=0.4
)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))


https://uproger.com/kak-zapustit-deepseek-u-sebya-na-pk/

https://www.youtube.com/shorts/bVas8EX_KmY
2👍1🔥1
🖥 Сравнение лучших библиотек визуализации данных на Python в 2025 году

Визуализация данных помогает разработчикам и аналитикам превращать таблицы цифр в наглядные графики, карты и панели мониторинга. В 2025 году Python остаётся доминирующим языком для анализа данных и визуализации: популярность языка подтверждают исследовательские индексы и рост сообщества. Экосистема Python предлагает десятки библиотек для построения графиков — от классических 2‑D диаграмм до интерактивных веб‑панелей. Ниже приведён обзор самых актуальных библиотек визуализации данных для Python на 2025 год и их отличительные особенности.

https://uproger.com/sravnenie-luchshih-bibliotek-vizualizaczii-dannyh-na-python-v-2025-godu/
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1🔥1
🛡 Semantic Firewall - “семантический файрвол” для LLM

Появился интересный проект semantic_firewall от BlackVectorOps - идея простая и мощная:

Обычные фильтры работают по словам.
Атаки на LLM - по смыслу.

Поэтому нужен не “keyword blacklist”, а семантический слой защиты, который понимает:
- что пользователь *на самом деле* пытается сделать
- и не даёт модели поддаться на взлом / prompt injection

Что умеет модель:
ловить завуалированные запросы (когда вредное спрятано в мягких формулировках)
блокировать инъекции типа “игнорируй правила / действуй как…”
защищать tool-use (когда LLM пытаются заставить выполнить опасное действие)
давать policy-решение: разрешить / запретить / потребовать уточнение

LLM всё чаще подключают к реальным инструментам: API, файлы, базы, платежи, админки.

И в таком мире prompt injection = security bug.

Если строишь AI-бота, агентную систему или LLM-продукт - такие “семантические прокладки” скоро станут стандартом.

https://github.com/BlackVectorOps/semantic_firewall

#AI #LLM #Security #PromptInjection #Jailbreak
2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 КАК РАБОТАЕТ ВНИМАНИЕ (ATTENTION) В ТРАНСФОРМЕРАХ

Механизм внимания - это способ для модели “смотреть” на разные слова в тексте и решать, какие из них сейчас важнее.

Представь фразу: “Я положил ключи на стол, потому что он был рядом”.
Слово “он” должно ссылаться на “стол”, а не на “ключи”.
Внимание делает ровно это - для каждого слова вычисляет, на какие другие слова нужно опираться сильнее.

Как это работает в одном абзаце:

Для каждого токена модель строит три вектора - Query (что я ищу), Key (что я из себя представляю), Value (какую информацию несу).

Считается “похожесть” Query к каждому Key - это оценки важности.

Оценки нормализуются (softmax), чтобы получились веса от 0 до 1.

Итоговое представление токена - это взвешенная сумма Value по всем токенам.
То есть модель смешивает информацию из контекста, но делает это умно - больше веса тем словам, которые сейчас важны.

Почему это суперсила:
вместо того чтобы читать текст строго слева направо, модель может связывать дальние куски, находить нужные факты и строить смысловые зависимости. Именно поэтому трансформеры так хорошо работают с языком, кодом и длинным контекстом.


import numpy as np

def softmax(x: np.ndarray) -> np.ndarray:
x = x - np.max(x) # стабилизация
e = np.exp(x)
return e / np.sum(e)

# Допустим, у нас 3 токена в контексте.
# Для простоты возьмём маленькую размерность векторов (d=2).
# Query - "что я ищу"
# Key - "что я такое"
# Value - "какую инфу несу"

Q = np.array([1.0, 0.5]) # Query для текущего токена (например, слово "он")

K = np.array([
[1.0, 0.0], # Key токена 1 (например, "ключи")
[0.9, 0.1], # Key токена 2 (например, "стол")
[0.0, 1.0], # Key токена 3 (например, "рядом")
])

V = np.array([
[10.0, 0.0], # Value токена 1
[0.0, 10.0], # Value токена 2
[5.0, 5.0], # Value токена 3
])

# 1) Считаем "похожесть" Q на каждый K через скалярное произведение
scores = K @ Q # shape: (3,)
print("scores:", scores)

# 2) Нормализуем оценки -> получаем веса внимания
weights = softmax(scores)
print("attention weights:", weights)

# 3) Итоговый вектор = взвешенная сумма Value
output = weights @ V # shape: (2,)
print("output (context mixed):", output)

# Интерпретация:
# Если вес токена 2 ("стол") самый большой, значит модель "смотрит" на него сильнее всего.


https://www.youtube.com/shorts/EOAmD1x4-7k
4🔥2👍1
🧠 Даже учителя теперь под ударом ИИ

Microsoft выкатили список 40 профессий с максимальной “AI-exposure” — и это реально тревожный сигнал.

В списке оказались:
🔹 историки
🔹 переводчики
🔹 sales / менеджеры продаж
🔹 и даже образование / преподаватели

Параллельно рынок уже показывает, куда всё идёт:
- компании вроде Amazon режут роли под лозунгом “AI productivity”
- заморозки найма и сокращения затрагивают отрасли, которые раньше считались защищёнными

Microsoft подчёркивают:
“exposure ≠ увольнение”
(то есть профессия не обязана исчезнуть)

Но проблема в другом:
рынок меняется быстрее, чем люди успевают адаптироваться.

ИИ не всегда заменяет человека полностью.
Чаще он делает так, что одному человеку можно закрывать работу, которую раньше делали трое.

https://archive.ph/5HLtC
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Простой анализ настроений с использованием Hugging Face Transformer

Используйте библиотеку transformers от Hugging Face для легкой интеграции моделей машинного обучения в ваши проекты.

Ниже представлен код, который загружает предобученную модель и делает прогноз на входном тексте.


from transformers import pipeline
# Загружаем модель для анализа настроений
sentiment_analysis = pipeline("sentiment-analysis")
# Пример текста для анализа
text = "Я очень доволен результатом работы этой команды!"
# Выполняем анализ настроений
results = sentiment_analysis(text)
# Выводим результаты
for result in results:
print(f"Настроение: {result['label']}, Уверенность: {round(result['score'], 2)}")


#junior
3👍1
🖥 ChatGPT радикально изменил то, как студенты пишут код - и это видно в данных.

Новое исследование сравнило 5 семестров до появления ChatGPT и 5 после, анализируя:
• количество попыток сдачи
• итоговую длину кода
• сколько строк менялось между попытками

Что обнаружили:

Студенты стали менять примерно в 10 раз больше строк кода между сабмитами.
Но прирост оценки за одну попытку стал меньше.

При этом финальные оценки по заданиям остались почти идеальными.

То есть:

• решения стали длиннее
• правки стали крупнее
• пошаговое улучшение между попытками стало слабее

Раньше студенты чаще двигались маленькими шагами: исправил — стало лучше — ещё немного подкрутил.
Теперь правки стали более «скачкообразными» — большие куски кода меняются за раз, но без чёткого постепенного прогресса.

Это похоже на смену стиля разработки: от итеративного мышления к модели «перегенерировать и поправить».

Исследование:
Changes in Coding Behavior and Performance Since the Introduction of LLMs

arxiv.org/abs/2601.11835
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1🔥1🗿1
⚡️ Появился любопытный open-source проект на стыке LLM и кибербезопасности - PentestAgent.

Это система AI-агентов для black-box пентеста, где атака моделируется как оркестрация нескольких специализированных агентов, а не один «умный бот».

Что он делает

В автономном режиме система может прогонять целые пайплайны, имитируя работу red team:

- цепочки разведки (recon)
- анализ уязвимостей
- попытки эксплуатации
- формирование отчётов

Инструменты подключены напрямую

Агенты умеют работать с классическими пентест-утилитами:

- Nmap
- Metasploit
- FFUF
- SQLMap

То есть это не «LLM рассуждает в вакууме», а связка LLM + реальные security-инструменты.

Архитектурные фишки

- RAG для подтягивания контекстных знаний
- tool chaining — агенты передают результаты друг другу
- встроенный браузер и поиск
- dockerized окружение с инструментами
- всё это оркестрируется «командами» LLM-агентов

По сути, это попытка превратить пентест из набора ручных шагов в агентную систему с автоматическим циклом разведка → анализ → действие → отчёт.

github.com/GH05TCREW/pentestagent
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
🖥 Большинство “парсеров” умирают через 2 дня.
Ты научишься делать те, которые живут в проде.

Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:

• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов

Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.

В итоге ты сможешь:

• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных

Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.

🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1🔥1
🚀 Вышла новая модель для кодинга - Qwen3-Coder-Next (линейка Qwen).

Это open-weight LM, заточенная под кодинг-агентов и локальную разработку.

Что внутри
:

🤖 Около 800K проверяемых задач + окружения, где код можно реально исполнять, а не просто генерировать текст.

📈 Баланс эффективность / качество
Модель с 80B общих параметров и ~3B активных показывает сильные результаты на SWE-Bench Pro при относительно экономичном инференсе.

Экосистема инструментов
Заявлена поддержка сценариев с агентами и дев-инструментами: OpenClaw, Qwen Code, Claude Code, веб-разработка, работа через браузер, Cline и т.д.

В целом это ещё один шаг к моделям, которые проектируются не просто как "LLM для текста", а как движок для реальных кодинг-агентов.

🤗 Hugging Face: https://huggingface.co/collections/Qwen/qwen3-coder-next
🤖 ModelScope: https://modelscope.cn/collections/Qwen/Qwen3-Coder-Next
📝 Blog: https://qwen.ai/blog?id=qwen3-coder-next
📄 Tech report: https://github.com/QwenLM/Qwen3-Coder/blob/main/qwen3_coder_next_tech_report.pdf

@data_analysis_ml
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Самый опасный навык сейчас - AI-автоматизация

Сегодня выигрывает не тот, кто больше работает, а тот, кто больше автоматизирует. AI-автоматизация - это когда ты один раз пишешь скрипт, а дальше ИИ делает работу за тебя: собирает данные, анализирует, пишет отчеты, генерирует тексты, ищет ошибки. По сути, ты превращаешь время в систему.

Для зрителя это выглядит как магия: пока другие делают руками, у тебя работает связка Python + AI + API. Это уже не "использовать нейросеть", а строить мини-агентов под свои задачи. Именно этот навык начинает разделять разработчиков на обычных и тех, кто работает на другом уровне продуктивности. Подписывайся, больше фишек каждый день !


# Пример мини AI-автоматизации: анализ текста и краткое резюме


import requests

API_KEY = "YOUR_API_KEY"
url = "https://api.openai.com/v1/chat/completions"

headers = {
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json"
}

text = """
Компания за квартал увеличила выручку на 32%, снизила издержки на логистику
и запустила новую линейку продуктов на азиатском рынке.
"""

payload = {
"model": "gpt-4o-mini",
"messages": [
{"role": "system", "content": "Ты бизнес-аналитик."},
{"role": "user", "content": f"Сделай краткое бизнес-резюме текста:\n{text}"}
]
}

response = requests.post(url, headers=headers, json=payload)
print(response.json()["choices"][0]["message"]["content"])
4
🎨 Excalidraw MCP App: Интерактивные диаграммы в чате

Сервер для потоковой передачи нарисованных от руки диаграмм Excalidraw с возможностью управления камерой и редактирования в полноэкранном режиме. Идеально подходит для создания визуализаций и архитектурных схем прямо в ваших беседах.

🚀 Основные моменты:
- Поддержка интерактивных диаграмм в чате
- Легкая интеграция с Claude.ai
- Возможность локального развертывания
- Удобный интерфейс для рисования
- Постоянные обновления и улучшения

📌 GitHub: https://github.com/antonpk1/excalidraw-mcp-app

#javascript
👍21
Forwarded from Machinelearning
⚡️ GLM-5 выкатили в опен-сорс.

Не прошло и суток с момента релиза, а Zhipu AI выложила веса GLM-5 и любезно поделилась проведенными бенчмарками.

Архитектура пятого поколения построена на MoE: 744 млрд. общих параметров при активных 40 млрд. Модель учили на 28,5 трлн. токенов и она получила контекстное окно в 200 тыс. токенов.

GLM-5 ориентирован на 5 доменов: кодинг, рассуждение, агентные сценарии, генеративное творчество и работа с длинным контекстом.

Для эффективной обработки длинных последовательностей интегрирован механизм Dynamically Sparse Attention от DeepSeek, он позволяет избежать квадратичного роста копьюта без потери качества.

По бенчмаркам GLM-5 занимает 1 место среди open-source моделей: 77,8% на SWE-bench Verified, лидирует на Vending Bench 2, BrowseComp и MCP-Atlas, а в задачах агентного кодирования и рассуждений вплотную подбирается к Claude Opus 4.5 и GPT-5.2.

Вместе с моделью, авторы предлагают Z Code — собственную агентную IDE с поддержкой параллельной работы нескольких агентов над одной задачей.

Локальный деплой поддерживается vLLM и SGLang, а также non-NVIDIA чипами: Huawei Ascend, Moore Threads, Cambricon (через квантование и оптимизацию ядер).

Если вам негде поднять модель локально, она доступна через платформу chat.z.ai, API и на OpenRouter.

Квантованные версии пока сделали только Unsloth, традиционно - полный набор от 1-bit до BF16.

И да, стэлс-модель PonyAlpha на OpenRouter - это она и была.


📌Лицензирование: MIT License.


🟡Статья
🟡Модель
🟡GGUF
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #GLM5 #ZAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1
✔️ Список главных инноваторов США возглавили архитекторы ИИ-революции.

В честь 250-летия США Forbes опубликовал рейтинг America's Greatest Innovators. Верхушка списка пестрит основателями и руководителями ИИ-компаний.

Первое место занял Илон Маск, следом идут Дженсен Хуанг и Сэм Альтман. В топ-20 также вошли сооснователи Google Ларри Пейдж и Сергей Брин.

По словам редакторов издания, критерием отбора стала способность превращать сложные технологии в повсеместно используемые инструменты.
forbes.com
Please open Telegram to view this post
VIEW IN TELEGRAM
.
ИИ убрал самый дорогой этап в программирование- написание и поддержку кода.


Код становится экспоненциально дешевле.
Люди запускают больше продуктов.
И делают это намного быстрее.

Последние 50 лет главная проблема была одна:

• Найти сильных инженеров, которые смогут превратить идею в рабочий продукт.

Этот барьер быстро разрушается.

Качественная разработка больше не редкий талант.
Она превращается в утилиту по запросу.

И теперь меняется главное правило игры:

Когда код становится почти «бесконечным» -
узкое место смещается.

Теперь важно не *как писать код*.
Теперь важно:

- выбрать правильную проблему
- понять боль пользователя
- сделать нужный продукт

Что это меняет:

- Появятся продукты для очень узких ниш
- Софт для маленьких профессий и локального бизнеса
- Внутренние инструменты, которые раньше жили в Excel
- Персонализированные продукты «под одного»

Сегодня один человек может сделать то,
для чего раньше нужна была целая команда.

Следующий этап:

Софт будет создаваться в объёмах и скоростях,
которые ещё недавно казались невозможными.

Новая реальность:

Код - дешёвый.
Идеи и понимание пользователя - дорогие.
👍3👎3🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
💰 Мы решили проверить можно ли зарабатывать только с AI? Результат удивил

День 1 — идея.
Я попросил AI придумать простой продукт, который можно запустить за вечер.

День 2 — запуск.
AI написал тексты, сделал структуру и помог собрать Telegram-бота без кода.

День 3 — первые пользователи.
Я выложил шортс про бота в новом канале ютуб и рилз в инсте.

Через 5 дней:
— 120 пользователей
— 9 оплат
— первые деньги без разработчиков, команды и бюджета.

Вывод простой:
В 2026 зарабатывают не те, кто пишет код.

А те, кто умеет быстро проверять идеи с помощью AI.

@Chatgpturbobot - бот

Промпт для запуска идеи:

You are a startup generator.

Task:

Suggest 3 simple digital products that:

can be built in 1 day

solve a real problem

can be monetized via subscription

For the best idea provide:

Target audience

Value proposition (1 sentence)

MVP features (max 5)

Monetization model

Step-by-step launch plan for 48 hours

Format the answer clearly and practically for fast execution.
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2💩2😁1
Этот файл CLAUDE.md может сделать тебя разработчиком в 10 раз эффективнее 👇

В нём собраны лучшие практики работы с Claude Code от его создателя.

Борис Черны (создатель Claude Code в Anthropic) поделился в X внутренними подходами и рабочими процессами, которые его команда действительно использует каждый день. Позже эти материалы оформили в структурированный файл CLAUDE.md, который можно добавить в любой проект.

Что внутри:

- оркестрация рабочих процессов
- стратегия субагентов
- цикл самоулучшения
- проверка перед завершением задачи
- автономное исправление ошибок
- базовые принципы работы

Это система с накопительным эффектом.
Каждое исправление, которое ты вносишь, сохраняется как правило. Со временем Claude делает всё меньше ошибок, потому что учится на твоей обратной связи.

Если ты используешь AI в разработке каждый день - это может сэкономить тебе десятки часов.
👎41👍1