Анализ данных (Data analysis)
52.4K subscribers
2.89K photos
347 videos
1 file
2.44K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
🖥 Большинство парсеров умирают через 2 дня.

Ты научишься делать те, которые работают в продакшене.

Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:

• не падают из-за мелких изменений на сайте
• собирают данные в разы быстрее
• обновляют всё автоматически по расписанию
• обходят ограничения и блокировки
• выглядят как полноценный сервис, а не как хаос из файлов

Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключаться.

В итоге ты сможешь:

• забирать данные для своих проектов
• автоматизировать чужую рутину
• создавать инструменты для аналитики
• брать коммерческие заказы на сбор данных

Это навык, который напрямую превращается в деньги.
Не «знаю Python», а «умею профессионально добывать данные из интернета».

🎁 Скидка 50% на Stepik действует 48 часов: https://stepik.org/a/269942/
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣135👍3🔥2
📌 Большинство AI-агентов на самом деле ничего не помнят.

Каждый диалог для них — как первый:
- нет памяти о прошлых разговорах
- нет понимания связей между фактами
- нет накопленного опыта

И здесь многие делают ошибку.

Они используют vector database — и считают, что это память.

Проблема:
Vector search находит похожие куски текста,
но не понимает связи между ними.
Документы остаются изолированными фрагментами.

Агенту нужна не просто память.
Ему нужна система знаний с отношениями.

Именно это делает Cognee — 100% open-source инструмент для самообучающейся памяти.

Что внутри:

- Vector search + графовая база
- Поиск по смыслу + связи между сущностями
- Документы превращаются в knowledge graph

Ключевые возможности:

Composable pipelines
Можно собирать свои пайплайны:
chunking → embedding → entity extraction → обработка

Weighted memory
Чем чаще используется связь — тем она сильнее
Память адаптируется под реальное использование

Self-evolving memory
Пайплайн memify:
- усиливает полезные связи
- удаляет устаревшие данные
- оптимизируется по принципам RL

Агент получает память, которая:
- сохраняется
- понимает связи
- улучшается со временем

https://github.com/topoteretes/cognee
21👍8🤣7😍2
Отличный результат 😄
Please open Telegram to view this post
VIEW IN TELEGRAM
😁66👍14🤣14🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
На это конец, можно идти домой
🤣50👍52😍2
Если вы хоть раз пытались навести порядок в BI, то знаете эту боль.

Дашборды растут, копируются, устаревают.
А когда нужно понять, что где используется — начинается классика:
скриншоты, Excel-таблицы, ручные проверки.

Парадокс в том, что мы строим аналитику, чтобы автоматизировать бизнес,
но управление самой BI-средой часто остаётся полностью ручным.

Хорошая новость — это можно автоматизировать.

10 марта в 12:00 (мск) Yandex Cloud проведёт вебинар
«API в DataLens — все пути автоматизации».

На вебинаре разберут:
- возможности Public API DataLens
- как управлять дашбордами и объектами программно
- как убрать рутину из администрирования BI
- реальные сценарии автоматизации
- кейс использования API-коннектора клиентом

Будет особенно полезно, если вы хотя бы раз делали «инвентаризацию дашбордов вручную».

Кому подойдёт:
BI-аналитикам, дата-инженерам, разработчикам, системным архитекторам и руководителям аналитики.

Участие бесплатное, требуется предварительная регистрация.

Иногда следующий уровень аналитики — это автоматизация самой аналитики.
8😍2
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Claude-Mem - open-source инструмент, который даёт Claude постоянную память между сессиями.

Главная проблема Claude Code

По умолчанию у Claude нет долгосрочной памяти:
- каждый запуск - "с чистого листа"
- весь контекст нужно передавать заново
- растут токены
- быстро достигаются лимиты
- агент забывает структуру проекта, решения и предыдущие шаги

Это делает длительную работу с кодом дорогой и неэффективной.

Что делает Claude-Mem

Claude-Mem добавляет слой persistent memory:
- сохраняет важный контекст между сессиями
- восстанавливает знания при следующем запуске
- отправляет в модель только релевантную информацию

По сути, это внешний long-term memory для агента.

Результаты

По заявлению разраьотчиков:
- до 95% меньше токенов на повторных запусках
- до 20x больше tool calls до достижения лимитов
- быстрее старт новых сессий
- меньше повторных объяснений модели

https://github.com/thedotmack/claude-mem
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍7🥴6🔥4
⚡️ ChatGPT-5.4 - что уже «утекло»

- 2M токенов контекста + persistent memory
Это уже не просто «длинная история чата», а полноценная работа с огромными кодовыми базами, документами и агентными пайплайнами без постоянного перепромптинга.

- Полноразмерная обработка изображений
Модель якобы умеет работать с PNG, JPEG и WebP без понижения качества.
Это критично для:
- архитектурных чертежей
- плотных UI-скриншотов
- схем и графиков с мелким текстом
- сложной технической документации

Сохранение исходных байтов изображения = меньше потерь информации при анализе.

- Новый speed-priority tier
Отдельный класс скорости. Вероятно - для продакшена, агентов и real-time задач.

Интересный момент - GPT-5.4 «засветился» в pull request’ах публичного репозитория Codex на GitHub.
Упоминания быстро удалили force-push’ами, но скриншоты уже разлетелись.

Prediction markets:
- 55% шанс релиза до апреля 2026
- 74% шанс до июня 2026

Конкуренция давит:

- OpenAI не может замедляться.
- Claude Opus 4.6 вышел с агентными командами и 1M контекстом.
- Anthropic через Claude Code уже доминирует в кодинге.
- DeepSeek V4 тренируется на Huawei-железе вне NVIDIA-экосистемы.

Если 2M контекст подтвердится - это уже другой класс систем:
- полноценные автономные код-агенты
- большие финансовые и юридические пайплайны
- enterprise-документооборот
- сложные multimodal workflow
1🔥2911👍9
🔥 Легендарный математик - Дональд Кнут начал свою новую научную работу словами: “Shock! Shock!”

Почему?

Потому что Claude Opus 4.6 решил открытую задачу, над которой Кнут работал несколько недель.
Речь о гипотезе разложения графов из легендарной книги The Art of Computer Programming.

Кнут даже назвал статью в честь ИИ:

“Claude’s Cycles”

Что произошло:

- Claude провёл 31 исследование
- на это ушло примерно 1 час
- Кнут изучил результат
- оформил формальное математическое доказательство

И закончил работу фразой:

> *«Похоже, мне придётся пересмотреть своё мнение о генеративном ИИ.»*

Это сказал человек, который написал библию компьютерных наук.

И назвал научную работу в честь ИИ.

Почитать саму работу можно здесь:
https://cs.stanford.edu/~knuth/papers/claude-cycles.pdf
135👍14🔥12🤣7💔2🤨2
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Оптимизация контекста для Claude Code

Context Mode — это сервер MCP, который значительно уменьшает объем данных, поступающих в контекстный буфер Claude Code. Он обрабатывает выводы инструментов, сокращая их размер с 315 КБ до 5.4 КБ, что позволяет сохранить больше информации для взаимодействия.

🚀Основные моменты:
- Сокращение данных на 98% для инструментов.
- Поддержка множества языков программирования.
- Интеграция с существующими инструментами через слэш-команды.
- Эффективная работа с логами и API-ответами.
- Умный поиск по индексированному контенту.

📌 GitHub: https://github.com/mksglu/claude-context-mode
7🔥4👍3
BullshitBench v2, созданный Питером Гостевым, - это бенчмарк, который проверяет, способны ли модели ИИ распознавать бессмысленные запросы и отказываться на них отвечать, вместо того чтобы уверенно продолжать и «придумывать» ответ.

Только модели Claude от Anthropic и Qwen 3.5 от Alibaba показывают результат выше 60% по распознаванию бессмыслицы.
А модели OpenAI и Google? Застряли на месте и почти не улучшаются.

Еще более неожиданно: модели с усиленным рассуждением (reasoning), которые «думают дольше», на самом деле показывают худшие результаты. Они используют дополнительное вычисление не для того, чтобы отвергнуть бессмысленный запрос, а чтобы рационализировать и оправдать этот абсурд.

🎯Полезные Мл-ресурсы 🚀 Max

https://x.com/petergostev/status/2028492838082666780
👍129🥰3🔥2
Как DS/ML за 9 месяцев вырасти на 30% в зарплате и выйти на еще более интересные проекты?

Освойте Deep Learning. Голосовые помощники, распознавание лиц, рекомендации в приложениях, медицинская диагностика — нейросети используются уже во всех сферах бизнеса. Компании ищут DL-специалистов, чтобы точнее обучать и настраивать нейросети под свои запросы.

За 9 месяцев вы изучите все актуальные модели последних лет и получите крепкую базу в DL, углубившись в каждое направление.

Что вы освоите:
🟠Создание и обучение нейросетей с нуля
🟠Компьютерное зрение (Computer Vision)
🟠NLP (обработка текста)
🟠Генеративные модели
🟠MLOps и продакшн-подход


🕖 Старт обучения — 12 марта, количество мест на поток ограничено

Бронируйте место на курсе прямо сейчас и получите скидку 30%

😶ПОЛУЧИТЬ СКИДКУ НА КУРС
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2😁2🤣2🔥1
Anthropic сейчас приближается к $20 млрд годовой выручки (run rate) - ещё несколько недель назад этот показатель вырос сразу на $5 млрд.

Компания уже выходит на $20 млрд годового дохода, более чем удвоив показатель с $9 млрд в конце 2025 года. Рост обеспечен массовым распространением её AI-моделей и инструментов вроде Claude Code.

Anthropic, оценка которой сейчас составляет около $380 млрд, стремительно набирает популярность: интерес к продуктам компании стал вирусным, а её приложения даже возглавляют чарты загрузок в App Store, обгоняя многие крупные приложения Apple.

https://www.bloomberg.com/news/articles/2026-03-03/anthropic-nears-20-billion-revenue-run-rate-amid-pentagon-feud
10🔥9❤‍🔥2👍2🤣2
✔️ Рассуждающие агенты требуют не только ума, но и железа

Когда провайдеры запускают «агентов», пользователи видят красивый интерфейс.
Инженеры видят ад.

Потому что агентские сценарии — это не «запрос-ответ». Это:

- длинные диалоги с историей
- вызов внешних инструментов (поиск, интерпретация кода, внешние приложения)
- гигабайты промежуточных данных между шагами

Если просто «поднять контейнер на GPU» — TTFT (время до первого токена) поплывёт, TBT (время между токенами) просядет, и агент будет тормозить на ровном месте.

Что с этим делают

Yandex AI Studio, например, на днях запустила инференс DeepSeek V3.2 и при этом полностью пересобрала инфраструктуру.

Внедрили разделение prefill/decode:
- prefill-ноды — быстрый прогон длинных контекстов
- decode-ноды — стабильная генерация с низкой задержкой

Это потребовало научиться передавать KV-кэши между серверами в реальном времени. Помимо прочего сбалансировали запросы с учётом «сессионности» и выстроить иерархию KV-кэшей от HBM GPU до распределённой памяти и/или NVMe.

Безопасность и тарификация

- Управляемые правила модерации ответов модели
- Доступ к моделям через частные эндпоинты по выделенному сетевому каналу для работы без выхода в публичный интернет

Новая тарификация:
- токены инструментов и кэширования — в 4 раза дешевле обычных входящих
- чем длиннее сессия, тем выгоднее

Потому что платить стоит не за факт обращения к модели, а за новую вычисленную информацию.
Всё остальное можно и нужно кэшировать.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥73🥰2🤣2👍1
⚠️ GPT-5.4 впервые получил статус “высокого уровня киберугрозы” среди универсальных AI-моделей.

GPT-5.4 - официально признана high cybersecurity risk.

Это означает, что модель уже способна самостоятельно планировать и выполнять сложные кибератаки на симулированные корпоративные сети.

Основание для такой оценки - тесты Capture the Flag (CTF).

В индустрии кибербезопасности CTF - это соревнования по взлому систем.
Участники должны проникнуть в симулированную сеть, найти уязвимости, взломать сервисы и добыть скрытые данные - так называемые *flags*.

Для этого требуется:
- взламывать шифрование
- делать reverse engineering программ
- находить уязвимости в веб-приложениях
- строить сложные цепочки атак

По результатам официальных тестов GPT-5.4 набрал 88% в профессиональных CTF-сценариях.

Это очень высокий показатель.

Фактически это означает, что модель уже умеет:
- находить уязвимости в системах
- писать эксплойты
- строить стратегии взлома

Если AI способен проходить профессиональные hacking-челленджи, значит он обладает теми же навыками, которые используют реальные хакеры для взлома корпоративных инфраструктур.

Главная проблема - масштабирование атак.

Если раньше хакеру нужно было вручную искать слабые места, то теперь AI может автоматически анализировать систему и находить уязвимости.

Это резко ускоряет и удешевляет кибератаки.

Именно поэтому GPT-5.4 стал первой универсальной AI-моделью, официально получившей высокий уровень киберриска в системной карте безопасности.

deploymentsafety.openai.com/gpt-5-4-thinking/gpt-5-4-thinking.pdf
7👍6🔥2