194K subscribers
3.56K photos
543 videos
17 files
4.3K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
LitGPT

20+ производительных LLM, написанных с нуля, с подробным описанием, инструкциями, файнтюнигу и деплою.

Особенности:
🟢 Модели написаны с нуля
🟢 Нет абстракций
🟢 Подходит для обучения новичков
🟢 Flash attention
🟢 FSDP
🟢 LoRA, QLoRA, Adapter
🟢 Уменьшение памяти GPU (fp4/8/16/32)
🟢 1-1000+ GPU/TPUs
🟢 20+ LLMs

Установка:


pip install 'litgpt[all]'

Пример:

from litgpt import LLM

llm = LLM.load("microsoft/phi-2")
text = llm.generate("Fix the spelling: Every fall, the familly goes to the mountains.")
print(text)
# Corrected Sentence: Every fall, the family goes to the mountains.


Github
Docs
Video

@ai_machinelearning_big_data



#LitGPT #tutorial #llm #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⭐️ Ночью OpenAI выпустила Deep Research — ИИ-агента для проведения исследований анализа и поиска информации.

Вводите промпт и ChatGPT найдет, проанализирует и синтезирует сотни онлайн-ресурсов, чтобы создать развернутый отчет за 10 минут работы, вместо нескольких часов, которые потребовались бы человеку.

Основные моменты:

— Уже доступен для пользователей Pro.
— Агент предоставит полный список источников, а также прокомментирует каждый из них;
— Хорошо подходит для решения задач, связанных с поиском в интернете.
Набрал 26.6 % на «Последнем экзамене человечества».
🟢Подробнее

⭐️WeatherNext продвинутый искусственный интеллект от Google DeepMind для прогнозирования погоды с открытым исходным кодом!

ИИ превосходит существующие методы как по точности, так и по вычислительной эффективности, предлагая обновления прогнозов в реальном времени четыре раза в день через Google Cloud, BigQuery и Earth Engine.
Исследователи могут получить доступ как к текущим, так и к историческим прогнозам для анализа и планирования.

Внутри 2 мощных инструмента:
WeatherNext Graph:
- Формирует единый сверхточный прогноз.
- Обновления происходят каждые 6 часов.
- Предсказания делаются на 10 дней вперёд.
- Выдает прогнозы с максимальной точностью.

WeatherNext Gen:
- Генерирует ансамблевые прогнозы из 50 вероятных сценариев.
- Обновление прогноза происходит каждые 12 часов.
- Модель позволяет лучше оценивать риски экстремальных погодных явлений.

Преимущества над традиционными методами:
- Более высокая скорость обработки данных.
- Значительное повышение точности по сравнению с физическими моделями.
- Опенсорс
🟢Blog

⭐️ Вышло пятичасовое интервью от Lex Fridman с Dylan Patel и Nathan Lambert (Ai2).

Внутри много интересного о DeepSeek, Китае, OpenAI, NVIDIA, xAI, Google, Anthropic, Meta, Microsoft, TSMC, Stargate, строительстве мегакластеров, RL, ризонинге и множестве других тем на передовых ИИ тематик.

Очень интересная и наполненная техническими деталями беседа.
🟢 YouTube 🟢Podcast

⭐️ Ряд интересных обновлений в Qwen Chat!

- Новая модель: Qwen2.5-Plus теперь обновлен до qwen-plus-0125-exp, с новыми методами пост-тренинга. Разрыв с Qwen2.5-Max значительно сократился.
- Гибкие режимы: Убрали все ограничения на переключение между режимами в течение одной сессии! С.
- Неограниченный ввод: Поддержка текстов длиной более 10 000 символов
- Возможность загружайть файлы txt, pdf, docx, xlsx, pptx, md и другие. Теперь длинный ввод не требует усилий.
🟢Попробовать

⭐️ Open-R1: Большой гайд посвященный экспериментам, инструментами, исследованиям и разборам DeepSeek R1!

Резюме самых интересных открытий за первую неделю с момента появления DS.
🟢HF 🟢Github:

⭐️ Гонка ИИ продолжается. Самый богатый человек Индии хочет построить крупнейший в мире центр обработки данных, в пять раз превышающий по мощности крупнейший датацентр Microsoft

Компания Reliance Group Мукеша Амбани, один из крупнейших и наиболее влиятельных индийских конгломератов, строит крупный центр обработки данных в Джамнагаре - небольшом городке в штате Гуджарат, где уже расположены крупные нефтеперерабатывающие и нефтехимические предприятия Reliance.
По сообщениям Bloomberg, общая мощность центра обработки данных, который может стать крупнейшим в мире, составит 3 гигаватта, что значительно увеличит текущую мощность индийских центров обработки данных, которая оценивается менее чем в 1 гигаватт.

Таким образом, он будет в пять раз больше, чем 600-мегаваттный центр Microsoft в Бойдтоне, штат Вирджиния.
🟢Подробнее

⭐️ Google представили метахранилище для Lakehouse!

Метахранилище - это высокомасштабируемый сервис метаданных во время выполнения, который работает с несколькими движками: BigQuery, Apache Spark, Apache Hive и Apache Flink, и поддерживает открытый формат таблиц Apache Iceberg
🟢Подробнее


@ai_machinelearning_big_data


#DeepSeek #opensource #ai #ml #llm #machinelearning #guide #news #chatgpt #openai #google #deepmind #qwen #DataAnalytics #ainews #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Защитный щит Anthropic против взлома LLM.

Anthropic разработала новый метод защиты LLM от джейлбрейк-атак, который не исправляет сами модели, а блокирует попытки взлома, не допуская нежелательных ответов.

Для создания защитного экрана компания сгенерировала датасет вопросов и ответов и перевела их на несколько языков, переписала в стиле запросов, которые используются хакерами.

Чтобы проверить эффективности экрана, Anthropic провела конкурс, где 183 участника более 3000 часов пытались обмануть Claude, но никто не смог получить ответ на более чем на 5 из 10 запрещенных вопросов. Затем провели второй тест, где 10 000 джейлбрейков, созданных LLM, были направлены на защитный экран. Пробить его смогли только 4,4% запросов, а без использования экрана - 86%. Есть минус - система защиты может блокировать безобидные вопросы и увеличивает вычислительные затраты.
technologyreview.com

✔️ ИИ приближает возможность самовосстанавливающегося асфальта.

Ученые из Университета Суонси и Королевского колледжа Лондона в сотрудничестве с коллегами из Чили объявили о планах по разработке самовосстанавливающихся асфальтовых дорог из биомассы с использованием ИИ.

Исследования показали, что можно обратить вспять процесс растрескивания битума, чтобы «сшить» асфальт обратно. Для создания «самовосстанавливающегося» асфальта команда добавила крошечные пористые материалы - споры, заполненные переработанным растительным маслом. При появлении микротрещин масло высвобождается из спор, чтобы заполнить трещины и предотвратить окисление битума, которое приводит к образованию выбоин. Лабораторные эксперименты показали, что биоспоровые микрокапсулы полностью залечивали трещины в образце состаренного битума за 50 минут. Исследования стали возможны благодаря ML, которое применялось для изучения органических молекул в сложных вязких субстанциях.
highwaysmagazine.co.uk

✔️ DeepSeek блокируют по всему миру из-за опасений по поводу безопасности данных.

Растет число стран и правительственных органов которые запретили использование моделей DeepSeek, выразив обеспокоенность по поводу этики, конфиденциальности и безопасности компании. Согласно политике DeepSeek, все данные пользователей хранятся в Китае, где местные законы требуют от организаций делиться данными с спецслужбами по запросу.

Италия стала одной из первых стран, запретивших DeepSeek после расследования комитетом по защите конфиденциальности. Тайвань запретил использование DeepSeek в гос.учреждениях из-за риска утечки информации. Конгресс США, Министерство обороны США, НАСА и и штат Техас также запретили использовать технологии DeepSeek, сославшись на потенциальные угрозы безопасности.
techcrunch.com

✔️ ИИ разрабатывает компьютерные чипы, которые человеческий разум не может понять.

CNN, разработанная в Принстонском университете, спроектировала беспроводные чипы, которые превосходят существующие аналоги. Нейронная сеть пользовалась методикой реверсивного инжиниринга - она проанализировала желаемые свойства чипа и создала его его в обратном порядке. Инженеры не смогли объяснить, как работают эти чипы, что может привести к проблемам с их ремонтом и сделать их одноразовыми.
popularmechanics.com

✔️ Google Cloud представляет новые виртуальные машины A4 на базе NVIDIA B200 для ИИ.

Google Cloud анонсировала предварительный показ новых виртуальных машин A4, оснащенных NVIDIA Blackwell B200. Каждая A4 VM имеет 8 GPU Blackwell, соединенных NVLink пятого поколения, что обеспечивает двухкратное увеличение производительности по сравнению с A3 High VM предыдущего поколения.

A4 VMs подходят для обучения и тонкой настройки различных архитектур моделей и используют сетевой адаптер Titanium ML, который предоставляет неблокирующую передачу данных между GPUs со скоростью 3,2 Тбит/с.

Google предлагает различные модели потребления - Dynamic Workload Scheduler с режимами Flex Start и Calendar для различных рабочих нагрузок.
cloud.google.com

✔️ Goedel-Prover: 7B LLM - новая SOTA по производительности в доказательстве теорем! 1-е место в таблице лидеров PutnamBench.

Blog Github


#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Первый Open Source аналог Deep Research от OpenAI.

Реализация ИИ-ресерчера, который непрерывно ищет информацию по запросу пользователя, пока система не убедится, что собрала все необходимые данные.

Для этого он использует несколько сервисов:

- SERPAPI: Для выполнения поиска в Google.
- Jina: Для получения и извлечения содержимого веб-страниц.
- OpenRouter (модель по умолчанию: anthropic/claude-3.5-haiku): Взаимодействует с LLM для генерации поисковых запросов, оценки релевантности страниц и понимания контекста.

🟢 Функции
- Итеративный цикл исследования: Система итеративно уточняет свои поисковые запросы.
- Асинхронная обработка: Поиск, парсинг веб-страниц и оценка контекста - выполняются параллельно для повышения скорости.
- Фильтрация дубликатов: Агрегирует и дедуплицирует ссылки в каждом цикле, проверяя, что одна и та же информация не будет обработана дважды.

Github
Google Colab

@ai_machinelearning_big_data


#opensource #llm #ai #ml #DeepResearcher
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ ByteDance анонсировала OmniHuman-1, ИИ для анимации людей и персонажей из изображений.

OmniHuman-1 преобразует фотографии в видео, добавляя движение и речь и умеет обрабатывать текст, изображения, аудио и позы одновременно. OmniHuman-1 создает качественную анимацию как из портретов, так и из изображений в полный рост. Представленные демо-материалы показывают естественные движения губ, жесты и качественную обработку пропорции тела с учетом окружения. Длина генерируемых видео не ограничена и зависит только от доступной памяти. Помимо анимации людей, заявлена возможность оживлять персонажей мультфильмов.
omnihuman-lab.github.io

✔️ Adobe запустила ИИ для анализа контрактов.

Acrobat AI Assistant теперь может автоматически определять контракты, суммировать ключевые условия и сравнивать различия в разных версиях. По данным Adobe, почти 70% потребителей подписывают контракты, не понимая всех условий. Новая система действует как интеллектуальный помощник, помогая пользователям находить и понимать важные части документов, предоставляя ссылки на источник.

Технология анализирует текст PDF-документа и может обрабатывать даже отсканированные документы. Adobe заявляет, что данные пользователей не агрегируются и не используются для обучения ИИ-моделей. Новая функция доступна за 5 долл. в месяц и, согласно аналитике раннего доступа, помогла сократить время проверки контрактов на 70-80% у пользователей тестовой группы.
venturebeat.com

✔️ Dassault Systemes представила систему для управления жизненным циклом интеллектуальной собственности с ИИ.

3D UNIV+RSES - новая архитектура, в основе которой лежат технологии GenAI для управления глобальным жизненным циклом интеллектуальной собственности (IPLM). Архитектура позволяет клиентам использовать свои 3D-проекты, цифровые двойники и данные PLM в новом пространстве представления, создавая среду для обучения новых категорий сервисов, таких как Generative Experiences (GenXp), Virtual Companions и Virtual Twin Experience as a Service (VTaaS).

По словам Dassault Systèmes, 3D UNIV+RSES — это новое поколение представления мира, объединяющее моделирование, симуляцию, данные реального мира и контент, сгенерированный ИИ. Эта технология позволяет создавать виртуальные двойники всего и виртуализировать целые экосистемы.
3ds.com

✔️ Block запустила открытую ИИ-платформу Codename Goose.

Codename Goose - опенсорсная и некоммерческая ИИ-платформа для автоматизации задач. Goose представляет собой гибкого AI-ассистента, работающего локально и настраиваемого с помощью расширений.

Платформа интегрируется с GitHub, Google Drive и JetBrains IDEs и позволяет создавать пользовательские интеграции через MCP. Goose способен выполнять сложные задачи, координируя свои возможности и позволяя пользователям выбирать предпочтительных поставщиков LLM. Goose поддерживает решение задач миграции кода, генерации юнит-тестов, создание API, управление флагами функций и автоматизации бенчмаркинга производительности. Платформа поддерживает запуск через декстопное приложение или командную строку.
block.github.io

✔️ Physical Intelligence опубликовала новые модели для управления роботами.

Physical Intelligence выпустила π0 и π0-FAST, модели Vision-Language-Action для общего управления роботами, которые доступны в репозитории Hugging Face LeRobot.
π0 — это модель, основанная на масштабном предварительном обучении и генерации действий на основе сопоставления потоков, способная выполнять сложные задачи, например, складывание белья, уборка стола и сборка коробок. Она обучена на данных с 7 робототехнических платформ и 68 уникальных задач. π0 производит плавные траектории действий в реальном времени с частотой 50 Гц.
π0-FAST - авторегрессионная версия π0, в которой используется FAST (токенизация последовательности действий в частотном пространстве) для улучшенного представления действий и ускорения обучения.
huggingface.co

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 Open-source DeepResearch

Вышла еще одна реализация DeepResearch, на этот раз от команда hugging face.

За 24 часа разработчики воспроизвели DS и выложили исходный код своего агента!

🟢Это полностью открытый агент, который может: автономно работать в Интернете прокручивать и искать страницы, загружать и работать с файлами, выполнять вычисления с данными и тд...
🟢На бенчмарке GAIA точность Deep Research достигла 67 %.
🟢54% на Magentic-One

Построен на базе CodeAgent. Самый большой буст в производительности удалось получить, когда разработчики разрешили агенту
писать свои действия в коде.

При переходе на стандартного агента, который пишет действия в JSON, а не в коде, производительность той же самой настройки мгновенно падает до 33 %.

Блог: https://huggingface.co/blog/open-deep-research
Код: https://github.com/huggingface/smolagents/tree/main/examples/open_deep_research


@ai_machinelearning_big_data


#ai #ml #huggingface #hf #aiagent #llm #DeepResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Новый релиз от Deepseek: DeepSeek-VL2-small (16B MoE) для vision-language задач.

Демо новой модели стало доступно на huggingface 🚀

Отличная модель для OCR задач, извлечения текста, распознания картинок и использования в чате.

🤗 HF: https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

@ai_machinelearning_big_data


#deepseek #OCR #demo #prerelease
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Обновления от Google для семейства моделей Gemini:

- На Арене Gemini-2.0-Pro (контекстное окно размером 2 млн) занимает 1-е место во всех категориях
- Gemini-2.0-Flash- 3-место в кодинге, математике и категории «Hard Prompts»
- Gemini-2.0-Flash топ-3 в категориях
- Gemini 2.0 Flash-Lite в топ-10 по всем категориям.

Что касается ризонинга, то в приложении Gemini также появилась версия Flash Thinking Experimental 2.0, которая в настоящее время так же занимает лидирующие позиции в рейтинге LM Arena .

https://developers.googleblog.com/en/gemini-2-family-expands/

@ai_machinelearning_big_data


#Gemini #google #deepmind #Gemini2
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Google сделала Gemini 2.0 общедоступной и представляет новые модели Flash-Lite и Pro Experimental.

Компания объявила об общей доступности Gemini 2.0 Flash через Gemini API в Google AI Studio и Vertex AI, выпуске экспериментальной версии Gemini 2.0 Pro и представила Gemini 2.0 Flash-Lite, самую экономичную модель, находящуюся в публичном превью в Google AI Studio и Vertex AI.

Все эти модели поддерживают мультимодальный ввод с текстовым инференсом, а в ближайшие месяцы будут добавлены другие модальности вывода. 2.0 Flash обладает улучшенной производительностью в ключевых бенчмарках и в скором времени в ней появятся функции генерации изображений и преобразования текста в речь.
blog.google

✔️ Nvidia достигла значительного прогресса в обучении роботов.

Nvidia GEAR Lab и Университет Карнеги-Меллона разработали ASAP (Aligning Simulation and Real Physics), фреймворк, который уменьшает ошибки в движениях роботов между симуляцией и реальностью примерно на 53% по сравнению с существующими методами. ASAP работает в два этапа: сначала роботов обучают в симуляции, а затем используют специализированную модель для учета различий реального мира, выявляя и корректируя вариации между виртуальными и физическими движениями.

Во время тестирования с гуманоидным роботом Unitree G1 разработчики продемонстрировали возможности: гибкие движения, прыжки вперед на расстояние более одного метра и имитацию движений спортивных знаменитостей. Код ASAP доступен на GitHub.
agile.human2humanoid.com

✔️ Figure AI отказывается от OpenAI в пользу собственных ИИ-моделей.

Figure AI, занимающаяся разработкой универсального гуманоидного робота для коммерческого и бытового использования, объявила о прекращении сотрудничества с OpenAI. По словам основателя и генерального директора Бретта Адкока, в ближайшие 30 дней компания представит "нечто, чего никто никогда не видел в робототехнике".

OpenAI была давним инвестором Figure, и в 2024 году компании объявили о сотрудничестве для разработки ИИ-моделей нового поколения для гуманоидов. Адкок отметил, что интеграция с OpenAI оказалась проблематичной, поскольку Embodied AI не является основным направлением деятельности OpenAI.
techcrunch.com

✔️ LOOP: новый метод обучения ИИ-агентов для взаимодействия со сложными цифровыми средами.

Apple опубликовала исследование о LOOP, RL-метода обучения, разработанного для тренировки интерактивных цифровых агентов (IDA) в сложных цифровых средах с отслеживанием состояния. В отличие от предыдущих IDA, основанных на LLM с SFT, которым не хватает обучения для целевой среды, LOOP обучает агентов в их средах, используя частично наблюдаемый марковский процесс принятия решений (POMDP).

Метод устраняет необходимость в value network и поддерживает только одну копию базовой LLM в памяти, что делает его столь же эффективным, как и файнтюн одной LLM. Такой подход позволяет агенту с 32 млрд. параметров превзойти гораздо большую o1 от OpenAI на 9 процентных пунктов (15% относительно).
machinelearning.apple.com

✔️ Fujitsu продемонстрирует сети на базе ИИ и технологии 5G на MWC Barcelona 2025.

Fujitsu примет участие в Mobile World Congress Barcelona 2025 (MWC25), где представит AI-технологии для сетей под лозунгом "Безграничный потенциал" и покажет сетевую инфраструктуру в под управлением ИИ действи - AI-RAN.

Будет представлен 5G Radio Unit, совместимый с O-RAN, вместе с оптическим решением передачи серии 1FINITY для обеспечения переключения с нулевой задержкой. Fujitsu также представит AI-приложения для улучшения IT-операций, производства и экологической устойчивости.
fujitsu.com

✔️OpenAI выпустили SearchGPT свой поисковик.

Работает даже без регистрации. SearchGPT дает осмысленный ответ с источниками, таблицами, картинками и схемами, которые нашел и обработал.
Попробовать.

✔️ Андрей Карпатый выпустил 3,5 часовую лекцию — погружение в устройство LLM.

Если не осилите - последние 10 минут — краткая выжимка по всему материалу.
Смотрим здесь.

✔️Qwen 0.5b on GRPO

Пошаговый гайд с кодом для обучения рассуждающей LLM с RL-алгоритмом от GRPO.
Сolab


#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM