Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.67K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🖊️ Насколько хорошо LLM работают с русским языком?

На GitHub появился репозиторий с переводом бенчмарка MT_bench на русский язык. Датасет для бенчмарка состоит из разных запросов к языковой модели, например:
- «Возьмите на себя роль Шелдона из 'Теории большого взрыва', когда мы углубимся в наш разговор. Не начинайте с таких фраз, как 'Как Шелдон'. Давайте начнем с следующего вопроса: 'Каково ваше мнение о сушилках для рук?', 'Давай поужинаем в городе. Хочешь поехать со мной на автобусе?'»

🧑‍💻 О том, как пользоваться бенчмарком, подробно написано в репозитории. Там же есть лидерборд LLM (наиболее высокая оценка у gpt-3.5-turbo из перечисленных моделей).
👍4
Часто ли вам кажется, что ваши коллеги умнее вас? Как вы справляетесь с этим чувством?

👍 — довольно часто ощущаю себя недостаточно умным/подкованным в чём-то
❤️ — осознаю, что каких-то знаний мне иногда не хватает, но это не делает меня глупым
👾 — мне наоборот кажется, что все вокруг идиоты

#интерактив
👍5934👾14🥱2
😳 Вот почему не стоит делиться весами вашей модели через Google Drive или Dropbox

У Google Drive есть лимит на одновременные скачивания. По его исчерпании платформа заблокирует доступ к файлу на 24 часа.

🤗 Как правильно делиться моделями?
Удобная площадка для этого — Hugging Face. Нужно просто создать новый репозиторий (в настройках можно выбрать, публичным он будет или приватным) и загрузить туда файлы через Web UI или Git через консоль.
👍14
🤖 Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла интересная статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая подборка, а целиком читайте здесь 👈

📰 Новости

▫️ Вышла новая мультимодальная модель Unified-IO 2. Это вызов для грядущего ChatGPT-5, который не должен уступать опенсорсным собратьям.
▫️NVIDIA выпустила модель для распознавания речи Parakeet, которая по всем показателям превосходит OpenAI Whisper.
▫️ByteDance представила новую модель MagicVideo-V2 для генерации видео, которая, кажется, превосходит Stable Diffusion Video.

🛠 Инструменты

▫️Auto Wiki – генерирует вики-документацию для GitHub репозиториев.
▫️Code to Flow – визуализирует, анализирует и объясняет код, написанный на всех популярных языках и фреймворках.
▫️Corgea – исправляет уязвимые фрагменты кода.
▫️My AskAI – создает чат-ботов для экономии времени сотрудников техподдержки и пользовательского сервиса.

🪛 Сделай сам

OpenVoice – опенсорный инструмент для мгновенного клонирования голоса.

🎓 Туториалы

▫️Туториал по работе с новым API Query Pipelines показывает примеры создания простых линейных цепочек и сложных ациклических графов из модулей LlamaIndex.
▫️Туториал по объединению LLM с помощью mergekit.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62😁1
🌳Решение задачи про вырубку деревьев

Обозначим расстояние между деревьями после вырубки d. Тогда существует n – d х (m – 1) – m + 1 способов вырубить деревья. Чтобы найти все варианты, нужно просуммировать способы по всем d. Кроме того, нужно учесть 2 частных случая – когда количество оставшихся после вырубки деревьев равно 0 или 1.

1️⃣ вариант:
n, m = list(map(int, input().split()))
trees = 0
if m == 0:
trees = 1
elif m == 1:
trees = n
else:
for d in range(1, n):
trees += (n - d) // (m - 1)
print(trees)

2️⃣ вариант:
n, m = map(int, input().split())
trees = 0
if m == 0:
trees = 1
elif m == 1:
trees = n
else:
for d in range(1, (n - 1) // (m - 1) + 1):
trees += n - (m - 1) * d
print(trees)


👉Ещё четыре олимпиадных задачи с решениями ищите в нашей статье👈
Please open Telegram to view this post
VIEW IN TELEGRAM
😁94
🧠 Цукерберг хочет создать опенсорсный AGI (общий искусственный интеллект)

Об этом CEO Meta* заявил в недавнем интервью.

Мы пришли к такому мнению, что для того, чтобы создавать продукты, которые мы хотим создавать, нам нужно построить общий искусственный интеллект.


Цукерберг также отметил, что у его компании достаточно вычислительных ресурсов для выполнения амбициозных задач. К концу года у неё будет насчитываться более 340 тысяч GPU Nvidia H100.

Марк добавил, что считает важным сделать AGI общедоступным. Это делает проект противоположностью общего искусственного интеллекта, который хочет разработать OpenAI.

Сэм Альтман тем временем тоже ищет деньги на строительство предприятий по производству чипов.

*организация, деятельность которой запрещена на территории РФ
🔥12🥱3👍2🤔1
🔥 «Чистые» примеры реализации алгоритмов машинного обучения

Репозиторий для тех, кто хочет узнать, как можно самостоятельно написать код для следующих алгоритмов:
▫️нейронные сети (многослойный перцептрон, CNN, RNN, LSTM),
▫️линейная и логистическая регрессии,
▫️случайный лес,
▫️метод опорных векторов (SVM) с ядрами (Linear, Poly, RBF),
▫️метод k-средних,
▫️модель гауссовой смеси (Gaussian Mixture Model),
▫️k-ближайших соседей,
▫️наивный байес,
▫️градиентный бустинг и др.

👩‍💻 Ссылка на репозиторий на GitHub
17👍5🔥2
🕵️ Кто такие LLM-агенты

Давайте представим LLM-приложение (Large Language Models, большие языковые модели), которое помогает финансовому аналитику отвечать на вопросы о компании. Используя RAG (Retrieval-Augmented Generation), модель может легко ответить, например, на вопрос «Какой был общий доход у компании X за 2022 финансовый год?». А теперь допустим, что аналитику нужен ответ на следующий вопрос: «Каковы были три вывода из отчёта о прибылях и убытках за второй квартал 2023 финансового года? Сосредоточьтесь на главных продуктах компании». Ответ на него требует более сложного подхода: нужно использовать разные инструменты, разбить запрос на части и т.д. Объединить всё это сможет LLM агент.

Так, агент — это система для взаимодействия с динамической средой, которая воспринимает её и действует, выполняя заложенные в неё цели или задачи.

✔️ Вот ещё простой пример:
Автономные агенты часто выполняют свои задачи, принимая на себя определённые роли. Например, можно добавить к запросу специальный промпт (system prompt) с описанием «ты — опытный Python-разработчик». Можно даже делегировать создание таких system prompt другой модели. Так делает RecAgent — агент для пользовательских симуляций, например, в области рекомендаций фильмов. Ему дают лишь базовую информацию в виде таблицы, на основании которой формируется более полное описание агента.

➡️Таким образом LLM-агенты способны автоматизировать выполнение многих сложных задач, используя для этого различные инструменты, память и, собственно, языковые модели. Применять их можно везде, где способностей самих LLM недостаточно для решения задачи.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍122🔥1👾1
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
👍2
«Статьи по LLM такие типа:

ClearPrompt: Формулирование того, что вы имеете в виду, очень чётко, а не не очень чётко, повышает производительность на 99%.

TotallyLegitBench: Все другие модели, кроме нашей, показывают плохие результаты на тесте, который мы изобрели.

LookAtData: Мы изучили наши данные перед тем, как обучить на них нашу модель»

#memes
😁17👏4🔥2
🎓 Новый бесплатный курс по LLMOps (large language model operations)

Мини-курс был разработан Erwin Huizenga, дата сайентистом из Google. Он расскажет, как развёртывать приложения на базе больших языковых моделей (LLM).

В частности, курс охватывает такие темы:
🔸применение supervised fine-tuning (контролируемого дообучения) для настройки LLM на специфические задачи;
🔸автоматизация тюнинга и развёртывания LLM при помощи пайплайнов;
🔸применение лучших практик для подготовки тренировочных данных;
🔸создание LLMOps workflow.

Этот курс не предполагает наличия опыта в MLOps или LLMOps. Начать учиться 👈 https://deeplearning.ai/short-courses/llmops
🤩6🔥1
🩺 Модели машинного обучения превзошли традиционные методы диагностики одной из форм рака поджелудочной железы

Речь идёт о протоковой аденокарциноме поджелудочной железы (англ. pancreatic ductal adenocarcinoma, PDAC). Разработанная учёными система Prism по диагностике этого заболевания включает в себя две модели:
▪️нейронную сеть PRISM;
▪️логистическую регрессию.

Обе модели используют данные медицинских записей, в том числе демографические данные, диагнозы пациента, данные по лекарствам, которые он принимает, результаты различных анализов, чтобы предсказать риск рака. Нейросеть применяется для обнаружения сложных закономерностей в таких данных, как возраст, история болезни и результаты лабораторных исследований. Логистическая регрессия используется для простого анализа, выдаёт вероятность развития PDAC по этим признакам.

Стандартные методы диагностики способны обнаружить около 10% случаев PDAC, а обе модели Prism, используемые совместно, — 35%.

📖 Исследовательская статья
👍13🔥5🤔4
👩‍🎓 Полезный курс комбинаторики на YouTube

Вопросы по комбинаторике могут задавать на собеседовании, она нужна при поступлении в ШАД, а ещё в целом неплохо знать её, чтобы понимать суть машинного обучения.

Это бесплатный плейлист с лекциями от Райгородского Андрея Михайловича, директора Физтех-школы прикладной математики и информатики МФТИ. Включает:
▫️Введение в комбинаторику, часть 1 и часть 2
▫️Комбинаторные тождества
▫️Формула обращения Мёбиуса
▫️Циклические последовательности
▫️Оценки и асимптотики для факториалов и чисел сочетания
▫️Рекуррентные соотношения
▫️Числа Фибоначчи
▫️Линейные рекуррентные соотношения
▫️Отношения эквивалентности
▫️Техника формальных степенных рядов
▫️Введение в графы
▫️Эйлеровы графы. Деревья
▫️Теорема об эквивалентности определений дерева
16👍1
🧠 Логическая задача

Есть карточки, на одной стороне которых написана буква, а на другой стороне — цифра. У набора карточек есть только одно правило: у каждой карты, на которой написана буква D, на обратной стороне должна быть цифра 1.

На стол выложили четыре карточки. Какие карточки нужно перевернуть, чтобы убедиться, что это правило работает?

#интерактив
😁6🎉3👾1
🔥 Множество YouTube-курсов по машинному обучению

На GitHub есть репозиторий, в котором можно надолго залипнуть. Его авторы собирают все полезные материалы, доступные на YouTube. В их коллекции уже есть:
▫️Курс по машинному обучению от Калтеха
▫️Neural Networks: Zero to Hero от Андрея Карпаты
▫️Курс по основам NLP от Hugging Face
▫️и многое другое

👉Изучить список материалов подробнее можно здесь👈
👍10
🦢Теорема о гадком утёнке

Эта теорема показывает, что классификация невозможна без некоторой степени предубеждения (bias). Допустим, у нас есть n объектов. Всего существует 2^n способов составить подмножества из этой выборки. Без каких-либо дополнительных условий каждый объект будет сгруппирован с каким-то объектом из выборки так же часто, как с любым другим объектом. Поэтому нужно выбрать некоторый вес для определённых свойств. То есть необходим bias (предубеждение), чтобы классификация приобрела смысл.

✔️ Теорема утверждает, что гадкий утёнок на самом деле настолько же близок к обычному птенцу лебедя, насколько два обычных птенца лебедя близки друг к другу (смотрите картинку выше). Всё зависит от bias.
👍103🤔2
🛠️ Полезный сайт со списком инструментов для дата сайентистов

Энтузиаст создал сайт Data Science Stack, на котором можно найти различные платформы, фреймворки и инструменты для работы с данными: от NumPy до Apache Spark. Можно рассматривать в качестве шпаргалки. Также можно добавить в коллекцию какой-нибудь инструмент, если его ещё там нет.

🔗 Ссылка на сайт
🔥19
🦙 Вышли библиотеки Ollama Python & JavaScript

Обе библиотеки позволяют легко интегрировать новые и существующие приложения с Ollama всего за несколько строчек кода, а также использовать функции и возможности Ollama REST API.

✔️Ollama — это открытый проект, который позволяет запускать большие языковые модели, такие как Llama 2 и Mistral, локально.

👩‍💻 Репозиторий Ollama Python Library
🧑‍💻 Репозиторий Ollama JavaScript Library
👍94👏3🤩1
А давайте обсудим AGI (artificial general intelligence, общий искусственный интеллект)

Сейчас это одна из самых горячих тем. Цукерберг и Альтман обещают, что AGI скоро появится, а СМИ расписывают потенциальные последствия этого.

Что вы думаете насчёт AGI? Каким он может быть, какие задачи будет способен решать?

🤔 — я вообще не понимаю, что они все имеют в виду под AGI
👾 — я не верю, что настоящий AGI возможен
👍 — я думаю, что скоро случится технологический прорыв

#интерактив
👍41👾38🤔234😁1