Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🪑 Стул «Каустби»? А, может, лучше стул «Извините, но я не могу выполнить этот запрос, поскольку он не соответствует политике использования OpenAI»

О чём речь? О том, что на Amazon нашли карточки товаров с названиями вроде «I’m sorry, but I cannot fulfill this request as it goes against OpenAI use policy». К сожалению, после того, как на The Verge опубликовали текст об этом, карточки удалили. Но если вы попытаетесь поискать словосочетание «goes against OpenAI content policy» на других платформах (например, в Twitter), то можете найти много интересного.


Объяснение простое: многие подключают OpenAI API к скриптам для генерации автоматических описаний товаров (или к ботам) и не контролируют ответы на запросы.
😁16👍4🔥1
🐼 Как добавить собственный метод в Pandas

Чтобы расширить Pandas API, можно использовать библиотеку pandas-flavor. Поэтому первым делом установим её: pip install pandas-flavor

Для примера создадим новый метод, специфичный для конкретного датасета titanic.csv. Скачайте его себе предварительно. 

1️⃣ Сначала импортируем Pandas и создадим DataFrame:


import pandas as pd
df = pd.read_csv(‘titanic.csv’)

2️⃣ pandas-flavor добавляет пользовательские методы непосредственно в DataFrame/Series. Для этого мы используем декоратор:


from pandas_flavor import register_dataframe_method
@register_dataframe_method
def is_old_lady(df):
    is_lady = df[‘Sex’] == ‘female’
    is_old = df[‘Age’] > 70
    return df[is_old & is_lady]
df.is_old_lady()


В реальности, конечно, создаваемые методы должны быть шире, чем этот игрушечный пример.

Ещё один (более правильный способ) — создать отдельный Python-файл и прописать в нём собственные методы со специальным декоратором. Затем можно импортировать этот файл как модуль в основном скрипте. 

🔗 Страница Pandas Flavor на PyPI
👍11🔥3
👩‍💻 Подробное руководство по эмбеддингам

Эмбеддинги объектов, в общем случае, — это их векторные представления. Для больших языковых моделей (LLM), в частности, создаются эмбеддинги слов.

Как именно они создаются? Об этом в небольшой книжке рассказала автор Vicki Boykis. Также она разместила на GitHub Jupyter-ноутбуки с кодом для TF-IDF, Word2vec, модели BERT и не только.

🔗 Весь материал можно посмотреть здесь
👍11
Forwarded from Библиотека программиста | программирование, кодинг, разработка
🏖️ Синдром упущенного отпуска: почему так опасно игнорировать заслуженный отдых

Представьте: вы выиграли путевку на пляж с золотым песком и изумрудным океаном. Но радость быстро сменяется разочарованием — вместо коктейля в руках по-прежнему клавиатура и мышка. И вы понимаете — это всего лишь галлюцинации изможденного мозга, который умоляет вас остановиться и, наконец, сделать перерыв. Но мы ведь трудоголики, правда?

🔗 Читать статью
🔗 Зеркало
👍7😁3
🔥Подборка источников датасетов для машинного обучения

🕸Google Dataset Search
Ищет релевантные наборы данных на разных сайтах, показывает дату обновления датасета и используемую лицензию.
🔤Kaggle
Нельзя не упомянуть эту платформу. Содержит наборы данных по разным темам, у многих датасетов есть подробное описание.
🖥 UCI Machine Learning Repository
Обновляемая база датасетов. Как правило, каждый набор данных имеет описание, в котором указано, есть ли пропущенные значения, какого типа переменные содержатся, сколько признаков и т.д.
🧩Amazon Datasets
Amazon опубликовал некоторые наборы данных, доступные на их серверах, как общедоступные.
🔠Yahoo WebScope
Содержит датасеты, разделённые по категориям: языковые данные, графовые данные, рыночные данные и др.
💬Datasets subreddit
Сабреддит, в котором можно поискать наборы данных или опубликовать собственный запрос.
🌐Geo Reviews Dataset 2023
Крупнейший русскоязычный датасет отзывов об организациях, опубликованных на Яндекс Картах. В целом, можно следить за Яндексом, так как компания периодически выкладывает свои наборы данных в общий доступ.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥3👏2😁1
📚 Читаете ли вы книги по Data Science и Machine Learning, чтобы прокачать свои навыки?

❤️ — да, постоянно читаю
👍 — иногда читаю
👾 — почти не обращаюсь к книгам, получаю знания из других источников

👇Посоветуйте в комментариях книги, которые показались вам наиболее полезными

#интерактив
👍4435👾29😁3
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
📹 Это видеозапись 1993 года, на которой 32-летний Ян Лекун (Yann LeCun), один из создателей технологии сжатия изображений DjVu, показывает первую свёрточную нейронную сеть (ConvNet) для распознавания текста.

Демо запустили на цифровом сигнальном процессоре мощностью 20 MFLOPS. Также Ян рассказал, что последовательность цифр 201-949-4038 в начале видео была его телефонным номером в Bell Labs.
🔥51👍5🥰5
👩‍💻 Короткий гайд по векторным базам данных

👉 Что это:
Векторная база данных — это особый тип базы данных, информация в которой хранится в виде многомерных векторов, представляющих определённые данные. Эти данные (текст, изображения, аудио, видео) преобразуются в векторы с помощью разных методов.

Зачем это нужно:
Основное преимущество векторных баз данных — способность быстро и точно находить и извлекать данные в зависимости от близости или сходства их векторов. Например, можно искать тексты, которые совпадают со входной статьёй по теме, или песни, которые перекликаются с другой по мелодии и ритму.

✔️Какие есть векторные базы данных:
- Chroma
Опенсорсная база данных, упрощающая создание LLM-приложений.
- Pinecone
Помогает создать векторный поиск для получения релеватных данных в задачах RAG, создания рекомендаций и др.
- Weaviate
Позволяет проводить автоматическую векторизацию с помощью моделей генерации эмбеддингов.
11👍4
📐 ИИ DeepMind научился решать геометрические задачи на уровне студента-олимпиадника

Статью об AlphaGeometry опубликовали вчера в Nature. Утверждается, что ИИ-система способна строго доказать, верны ли, например, некоторые утверждения о треугольниках.

AlphaGeometry протестировали на 30 геометрических задачах, взятых из International Mathematical Olympiad (IMO). ИИ смог решить 25.

💠AlphaGeometry — это нейро-символическая система, которая состоит из языковой модели и символического двигателя дедукции. Последний основан на формальной логике и использует чёткие правила. Языковая модель «направляет» двигатель дедукции. Дело в том, что задачи базируются на графиках, на которые нужно добавить новые геометрические конструкции (точки, линии), прежде чем решить их. Модель предсказывает, какие геометрические конструкции могут быть наиболее полезны. Это позволяет заполнить пробелы и дать двигателю дедукции возможность сделать дальнейшие выводы.

📖 Исследовательская статья
👩‍💻 Репозиторий на GitHub
👍16
🖊️ Насколько хорошо LLM работают с русским языком?

На GitHub появился репозиторий с переводом бенчмарка MT_bench на русский язык. Датасет для бенчмарка состоит из разных запросов к языковой модели, например:
- «Возьмите на себя роль Шелдона из 'Теории большого взрыва', когда мы углубимся в наш разговор. Не начинайте с таких фраз, как 'Как Шелдон'. Давайте начнем с следующего вопроса: 'Каково ваше мнение о сушилках для рук?', 'Давай поужинаем в городе. Хочешь поехать со мной на автобусе?'»

🧑‍💻 О том, как пользоваться бенчмарком, подробно написано в репозитории. Там же есть лидерборд LLM (наиболее высокая оценка у gpt-3.5-turbo из перечисленных моделей).
👍4
Часто ли вам кажется, что ваши коллеги умнее вас? Как вы справляетесь с этим чувством?

👍 — довольно часто ощущаю себя недостаточно умным/подкованным в чём-то
❤️ — осознаю, что каких-то знаний мне иногда не хватает, но это не делает меня глупым
👾 — мне наоборот кажется, что все вокруг идиоты

#интерактив
👍5934👾14🥱2
😳 Вот почему не стоит делиться весами вашей модели через Google Drive или Dropbox

У Google Drive есть лимит на одновременные скачивания. По его исчерпании платформа заблокирует доступ к файлу на 24 часа.

🤗 Как правильно делиться моделями?
Удобная площадка для этого — Hugging Face. Нужно просто создать новый репозиторий (в настройках можно выбрать, публичным он будет или приватным) и загрузить туда файлы через Web UI или Git через консоль.
👍14
🤖 Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла интересная статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая подборка, а целиком читайте здесь 👈

📰 Новости

▫️ Вышла новая мультимодальная модель Unified-IO 2. Это вызов для грядущего ChatGPT-5, который не должен уступать опенсорсным собратьям.
▫️NVIDIA выпустила модель для распознавания речи Parakeet, которая по всем показателям превосходит OpenAI Whisper.
▫️ByteDance представила новую модель MagicVideo-V2 для генерации видео, которая, кажется, превосходит Stable Diffusion Video.

🛠 Инструменты

▫️Auto Wiki – генерирует вики-документацию для GitHub репозиториев.
▫️Code to Flow – визуализирует, анализирует и объясняет код, написанный на всех популярных языках и фреймворках.
▫️Corgea – исправляет уязвимые фрагменты кода.
▫️My AskAI – создает чат-ботов для экономии времени сотрудников техподдержки и пользовательского сервиса.

🪛 Сделай сам

OpenVoice – опенсорный инструмент для мгновенного клонирования голоса.

🎓 Туториалы

▫️Туториал по работе с новым API Query Pipelines показывает примеры создания простых линейных цепочек и сложных ациклических графов из модулей LlamaIndex.
▫️Туториал по объединению LLM с помощью mergekit.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62😁1
🌳Решение задачи про вырубку деревьев

Обозначим расстояние между деревьями после вырубки d. Тогда существует n – d х (m – 1) – m + 1 способов вырубить деревья. Чтобы найти все варианты, нужно просуммировать способы по всем d. Кроме того, нужно учесть 2 частных случая – когда количество оставшихся после вырубки деревьев равно 0 или 1.

1️⃣ вариант:
n, m = list(map(int, input().split()))
trees = 0
if m == 0:
trees = 1
elif m == 1:
trees = n
else:
for d in range(1, n):
trees += (n - d) // (m - 1)
print(trees)

2️⃣ вариант:
n, m = map(int, input().split())
trees = 0
if m == 0:
trees = 1
elif m == 1:
trees = n
else:
for d in range(1, (n - 1) // (m - 1) + 1):
trees += n - (m - 1) * d
print(trees)


👉Ещё четыре олимпиадных задачи с решениями ищите в нашей статье👈
Please open Telegram to view this post
VIEW IN TELEGRAM
😁94
🧠 Цукерберг хочет создать опенсорсный AGI (общий искусственный интеллект)

Об этом CEO Meta* заявил в недавнем интервью.

Мы пришли к такому мнению, что для того, чтобы создавать продукты, которые мы хотим создавать, нам нужно построить общий искусственный интеллект.


Цукерберг также отметил, что у его компании достаточно вычислительных ресурсов для выполнения амбициозных задач. К концу года у неё будет насчитываться более 340 тысяч GPU Nvidia H100.

Марк добавил, что считает важным сделать AGI общедоступным. Это делает проект противоположностью общего искусственного интеллекта, который хочет разработать OpenAI.

Сэм Альтман тем временем тоже ищет деньги на строительство предприятий по производству чипов.

*организация, деятельность которой запрещена на территории РФ
🔥12🥱3👍2🤔1
🔥 «Чистые» примеры реализации алгоритмов машинного обучения

Репозиторий для тех, кто хочет узнать, как можно самостоятельно написать код для следующих алгоритмов:
▫️нейронные сети (многослойный перцептрон, CNN, RNN, LSTM),
▫️линейная и логистическая регрессии,
▫️случайный лес,
▫️метод опорных векторов (SVM) с ядрами (Linear, Poly, RBF),
▫️метод k-средних,
▫️модель гауссовой смеси (Gaussian Mixture Model),
▫️k-ближайших соседей,
▫️наивный байес,
▫️градиентный бустинг и др.

👩‍💻 Ссылка на репозиторий на GitHub
17👍5🔥2
🕵️ Кто такие LLM-агенты

Давайте представим LLM-приложение (Large Language Models, большие языковые модели), которое помогает финансовому аналитику отвечать на вопросы о компании. Используя RAG (Retrieval-Augmented Generation), модель может легко ответить, например, на вопрос «Какой был общий доход у компании X за 2022 финансовый год?». А теперь допустим, что аналитику нужен ответ на следующий вопрос: «Каковы были три вывода из отчёта о прибылях и убытках за второй квартал 2023 финансового года? Сосредоточьтесь на главных продуктах компании». Ответ на него требует более сложного подхода: нужно использовать разные инструменты, разбить запрос на части и т.д. Объединить всё это сможет LLM агент.

Так, агент — это система для взаимодействия с динамической средой, которая воспринимает её и действует, выполняя заложенные в неё цели или задачи.

✔️ Вот ещё простой пример:
Автономные агенты часто выполняют свои задачи, принимая на себя определённые роли. Например, можно добавить к запросу специальный промпт (system prompt) с описанием «ты — опытный Python-разработчик». Можно даже делегировать создание таких system prompt другой модели. Так делает RecAgent — агент для пользовательских симуляций, например, в области рекомендаций фильмов. Ему дают лишь базовую информацию в виде таблицы, на основании которой формируется более полное описание агента.

➡️Таким образом LLM-агенты способны автоматизировать выполнение многих сложных задач, используя для этого различные инструменты, память и, собственно, языковые модели. Применять их можно везде, где способностей самих LLM недостаточно для решения задачи.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍122🔥1👾1
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
👍2