Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.67K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Объясните, как работает градиентный бустинг?

Градиентный бустинг используется для задач как классификации, так и регрессии. Это алгоритм, который объединяет прогнозы слабых моделей для создания сильной модели.

Основные шаги градиентного бустинга:
👣 Инициализация слабой модели, например простого дерева решений.
👣 Вычисление ошибки, которую она допустила, то есть разницы между предсказанным и реальным целевым значением.
👣 Добавление новой слабой модели, которая будет учиться исправлять ошибку, совершённую предыдущей моделью.
👣 Итоговое объединение всех предсказаний.

✔️Вот простой пример: допустим, что предсказание первой модели на 5 больше настоящего значения. Если бы следующая новая модель выдавала ответ -5, то сумма ответов этих двух моделей оказалась бы идеальной.

Почему «градиентный»? Потому что каждая очередная модель в ансамбле обучается предсказывать отрицательный градиент (или антиградиент) функции потерь на основе предсказания предыдущей модели.

#вопросы_с_собеседований
👍15
🎨OpenAI запустила GPT Store

Два месяца назад компания провела презентацию, на которой анонсировала запуск площадки с кастомизированными чат-ботами. Вчера состоялся её официальный запуск. GPT Store стал доступен пользователям ChatGPT Plus, Team и Enterprise.

Сама OpenAI тоже представила кастомизированные боты. Среди них нам наиболее интересными показались следующие:
🧑‍💻 Code Tutor от Khan Academy — для улучшения навыков программирования
🔢 CK-12 Flexi — для изучения математики и науки

Вот ещё несколько полезных пользовательских GPT:
✏️ Math Solver — для пошагового решения математических задач
👩‍💻 Machine Learning — ассистент для изучения ML и DS

OpenAI обещает запустить монетизацию кастомизированных GPT в первом квартале года.

🔗 GPT Store
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍32🤩2😁1
🛠️ NumPy 2 на подходе: как сделать так, чтобы код не поломался

На 1 февраля 2024 года запланирован пре-релиз NumPy 2.0, а финальный релиз состоится ещё примерно через 6-8 недель. Стоит учитывать, что ваш код может перестать работать, если вы решите обновиться.

👉В статье автор рассказывает, почему именно могут произойти поломки, как избежать обновления до NumPy 2 и как проапгрейдить код для поддержки нового релиза.
👍6
💬 Представьте, что вы на собеседовании, и вам задают такой вопрос: «Как бы вы создали ленту с рекомендациями для сайта, которая предполагает взаимодействие пользователя с контентом?»

👇Делитесь в комментариях своими вариантами ответов
🤔6
Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы

#️⃣C#

Библиотека шарписта
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Библиотека Data Science — полезные статьи, новости и обучающие материалы
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие профильные каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика

💼Каналы с вакансиями

Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

🤖Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ
👍3🥱2🤔1
🦎 Набор Jupyter-ноутбуков по основным темам ML

Это большой репозиторий с материалами по машинному обучению. Ноутбуки содержат примеры кода и решения задач из книги O'Reilly Hands-on Machine Learning with Scikit-Learn, Keras and TensorFlow (3rd edition).


Темы, которые есть в репозитории:
▫️Различные алгоритмы машинного обучения.
▫️Снижение размерности.
▫️Кастомные модели и обучение с TensorFlow.
▫️Глубокое обучение.
▫️NLP.
▫️Масштабирование.
▫️Matplotlib, Numpy, Pandas.

🔗 Ссылка на репозиторий
🔥15👍5
😺 Как объяснить функции активации вашему коту: простое руководство

Функция активации — это нелинейное преобразование, применяющееся к пришедшим на вход данным.

Автор новой статьи на Хабре объясняет:
🔸зачем вообще нужны функции активации,
🔸что такое ReLU, Сигмоида, Softmax, Tanh, Binary Step Function,
🔸что такое Bias (или смещение).

🔗 Прочесть статью полностью
👍10
🪑 Стул «Каустби»? А, может, лучше стул «Извините, но я не могу выполнить этот запрос, поскольку он не соответствует политике использования OpenAI»

О чём речь? О том, что на Amazon нашли карточки товаров с названиями вроде «I’m sorry, but I cannot fulfill this request as it goes against OpenAI use policy». К сожалению, после того, как на The Verge опубликовали текст об этом, карточки удалили. Но если вы попытаетесь поискать словосочетание «goes against OpenAI content policy» на других платформах (например, в Twitter), то можете найти много интересного.


Объяснение простое: многие подключают OpenAI API к скриптам для генерации автоматических описаний товаров (или к ботам) и не контролируют ответы на запросы.
😁16👍4🔥1
🐼 Как добавить собственный метод в Pandas

Чтобы расширить Pandas API, можно использовать библиотеку pandas-flavor. Поэтому первым делом установим её: pip install pandas-flavor

Для примера создадим новый метод, специфичный для конкретного датасета titanic.csv. Скачайте его себе предварительно. 

1️⃣ Сначала импортируем Pandas и создадим DataFrame:


import pandas as pd
df = pd.read_csv(‘titanic.csv’)

2️⃣ pandas-flavor добавляет пользовательские методы непосредственно в DataFrame/Series. Для этого мы используем декоратор:


from pandas_flavor import register_dataframe_method
@register_dataframe_method
def is_old_lady(df):
    is_lady = df[‘Sex’] == ‘female’
    is_old = df[‘Age’] > 70
    return df[is_old & is_lady]
df.is_old_lady()


В реальности, конечно, создаваемые методы должны быть шире, чем этот игрушечный пример.

Ещё один (более правильный способ) — создать отдельный Python-файл и прописать в нём собственные методы со специальным декоратором. Затем можно импортировать этот файл как модуль в основном скрипте. 

🔗 Страница Pandas Flavor на PyPI
👍11🔥3
👩‍💻 Подробное руководство по эмбеддингам

Эмбеддинги объектов, в общем случае, — это их векторные представления. Для больших языковых моделей (LLM), в частности, создаются эмбеддинги слов.

Как именно они создаются? Об этом в небольшой книжке рассказала автор Vicki Boykis. Также она разместила на GitHub Jupyter-ноутбуки с кодом для TF-IDF, Word2vec, модели BERT и не только.

🔗 Весь материал можно посмотреть здесь
👍11
Forwarded from Библиотека программиста | программирование, кодинг, разработка
🏖️ Синдром упущенного отпуска: почему так опасно игнорировать заслуженный отдых

Представьте: вы выиграли путевку на пляж с золотым песком и изумрудным океаном. Но радость быстро сменяется разочарованием — вместо коктейля в руках по-прежнему клавиатура и мышка. И вы понимаете — это всего лишь галлюцинации изможденного мозга, который умоляет вас остановиться и, наконец, сделать перерыв. Но мы ведь трудоголики, правда?

🔗 Читать статью
🔗 Зеркало
👍7😁3
🔥Подборка источников датасетов для машинного обучения

🕸Google Dataset Search
Ищет релевантные наборы данных на разных сайтах, показывает дату обновления датасета и используемую лицензию.
🔤Kaggle
Нельзя не упомянуть эту платформу. Содержит наборы данных по разным темам, у многих датасетов есть подробное описание.
🖥 UCI Machine Learning Repository
Обновляемая база датасетов. Как правило, каждый набор данных имеет описание, в котором указано, есть ли пропущенные значения, какого типа переменные содержатся, сколько признаков и т.д.
🧩Amazon Datasets
Amazon опубликовал некоторые наборы данных, доступные на их серверах, как общедоступные.
🔠Yahoo WebScope
Содержит датасеты, разделённые по категориям: языковые данные, графовые данные, рыночные данные и др.
💬Datasets subreddit
Сабреддит, в котором можно поискать наборы данных или опубликовать собственный запрос.
🌐Geo Reviews Dataset 2023
Крупнейший русскоязычный датасет отзывов об организациях, опубликованных на Яндекс Картах. В целом, можно следить за Яндексом, так как компания периодически выкладывает свои наборы данных в общий доступ.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥3👏2😁1
📚 Читаете ли вы книги по Data Science и Machine Learning, чтобы прокачать свои навыки?

❤️ — да, постоянно читаю
👍 — иногда читаю
👾 — почти не обращаюсь к книгам, получаю знания из других источников

👇Посоветуйте в комментариях книги, которые показались вам наиболее полезными

#интерактив
👍4435👾29😁3
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
📹 Это видеозапись 1993 года, на которой 32-летний Ян Лекун (Yann LeCun), один из создателей технологии сжатия изображений DjVu, показывает первую свёрточную нейронную сеть (ConvNet) для распознавания текста.

Демо запустили на цифровом сигнальном процессоре мощностью 20 MFLOPS. Также Ян рассказал, что последовательность цифр 201-949-4038 в начале видео была его телефонным номером в Bell Labs.
🔥51👍5🥰5
👩‍💻 Короткий гайд по векторным базам данных

👉 Что это:
Векторная база данных — это особый тип базы данных, информация в которой хранится в виде многомерных векторов, представляющих определённые данные. Эти данные (текст, изображения, аудио, видео) преобразуются в векторы с помощью разных методов.

Зачем это нужно:
Основное преимущество векторных баз данных — способность быстро и точно находить и извлекать данные в зависимости от близости или сходства их векторов. Например, можно искать тексты, которые совпадают со входной статьёй по теме, или песни, которые перекликаются с другой по мелодии и ритму.

✔️Какие есть векторные базы данных:
- Chroma
Опенсорсная база данных, упрощающая создание LLM-приложений.
- Pinecone
Помогает создать векторный поиск для получения релеватных данных в задачах RAG, создания рекомендаций и др.
- Weaviate
Позволяет проводить автоматическую векторизацию с помощью моделей генерации эмбеддингов.
11👍4
📐 ИИ DeepMind научился решать геометрические задачи на уровне студента-олимпиадника

Статью об AlphaGeometry опубликовали вчера в Nature. Утверждается, что ИИ-система способна строго доказать, верны ли, например, некоторые утверждения о треугольниках.

AlphaGeometry протестировали на 30 геометрических задачах, взятых из International Mathematical Olympiad (IMO). ИИ смог решить 25.

💠AlphaGeometry — это нейро-символическая система, которая состоит из языковой модели и символического двигателя дедукции. Последний основан на формальной логике и использует чёткие правила. Языковая модель «направляет» двигатель дедукции. Дело в том, что задачи базируются на графиках, на которые нужно добавить новые геометрические конструкции (точки, линии), прежде чем решить их. Модель предсказывает, какие геометрические конструкции могут быть наиболее полезны. Это позволяет заполнить пробелы и дать двигателю дедукции возможность сделать дальнейшие выводы.

📖 Исследовательская статья
👩‍💻 Репозиторий на GitHub
👍16