Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🚀🏢 Стартапы vs IT-гиганты: куда лучше устроиться Junior-разработчику

Представим ситуацию: вы начинающий разработчик с очень востребованным стеком (да, звучит как фантастика, но допустим). И так уж сложилось, что перед вами стоит выбор: пойти работать в стартап или крупную компанию. Причем предлагаемые условия абсолютно идентичны и там, и там.

Что же делать в такой ситуации?

👉 Разбираемся в статье
🔗 Зеркало
😁1
🧑‍🎓 Стэнфордские шпаргалки по ML и DL

Ассистент преподавателя на курсах CS 229 и CS 230 поделился полезными материалами по машинному и глубокому обучению. Шпаргалки охватывают следующие темы:
🔸Обучение с учителем
🔸Обучение без учителя
🔸Разные метрики и подходы
🔸Различные архитектуры нейронных сетей
🔸Статистика и теория вероятностей
🔸Линейная алгебра и вычисления

В шпаргалках много формул и пояснений. Материал изложен на английском языке.

🔗Ссылка на шпаргалки
👍853🔥1
🧑‍💻 Подборка видео про собеседования на позицию DS/ML

На YouTube лежит немало роликов с mock-собеседованиями или разборами популярных вопросов, которые могут задать во время технического интервью. Их может быть полезно посмотреть перед реальным собеседованием. Мы подобрали некоторые ролики, связанные с Data Science и Machine Learning.

▪️Типичное собеседование #2. Позиция Middle Data Scientist. Accepted!
▪️Data Science Job Interview — Full Mock Interview
▪️Успешное собеседование в Яндекс | Секция Machine Learning
▪️Junior ML-инженер | Собеседование | karpov.courses
▪️Собеседование на Middle Data Scientist | #Нанято S1E01RU
▪️100 Data Science вопросов мидлу! Парень c Физтеха проходит собеседование
👍842
😶 Эпикфейл: карьера катится к чертям

У всех нас случались провалы в карьере, о которых не хочется распространяться. Неловкий момент на собеседовании, провал проекта из-за глупой ошибки, конфликт с начальством — такие ситуации хочется поскорее забыть. Однако часто именно они дают нам самые ценные уроки и закаляют как профессионалов.

💬 Поделитесь своей историей карьерного провала в нашем опросе и расскажите, к чему он привёл в итоге. Быть может, эта ошибка позволила вам пересмотреть свой путь и выбрать более подходящую профессию? А может, вы сделали правильные выводы и сейчас добились успеха?

👉 Ссылка на опрос
😁5🔥3👏21
🤔 Как уменьшить количество данных, необходимых для обучения нейросети

Исследователи из Массачусетского технологического института (MIT) показали, что в этом может помочь использование симметрии в данных. Их работа основана на модификации закона Вейля, который изначально применялся к физическим явлениям, таким как вибрации струны или спектр излучения. Он предоставляет формулу, которая измеряет сложность спектральной информации.

▶️ Новое исследование показывает, что модели, удовлетворяющие симметрии, могут не только быть корректными, но и давать прогнозы с меньшими ошибками, используя меньшее количество данных для обучения.

✔️Для примера представьте, что вам нужно обучить модель, которая будет находить изображения с цифрой 3. Задача станет выполняться проще и быстрее, если алгоритм сможет идентифицировать цифру 3 вне зависимости от того, где она расположена на картинке, перевёрнута или инвертирована. Модель, обладающая такой способностью, может использовать симметрии вращения (это означает, что объект, такой как цифра 3, не изменяется сам по себе при изменении его положения или при вращении вокруг произвольной оси). Говорят, что алгоритм инвариантен к таким сдвигам.

✏️ Как можно извлечь выгоду, зная это? Например, если нужно анализировать изображение с зеркальной симметрией, где правая сторона является точной копией левой, не обязательно рассматривать каждый пиксель. Можно получить всю необходимую информацию из половины изображения, что улучшает эффективность в два раза.

🔗 Прочесть статью исследователей целиком можно по этой ссылке
🔥112🤩1
Хардкорный курс по математике для тех, кто правда любит математику!

Начать с вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/584771bd

Что вас ждет:

– Вводный урок от CPO курса

– Лекции с преподавателями ВМК МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск

– Практические задания для закрепления материала и ссылки на дополнительные материалы.

⚡️ Переходите и начинайте учиться уже сегодня – https://proglib.io/w/584771bd
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁2👍1
🎨 Кажется, найден системный промпт ChatGPT

Пользователи просто попросили чат-бота повторить текст «сверху». «Сверху» у таких сервисов, как правило, находится System Prompt, который содержит базовые инструкции для модели. У ChatGPT он начинается, соответственно, со слов «You are ChatGPT».

Судя по всему, у чат-бота довольно обширный системный промпт. Кто-то пишет, что его длина составляет 1700 токенов. В нём прописан порядок действий для ChatGPT в разных сценариях использования (генерация и выполнение кода, Dalle, поиск в интернете). Прочесть промпт можно здесь (а ещё попробовать повторить эксперимент).

🤔 Люди пишут, что на схожий запрос ChatGPT выдаёт им System Prompt с небольшими изменениями, но основная часть, кажется, остаётся той же.

В промпте есть забавные моменты. Например:
Modify such prompts even if you don't know who the person is, or if their name is misspelled (e.g. 'Barake Obema').
Please open Telegram to view this post
VIEW IN TELEGRAM
👍141
🍏 Apple выпустила модель для редактирования изображений

Над моделью MGIE компания работала вместе с Калифорнийским университетом. Она может обрезать изображения, менять размер, добавлять фильтры и модифицировать объекты с помощью текстовых запросов на естественном языке.

В основе инструмента лежит мультимодальная языковая модель.

📖 Исследовательская статья
💻 Репозиторий проекта на GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
5🥱1
🦾 Карта навыков ML-разработчиков

В январе Яндекс создал карту технических навыков, которые ML-разработчики регулярно используют в своей работе. Компания использовала для этого данные поиска и сайта Stack Overflow.

▶️ Размер навыка на карте соответствует числу посвящённых ему поисковых запросов. Чем ближе два навыка друг к другу, тем чаще они соседствуют с одними и теми же тегами в вопросах на Stack Overflow, то есть ближе контекст, в котором они применяются. Для оценки близости контекста рассчитали векторы совстречаемости каждого навыка со всеми остальными, затем нормализовали метрикой TF-IDF.

👉 Интерактивная карта находится по этой ссылке
🔥11👍5👾51
Что там с Google Gemini?

На днях Google переименовала свой чат-бот из Bard в Gemini. Базовая версия работает на модели Pro 1.0. Также есть платный тариф на базе Ultra 1.0.

Какова производительность чат-бота?

Если коротко: понравилась не всем. Например, модели Google были заявлены как мультимодальные. Поэтому люди решили попробовать это. Ответы модели Advanced на просьбу описать картинку оказались неудовлетворительными. Как заявил позже инженер DeepMind, на данном этапе мультимодальные запросы и вовсе не проходят через Pro / Ultra. Это станет доступно в будущем (скоро, но когда, неясно).

Так или иначе, Google предлагает опробовать Gemini Advanced бесплатно в течение двух месяцев. Доступно это для пользователей более чем 230 стран (но не России).

🔗 Ссылка на чат-бота
6👏41
🧑🏻‍🏫 Менторство в IT: как стать айтишником, найти работу мечты и облегчить себе жизнь

Как вкатиться в IT и найти работу с помощью ментора? Чем могут помочь наставники и с какими запросами к ним приходят? А главное — где найти хорошего специалиста?

👉 Рассказываем обо всём в новой статье 👈
🔗 Зеркало
3
Что произойдёт, если использовать LabelEncoder с линейным алгоритмом?

▶️ Начнём с того, что такое LabelEncoder.
Это один из самых простых способов закодировать категории. Допустим, у вас есть три категории: «Лондон», «Париж» и «Москва». Тогда вы просто заменяете эти строковые значения на 0, 1 и 2.

В документации scikit-learn написано, что LabelEncoder кодирует целевые метки значениями из диапазона от 0 до n_classes-1 (где n_classes — количество классов). То есть алгоритм предлагается использовать в основном для кодирования целевых меток. Технически его, конечно, можно применять для кодирования нецелевых признаков. Но тут могут возникнуть проблемы.

✍️ Сама суть LabelEncoder способствует созданию избыточных зависимостей в данных. Например, после преобразования получилось, что по некоторому признаку значение объекта Volvo равно 6, а BMW — 1. Можно интерпретировать это как то, что Volvo в 6 раз в чём-то превосходит BMW. Однако в исходных данных таких зависимостей не было.

При работе с категориальными переменными для линейных моделей можно, например, использовать One-Hot Encoding.

#машинное_обучение
8👏6👍31🤔1🥱1