Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀🏢 Стартапы vs IT-гиганты: куда лучше устроиться Junior-разработчику

Представим ситуацию: вы начинающий разработчик с очень востребованным стеком (да, звучит как фантастика, но допустим). И так уж сложилось, что перед вами стоит выбор: пойти работать в стартап или крупную компанию. Причем предлагаемые условия абсолютно идентичны и там, и там.

Что же делать в такой ситуации?

👉 Разбираемся в статье
🔗 Зеркало

😁1

28.2K views18:13

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍🎓 Стэнфордские шпаргалки по ML и DL

Ассистент преподавателя на курсах CS 229 и CS 230 поделился полезными материалами по машинному и глубокому обучению. Шпаргалки охватывают следующие темы:
🔸Обучение с учителем
🔸Обучение без учителя
🔸Разные метрики и подходы
🔸Различные архитектуры нейронных сетей
🔸Статистика и теория вероятностей
🔸Линейная алгебра и вычисления

В шпаргалках много формул и пояснений. Материал изложен на английском языке.

🔗Ссылка на шпаргалки

👍8❤5⚡3🔥1

3.99K views07:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍💻 Подборка видео про собеседования на позицию DS/ML

На YouTube лежит немало роликов с mock-собеседованиями или разборами популярных вопросов, которые могут задать во время технического интервью. Их может быть полезно посмотреть перед реальным собеседованием. Мы подобрали некоторые ролики, связанные с Data Science и Machine Learning.

▪️Типичное собеседование #2. Позиция Middle Data Scientist. Accepted!
▪️Data Science Job Interview — Full Mock Interview
▪️Успешное собеседование в Яндекс | Секция Machine Learning
▪️Junior ML-инженер | Собеседование | karpov.courses
▪️Собеседование на Middle Data Scientist | #Нанято S1E01RU
▪️100 Data Science вопросов мидлу! Парень c Физтеха проходит собеседование

👍8❤4⚡2

3.81K views11:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😶 Эпикфейл: карьера катится к чертям

У всех нас случались провалы в карьере, о которых не хочется распространяться. Неловкий момент на собеседовании, провал проекта из-за глупой ошибки, конфликт с начальством — такие ситуации хочется поскорее забыть. Однако часто именно они дают нам самые ценные уроки и закаляют как профессионалов.

💬 Поделитесь своей историей карьерного провала в нашем опросе и расскажите, к чему он привёл в итоге. Быть может, эта ошибка позволила вам пересмотреть свой путь и выбрать более подходящую профессию? А может, вы сделали правильные выводы и сейчас добились успеха?

👉 Ссылка на опрос

😁5🔥3👏2❤1

3.23K views18:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔 Как уменьшить количество данных, необходимых для обучения нейросети

Исследователи из Массачусетского технологического института (MIT) показали, что в этом может помочь использование симметрии в данных. Их работа основана на модификации закона Вейля, который изначально применялся к физическим явлениям, таким как вибрации струны или спектр излучения. Он предоставляет формулу, которая измеряет сложность спектральной информации.

▶️ Новое исследование показывает, что модели, удовлетворяющие симметрии, могут не только быть корректными, но и давать прогнозы с меньшими ошибками, используя меньшее количество данных для обучения.

✔️Для примера представьте, что вам нужно обучить модель, которая будет находить изображения с цифрой 3. Задача станет выполняться проще и быстрее, если алгоритм сможет идентифицировать цифру 3 вне зависимости от того, где она расположена на картинке, перевёрнута или инвертирована. Модель, обладающая такой способностью, может использовать симметрии вращения (это означает, что объект, такой как цифра 3, не изменяется сам по себе при изменении его положения или при вращении вокруг произвольной оси). Говорят, что алгоритм инвариантен к таким сдвигам.

✏️ Как можно извлечь выгоду, зная это? Например, если нужно анализировать изображение с зеркальной симметрией, где правая сторона является точной копией левой, не обязательно рассматривать каждый пиксель. Можно получить всю необходимую информацию из половины изображения, что улучшает эффективность в два раза.

🔗 Прочесть статью исследователей целиком можно по этой ссылке

🔥11⚡2🤩1

3.26K views07:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Хардкорный курс по математике для тех, кто правда любит математику!

Начать с вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/584771bd

Что вас ждет:

– Вводный урок от CPO курса

– Лекции с преподавателями ВМК МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск

– Практические задания для закрепления материала и ссылки на дополнительные материалы.

⚡️ Переходите и начинайте учиться уже сегодня – https://proglib.io/w/584771bd

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3😁2👍1

3.38K views15:35

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📖 А как вам такое чтиво на ночь?

Источник

#memes

😁25⚡1❤1

3.41K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎨

Кажется, найден системный промпт ChatGPT

Пользователи просто попросили чат-бота повторить текст «сверху». «Сверху» у таких сервисов, как правило, находится System Prompt, который содержит базовые инструкции для модели. У ChatGPT он начинается, соответственно, со слов «You are ChatGPT».

Судя по всему, у чат-бота довольно обширный системный промпт. Кто-то пишет, что его длина составляет 1700 токенов. В нём прописан порядок действий для ChatGPT в разных сценариях использования (генерация и выполнение кода, Dalle, поиск в интернете). Прочесть промпт можно здесь (а ещё попробовать повторить эксперимент).

🤔 Люди пишут, что на схожий запрос ChatGPT выдаёт им System Prompt с небольшими изменениями, но основная часть, кажется, остаётся той же.

В промпте есть забавные моменты. Например:

Modify such prompts even if you don't know who the person is, or if their name is misspelled (e.g. 'Barake Obema').

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14❤1

3.65K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🍏

Apple выпустила модель для редактирования изображений

Над моделью MGIE компания работала вместе с Калифорнийским университетом. Она может обрезать изображения, менять размер, добавлять фильтры и модифицировать объекты с помощью текстовых запросов на естественном языке.

В основе инструмента лежит мультимодальная языковая модель.

📖 Исследовательская статья

💻

Репозиторий проекта на GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡5🥱1

3.52K views11:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что такое гетероскедастичность?

Anonymous Quiz

22%

Равномерное распределение ошибок модели

14%

Наличие линейной зависимости между переменными

Увеличение точности модели с ростом объёма данных

55%

Нарушение предположения о постоянстве дисперсии ошибок модели

⚡14👍1

845 voters3.18K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🦾 Карта навыков ML-разработчиков

В январе Яндекс создал карту технических навыков, которые ML-разработчики регулярно используют в своей работе. Компания использовала для этого данные поиска и сайта Stack Overflow.

▶️ Размер навыка на карте соответствует числу посвящённых ему поисковых запросов. Чем ближе два навыка друг к другу, тем чаще они соседствуют с одними и теми же тегами в вопросах на Stack Overflow, то есть ближе контекст, в котором они применяются. Для оценки близости контекста рассчитали векторы совстречаемости каждого навыка со всеми остальными, затем нормализовали метрикой TF-IDF.

👉 Интерактивная карта находится по этой ссылке

🔥11👍5👾5⚡1

3.8K views07:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека питониста | Python, Django, Flask

🍋 Подборка лучших статей «Библиотеки программиста» за январь: сохраняй в заметки, чтобы не пропустить #самыйсок

😺🐙📄 Как разместить резюме на GitHub Pages
🏖️ Синдром упущенного отпуска: почему так опасно игнорировать заслуженный отдых
🏅 Решаем 5 олимпиадных задач на Python
🐍➰ Создаём игру «Виселица» на Python. Часть 1. Командная строка
🐍➰ Создаем игру «Виселица» на Python. Часть 2. Графический интерфейс на PySimpleGUI
🐻‍❄️ Быстрее Pandas в 10 раз: Polars — высокопроизводительная библиотека для анализа больших данных на Python
🐍🎸 Курс Django. Часть 2: ORM и основы работы с базами данных
🚀🏢 Стартапы vs IT-гиганты: куда лучше устроиться Junior-разработчику
🐍🎸 Курс Django: Портфолио разработчика

👍3❤1⚡1

3.05K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

♊ Что там с Google Gemini?

На днях Google переименовала свой чат-бот из Bard в Gemini. Базовая версия работает на модели Pro 1.0. Также есть платный тариф на базе Ultra 1.0.

❓Какова производительность чат-бота?

Если коротко: понравилась не всем. Например, модели Google были заявлены как мультимодальные. Поэтому люди решили попробовать это. Ответы модели Advanced на просьбу описать картинку оказались неудовлетворительными. Как заявил позже инженер DeepMind, на данном этапе мультимодальные запросы и вовсе не проходят через Pro / Ultra. Это станет доступно в будущем (скоро, но когда, неясно).

Так или иначе, Google предлагает опробовать Gemini Advanced бесплатно в течение двух месяцев. Доступно это для пользователей более чем 230 стран (но не России).

🔗 Ссылка на чат-бота

❤6👏4⚡1

3.29K views07:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Кожаные мешки, вперёд!

#memes

😁40🔥4👏2⚡1

3.15K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑🏻‍🏫 Менторство в IT: как стать айтишником, найти работу мечты и облегчить себе жизнь

Как вкатиться в IT и найти работу с помощью ментора? Чем могут помочь наставники и с какими запросами к ним приходят? А главное — где найти хорошего специалиста?

👉 Рассказываем обо всём в новой статье 👈
🔗 Зеркало

⚡3

28.6K viewsedited 07:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

Что произойдёт, если использовать LabelEncoder с линейным алгоритмом?

▶️ Начнём с того, что такое LabelEncoder.
Это один из самых простых способов закодировать категории. Допустим, у вас есть три категории: «Лондон», «Париж» и «Москва». Тогда вы просто заменяете эти строковые значения на 0, 1 и 2.

В документации scikit-learn написано, что LabelEncoder кодирует целевые метки значениями из диапазона от 0 до n_classes-1 (где n_classes — количество классов). То есть алгоритм предлагается использовать в основном для кодирования целевых меток. Технически его, конечно, можно применять для кодирования нецелевых признаков. Но тут могут возникнуть проблемы.

✍️ Сама суть LabelEncoder способствует созданию избыточных зависимостей в данных. Например, после преобразования получилось, что по некоторому признаку значение объекта Volvo равно 6, а BMW — 1. Можно интерпретировать это как то, что Volvo в 6 раз в чём-то превосходит BMW. Однако в исходных данных таких зависимостей не было.

При работе с категориальными переменными для линейных моделей можно, например, использовать One-Hot Encoding.

#машинное_обучение

❤8👏6👍3⚡1🤔1🥱1

2.7K views18:36

About

Blog

Apps

Platform