Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.23K photos
111 videos
64 files
4.63K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🐍 10 основных ошибок начинающих Python-разработчиков

В статье рассматриваются самые частые ошибки новичков, а также даются советы по их решению. Многие из указанных проблем связаны с читаемостью кода, так как именно читаемость — одно из важнейших качеств.

🔗 Читать статью
🔗 Зеркало
👍5🥱2
📊 Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

На «Хабре» вышла хорошая статья, рассказывающая о:
🔘анализе выборок;
🔘влиянии параметров эксперимента и статистических критериев на результаты анализа;
🔘основных критериях;
🔘доверительных интервалах;
🔘статистических тестах.

🔗 Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥3
Как выбрать количество скрытых слоёв и нейронов в нейросети?

Не существует универсального решения этой проблемы. Выбор количества скрытых слоёв и нейронов часто зависит от практических наблюдений и экспериментов. Однако есть несколько общих принципов и эвристик, которые можно использовать.

▫️Количество скрытых слоёв может быть определено сложностью решаемой проблемы. Простые задачи можно решить с использованием всего одного скрытого слоя, тогда как более сложные задачи могут потребовать больше. Однако нужно помнить, что добавление дополнительных слоёв также увеличивает риск переобучения. Следует находить компромисс.

▫️Количество нейронов в скрытом слое может быть определено на основе количества входных признаков и желаемого уровня сложности модели. Некоторые специалисты советуют применять такие правила:
— Число нейронов в скрытых слоях должно лежать в диапазоне от количества входных до количества выходных нейронов.
— Можно сделать количество нейронов в скрытом слое кратным к размеру входного слоя. Например, в два раза больше или в два раза меньше.

На практике бывает полезно начать с простой модели и постепенно увеличивать её сложность до достижения желаемой производительности.

#вопросы_с_собеседований
👍9
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
👍3
🧑‍💻 Анализ навыков data-специализаций в вакансиях HH.ru

Один из пользователей «Хабра» проанализировал вакансии на HeadHunter по следующим трём специализациям:
▪️BI/Data аналитик;
▪️Data Science;
▪️Продуктовый аналитик.

Автор также создал дашборд, где можно посмотреть требуемые навыки для каждой специализации, среднюю зарплату и количество вакансий по России.

🔗 Desktop-версия дашборда
🔗 Mobile-версия дашборда

👉 Здесь можно прочитать статью
🔥85👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥🎥 Adobe анонсировала ИИ-редактор для Premiere Pro

Компания показала на видео возможности модели Adobe Firefly. Скоро в Premiere Pro появится вкладка Generative, в которой будут следующие опции:

🔸Object Addition — позволяет выделить участок сцены и промптом указать, что именно там должно располагаться. Нужные объекты сгенерируются в нужном месте.
🔸Object Removal — объекты можно не только добавлять, но и убирать. Их выделение выглядит очень просто, и видимых следов от присутствия не остаётся.
🔸Generative Extend — позволяет расширить ваши футажи, чтобы добиться необходимой длительности ролика.

Все фишки появятся в Premiere Pro «позже в этом году». Кроме того, программу можно будет интегрировать со сторонними видеомоделями (Pika, Runway и, может быть даже, Sora от OpenAI).
🤩7🔥4
🤖💣 ИИ-ассистенты разработчика: скрытая угроза

Внедрение ИИ в процессы разработки и отладки неизменно сопровождается изматывающими обсуждениями с участием юристов, комплаенс-менеджеров и специалистов по кибербезопасности. И это понятно — никому не хочется нести ответственность за риски, связанные с безопасностью данных, конфиденциальностью и соблюдением авторских прав.

Однако самый важный вопрос — как использование ИИ повлияет на качество готового продукта — обычно остается без внимания. Именно эту проблему мы и обсудим.

🔗 Читать статью
🔗 Зеркало
👍6
💬 Начните писать в комментариях фразу «Искусственный интеллект скоро...», а подсказки при вводе пусть продолжат за вас.

#интерактив
🔥4😁4👾3
🧡 Гайд для новичков по Google Colab 💛

Один из специалистов Google по машинному обучению выпустил получасовой ролик, который охватывает все необходимые новичку тонкости использования Colab-ноутбуков.

🔸04:05 Виды ячеек
🔸10:49 Вызов подсказок
🔸13:02 Отрисовка графиков
🔸13:43 Создание форм
🔸15:07 Установка пакетов
🔸17:30 Интеграция с Google Drive
🔸19:41 Магические команды
🔸22:19 Установка секретов

🔗 Ссылка на видео
6
🖥 Итоги недели в мире Python и обзоры новых инструментов

У нас есть еженедельная рассылка о последних открытиях и тенденциях в мире Python. Мы опубликовали новый выпуск на 📰.

Ниже — небольшая часть выпуска, а целиком читайте здесь 👈

💬 Как автоматически создавать субтитры

В статье рассматривается простейший способ транскрипции видео и создания субтитров — с помощью Python, Whisper и FFmpeg.

▶️ Видеотуториалы

🔘Основные приёмы работы с SQLAlchemy
SQLAlchemy — это библиотека, предназначенная для работы с реляционными базами данных. Умеет выполнять все запросы, доступные в SQL.
🔘Клон ChatGPT на Django
Автор видео показывает, как сделать аналог знаменитого чат-бота с помощью Django, вебсокетов (Channels) и HTMX.

🛠 Инструменты

🔘Tkinter Designer — автоматически конвертирует дизайны Figma в код Tkinter GUI.
🔘drawpyo — библиотека для визуализации диаграмм, карт и схем Draw.io.
🔘Great Tables — создаёт привлекательные таблицы для визуализации данных из датафреймов Pandas и Polars.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4
🔥 Вышла новая PyTorch-библиотека для файн-тюнинга LLM

Библиотека называется torchtune. Она поддерживает весь воркфлоу, включая:

🔸 Загрузку и подготовку датасетов и чекпойнтов моделей;
🔸 Настройку процесса обучения с помощью разнообразных строительных блоков (как в torch);
🔸 Процесс логирования и метрики для отслеживания процесса обучения;
🔸 Квантизацию моделей после обучения;
🔸 Оценку моделей с помощью популярных бенчмарков;
🔸 Локальный запуск для тестирования.

🔗 Репозиторий torchtune
🔗 Туториалы по работе с библиотекой
🤩5👍4🥰2
🤔 Оптимизация гиперпараметров за 5 секунд?

Гиперпараметры — это характеристики модели, которые фиксируются ещё до начала обучения. Например, глубина решающего дерева и learning rate для градиентного спуска. Их подбор — очень важный этап обучения. Правильные значения гиперпараметров могут радикальным образом повлиять на производительность.

На «Хабре» опубликовали обзор следующих основных методов оптимизации гиперпараметров:
▫️Grid Search
▫️Random Search
▫️Байесовская/вероятностная оптимизация
▫️TPE (Tree-structured Parzen Estimator).

🔗 Читать статью
🔥9👍2
На вход нейросети подаётся фотография размером 227×227×3. К ней применяется свёрточный слой с фильтром размером 11×11. Всего применяется 96 фильтров с шагом 4. Каким будет размер выходного изображения после этого слоя?
Anonymous Quiz
32%
54x54x96
35%
55×55×96
20%
54x54
13%
55×55
👍5
🦙 Вышла Llama 3

Это самая крупная открытая языковая модель от Meta*. Ключевые особенности:

🔘Доступна сейчас в двух версиях: предобученная модель с 8 млрд параметров и дообученная на инструкциях модель на 70 млрд.
🔘Должна хорошо справляться со сложными, многоступенчатыми задачами и генерацией кода.
🔘Размер контекстного окна составляет 8 тысяч токенов.
🔘По бенчмаркам превосходит другие открытые LLM.
🔘Дообучение Llama 3 после этапа предтренировки производилось на 10 миллионах примерах, вручную размеченных людьми.

Известно также, что в процессе обучения находится модель с 400+ млрд параметров.

🔗 Репозиторий Llama 3
🔗 Страница моделей на Hugging Face
🔗 Ссылка на тестового чат-бота

*организация, деятельность которой запрещена на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82
👩‍💼Собеседование — самое важное событие для начинающего специалиста

Для многих новичков сам факт приглашения на собеседование — уже большое событие. И, как нам кажется, половина успеха!

Давайте проверим, насколько вы к нему готовы — мы выбрали три популярных вопроса, которые задают на собеседованиях будущим Data-специалистам; пишите свои ответы в комментариях!

1️⃣ Как оценить статистическую значимость анализа?

2️⃣ Приведите три примера распределений с длинным хвостом. Почему они важны в задачах классификации и регрессии?

3️⃣ Что такое центральная предельная теорема, и почему она важна?


#собес_academy
👍53🔥2
⬆️ Дорожная карта дата-сайентиста 2024

Очередную Roadmap составил один из реддиторов. В ней он перечислил необходимые специалисту по ИИ библиотеки, фреймворки и платформы. Цветом автор разметил уровень навыков:
💚 — обязательные и относительно простые;
💛 — более сложные;
❤️ — самые сложные в освоении.

👇Мы приводим укороченную версию списка со ссылками на наши обучающие материалы👇

▫️Python 💚
▫️Pandas 💚
▫️SQL 💚
▫️Django 💚
▫️Git 💚
▫️Алгоритмы машинного обучения 💚
▫️Kubernetes ❤️
▫️Большие языковые модели (LLM) 💛
👍8🔥64
⚡️Как войти в Data Science всего за год?

Очень кратко пересказываем историю одного специалиста, который устроился в Data Science после работы в авиационной промышленности. В карточках — его путь и одна из рекомендаций, а в статье по ссылке — большая подборка полезных ресурсов!

👉Читать статью

А чтобы следовать совету и окружить себя подходящим информационным фоном, изучайте другие классные статьи про Data Science:
⭐️Математические основы генеративных нейронных сетей: что нужно знать для их изучения
⭐️Что такое GPT: раскрываем тайны трансформеров
⭐️Как работают языковые модели (LLM): простое объяснение через аналогию с кулинарией
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5