Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.24K photos
111 videos
64 files
4.65K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🦙Как делать файн-тюнинг Llama-3

Этот блогпост рассказывает, как добиться улучшения производительности модели, дообучив её на специфическом датасете. В данном случае использовался набор данных Math Instruct. С помощью файн-тюнинга удалось заставить модель Llama-3 8B перейти от 47% точности до 65%, приблизившись к уровню GPT-4o (71%).

🔗 Ссылка на блогпост
🔗 Ссылка на код
3
🐍👍 25 лучших практик разработки на Python

Материал охватывает ключевые аспекты создания качественного, эффективного и масштабируемого кода. Рассматриваются современные инструменты, методы организации проекта и техники программирования.

Это перевод оригинальной статьи Modern Good Practices for Python Development

🔗 Читать статью
👍4
Привет, друзья! 👋

Мы пишем статью о способах измерения личностного роста программистов и нам нужна ваша помощь! 🚀

📊 Какие метрики вы используете для оценки своего прогресса?
🤔 Как вы понимаете, что выросли профессионально?
💡 Есть ли у вас свои уникальные способы отслеживания развития?

Поделитесь вашим опытом в комментариях! Лучшие идеи попадут в нашу статью!
🔥2🌚2
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
1👍1
🤖 👀 ТОП-5 опенсорсных библиотек для компьютерного зрения в 2024

Мы отобрали 5 мощных опенсорсных библиотек, которые помогут решить широкий спектр задач: от обнаружения аномалий в изображениях до аугментации данных.

👉Читать о библиотеках подробнее в статье
👍31
🔘🔘🔘Алгоритм DBSCAN для кластеризации 🔘🔘🔘

Кластеризация — это метод, который позволяет группировать объекты в кластеры на основе их сходства. Один из популярных алгоритмов для выполнения этой задачи — DBSCAN (Density-Based Spatial Clustering of Applications with Noise).

🪅 Основные преимущества DBSCAN

🔘Сам определяет количество кластеров (в отличие от K-means),
🔘Успешно справляется с кластеризацией данных, где кластеры могут иметь сложные формы.

Как работает DBSCAN

1⃣ Все объекты выборки делятся на три типа: внутренние/основные точки (core points), граничные (border points) и шумовые точки (noise points). Статус каждой точки определяется по плотности соседей в пределах заданного радиуса (Eps).

2⃣ Шумовые точки убираются из рассмотрения и не приписываются ни к какому кластеру.

3⃣ Основные точки, у которых есть общая окрестность, соединяются ребром.

4⃣ В полученном графе выделяются компоненты связности.

5⃣ Каждая граничная точка относится к тому кластеру, в который попала ближайшая к ней основная точка.

DBSCAN можно назвать одним из самых сильных алгоритмов кластеризации. Однако он может долго работать, поскольку чувствителен к размерности пространства признаков.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17👏2🔥1
⚛️ Нейросети для физики: как устроены PINN (Physics-informed neural networks)

Главная особенность таких нейросетей — наличие в Loss‑функции включена разница между предсказанными значениями и значениями, полученными из уравнений, описывающих физический процесс. Входом для такой модели являются координаты.

PINN могут применяться:
▪️для моделирования волнового распространения в сейсмологии;
▪️для оценки состояния и параметров, а также обнаружения аномалий в электроэнергетических системах;
▪️в моделировании кровотока в артериях и прогнозировании артериального давления и др.

Подробнее о PINN читайте в новой статье на «Хабре» 👈
👍5😁41
✍️ Хэндбук дата-сайентиста 2024

В этом репозитории автор собрал множество полезных ресурсов, которые помогут прокачать различные навыки. Среди собранных ресурсов есть как платные, так и бесплатные.

▪️YouTube-каналы
▪️Блоги
▪️Подкасты
▪️Книги

🔗 Ссылка на репозиторий
🔥6👍3
Привет, друзья! 👋

Мы готовим статью о самых раздражающих вопросах на собеседованиях и хотим узнать ваше мнение! 🤔💼

📌 Какой вопрос на собеседовании вы считаете самым бесящим или нелепым? Почему?
🎭 Как вы обычно отвечаете на вопрос «Расскажите о своих недостатках»? Поделитесь своими лайфхаками!
🚀 Какой самый неожиданный или креативный вопрос вам задавали на собеседовании? Как вы на него ответили?

Ваши ответы помогут другим кандидатам подготовиться к собеседованиям! Самые интересные истории и советы попадут в нашу статью.

Ждём ваших комментариев! 👇😊
👏3🥰2🙏1
🤔 Инварианты: проектирование эффективных алгоритмов

Инварианты — мощный инструмент для анализа, оптимизации и доказательства корректности алгоритмов. Покажем, как можно их использовать для разработки максимально эффективных решений сложных задач.

🔗 Читать статью
😁4🎉3🔥2👍1
🤖💼 ТОП-6 самых высокооплачиваемых профессий в сфере ИИ

Forbes опубликовал список самых высокооплачиваемых профессий в сфере ИИ. Рассказываем, какие профессии лидируют и какие навыки требуются.

Зарплаты указаны для западного рынка.

👉 Читать подробности в статье
🌚7👍3😁2🤔2