Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.67K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Почему Python прекрасен

Это мнение Джоса является ответом на сообщения о том, что «это ужасный язык», которые вы время от времени встречаете. После прочтения заметки становится понятно, почему Джос считает Python удивительным: он противопоставляет его С++ и Java.

Читать заметку
👾2
Многоуровневый подход к MLOps

Инженеры Microsoft предлагают трехуровневый подход к структурированию проектов машинного обучения и предоставляют готовый к использованию шаблон, реализующий их подход.

Читать статью
Открытые проблемы в исследованиях LLM

Пообщавшись со многими людьми, работающими как в промышленности, так и в научных кругах, автор выделил 10 основных направлений исследований, которые возникли недавно.

Читать статью
Что такое MSE и RMSE?

MSE означает Mean Square Error, а RMSE — Root Mean Square Error. Это метрики, с помощью которых мы можем оценивать модели.
#вопросы_с_собеседований
😁10👏3🤯3
Аугментация экспрессивных аудиоданных на основе TTS

Автор пишет о системах клонирования голоса на основе TTS (Text-to-Speech), которые используются в корпоративной лаборатории человеко-машинного взаимодействия ИТМО для аугментации речевых баз данных в рамках задачи мультимодального распознавания доминантности дикторов в полилогах. Текст является скорее обзором методов и технологий, полезных в решении подобных задач.

Читать статью

Кстати, у нас есть канал с вопросами с собеседований по Data Science. Подписывайтесь!
👍2
Анонс AI2 OLMo, модели открытого языка, созданной учеными для ученых

Allen Institute for AI объявил о создании открытой современной генеративной языковой модели для исследовательского сообщества.

Читать статью
Ищем копирайтера

Нам нужен человек, который:
— Любит IT и русский язык.
— Понимает разницу между бэкендом и фронтендом, OWASP и MISRA, функциональным программированием и ООП, микроконтроллером и миникомпьютером, UX и UI.
— Имеет опыт работы от 1 года.
— Будет плюсом, если вы программируете на каком-нибудь языке на уровне стажера/джуна.

Что нужно делать:
— Готовить подборки, ТОПы книг, ютуб- и телеграм-каналов по языкам программирования.
— Делать расшифровки топовых Ютуб-роликов по теме программирования и оформлять их в виде статей.
— Готовить новостные заметки.
— Актуализировать старые статьи.
— Брать интервью у экспертов. Мы поможем с поиском экспертов.
— Иногда писать небольшие рекламные посты в телеграм.
— Писать статьи с кодом, переводить статьи (по желанию, оплачивается отдельно).

Можно использовать нейронки?
— Да, главное, чтобы материал получился интересный.

Условия:
— Белая зарплата: 50 000 руб.
— Возможность работать удаленно.

👉Присылайте свои резюме: hello@proglib.io
👍3
🔥 Тематическое моделирование LDA

В ролике решается реальная задача Data Science — разделить отзывы на сайте по темам используя Python.

Говорится про LDA, предобработку текста и обучение модели, как правильно оценить результат, проанализировать его и предсказать тематику.

Перейти к просмотру
🔥1
Очередной #дайджест по Python:

🐍 Обработка и анализ естественного языка с помощью Python-библиотеки spaCy
Библиотека spaCy выделяется своей эффективностью и производительностью. Она разработана с акцентом на скорость и точность, что делает ее предпочтительным выбором для многих разработчиков и исследователей в области NLP.

🐍 Django Rest Framework. Туториал или как легко писать backend
Автор учит новичков делать rest эндпоинты.

🐍 Как организовать отдачу статических файлов в контейнеризованном Django
Подробный ответ на часто задаваемый вопрос на курсе для мидлов.

🐍 Моделирование движения космических объектов (симулятор гравитации)
Создаем симулятор солнечной системы.

🐍 Что для меня значит быть программистом
Статья-мнение, собравшая внушительное количество лайков.
👍21
Считаете ли вы, что в вашей компании уделяется слишком много времени на ненужные созвоны и мало времени на разработку?
#интерактив
👍9
🔍Насколько легко «войти в айти»?

IT — перспективная отрасль с высокими зарплатами и огромной конкуренцией. Собираем ваши истории: расскажите, как вам удалось сменить профессию (или сразу найти себя), какие шаги вы для этого предприняли и с какими сложностями пришлось столкнуться.

👉Пройдите наш 10-минутный опрос по ссылке.
👍3
Решение простой головоломки с использованием SymPy

В этом коротком сообщении в блоге показано, как сформулировать ряд уравнений и решить их с помощью SymPy для небольшой геометрической головоломки. Существует также связанное обсуждение на ycombinator.

Читать пост
👍1
Что такое временной ряд?

Временной ряд — это набор наблюдений, упорядоченных во времени, обычно собираемых через равные промежутки времени. Например, данные о цене биткоина.
#вопросы_с_собеседований
Как построить полностью автоматизированный конвейер обнаружения отклонения данных

Статья, в которой объясняется, как разработать рабочий процесс, который обнаруживает отклонение данных, уведомляет группу обработки данных и запускает переобучение модели с помощью Kestra, библиотеки с открытым исходным кодом.

Читать статью
🔥5
Почему вам (вероятно) не нужно настраивать LLM

Люди часто сталкиваются с проблемами с LLM базовой модели — «модель не дала того, что я хотел», или «модель галлюцинировала, ее ответ не имеет смысла», или «модель ничего не знает об Y, потому что не была обучена этому». Иногда люди обращаются к довольно сложному методу, называемому тонкой настройкой, в надежде, что он решит все вышеперечисленные проблемы. В этом посте автор говорит о том, почему вашему приложению, вероятно, не нужна тонкая настройка.

Читать статью
👍2
Очередной #дайджест по Python:

🐍 Чтобы ускорить работу Numba и кода NumPy, нужно понять, как работают процессоры
Автор учит ускорять код вплоть до 25 раз по сравнению с первоначальной версией.

🐍 Метаданные как обезбол при миграции
Почему и зачем они пригодятся.

🐍 Строим пайплайн в sсikit-learn — пошаговое руководство
Как построить пайплайн в библиотеке scikit-learn на базе встроенных инструментов и сократить количество кода при преобразовании данных.

🐍Разработка RESTful API на Python с помощью HappyX

🐍 BI-аналитика на коленке: делаем веб-аналитику в DataLens
Автор делится рабочим опытом создания аналитики.
👍2
Forwarded from Библиотека программиста | программирование, кодинг, разработка
🤖 Generative AI: как ускорить разработку с помощью Github Copilot и Databricks English SDK

Давайте разберемся, что же могут помощники и SDK, а чего от них ожидать еще рано. Рассмотрим наиболее популярные решения от Github и Databricks: варианты использования и их ограничения. Также поговорим о перспективах профессии AI-инженера.

🔗 Читать статью
🔗 Зеркало
👍4
Понимание автоматической дифференциации в 30 строках Python

В этой статье автор пробует итеративно построить простейший код для автоматического вычисления производных по скалярам.

Читать статью
👍1
Создайте свой клон с помощью Fine-tuned LLM

Цель этой статьи — показать, как эффективно и с минимальными затратами настроить LLM на пользовательском датасете. Мы рассмотрим использование модели Falcon-7B с адаптерами LoRa, с использованием библиотеки Lit-GPT.

Читать статью
👍5🔥3
Как интерпретируется термин смещения в линейных моделях?

Смещение — это просто разница между прогнозируемым значением и фактическим/истинным значением. Его можно интерпретировать как расстояние от среднего прогноза и истинного значения, т.е. истинное значение минус среднее значение (прогнозы). Но не путайте точность и смещение.
#вопросы_с_собеседований
👍2