Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
19K subscribers
2.08K photos
109 videos
64 files
4.5K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/f83f07f1

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Руководство по языковым моделям

Начиная с основополагающих концепций, Джереми Ховард представляет архитектуру и механику, которые обеспечивают работу этих систем искусственного интеллекта. Затем он углубляется в критические оценки GPT-4, освещает практическое использование языковых моделей при написании кода и анализе данных, а также предлагает практические советы по работе с OpenAI API.

Смотреть видео
Очередной #дайджест по Python:

🐍 Hadoop в любой непонятной ситуации. Как выжить кластеру в большой ML команде
Какие сложности могут возникать при работе с кластером Hadoop и какие есть методы для их решения (конфигурация, мониторинг, склеивание мелких файлов, память кластера)

🐍 Многопоточность в Python: очевидное и невероятное
Как устроена многопоточность в Python, потоки, примитивы синхронизации и зачем они нужны.

🐍 Проектирование веб-приложений с помощью Python и Flask
Для каких проектов лучше всего подходит Flask, а для каких — Django?

🐍 Как настроить сбор статистики и автоматическое отключение пользователей WireGuard в ispmanager с помощью Python и API
В статье автор рассказывает о том, как он, будучи ламером, смог достигнуть нужных себе целей и изучить пару вариантов взаимодействия с ispmamager.
Оптимизация вашего LLM в производстве

В этом сообщении блога рассмотрены наиболее эффективные на момент написания этого сообщения методы решения этих проблем для эффективного развертывания LLM.

Читать статью
Люди больше не используют научные наборы для обучения/другие традиционные библиотеки? [Обсуждение на Реддите]

Недавно увидел твит, который получил довольно большую популярность, в котором говорилось о том, как много людей не использовали научные наборы для обучения в течение нескольких месяцев в качестве специалистов по обработке данных…

Читать обсуждение
Что такое learning rate?

Скорость обучения — важный гиперпараметр, который контролирует, насколько быстро модель адаптируется к проблеме во время обучения. Его можно рассматривать как «ширину шага» во время обновления параметров, т. е. насколько далеко веса перемещаются в направлении минимума нашей задачи оптимизации.
#вопросы_с_собеседований
Точность MNIST 78% при использовании GZIP менее чем в 10 строках кода

MNIST — это набор рукописных цифр, который обычно используется для работы с алгоритмами классификации. Оказывается, некоторые механизмы сжатия могут служить и инструментами классификации.

Читать статью
Почему существует так много фреймов данных Python?

Вы когда-нибудь задумывались, почему существует так много библиотек, в которых есть Dataframes в Python? В этой статье рассказывается о различных точках зрения на популярные наборы инструментов и о том, почему они такие, какие они есть.

Читать статью
«Библиотека программиста» запустила два новых канала для Python-разработчиков и тех, кто хочет ими стать👨‍🏫

В них мы:
🔸тренируемся на практических задачах
🔸отвечаем на популярные вопросы с собеседований
🔸проверяем свои знания

Подписывайтесь:
👉Библиотека собеса по Python — тут мы готовимся к интервью
👉Библиотека задач по Python — тут решаем задачи, проходим тесты и изучаем код
Обход GIL для параллельной обработки в Python

В статье описаны несколько традиционных и новых способов обхода глобальной блокировки интерпретатора (GIL) для достижения параллелизма с общей памятью при выполнении задач, связанных с ЦП.

Читать статью
Очередной #дайджест по Python:

🐍 Создание рекомендательных систем с использованием библиотеки Surprise
Рекомендательные не только помогают нам экономить время, предоставляя персонализированные рекомендации, но и оказывают влияние на наш выбор и потребительское поведение.

🐍 Объединение открытых данных Open Street Map и Landsat для уточнения площадей зеленых зон
О том какие преимущества привносит в нашу жизнь объединение пространственных данных из различных открытых источников.

🐍 Создание консольной игры Супер Ним на Python
В этом уроке автор пишет несложную консольную игру.

🐍 Решаем числовые ребусы с помощью Python
Или просто задачки.

🐍 Вы кто такие, я вас не знаю, или Как мы делаем JWT-аутентификацию
Обширный гайд для новичков и не только.
Есть ли отличная книга по шаблонам проектирования в области обработки данных? [Реддит]

Существует множество книг по шаблонам проектирования программного обеспечения в целом. Насколько мне известно, не для обработки данных. Я ищу отличную книгу, в которой подробно рассматриваются популярные шаблоны архитектуры данных. С примерами кода. Погуглил, но ничего особенно интересного не нашел. Всего несколько сообщений в блоге. Какие книги вы рекомендуете прочитать инженеру по обработке данных?

Читать обсуждение
Что нам делать с категориальными переменными?

Категориальные переменные должны быть закодированы, прежде чем их можно будет использовать в качестве функций для обучения модели машинного обучения. Существуют различные методы кодирования, в том числе:
✍️ One-hot encoding
✍️ Label encoding
✍️ Ordinal encoding
✍️ Target encoding
#вопросы_с_собеседований
Представляем стабильную версию LM 3B: внедрение устойчивых и высокопроизводительных языковых моделей на интеллектуальные устройства

Stability AI с гордостью представила экспериментальную версию Stable LM 3B, новейшего продукта в наборе высокопроизводительных генеративных решений искусственного интеллекта.

Читать статью
Как обучают нейросети для планирования движения беспилотных автомобилей?

Нейронные сети помогают не только в системе распознавания, они применяются и для предсказания движения других участников движения, и для планирования собственного движения беспилотного транспорта. Специалист из Яндекса в своей статье показал, как строится логика таких моделей, какие главные вопросы стоят в этой области и в чём преимущества машинного обучения перед эвристиками.

Читать статью
«Библиотека программиста» продолжает поиски контент-менеджера для ведения телеграм-каналов

Ищем человека, который грамотно пишет и разбирается в одной из этих тем:
👉С++
👉Frontend
👉мобильная разработка
👉Data Science

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Подробнее о вакансии и форма для отклика — по ссылке.

Ждем вас в команде!