Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Forwarded from Библиотека программиста | программирование, кодинг, разработка
🐘🔧 Расширение pg_variables: мощная альтернатива временным таблицам в PostgreSQL

Расширение pg_variables для PostgreSQL предлагает альтернативу временным таблицам для эффективной работы с промежуточными данными, но имеет свои преимущества и недостатки, требующие тщательного анализа перед внедрением:

🔸 Оно позволяет определять скалярные сессионные переменные, которые могут быть очень ценными для хранения идентификатора пользователя, от имени которого выполняется запрос, и его различных атрибутов.
🔸 Оно содержит функции для работы с переменными различных типов. Созданные переменные существуют в течение текущей пользовательской сессии.
🔸 По умолчанию эти переменные создаются без поддержки транзакций. Если переменная успешно создана, она остаётся доступной в течение всего сеанса, даже если происходят откаты транзакций.

Если вы хотите использовать переменную с поддержкой транзакций и точек сохранения, необходимо передать дополнительный флаг is_transactional в последний параметр функции, которая создаёт переменную.

Флаг is_transactional нужно указывать каждый раз, когда вы изменяете значение транзакционной переменной с помощью функций pgv_set() и pgv_insert(). В противном случае возникнет ошибка. Другим функциям передавать этот флаг не нужно.

Если вызовы функций pgv_free() или pgv_remove() откатываются, затронутые транзакционные переменные восстанавливаются. В отличие от них, нетранзакционные переменные удаляются безвозвратно.

👉 Читать подробнее в статье
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1😁1
🧑‍💻 Команда Яндекс Браузера выпустила большую статью о том, как они учили LLM-модели помогать пользователям с текстами. Это удачный референс для тех, кто хочет понять, как работают над крупными проектами в айти-компаниях.

Для контекста: Яндекс интегрировал в Браузер усовершенствованный нейроредактор на базе YandexGPT. На что стоит обратить внимание в статье:

🔘 Переход на архитектуру Encoder-Decoder, использование curriculum learning и двухэтапный процесс предобучения: каким образом эти изменения привели к двукратному росту производительности и 10% увеличению качества.
🔘 Почему теперь редактор отправляет в модели текст, размеченный Маркдауном, и как было раньше.

🔗 Ссылка на статью
👍5
Пятничный #дайджест по Data Science и машинному обучению

🔹How to Test Machine Learning Systems
Тестировать ML-системы сложно, но возможно. Статья описывает все этапы от начала до конца, а также перечисляет лучшие практики.

🔹Mojo: убийца Python и будущее Ai?
Автор обучает простую свёрточную нейронную сеть, а также разбирает линейную регрессию как на Python, так и на Mojo.

🔹Building RAG with Postgres
В гайде рассматривается каждый шаг такого пайплайна: от получения данных до генерации ответа.

🔹What is Entropy?
Эта небольшая книга представляет собой элементарный курс по энтропии. Будет интересно тем, кто хочет понять самую суть.

🔹Из лингвиста в дата-сайентисты: личный опыт и детальный трек
В статье собраны полезные материалы и советы автора.
👍61😁1
✍️ Гайд по техникам RAG

В репозитории собраны материалы по различным способам реализации Retrieval Augmented Generation (RAG). Вот некоторые методы:

▪️Простой RAG с LangChain;
▪️RAG с валидацией данных;
▪️RAG с трансформацией запроса;
▪️Relevant Segment Extraction (RSE);
▪️Сжатие контекста из документов.

🔗 Ссылка на репозиторий
👍8🤩2
📊 Sweetviz — разведочный анализ данных одной строчкой кода

Это библиотека на Python, помогающая в EDA. Она позволяет быстро делать визуализации и сравнивать наборы данных, поддерживает автоматическое определение типов и предлагает множество аналитических функций.

🔗 Ссылка на репозиторий
👍111😁1
🔢 CuPy: NumPy & SciPy для GPU

Это библиотека для работы с массивами, адаптированная для GPU. Она позволяет запускать код NumPy/SciPy на платформах NVIDIA CUDA и AMD ROCm. CuPy:

воспроизводит интерфейс NumPy, поэтому большинство функций и методов могут быть использованы с минимальными изменениями;

использует потенциал GPU для выполнения параллельных вычислений на больших массивах данных.

🔗 Ссылка на репозиторий CuPy
👍6
Что вы знаете про критерий Дикки-Фуллера?

Критерий Дикки-Фуллера используется для проверки стационарности временных рядов. Этот тест позволяет определить, есть ли в данных временного ряда единичный корень, что означает наличие тренда или сезонности.

Тест использует регрессионный анализ для оценки автокорреляции и значений критических уровней. Если p-value меньше определённого уровня значимости (например, 0.05), то можно отвергнуть нулевую гипотезу и сделать вывод о стационарности ряда.

Критерий Дикки-Фуллера часто используется в анализе временных рядов, таких как финансовые данные или данные об изменениях температуры, где важно выявить закономерности для прогнозирования будущих значений.

Подтяните свои знания о машинном обучении вместе с нашим курсом:
🔵 Базовые модели ML и приложения

#машинное_обучение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11
✍️ Как писать условные выражения с NumPy where()

Это подробный гайд от Real Python. Рассматривает:

🔹как написать простейшее условное выражение;
🔹как сделать выражение с несколькими условиями;
🔹как использовать транслирование массивов в условных выражениях;
🔹как не надо использовать np.where().

🔗 Читать здесь
👍4
✍️ Небольшая шпаргалка по техникам регуляризации в машинном обучении
👍10
👨‍🎓📈 Как выбрать специализацию и начать обучение Data Science

Рассказываем об этапах обучения, которые необходимо пройти новичку для начала карьеры в Data Science. Путь от выбора специализации до выработки практических навыков будет непростым.

Наш курс по математике для начала карьеры в Data Science:
🔵 Математика для Data Science
🔵 Основы программирования на Python

📎 Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤‍🔥2🥱2
🧑‍💻 Разбираемся с CUDA: подборка материалов

🔹What Is CUDA?
Начать, пожалуй, стоит со вводной статьи в блоге NVIDIA, компании, которая и создала CUDA.

🔹Nvidia CUDA in 100 Seconds
Также в качестве вводного материала может послужить 3-минутный ролик на канале Fireship.

🔹An Even Easier Introduction to CUDA
Это бесплатный курс от NVIDIA, который расскажет, как запускать параллельные ядра на графическом процессоре, управлять памятью и т.д.

🔹GPU MODE
Это YouTube-канал, на котором публикуются лекции про машинное обучение на GPU.

🔹Fundamentals of GPU Architecture: Introduction
Видео для тех, кто хочет понять, как устроены графические процессоры.

🔹Programming Massively Parallel Processors (PMPP)
Фундаментальная книга про программирование для графических процессоров с использованием модели CUDA.
🔥5
⚙️ Подборка книг по машинному и глубокому обучению

🔵 Грокаем алгоритмы искусственного интеллекта, Харбанс Р.

Это отличный гид по современным методам и подходам в ИИ, написанный доступным языком и дополненный множеством иллюстраций и примеров. Автор, обладающий обширным опытом в разработке и обучении ИИ, наглядно объясняет сложные концепции, такие как машинное обучение и нейронные сети, используя практические примеры из реальной жизни. Вам понадобится только базовое знание алгебры, чтобы начать решать задачи ИИ, такие как распознавание мошенничества в банках или управление беспилотными автомобилями. Эта книга станет полезной для тех, кто хочет уверенно ориентироваться в мире искусственного интеллекта и применять алгоритмы на практике.

🔵 Грокаем глубокое обучение, Траск Э.

Это идеальный старт для тех, кто хочет освоить основы глубокого обучения и начать работать с нейронными сетями. Автор объясняет фундаментальные концепции ИИ через простые и доступные примеры, используя Python и библиотеку NumPy. Эта книга подойдёт даже тем, кто не имеет глубоких знаний в математике и программировании, но хочет научиться строить и обучать нейронные сети с нуля. В дополнение к этому, Траск затрагивает темы обработки естественного языка и федеративного обучения — технологии для работы с конфиденциальными данными.

🔵 Грокаем глубокое обучение с подкреплением, Моралес М.

Это практическое руководство по созданию агентов глубокого обучения, которые обучаются на основе взаимодействий с окружающей средой. Автор объясняет, как использовать такие методы, как обучение с подкреплением, чтобы создавать ИИ, способный принимать оптимальные решения в реальном времени. Основные темы книги включают разработку алгоритмов на Python и работу с библиотеками, что делает её полезной для начинающих разработчиков. Моралес показывает, как ИИ может применяться в играх, робототехнике и маркетинге, делая книгу актуальной для широкого круга читателей, интересующихся ИИ.

🔵 Грокаем машинное обучение, Серрано Л.

Это отличное введение в мир машинного обучения, ориентированное на читателей с базовыми знаниями Python и математики на уровне средней школы. Автор объясняет алгоритмы и принципы машинного обучения доступным языком, избегая сложного академического жаргона. В книге вы найдете множество примеров и проектов, таких как создание моделей для идентификации спама и распознавания изображений, что делает её практическим руководством для новичков. Серрано использует простой подход для объяснения сложных тем, что делает её полезной для тех, кто только начинает погружаться в мир машинного обучения и хочет быстро освоить основные концепции. Если вам интересно, как работают модели предсказаний и классификации данных, эта книга станет отличным стартом.

🛍 Промокод на скидку в 25%: proglib
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
🙌 Хардкорный вышмат для тех, кто интересуется ML, AI, DS

Начать с вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/584771bd

Что будет на демо?

🔹Вводный урок от CPO курса;

🔹Лекции со всеми преподавателями МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск;

🔹Практические задания и дополнительные материалы!

⚡️Переходите и активируйте – https://proglib.io/w/584771bd
Please open Telegram to view this post
VIEW IN TELEGRAM
🥱3😁21
rerankers_map.png
8 MB
✍️ Rerankers — API для различных моделей переранжирования

Для Information Retrieval часто используется двухэтапный подход. Сначала извлекается небольшой набор кандидатов-документов, а затем он же оценивается повторно более мощной моделью. Этот второй этап известен как переранжирование.

✔️ Rerankers упрощает использование моделей повторного ранжирования.

🔗 Ссылка на документацию проекта
🔗 Ссылка на репозиторий проекта
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2🥰2👍1😁1