Forwarded from Яндекс
YaFSDP оптимизирует использование ресурсов графических процессоров (GPU). Нейросети обучаются быстрее, а требования к вычислительным ресурсам снижаются. Это особенно важно для небольших компаний и научных проектов.
Библиотека рассчитана в первую очередь на большие языковые модели, но также может ускорять и обучение других типов нейросетей, например, рисующих картинки. Исходный код YaFSDP опубликован на GitHub, а на Хабре можно подробнее узнать о разработке библиотеки.
Подписывайтесь
Please open Telegram to view this post
VIEW IN TELEGRAM
—
pip install cognee
Cognee поддерживает множество инструментов для различных операций:
— LanceDB или Neo4j для локального хранения графов и не только
— Qdrant и Weaviate для хранения векторных данных
— в качестве LLM можно использовать Anyscale или Ollama
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Здесь описывается практически всё, что только может пригодится среднестатистическому специалисту Data Science;
вот некоторые из раскрываемых тем:
— разведочный анализ данных (EDA)
— преобразование данных, удаление пропущенных значений, выбросов
— веб-скрепинг, сбор данных из открытых источников
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Внутренние операции любого трансформера можно свести к простым матричным вычислениям — собственно это и реализовано в этой таблице.
Таблица воспроизводит структуру nanoGPT от Андрея Карпати с ~85000 параметрами.
И эта таблица представляет собой систему предсказания следующих символов на основе предыдущих, то есть для простоты каждый токен — это символ; для уменьшения сложности токенизируются только буквы A/B/C.
На прикреплённых изображениях — механизм самовнимания и полный вид всей таблицы
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
—
pip install thread-dev
Thread — это Jupyter Notebook на максималках, в нём можно использовать естественный язык для создания ячеек, редактирования кода, задавать вопросы GPT или исправлять ошибки, при всём этом можно редактировать работать с кодом, как в обычном Jupyter Notebook.
После установки для запуска достаточно прописать
thread
или jupyter thread
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
📚Grog book - это приложение streamlit, которое позволяет создавать книги из промптов с помощью Llama3 в Groq.
Оно неплохо работает с научно-популярными книгами и создает гаввы за считанные секунды.
▪Github
▪Приложение
@data_analysis_ml
Оно неплохо работает с научно-популярными книгами и создает гаввы за считанные секунды.
▪Github
▪Приложение
@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
Новая модель 10 раз предыдущая SoTA!
💪 Модели различных размеров (от 25 миллионов до 1,3 миллиарда параметров) доступны на Hugging face Hub ✨
https://huggingface.co/collections/depth-anything/depth-anything-v2-666b22412f18a6dbfde23a93
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Отличная книга и масса Colab'ов от MIT для полного понимания Deep Learning
Определённо это один из лучших ресурсов по DL
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышла новая версия Python-библиотеки для научных вычислений NumPy 2.0.0, предназначенная для работы с многомерными массивами и матрицами.
Она включает обширную коллекцию функций, реализующих различные алгоритмы, связанные с использованием матриц. NumPy считается одной из самых популярных библиотек для научных расчетов. Код библиотеки написан на Python с применением оптимизаций на языке C и распространяется под лицензией BSD.
NumPy 2.0.0 является первым значительным обновлением с 2006 года. В новой версии добавлены новые функции и улучшена производительность, а также внесены изменения в ABI, Python API и C-API, нарушающие обратную совместимость. Например, библиотека SciPy, собранная с NumPy 1.x, потребует перекомпиляции для работы с NumPy 2.0. В некоторых случаях для использования NumPy 2.0 в приложениях потребуется внести изменения в код.
Одно из наиболее значимых изменений связано с сохранением точности скалярных выражений.
Например, выражение
“np.float32(3) + 3”
теперь вернет значение типа float32, а не float64.
В выражениях с несколькими типами для результата будет использоваться тип с наивысшей точностью, например, “np.array([3], dtype=np.float32) + np.float64(3)” вернет значение типа float64. Также изменены целочисленные типы по умолчанию на платформе Windows: на 64-разрядных системах теперь используется 64-разрядный целый тип, а на 32-разрядных – 32-разрядный (ранее использовался аналог типа long из C, теперь это эквивалент np.intp).Некоторые определения в C-API были изменены или удалены, например, структура PyArray_Descr. Максимальное число измерений и аргументов, выставляемое через макросы NPY_MAXDIMS и NPY_MAXARGS, увеличено до 64.
Все комплексные типы переведены на использование стандартных типов из спецификации C99 (cfloat_t, cdouble_t, clongdouble_t). Добавлен новый C API для создания собственных dtype. Также предложены новые упрощённые функции инициализации PyArray_ImportNumPyAPI и PyUFunc_ImportUFuncAPI.
В Python API обеспечено более четкое разделение между публичными и приватными API, представлена новая структура модулей. Около 100 функций, модулей и констант вынесены из основного пространства имен “np”, объявлены устаревшими или удалены. Пространство имен np.lib было очищено. Число объектов в основном пространстве имен сокращено на 10%, а в пространстве имен numpy.lib – на 80%. Пространство имен numpy.core переведено в разряд приватных. Удалены некоторые методы из классов np.ndarray и np.generic. Создано новое пространство имен numpy.stringsf со строковыми операциями.
https://uproger.com/vyshel-numpy-2-0-0-samye-znachitelnye-obnovleniya-s-2006-goda-dlya-python-razrabotchikov/
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
UPROGER | Программирование
Вышел NumPy 2.0.0. Самые значительные обновления с 2006 года для Python разработчиков
Вышла новая версия Python-библиотеки для научных вычислений NumPy 2.0.0, предназначенная для работы с многомерными массивами и матрицами.
Она включает обширную коллекцию функций, реализующих различные алгоритмы, связанные с использованием матриц. NumPy…
Она включает обширную коллекцию функций, реализующих различные алгоритмы, связанные с использованием матриц. NumPy…
—
pip install r2r
R2R создан, чтобы помочь разработчикам преодолеть разрыв между локальными экспериментами с LLM и созданием масштабируемого, готового к продакшену приложения.
R2R, созданный для работы с пользовательскими приложениями RAG, обеспечивает достаточную производительность и возможности для большинства случаев использования RAG.
Фичи R2R:
— позволяет легко развернуть RAG-приложение в проде
— гибкий в настройке, легко конфигурируется
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM