Machine learning Interview
24.4K subscribers
1.02K photos
67 videos
12 files
689 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
🌟 Опубликована программа конференции Practical ML Conf, которая пройдет 14 сентября

Доклады экспертов, заслуживающие отдельного внимания:
— Виктор Плошихин, руководитель ML-лаборатории в Yandex Platform Engineering — «AI-инструмент для разработчика: как мы обучали LLM работе с кодом».
— Ирина Барская, руководитель службы аналитики и исследований – «Человек и LLM. Как оценивать качество моделей и строить их метрики качества».
— Екатерина Глазкова, тимлид команды алайнмента VLM службы компьютерного зрения — «Адаптация VLM под продуктовые требования — как сервис Нейро делали мультимодальным».
— Савва Степурин, старший разработчик команды рекомендаций — «Как улучшить знакомые подходы для рекомендации незнакомого — как умная система рекомендаций помогает пользователям Яндекс Музыки открывать новые треки и артистов».
— Степан Комков, старший разработчик службы синтеза речи — «Синтез выразительной речи для аудиокниг, прошлое, настоящее и будущее — как GPT и диффузионные модели произвели революции в синтезе речи и как мы это используем».

📎 Можно посетить мероприятие офлайн в Москве или присоединиться онлайн, необходима предварительная регистрация.

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🐈‍⬛ A Comprehensive Benchmark of Machine and Deep Learning
Across Diverse Tabular Datasets


В новом обзоре алгоритмов машинного обучения были проанализированы 20 моделей на 111 датасетах, охватывающих задачи классификации и регрессии.

CatBoost, относящийся к группе моделей Tree-based Ensemble (TE), занял первое место, продемонстрировав лучшие результаты на 19 из 111 наборов данных. В то же время XGBoost оказался на 10-й позиции.

🔗 Подробности
Forwarded from Machinelearning
🌟 Command-r и Command-r-plus: Обновление 08-2024 мультиязычных LLM.

Command-r (35B) и Command-r-plus(104B) редакции 08-2024 - это мультиязычные (23 языка, включая русский) модели с контекстным окном 128К и навыками в генерации текста, переписывании и объяснении программного кода и, особенно, для использования в RAG-конфигурациях.

Разработчиками было уделено отдельное внимание обучению генерации ответов по фрагментам документов с цитированием источника, точному обобщению документов и возможности применения в качестве последнего узла RAG-системы.

Command-r-08-2024 : повышена производительность при многоязычной генерации с расширенным поиском (RAG), лучше справляется с математикой, кодом и рассуждениями.

Она конкурирует по показателям с предыдущей версией Command R+ и показывает на 50 % большую пропускную способность и на 20 % меньшую задержку по сравнению с предыдущей версией Command-r

Сommand-r-plus-08-2024 обеспечивает примерно на 50 % большую пропускную способность и на 25 % меньшую задержку по сравнению с предыдущей версией Command-p-plus на идентичной аппаратной платформе.

✔️ Отличия от предыдущей версии и особенности обновления:

🟢улучшение процесса принятия решений о том, какой инструмент использовать в том или ином контексте, а также о том, стоит ли использовать тот или иной инструмент;

🟢улучшенная инструкция, следующая в преамбуле;

🟢улучшен многоязычный поиск RAG на языке пользователя;

🟢улучшенный анализ структурированных данных для манипулирования;

🟢повышена устойчивость к несемантическим изменениям подсказки, таким как пробелы или новые строки;

🟢модели будут отказываться от вопросов, на которые невозможно ответить;

🟢моделям подняли уровень качества цитирования, добавили возможность отключать цитирование для RAG;

🟢в Command-r перенастроен контроль длины рассуждений и форматирования;

🟢новая функция "Режимы безопасности" - строгий и контекстный, оба режима доступны к ручному управлению пользователю (переключение или отключение). Этот режим не отключает встроенную в модель базовую цензуру, он работает как дополнительный цензор. Более подробно про новый режим безопасности можно почитать в документации.

Обе модели доступны для скачивания на Huggingface, онлайн через API в Cohere’s hosted API и в Amazon Sagemaker.

▶️Стоимость API:

🟠Command-r-08-20240 : $0.15/1M Input Tokens | $0.60/1M Output Tokens.

🟠Command-r-plus-08-2024 : $2.50/1M Input Tokens | $10.00/1M Output Tokens.


📌Лицензирование : CC-BY-NC-SA-4.0 License + соблюдение C4AI's Acceptable Use Policy.


🟡Demo
🟡Документация
🟡Модель Command R
🟡Модель Command R+


@ai_machinelearning_big_data

#AI #CommandR #Cohere #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Бесплатный курс по фундаментальным моделям от Университета Ватерлоо

Курс охватывает обширный круг тем, связанных с глубоким обучением и его практическими приложениями.

Отличный курс для подготовки к собесу.

Вот краткий обзор тем:

🔘 Рекуррентные и свёрточные нейронные сети (RNN и CNN). 🔘 Обработка естественного языка (NLP) и компьютерное зрение (CV).
🔘 Механизмы внимания и трансформеры.
🔘 Предобучение языковых моделей.
🔘 Обучение с подкреплением через обратную связь (RLHF). 🔘 Создание мультимодальных моделей.
🔘 Диффузионные модели и генерация изображений.

📌 Курс

@machinelearning_interview

#datascience #python #machinelearning
⚡️ Кластерная якорная регуляризация в рекомендательных системах

Интересный разбор от ML-специалистов Яндекса метода регуляризации в рекомендательных системах. Изначально метод Cluster Anchor Regularization предложили ресерчеры из DeepMind. В посте подробно рассказывается про иерархическую кластеризацию и якорную регуляризацию.

🟡 Cluster Anchor Regularization to Alleviate Popularity Bias in Recommender Systems
🟡 Разбор статьи

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👣 Большая актуальная базу бесплатных API, которая обновляется ежедневно. Алгоритмы присваивают рейтинг каждому API на основе надежности, частоты ошибок и времени отклика.

Если API перестает работать или становится платным, он теряет рейтинг и удаляется с сайта. Это полезный ресурс для студентов и разработчиков, которые ищут доступные и рабочие API.

https://www.freepublicapis.com/

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Вышла бета-версия генеративной нейросети YandexART (Vi), способная создавать более реалистичные короткие видео

На Хабр вышла статья, описывающая процесс обучения YandexART до версии (Vi), которая создаёт качественные видео с движущимися объектами — например, с едущим автомобилем или крадущимся котом. Дело в том, что обновлённая нейросеть учитывает связь между кадрами — благодаря этому видео получаются более цельными и плавными.

В прошлых версиях модель позволяла получать анимации, которые выглядели так, будто двигалась камера, но не сам объект. Кроме того, от кадра к кадру объекты при генерации значительно менялись, однако в новой версии проблема была устранена.

📎 Статья

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ The Tensor Cookbook: Свежий Гайд по тензорам

Эта компактная книга на 50 страниц даёт полное представление обо всём, что связано с тензорами.

Тензор — это обобщённое понятие для матриц с любым количеством измерений. Тензорами являются скаляры (тензоры нулевого ранга), векторы (тензоры первого ранга) и матрицы (тензоры второго ранга).

В книге также присутствует немало математики, которая поможет глубже понять работу с тензорами.

📚 Книга

@machinelearning_interview
💻 Свежайщая Бесплатня книга "Introduction to Machine Learning"

Внутри множество важных тем. - оптимизация с серьёзными математическими выкладками,
- разборах метода главных компонент (PCA) с детальным анализом.

Так же внутри основные темы, такие как линейные модели и деревья решений, также освещены. Это отличное пособие для тех, кто хочет изучить как основы, так и более сложные аспекты машинного обучения.

📚 Книга
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 repo2vec: простая библиотека, позволяющая общаться с публичным или частным репозиторием.

Иногда просто нужно узнать, как работает код и как его интегрировать, не тратя часы на изучение самого кода. Repo2vec - это как GitHub Copilot, но с самой актуальной информацией о целевом репозитории.

Возможности:

🟢 Простая настройка: запустите пару скриптов и у вас будет функциональный интерфейс чата для вашего кода;

🟢Документированные ответы: каждый ответ показывает, откуда в коде был извлечен контекст для ответа;

🟢Работает локально или в облаке: вы можете использовать Marqo для эмбеддинга + векторного хранилища и Ollama для чата с LLM или настроить эмбеддинги OpenAI + Pinecone для векторного хранилища + OpenAI или Anthropic для чата LLM;

🟢 Plug-and-play: каждый компонент конвейера легко заменяем. Инженерные стандарты уровня Google позволяют вам настраивать все по своему усмотрению;

🟢Индексация Issues (опционально): вы можете дополнительно индексировать issues, установив ключ --index-issues. И наоборот, вы можете отключить индексирование кода (и индексировать только issues), ключом --no-index-repo.

Помимо self-hosted варианта для приватных репозиториев, repo2vec существует в виде бесплатного онлайн-сервиса индексации публичных репозиториев Github - Code Sage.

▶️Установка на примере Marqo, Ollama и чатом в GradioUI:

# Install the library
pip install repo2vec

# Install Marqo instance using Docker:
docker rm -f marqo
docker pull marqoai/marqo:latest
docker run --name marqo -it -p 8882:8882 marqoai/marqo:latest

# Run index your codebase:
index github-repo-name
--embedder-type=marqo
--vector-store-type=marqo
--index-name=your-index-name

# Сhat with a local LLM via Ollama

# Start Gradio:
chat github-repo-name
--llm-provider=ollama
--llm-model=llama3.1
--vector-store-type=marqo
--index-name=your-index-name


📌Лицензирование : Apache 2.0 License.


🖥Github

@ai_machinelearning_big_data

#AI #ML #LLM #RAG #repo2vec
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Давайте проверим ваши знания работы бинарного дерева поиска. Посмотрите на изображение и ответьте на вопрос ниже.

#викторина #bst
This media is not supported in your browser
VIEW IN TELEGRAM
🌲 Supertree — инструмент для создания интерактивных визуализаций деревьев решений:

- Работает с Jupyter Notebooks, Jupyter Lab, Google Colab и другими средами, поддерживающими рендеринг HTML.

- Поддерживает возможность масштабирования дерева (зум).

- Позволяет разворачивать и сворачивать выбранные узлы для более удобного анализа.

https://github.com/mljar/supertree

@machinelearning_interview