🔥 OpenAI выпустила две новые эмбеддинг-модели
Среди них малая модель text-embedding-3-small и большая и более производительная text-embedding-3-large. Для первой цена составляет $0.00002 за 1k токенов, для второй — $0.00013 за 1k токенов. OpenAI пишет, что text-embedding-3-large может создавать эмбеддинги размерностью 3072.
Помимо этого, OpenAI:
🤑 Удешевила GPT-3.5 Turbo.
Цены на input снизились на 50% — теперь составляют $0.0005 за 1K токенов, а на output снизились на 25% и теперь составляют $0.0015 за 1K токенов.
🚀 Обновила GPT-4 Turbo preview.
Модель gpt-4-0125-preview лучше справляется с генерацией кода и реже «ленится» завершать задачи.
🔑 Улучшила менеджмент API-ключей
Во-первых, разработчики теперь могут выдавать разрешения API-ключам. Например, ключу можно дать только read-only доступ. Во-вторых, панель мониторинга использования теперь предоставляет метрики на уровне ключа.
Источник
Среди них малая модель text-embedding-3-small и большая и более производительная text-embedding-3-large. Для первой цена составляет $0.00002 за 1k токенов, для второй — $0.00013 за 1k токенов. OpenAI пишет, что text-embedding-3-large может создавать эмбеддинги размерностью 3072.
Помимо этого, OpenAI:
🤑 Удешевила GPT-3.5 Turbo.
Цены на input снизились на 50% — теперь составляют $0.0005 за 1K токенов, а на output снизились на 25% и теперь составляют $0.0015 за 1K токенов.
🚀 Обновила GPT-4 Turbo preview.
Модель gpt-4-0125-preview лучше справляется с генерацией кода и реже «ленится» завершать задачи.
🔑 Улучшила менеджмент API-ключей
Во-первых, разработчики теперь могут выдавать разрешения API-ключам. Например, ключу можно дать только read-only доступ. Во-вторых, панель мониторинга использования теперь предоставляет метрики на уровне ключа.
Источник
👍8🔥4🥱1
🧩🧠 Хотите узнать, насколько хорошо вы знаете математику, чтобы начать заниматься Data Science?
Вот несколько не самых сложных задач, главное в которых — проверить математическую интуицию и смекалку. Все задачи снабжены пояснениями и ответами.
🔗 Пройти тест
Не расстраивайтесь, если не сможете набрать максимальное колличество баллов. Чтобы подтянуть знания, поможет наш курс Математика для Data Science.
👉 Начать можно с вводных занятий, чтобы познакомиться с преподавателями и форматом обучения.
На водных занятиях вас ждут:
– Лекции с преподавателями кафедры ВМК МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск.
– Практические задания для закрепления материала.
– Ссылки на дополнительные материалы.
⚡️Переходите и активируйте – https://proglib.io/w/d7b4e866
Вот несколько не самых сложных задач, главное в которых — проверить математическую интуицию и смекалку. Все задачи снабжены пояснениями и ответами.
🔗 Пройти тест
Не расстраивайтесь, если не сможете набрать максимальное колличество баллов. Чтобы подтянуть знания, поможет наш курс Математика для Data Science.
👉 Начать можно с вводных занятий, чтобы познакомиться с преподавателями и форматом обучения.
На водных занятиях вас ждут:
– Лекции с преподавателями кафедры ВМК МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск.
– Практические задания для закрепления материала.
– Ссылки на дополнительные материалы.
⚡️Переходите и активируйте – https://proglib.io/w/d7b4e866
👍3❤2🤔1🥱1
⚡️Самые полезные каналы по Data Science в одной папке
В ней:
➖ канал для подготовки к собеседованиям
➖ интересные задачи
➖ основной канал (этот)
➖ книги по Data Science
➖ лучшие вакансии из сферы
➖ и наш чат, в котором можно общаться и задавать вопросы
Добавляйте 👉 тык сюда
В ней:
Добавляйте 👉 тык сюда
Please open Telegram to view this post
VIEW IN TELEGRAM
🥰3👍1🔥1👏1🤔1
Новый #дайджест статей по машинному обучению и работе с данными
🤖 Запускаем локальный ML-процесс в облаке с помощью DataSphere Jobs
В сервисе DataSphere можно удалённо запускать задания (jobs) — вычисления на ВМ DataSphere за пределами JupyterLab.
🤖 Как мы с помощью ML вылечили проблему, не дававшую перейти на автомаршрутизацию курьеров
Интересная статья от компании CDEK, рассказывающая о решении следующей задачи: определить, на какой маршрут поставить конкретный заказ до того, как появился сам маршрут.
🤖 Who's Harry Potter? Approximate Unlearning in LLMs
Авторы пытались заставить модель Llama2-7b «забыть» «Гарри Поттера».
🤖 Hadoop в Облаке: история миграции сотен петабайт
Рассказ от руководителя Data Platform в ОК о переносе Hadoop с Bare Metal в облако.
🤖 Open-source LLMs as LangChain Agents
Статья рассказывает о том, что такое LLM-агенты и как их интегрировать в системы с использованием LangChain.
🤖 Запускаем локальный ML-процесс в облаке с помощью DataSphere Jobs
В сервисе DataSphere можно удалённо запускать задания (jobs) — вычисления на ВМ DataSphere за пределами JupyterLab.
🤖 Как мы с помощью ML вылечили проблему, не дававшую перейти на автомаршрутизацию курьеров
Интересная статья от компании CDEK, рассказывающая о решении следующей задачи: определить, на какой маршрут поставить конкретный заказ до того, как появился сам маршрут.
🤖 Who's Harry Potter? Approximate Unlearning in LLMs
Авторы пытались заставить модель Llama2-7b «забыть» «Гарри Поттера».
🤖 Hadoop в Облаке: история миграции сотен петабайт
Рассказ от руководителя Data Platform в ОК о переносе Hadoop с Bare Metal в облако.
🤖 Open-source LLMs as LangChain Agents
Статья рассказывает о том, что такое LLM-агенты и как их интегрировать в системы с использованием LangChain.
❤3👍2😁1
🤗 Hugging Face объявила о партнёрстве с Google Cloud
❔Что это значит
Компании хотят, чтобы ИИ и облачные технологии стали доступными для всех. Так, коллаборация должна облегчить доступ к инновациям в сфере искусственного интеллекта через библиотеки Hugging Face. Пользователи Google Cloud смогут легко обучать и разворачивать модели Hugging Face models через Google Kubernetes Engine (GKE) и Vertex AI.
Партнёры обещают рассказать о расширенных возможностях в ближайшее время.
🔗 Ссылка на блогпост о сотрудничестве
❔Что это значит
Компании хотят, чтобы ИИ и облачные технологии стали доступными для всех. Так, коллаборация должна облегчить доступ к инновациям в сфере искусственного интеллекта через библиотеки Hugging Face. Пользователи Google Cloud смогут легко обучать и разворачивать модели Hugging Face models через Google Kubernetes Engine (GKE) и Vertex AI.
Партнёры обещают рассказать о расширенных возможностях в ближайшее время.
🔗 Ссылка на блогпост о сотрудничестве
🥰15🤔3
🦙 Хотите попробовать RAG (retrieval-augmented generation), не прикладывая при этом больших усилий? Инструмент командной строки llamaindex-cli позволяет это сделать
Вот короткая инструкция:
✔️Установите переменную окружения OPENAI_API_KEY.
✔️Укажите локальные файлы, которые вы хотите поместить в векторную базу данных.
✔️Задайте LLM любой вопрос по файлам с предыдущего шага.
✔️Получите ответ. Можно даже открыть интерфейс для чата.
Более подробную инструкцию со всеми командами можно найти здесь
Вот короткая инструкция:
✔️Установите переменную окружения OPENAI_API_KEY.
✔️Укажите локальные файлы, которые вы хотите поместить в векторную базу данных.
✔️Задайте LLM любой вопрос по файлам с предыдущего шага.
✔️Получите ответ. Можно даже открыть интерфейс для чата.
Более подробную инструкцию со всеми командами можно найти здесь
👍4🤩1
🐼 PandasAI — возможности генеративного ИИ в Pandas
Библиотека используется вместе с Pandas, а не вместо него. Позволяет формулировать запросы к наборам данных на естественном языке.
✔️Например, можно попросить PandasAI найти все строки DataFrame, в которых значение определённого столбца больше 5, и вернуть только эти строки.
🔗 Колаб, в котором можно изучить возможности PandasAI
👩💻 Репозиторий библиотеки на GitHub
Библиотека используется вместе с Pandas, а не вместо него. Позволяет формулировать запросы к наборам данных на естественном языке.
✔️Например, можно попросить PandasAI найти все строки DataFrame, в которых значение определённого столбца больше 5, и вернуть только эти строки.
import pandas as pd
from pandasai import SmartDataframe
df = pd.DataFrame({...})
from pandasai.llm import OpenAI
llm = OpenAI(api_token='YOUR_API_TOKEN')
df = SmartDataframe(df, config={'llm': llm})
df.chat('Which are the 5 happiest countries?’)
🔗 Колаб, в котором можно изучить возможности PandasAI
👩💻 Репозиторий библиотеки на GitHub
🥰11🔥7👍4🤔2🥱2❤1⚡1🤩1
❓Как вы обработали бы разреженные данные?
Разреженные векторы часто содержат много измерений. Если передать такие многомерные данные в модель, то может потребоваться слишком много вычислительных ресурсов.
✅ В разреженном векторе было бы неплохо уменьшить некоторые веса до нуля. Можно рассмотреть L1 регуляризацию. Она приведёт многие неинформативные коэффициенты в модели к нулю.
✅ Кроме того, стоит оценить причину разреженности данных. В некоторых случаях можно избавиться от нерелевантных признаков или обработать пропущенные значения.
#вопросы_с_собеседований
Разреженные векторы часто содержат много измерений. Если передать такие многомерные данные в модель, то может потребоваться слишком много вычислительных ресурсов.
✅ В разреженном векторе было бы неплохо уменьшить некоторые веса до нуля. Можно рассмотреть L1 регуляризацию. Она приведёт многие неинформативные коэффициенты в модели к нулю.
✅ Кроме того, стоит оценить причину разреженности данных. В некоторых случаях можно избавиться от нерелевантных признаков или обработать пропущенные значения.
#вопросы_с_собеседований
👍12❤1
🧡💛 В Kaggle теперь можно легко импортировать ноутбуки Google Colab
Для этого нужно в редакторе Kaggle выбрать File > Import Notebook и затем кликнуть на Colab. В первый раз сайт попросит вас авторизоваться в Google Drive. При успешной авторизации вы увидите все свои ноутбуки Google Colab.
Также можно импортировать Colab-ноутбуки через кнопку Link. Нужно просто вставить URL и нажать Import.
👍 Помимо этого можно экспортировать Kaggle-ноутбуки в Colab. Нужно проследовать по пути File > Open in Colab.
Источник
Для этого нужно в редакторе Kaggle выбрать File > Import Notebook и затем кликнуть на Colab. В первый раз сайт попросит вас авторизоваться в Google Drive. При успешной авторизации вы увидите все свои ноутбуки Google Colab.
Также можно импортировать Colab-ноутбуки через кнопку Link. Нужно просто вставить URL и нажать Import.
👍 Помимо этого можно экспортировать Kaggle-ноутбуки в Colab. Нужно проследовать по пути File > Open in Colab.
Источник
👍22🥰4
🪆 Матрёшка и эмбеддинги: новый метод создания векторных представлений
Речь о методе Matryoshka Representation Learning (MRL), описанном в недавней исследовательской статье. Именно он используется для сокращения эмбеддингов в OpenAI.
✍️ Стоит понимать, что различные задачи требуют разных вычислительных ресурсов. Поэтому может оказаться невозможным использовать один эмбеддинг для всех задач (например, размерность вектора в 3k может быть слишком большой для условий с ограниченными ресурсами).
MRL решает эту проблему, используя принцип матрёшки при обучении. Обучается модель для эмбеддинга (например на задаче генерации текста), но, вместо того, чтобы делать это с фиксированным размером эмбеддинга, создаются вложенные подвекторы. Например, оригинальная размерность эмбеддинга для модели составляет 256. Без MLR мы бы взяли этот вектор 256 и считали бы лосс на нём. С MRL мы сначала возьмём подвектор размером 2 и посчитаем лосс для него, затем возьмём подвектор размера 4, 8 и т.д. Подвекторы сортируются, и можно отбрасывать те, что содержат наименьшее количество информации.
📖 Прочесть о методе подробнее можно в статье
Речь о методе Matryoshka Representation Learning (MRL), описанном в недавней исследовательской статье. Именно он используется для сокращения эмбеддингов в OpenAI.
✍️ Стоит понимать, что различные задачи требуют разных вычислительных ресурсов. Поэтому может оказаться невозможным использовать один эмбеддинг для всех задач (например, размерность вектора в 3k может быть слишком большой для условий с ограниченными ресурсами).
MRL решает эту проблему, используя принцип матрёшки при обучении. Обучается модель для эмбеддинга (например на задаче генерации текста), но, вместо того, чтобы делать это с фиксированным размером эмбеддинга, создаются вложенные подвекторы. Например, оригинальная размерность эмбеддинга для модели составляет 256. Без MLR мы бы взяли этот вектор 256 и считали бы лосс на нём. С MRL мы сначала возьмём подвектор размером 2 и посчитаем лосс для него, затем возьмём подвектор размера 4, 8 и т.д. Подвекторы сортируются, и можно отбрасывать те, что содержат наименьшее количество информации.
📖 Прочесть о методе подробнее можно в статье
🎉7❤4👍4
☕ Machine Learning на Java
Если вы вдруг пишете на Java или осваиваете язык, то вам пригодится этот репозиторий с множеством полезных ссылок на фреймворки и библиотеки. Список обширный, в том числе есть инструменты для работы с большими данными и машинным обучением. Например:
▪️Deeplearning4J — набор инструментов для глубокого обучения
▪️Weka — коллекция алгоритмов машинного обучения
▪️MALLET — библиотека для обработки естественного языка
🔗 Ссылка на репозиторий
Если вы вдруг пишете на Java или осваиваете язык, то вам пригодится этот репозиторий с множеством полезных ссылок на фреймворки и библиотеки. Список обширный, в том числе есть инструменты для работы с большими данными и машинным обучением. Например:
▪️Deeplearning4J — набор инструментов для глубокого обучения
▪️Weka — коллекция алгоритмов машинного обучения
▪️MALLET — библиотека для обработки естественного языка
🔗 Ссылка на репозиторий
🌚3🔥2😁2
✍️ Подборка вопросов с собесов по DS и ответов на них
В сегодняшней подборке мы собрали самые популярные посты нашего канала «Библиотека собеса по Data Science» за последний месяц.
✏️ В чём разница между ошибкой первого рода и ошибкой второго рода?
✏️ Какие проблемы есть у рекуррентных нейронных сетей (RNN)?
✏️ Объясните разницу между AdaBoost и XGBoost
✏️ Что такое стемминг и лемматизация?
✏️ Что вы знаете про использование марковских цепей в анализе последовательностей?
В сегодняшней подборке мы собрали самые популярные посты нашего канала «Библиотека собеса по Data Science» за последний месяц.
✏️ В чём разница между ошибкой первого рода и ошибкой второго рода?
✏️ Какие проблемы есть у рекуррентных нейронных сетей (RNN)?
✏️ Объясните разницу между AdaBoost и XGBoost
✏️ Что такое стемминг и лемматизация?
✏️ Что вы знаете про использование марковских цепей в анализе последовательностей?
👍7🔥3
💬 Что вы бы всё-таки выбрали, если бы вам задали такой вопрос сейчас?
❤️ — Data Analyst
👾 — Data Scientist
#интерактив
❤️ — Data Analyst
👾 — Data Scientist
#интерактив
👾148❤34👍1🤩1
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
From SQL to Pandas 50.pdf
2.4 MB
👨🏼💻🐼 Шпаргалка по работе с табличными данными с помощью SQL и Pandas
PDF-файл из более чем 50 листов содержит самые популярные операции с таблицами и датафреймами. В удобной форме сопоставляются схожие операции в SQL и Pandas. В шпаргалке есть примеры кода для:
✔️ Получения выборки.
✔️ Фильтрации данных.
✔️ Вывода статистики и др.
PDF-файл из более чем 50 листов содержит самые популярные операции с таблицами и датафреймами. В удобной форме сопоставляются схожие операции в SQL и Pandas. В шпаргалке есть примеры кода для:
✔️ Получения выборки.
✔️ Фильтрации данных.
✔️ Вывода статистики и др.
👍19❤5🔥3
Какова вычислительная сложность механизма self-attention?
В оригинальной статье Attention Is All You Need есть таблица со сравнением Complexity per Layer (сложность на слой) нового механизма self-attention и других архитектур. Указано, что для self-attention это значение составляет O(n^2 * d), где d — это размерность векторного представления.
В статье есть один нюанс. Авторы не учитывали сложность вычисления матриц Q, V и K (query, value и key). Их значения были взяты из скрытых состояний RNN. Поэтому идёт «чистый» расчёт для слоя Attention.
#вопросы_с_собеседований
В оригинальной статье Attention Is All You Need есть таблица со сравнением Complexity per Layer (сложность на слой) нового механизма self-attention и других архитектур. Указано, что для self-attention это значение составляет O(n^2 * d), где d — это размерность векторного представления.
В статье есть один нюанс. Авторы не учитывали сложность вычисления матриц Q, V и K (query, value и key). Их значения были взяты из скрытых состояний RNN. Поэтому идёт «чистый» расчёт для слоя Attention.
#вопросы_с_собеседований
👍9❤3🔥1
❤️ ChatGPT и Tinder: верить ли парню, который нашёл себе жену с помощью чат-бота?
Вчера в соцсетях нашумел тред выпускника РГГУ Александра Жадана(прославился тем, что написал диплом, используя ChatGPT) о том, как он создал сервис по автоматическому отбору и общению с девушками в Tinder. Парень утверждает, что результатом проекта стала успешная помолвка.
Интереснее самой истории выглядит технический разбор описанного Жаданом проекта от пользователя NikoStolz. Если коротко, то:
▫️Проект выглядит слишком сложным, чтобы его быстро написал один человек без достаточного опыта разработки. Стек состоит как минимум из: Selenium, BeautifulSoup, FlutterFlow, Flask, Python-telegram-bot, Torchvision, OpenCV, PyTorch или TensorFlow, Pandas, NumPy, SQLAlchemy, OpenAI API. Автор треда насчитал семь отдельных сервисов в приложении Жадана, два из которых связаны с обучением нейросети. Сам Жадан утверждает, что на разработку проекта ушло примерно 120 часов. При этом его профессиональная деятельность связана с менеджментом.
▫️NikoStolz провёл небольшой анализ данных. По его подсчётам, максимальная база девушек, которой в моменте мог оперировать Жадан, составляет 30 тысяч. Александр утверждает, что его сервис общался с 5239 девушками. Автор треда отмечает, что у среднего мужчины по статистике 1.8% мэтчей, поэтому число выглядит завышенным.
Добавим, что Жадан не хочет показывать исходный код проекта, так как «всё собрано на его данных».
💬 А что вы думаете по поводу этой истории?
Вчера в соцсетях нашумел тред выпускника РГГУ Александра Жадана
Интереснее самой истории выглядит технический разбор описанного Жаданом проекта от пользователя NikoStolz. Если коротко, то:
▫️Проект выглядит слишком сложным, чтобы его быстро написал один человек без достаточного опыта разработки. Стек состоит как минимум из: Selenium, BeautifulSoup, FlutterFlow, Flask, Python-telegram-bot, Torchvision, OpenCV, PyTorch или TensorFlow, Pandas, NumPy, SQLAlchemy, OpenAI API. Автор треда насчитал семь отдельных сервисов в приложении Жадана, два из которых связаны с обучением нейросети. Сам Жадан утверждает, что на разработку проекта ушло примерно 120 часов. При этом его профессиональная деятельность связана с менеджментом.
▫️NikoStolz провёл небольшой анализ данных. По его подсчётам, максимальная база девушек, которой в моменте мог оперировать Жадан, составляет 30 тысяч. Александр утверждает, что его сервис общался с 5239 девушками. Автор треда отмечает, что у среднего мужчины по статистике 1.8% мэтчей, поэтому число выглядит завышенным.
Добавим, что Жадан не хочет показывать исходный код проекта, так как «всё собрано на его данных».
💬 А что вы думаете по поводу этой истории?
❤13🤔8👍5🤩3
🫢 Mistral AI подтвердил утечку своей языковой модели
28 января пользователь HuggingFace выложил на платформу в открытый доступ модель под названием miqu-1-70b. Её протестировали и увидели, что якобы неизвестная модель слишком близко подбирается по количеству очков к Mistral Medium.
Теперь сооснователь и CEO Mistral AI написал в X, что это действительно утечка.
28 января пользователь HuggingFace выложил на платформу в открытый доступ модель под названием miqu-1-70b. Её протестировали и увидели, что якобы неизвестная модель слишком близко подбирается по количеству очков к Mistral Medium.
Теперь сооснователь и CEO Mistral AI написал в X, что это действительно утечка.
Слишком энтузиазный сотрудник одного из наших ранних клиентов опубликовал в сети сжатую (и помеченную) версию старой модели, которую мы обучали и распространяли совершенно открыто.
Чтобы быстро начать работу с несколькими избранными заказчиками, мы переобучили эту модель с Llama 2 в ту минуту, когда получили доступ ко всему нашему кластеру — предварительное обучение завершилось в день выпуска Mistral 7B.
С тех пор мы добились значительного прогресса — следите за обновлениями!
🥰11❤2
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Между кодирующей и декодирующей частями автокодировщика (autoencoder) находится…
Anonymous Quiz
26%
полносвязный слой
48%
«бутылочное горлышко»
26%
свёрточный слой
👩💻 Построй MLOps прямо в браузере
MLOps — это набор практик для автоматизации и упрощения рабочих процессов и развёртывания моделей машинного обучения. Сайт MyMLOps позволяет собрать полноценный MLOps по шаблону. Предлагается набор инструментов(о каждом из них можно узнать подробнее, просто кликнув на название) .
🔗 Зайти поиграться можно по этой ссылке
MLOps — это набор практик для автоматизации и упрощения рабочих процессов и развёртывания моделей машинного обучения. Сайт MyMLOps позволяет собрать полноценный MLOps по шаблону. Предлагается набор инструментов
🔗 Зайти поиграться можно по этой ссылке
❤7🎉3👍1