Forwarded from Инжиниринг Данных (Dmitry)
На edX появилось 2 новых курса от Databricks:
Databricks: Large Language Models: Application through Production
Databricks: Large Language Models: Foundation Models from the Ground Up
Теперь вы сможете удивлять своими познаниями на собеседованиях про LLM из 🧱
PS Databricks готов к новому раунду инвестиций и они планируют выйти в положительный кэш фло в 2025. Думаю многие сотрудники databricks неплохо обкешатся рано и поздно.
Вот у snowflake тоже акции были дорогие на IPO но потом упали (явно были переоценены), посмотрим как у databricks.
Databricks: Large Language Models: Application through Production
Databricks: Large Language Models: Foundation Models from the Ground Up
Теперь вы сможете удивлять своими познаниями на собеседованиях про LLM из 🧱
PS Databricks готов к новому раунду инвестиций и они планируют выйти в положительный кэш фло в 2025. Думаю многие сотрудники databricks неплохо обкешатся рано и поздно.
Вот у snowflake тоже акции были дорогие на IPO но потом упали (явно были переоценены), посмотрим как у databricks.
edX
Computer science courses | edX
With computer science courses on edX, you can study the industry essentials alongside Harvard’s experts. Explore CS50 courses and sign up today.
Forwarded from e/acc
Люди: изобрели промт «думай пошагово», улучшили производительность LLM, горды собой
LLM: придумал для себя промт «глубоко вдохни и подумай», улучшил производительность еще сильнее, забыл сообщить об этом кожаным
В данной таблице приведены примеры промтов, которые LLM делают сами для себя и их сравнительная эффективность.
LLM: придумал для себя промт «глубоко вдохни и подумай», улучшил производительность еще сильнее, забыл сообщить об этом кожаным
В данной таблице приведены примеры промтов, которые LLM делают сами для себя и их сравнительная эффективность.
Forwarded from Мысли Рвачева
📊 Advanced Data Analysis от OpenAI: Эволюция аналитики данных
Не так давно я столкнулся с функцией Advanced Data Analysis, которую предоставляет OpenAI. Для тех, кто не в курсе, это нечто большее, чем просто инструмент для анализа данных.
Как это работает? Ваши данные обрабатываются на серверах компании с помощью gpt-4. И эта модель может не только написать код, но и исполнить его. И хотя это может показаться техническим, результаты порой поражают.
Что мне понравилось:
Автоматизация работы с эксель-таблицами - фильтрация, прогнозирование.
Конвертация данных между форматами.
Генерация дополнительных данных.
Построение и интерпретация графиков.
Возможность работы с медиафайлами (хотя я им пока мало пользовался).
Представьте: у меня есть данные о клиентах. Я задаю модели вопросы, и она быстро выдает ответы. Наиболее удивительно то, как модель может предложить разные способы анализа или аппроксимации данных.
Тем не менее, есть и недостатки. Модель иногда интерпретирует запросы по-своему, и нужно дважды проверять результаты. Есть определенные нюансы, на которые следует обратить внимание, чтобы получить наилучший результат.
Для тех, кто хочет попробовать: функция доступна в настройках OpenAI. Перейдите в Settings & Beta, затем выберите Beta features и активируйте "Advanced data analysis". Обратите внимание: эта функция доступна только для платных пользователей OpenAI Plus.
Но в итоге? Для меня это настоящая революция в аналитике. То, что раньше занимало часы в Excel или Python, теперь можно сделать за минуты.
Кто бы мог подумать, что будущее аналитики так близко? Как вы думаете, готовы ли мы к таким изменениям?
Пример использования:
1) https://www.youtube.com/watch?v=Axm_at_LuCA
2) https://www.youtube.com/watch?v=PBZVCjkTGrY
#ai #gpt #analytics #openai
Не так давно я столкнулся с функцией Advanced Data Analysis, которую предоставляет OpenAI. Для тех, кто не в курсе, это нечто большее, чем просто инструмент для анализа данных.
Как это работает? Ваши данные обрабатываются на серверах компании с помощью gpt-4. И эта модель может не только написать код, но и исполнить его. И хотя это может показаться техническим, результаты порой поражают.
Что мне понравилось:
Автоматизация работы с эксель-таблицами - фильтрация, прогнозирование.
Конвертация данных между форматами.
Генерация дополнительных данных.
Построение и интерпретация графиков.
Возможность работы с медиафайлами (хотя я им пока мало пользовался).
Представьте: у меня есть данные о клиентах. Я задаю модели вопросы, и она быстро выдает ответы. Наиболее удивительно то, как модель может предложить разные способы анализа или аппроксимации данных.
Тем не менее, есть и недостатки. Модель иногда интерпретирует запросы по-своему, и нужно дважды проверять результаты. Есть определенные нюансы, на которые следует обратить внимание, чтобы получить наилучший результат.
Для тех, кто хочет попробовать: функция доступна в настройках OpenAI. Перейдите в Settings & Beta, затем выберите Beta features и активируйте "Advanced data analysis". Обратите внимание: эта функция доступна только для платных пользователей OpenAI Plus.
Но в итоге? Для меня это настоящая революция в аналитике. То, что раньше занимало часы в Excel или Python, теперь можно сделать за минуты.
Кто бы мог подумать, что будущее аналитики так близко? Как вы думаете, готовы ли мы к таким изменениям?
Пример использования:
1) https://www.youtube.com/watch?v=Axm_at_LuCA
2) https://www.youtube.com/watch?v=PBZVCjkTGrY
#ai #gpt #analytics #openai
YouTube
ChatGPT Advanced Data Analysis (Data Analytics in a few minutes!)
Do you think data analytics was a complex and time-consuming task? This is no longer true. OpenAI has recently unveiled Advanced Data Analysis. Now, with Advanced Data Analysis, anyone can perform data analytics in just a few minutes.
Telecom data: http…
Telecom data: http…
Forwarded from LEFT JOIN
LlamaIndex — фреймворк для работы с LLM и данными разных форматов
Он упрощает как обучение нейросетей, так и обработку больших объемов информации. В него можно загружать таблицы, тексты, презентации, графики, изображениями, API, веб-страницы — практически любые виды данных. LlamaIndex индексирует и анализирует их, чтобы ускорить поиск информации и интеграцию с внешними приложениями и нейросетями.
Что это дает на практике?
🔵 Удобный интерфейс для взаимодействия с LLM. Можно загрузить в LlamaIndex документ, а затем попросить краткое содержание или задать конкретный вопрос. Фреймворк обработает данные и запрос пользователя, передаст их нейросети, а та уже выдаст ответ.
🔵 Объединение разных источников информации и моделей в одну систему. Задать вопрос ChatGPT можно и без дополнительных инструментов, но если у вас много разных видов данных, удобнее собрать их в кучу в единый индекс, который и создает LlamaIndex.
🔵 Структурированные данные для обучения LLM.
В общем, LlamaIndex — удобный и гибкий инструмент, который может упростить работу, если вы часто экспериментируете с нейросетями.
Он упрощает как обучение нейросетей, так и обработку больших объемов информации. В него можно загружать таблицы, тексты, презентации, графики, изображениями, API, веб-страницы — практически любые виды данных. LlamaIndex индексирует и анализирует их, чтобы ускорить поиск информации и интеграцию с внешними приложениями и нейросетями.
Что это дает на практике?
В общем, LlamaIndex — удобный и гибкий инструмент, который может упростить работу, если вы часто экспериментируете с нейросетями.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Newprolab: обучение DE и DS
В OpenAI теперь есть опенсорсная коллекция примеров и гайдов по использованию OpenAI API - там много чего интересного!
https://cookbook.openai.com/
https://cookbook.openai.com/
Forwarded from Sber AI
Энтузиазм или озабоченность: зачем ИИ программистам?
Граждане рисуют нейрохудожниками и играются с ИИ-чат-ботами, а кодеры просто делают свою работу. Для них ИИ является инструментом прямо сейчас. Но насколько важным и полезным? Это прямо шескпировский вопрос😏
В GitLab тоже захотели это выяснить и опросили более 1 000 профи-разработчиков во всём мире. Результаты интересные. Вот, например, 83% считают, что для конкурентоспособности ИИ, конечно, надо внедрять, а 79% прямо тревожатся, что он получит доступ к конфиденциальной информации и интеллектуальной собственности.
Учитывая, что это почти равные доли, ситуация как в анекдоте с обезьяной, которая не знала куда себя записать — в умные или в красивые.
Ещё цифры:
🔹 51% считает ИИ ключевым для повышения производительности
🔹 81% хочет, чтобы их подготовили к использованию ИИ
🔹 75% могут обучиться этому в своих же компаниях. Но…
🔹 В 65% случаев компании планируют нанять новых специалистов
На генерацию кода программеры тратят 25% времени, но в 60% случаев ИИ может повысить производительность.
Однозначных ответов пока нет. Но ясно одно: многому придётся учиться ☝️
Граждане рисуют нейрохудожниками и играются с ИИ-чат-ботами, а кодеры просто делают свою работу. Для них ИИ является инструментом прямо сейчас. Но насколько важным и полезным? Это прямо шескпировский вопрос
В GitLab тоже захотели это выяснить и опросили более 1 000 профи-разработчиков во всём мире. Результаты интересные. Вот, например, 83% считают, что для конкурентоспособности ИИ, конечно, надо внедрять, а 79% прямо тревожатся, что он получит доступ к конфиденциальной информации и интеллектуальной собственности.
Учитывая, что это почти равные доли, ситуация как в анекдоте с обезьяной, которая не знала куда себя записать — в умные или в красивые.
Ещё цифры:
🔹 51% считает ИИ ключевым для повышения производительности
🔹 81% хочет, чтобы их подготовили к использованию ИИ
🔹 75% могут обучиться этому в своих же компаниях. Но…
🔹 В 65% случаев компании планируют нанять новых специалистов
На генерацию кода программеры тратят 25% времени, но в 60% случаев ИИ может повысить производительность.
Однозначных ответов пока нет. Но ясно одно: многому придётся учиться ☝️
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Yandex Cloud
В тестировании YandexGPT приняли участие 800 компаний, больше всего — ИТ, ритейл и банки.
Компании проверили возможности YandexGPT в нескольких десятках сценариев применения больших языковых моделей. Специалисты Yandex Cloud поделили эти сценарии на шесть основных групп: контентные задачи, создание чат-ботов и виртуальных ассистентов, обобщение и агрегация данных по рабочим чатам, отзывам; анализ и классификация запросов пользователей; ответы на вопросы пользователей и выделение сущностей из текстов.
На основе этих запросов в новой версии продукта добавились новые возможности:
Теперь в ходе текстового диалога с пользователем YandexGPT помнит контекст — например, если пользователь задал вопрос, получил ответ и затем просит дополнительно уточнить информацию по тому же вопросу.
Возможность использовать в YandexGPT модель, дообученную на пользовательских данных. Например, это может быть полезно в областях, которые оперируют специфическими понятиями и терминами.
Способ представления слов в виде числовых векторов, благодаря которому сервис лучше понимает значения слов в зависимости от контекста.
Бизнесу доступна новая нейросеть, которая намного лучше справляется с задачами стилизации, пересказа и анализа, создания текстов и ответов на вопросы.
До конца года продукт будет доступен клиентам Yandex Cloud в формате публичного превью. Его можно будет использовать для разработки приложений или в тестовом окружении. Подробнее по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Вот сейчас будет круто: команда энтузиастов создала модель Open Interpreter — копию Code Interpreter в ChatGPT, но работающую локально.
Благодаря этому вы можете делать что угодно со своим компьютером с помощью текстовых команд — сделать краткую выжимку со статьи Word, изменить настройки системы или управлять браузером.
Доступно полностью бесплатно, установить можно с GitHub.
https://t.me/exploitex/9595
Благодаря этому вы можете делать что угодно со своим компьютером с помощью текстовых команд — сделать краткую выжимку со статьи Word, изменить настройки системы или управлять браузером.
Доступно полностью бесплатно, установить можно с GitHub.
https://t.me/exploitex/9595
Forwarded from Александр Ершов | AI и бизнес
AI программист
Я пользуюсь GitHub Copilot для ускорения процесса разработки. Он может писать небольшие куски кода, документацию к методам и классам, предлагать как исправить баг, если ему отправить текст из логов и указать конкретный файл или даже кусок кода с ошибкой. Но он не может заменить программиста, даже джуниора.
Ему не хватает:
• Возможности держать в контексте весь проект, а не только один файл.
• Возможности реально запускать и проверять те изменения в коде, которые он предложил.
• Доступа к интернету для поиска актуальной информации / документации, а не только к той, на которой обучена LLM.
Вчера я наткнулся на сервис Devin, который пытается решить эти проблемы. Devin представляет из себя LLM + браузер для поиска актуальной информации + виртуальное окружение для запуска и проверки изменений + кодовый редактор.
На их сайте есть примеры решения реальных задач с Upwork end-to-end. Например, тут стоит задача разобраться как запустить computer vision модель из GitHub репозитория.
• Devin сам делает git pull
• Ставит нужные зависимости
• Исправляет ошибки в зависимостях и коде
• И запускает модель
Звучит круто, хочеться попробовать на своих примерах в реальности. Когда дадут доступ к бете, опишу что вышло 😉
Я пользуюсь GitHub Copilot для ускорения процесса разработки. Он может писать небольшие куски кода, документацию к методам и классам, предлагать как исправить баг, если ему отправить текст из логов и указать конкретный файл или даже кусок кода с ошибкой. Но он не может заменить программиста, даже джуниора.
Ему не хватает:
• Возможности держать в контексте весь проект, а не только один файл.
• Возможности реально запускать и проверять те изменения в коде, которые он предложил.
• Доступа к интернету для поиска актуальной информации / документации, а не только к той, на которой обучена LLM.
Вчера я наткнулся на сервис Devin, который пытается решить эти проблемы. Devin представляет из себя LLM + браузер для поиска актуальной информации + виртуальное окружение для запуска и проверки изменений + кодовый редактор.
На их сайте есть примеры решения реальных задач с Upwork end-to-end. Например, тут стоит задача разобраться как запустить computer vision модель из GitHub репозитория.
• Devin сам делает git pull
• Ставит нужные зависимости
• Исправляет ошибки в зависимостях и коде
• И запускает модель
Звучит круто, хочеться попробовать на своих примерах в реальности. Когда дадут доступ к бете, опишу что вышло 😉
Forwarded from Neurohive
Gorilla: open source модель для вызова 1600+ сторонних API
Gorilla получает на вход запрос на естественном языке и находит семантически и синтаксически правильное API для вызова. С помощью Gorilla впервые продемонстрировано, как использовать LLMs для точного вызова более 1 600 API (их число постоянно растет).
Модель обученна на основе LLaMA и превосходит производительность GPT-4 в написании вызовов API. Gorilla генерирует корректные вызовы API для моделей машинного обучения без галлюцинаций, адаптируется к изменениям в документации и принимает во внимание ограничения API. Производительность настроенной модели превосходит GPT-4 на трех масштабных наборах данных.
Для оценки возможностей модели авторы создали набор данных APIBench, который включает в себя API HuggingFace, TorchHub и TensorHub. Если хотите добавить свое API, просто создайте пул-реквест в репозитории и напишите авторам на электронную почту.
#StateoftheArt
Gorilla получает на вход запрос на естественном языке и находит семантически и синтаксически правильное API для вызова. С помощью Gorilla впервые продемонстрировано, как использовать LLMs для точного вызова более 1 600 API (их число постоянно растет).
Модель обученна на основе LLaMA и превосходит производительность GPT-4 в написании вызовов API. Gorilla генерирует корректные вызовы API для моделей машинного обучения без галлюцинаций, адаптируется к изменениям в документации и принимает во внимание ограничения API. Производительность настроенной модели превосходит GPT-4 на трех масштабных наборах данных.
Для оценки возможностей модели авторы создали набор данных APIBench, который включает в себя API HuggingFace, TorchHub и TensorHub. Если хотите добавить свое API, просто создайте пул-реквест в репозитории и напишите авторам на электронную почту.
#StateoftheArt
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Grok выложили в открытый доступ
🔸 В open source выложили языковую модель Grok-1 от X.AI (твиттер). Название идёт из книги Хайнлайна «Чужак в стране чужой», где воспитанный марсианами человек «грокал» все новые для себя понятия на Земле.
🔸 Модель является претрейном, т.е. для работы в формате диалога её надо будет дообучать на инструкциях.
🔸 Архитектурно это MoE (Mixture of Experts) с 314B параметров (~300Гб). На инференсе активируется 8 экспертов (25% весов).
🔸 Токенизатор на 131k токенов.
🔸 Лицензия Apache 2.0.
👉 GitHub | Release
🔸 В open source выложили языковую модель Grok-1 от X.AI (твиттер). Название идёт из книги Хайнлайна «Чужак в стране чужой», где воспитанный марсианами человек «грокал» все новые для себя понятия на Земле.
🔸 Модель является претрейном, т.е. для работы в формате диалога её надо будет дообучать на инструкциях.
🔸 Архитектурно это MoE (Mixture of Experts) с 314B параметров (~300Гб). На инференсе активируется 8 экспертов (25% весов).
🔸 Токенизатор на 131k токенов.
> tokenizer.EncodeAsPieces('Языковая модель Grok')
> ['▁Я', 'зы', 'кова', 'я', '▁мо', 'дель', '▁Gro', 'k']🔸 Лицензия Apache 2.0.
👉 GitHub | Release
Forwarded from GPT/ChatGPT/AI Central Александра Горного
This media is not supported in your browser
VIEW IN TELEGRAM
Devin — автономный AI-программист, который умеет самостоятельно разрабатывать приложения
Devin получает текстовый запрос от пользователя, составляет план разработки и, следуя плану, пишет нужный код. По ходу разработки нейросеть самостоятельно скачивает нужные файлы, изучает документацию и исправляет ошибки в коде.
—
@aioftheday — новости вокруг искусственного интеллекта
Devin получает текстовый запрос от пользователя, составляет план разработки и, следуя плану, пишет нужный код. По ходу разработки нейросеть самостоятельно скачивает нужные файлы, изучает документацию и исправляет ошибки в коде.
—
@aioftheday — новости вокруг искусственного интеллекта
Forwarded from Sber AI
Новый чемпион опенсорса: DBRX победила Grok (и всех остальных)
И это несмотря на то, что размеры детища Маска превышают разработку от Databricks в два раза.
Больше подробностей:
⌛ LLM использует архитектуру Mixture of Experts
⌛ общее количество параметров 132 млрд, из которых 36 активны при любом вводе
⌛ обучена с помощью 3 000 H100 и 12 трлн токенов текстовых данных и кода
⌛ максимальная длина контекста — 32 тысячи токенов
⌛ датасет — более совершенный, чем тот, что использовали для обучения моделей семейства MPT
⌛ в модели задействовано в два раза больше экспертов: 16 (активных 4) при 8 у конкурентов (при активных 2)
⌛ соответственно, в 65 раз больше возможных комбинаций экспертов
DBRX Base и DBRX Instruct доступны для скачивания на Hugging Face. Репозиторий моделей DBRX можно найти на GitHub.
Больше информации в блоге разработчика.
Изображение DBRX
И это несмотря на то, что размеры детища Маска превышают разработку от Databricks в два раза.
Больше подробностей:
DBRX Base и DBRX Instruct доступны для скачивания на Hugging Face. Репозиторий моделей DBRX можно найти на GitHub.
Больше информации в блоге разработчика.
Изображение DBRX
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Я – Дата Инженер
Мой список GPT, которыми я пользуюсь:
1. You.com
2. OpenChat
3. Mistral
4. Julius - может читать загружаемые данные
Причем Julius – это прям Jupyter Notebook, где в ячейках на Input сидит ChatGPT и читает ваш промпт, а в ячейках на вывод пишется и автоматически запускается код. Т.е. например я загрузил CSV файл, попросил проанализировать, и в ответ GPT начинает писать код на pandas и тут же его запускает. По факту конечно GPT не анализирует ваши данные, он лишь пишет код и дает команду на запуск. В ответ получает json с датафреймом, который можно распечатать в той же ячейке. А это считайте, как текст. Ну а с текстом chat работать умеет. Тут он просто его пересказывает.
Чисто в теории я уже думаю, что нет проблем запустить таким образом и spark приложение. Будет подольше, но в целом логика та же. Т.е. все что нужно – это дать нейронке читать содержимое ячеек пользователя.
Следующий шаг – дать возможность нейронке именно обучаться на данных. Очевидно, что это будет занимать куда больше времени. Но что если дать обучить на условном сэмпле одного дня в 1Тб, а дальше уже писать код, ориентированный на специфику хранения данных.
Если есть мысли на это счет, wellcome в комменты. А также можете поделиться своими ссылками на полезные AI
https://awclub.github.io/catalog/ - Библиотека всех AI
Please open Telegram to view this post
VIEW IN TELEGRAM
В BigQuery слева-сверху окна редактора запросов появилась кнопка ввода промта. Умение писать SQL запросы постепенно обесценивается, но и скорость написания запросов и исправление ошибок становится быстрее.
@killer_ferature
@killer_ferature
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
#LLaMa 3 добавили в #VSCode.
Ставите расширение CodeGPT для VSCode и потом ставите Ollama, после чего в терминале пишем:
В настройках расширения, где «Select a mode» выбираете LLaMa 3 и пользуемся.
#LLaMa3 #CodeGPT #Ollama
Ставите расширение CodeGPT для VSCode и потом ставите Ollama, после чего в терминале пишем:
ollama pull llama3:8bВ настройках расширения, где «Select a mode» выбираете LLaMa 3 и пользуемся.
#LLaMa3 #CodeGPT #Ollama
🔥1
Forwarded from Cross Join - канал о разработке (Anton Okolelov)
Написал статью про семантический поиск с помощью посгреса и OpenAI API.
Казалось бы, в посгресе и так есть неплохой полнотекстовый поиск (tsvector/tsquery), и вы из коробки можете проиндексировать ваши тексты, а потом поискать по ним. Но на самом деле это не совсем то, что нужно — такой поиск работает лишь по чётким совпадениям слов. Т.е. postgres не догадается, что "кошка гонится за мышью" — это довольно близко к "котёнок охотится на грызуна". Как же победить такую проблему?
TLDR:
1. Преобразовываем наши тексты в наборы чисел (векторы) при помощи API openAI.
2. Сохраняем векторы в базе с помощью pgvector.
3. Легко ищем близкие друг к другу векторы или ищем их по вектору-запросу.
4. Ускоряем индексами.
Как всегда, буду рад плюсикам на Хабре:
https://habr.com/ru/companies/karuna/articles/809305/
Канал Cross Join. Подпишись
Казалось бы, в посгресе и так есть неплохой полнотекстовый поиск (tsvector/tsquery), и вы из коробки можете проиндексировать ваши тексты, а потом поискать по ним. Но на самом деле это не совсем то, что нужно — такой поиск работает лишь по чётким совпадениям слов. Т.е. postgres не догадается, что "кошка гонится за мышью" — это довольно близко к "котёнок охотится на грызуна". Как же победить такую проблему?
TLDR:
1. Преобразовываем наши тексты в наборы чисел (векторы) при помощи API openAI.
2. Сохраняем векторы в базе с помощью pgvector.
3. Легко ищем близкие друг к другу векторы или ищем их по вектору-запросу.
4. Ускоряем индексами.
Как всегда, буду рад плюсикам на Хабре:
https://habr.com/ru/companies/karuna/articles/809305/
Канал Cross Join. Подпишись
💬 Amazon открыла больший доступ к своему корпоративному чат-боту Q. Инструмент также обзавелся новыми функциями.
Новая функция Amazon Q Developer помогает с кодированием, тестированием и отладкой приложений. Разработчики могут запрашивать у чат-бота список ресурсов AWS и автоматизировать задачи.
🧑💻 Amazon Q Apps позволяет создавать приложения на базе генеративного ИИ даже без опыта кодирования. Для этого достаточно описать нужный тип программы в запросе.
#Amazon #Q
Новая функция Amazon Q Developer помогает с кодированием, тестированием и отладкой приложений. Разработчики могут запрашивать у чат-бота список ресурсов AWS и автоматизировать задачи.
🧑💻 Amazon Q Apps позволяет создавать приложения на базе генеративного ИИ даже без опыта кодирования. Для этого достаточно описать нужный тип программы в запросе.
#Amazon #Q