OSS AI на подъеме
Сегодня ходил на митап по разработке ИИ с открытым исходным кодом (или open source software). Митап проходил в довольно модном коворкинге Shack15 и был организован CerebralValley x OLlama.
Daniel представил обновление для Ollama, которая теперь поддерживает Windows (начиная с Windows 10) и GPU NVidia.
Lance из LangChain показал LangGraph — инструмент для построения агентных процессов в виде графов, где каждое действие LLM является узлом графа.
Charlie из Replicate продемонстрировал забавный проект "Прокрастинационный коуч", который использует LLava для мониторинга экрана пользователя и предупреждения о прокрастинации.
Joao из CrewAl и Radamés из Hugging Face представили новые агентные фреймворки и исследования в области генерации изображений в реальном времени, продемонстрировав значительный прогресс в визуализации и интерактивности.
Ty из Continue.dev рассмотрел, какие открытые LLM используют разработчики для написания кода (на их платформе это LlamaCode 7B), а Sourabh из LlamaIndex показал RagCLI — мультимодальный интерфейс для взаимодействия с файлами на локальной системе через чат.
Eric Hartford (на мой взгляд самый прикольный доклад митапа) показал интересный подход к слиянию моделей ИИ с помощью MergeKit, позволяя объединять различные модели для создания улучшенных версий с расширенными возможностями. Он сравнил 🤗 с чашкой Петри, в которой происходят неконтролируемые мутации моделей (или скрещивание), которое скорее всего приведёт к чумовым результатам (LLM хаска vs LLM мопс).
Так и живем после работы
Сегодня ходил на митап по разработке ИИ с открытым исходным кодом (или open source software). Митап проходил в довольно модном коворкинге Shack15 и был организован CerebralValley x OLlama.
Daniel представил обновление для Ollama, которая теперь поддерживает Windows (начиная с Windows 10) и GPU NVidia.
Lance из LangChain показал LangGraph — инструмент для построения агентных процессов в виде графов, где каждое действие LLM является узлом графа.
Charlie из Replicate продемонстрировал забавный проект "Прокрастинационный коуч", который использует LLava для мониторинга экрана пользователя и предупреждения о прокрастинации.
Joao из CrewAl и Radamés из Hugging Face представили новые агентные фреймворки и исследования в области генерации изображений в реальном времени, продемонстрировав значительный прогресс в визуализации и интерактивности.
Ty из Continue.dev рассмотрел, какие открытые LLM используют разработчики для написания кода (на их платформе это LlamaCode 7B), а Sourabh из LlamaIndex показал RagCLI — мультимодальный интерфейс для взаимодействия с файлами на локальной системе через чат.
Eric Hartford (на мой взгляд самый прикольный доклад митапа) показал интересный подход к слиянию моделей ИИ с помощью MergeKit, позволяя объединять различные модели для создания улучшенных версий с расширенными возможностями. Он сравнил 🤗 с чашкой Петри, в которой происходят неконтролируемые мутации моделей (или скрещивание), которое скорее всего приведёт к чумовым результатам (LLM хаска vs LLM мопс).
Так и живем после работы
Заработай на своем баритоне
ElevenLabs представляет программу лицензирования голоса, открывающую возможности для монетизации вашего голоса. Если у вас какой-то особенный голос - то это ваш шанс не только оставить свой след в мире цифровых технологий, но и получить пассивный доход.
Как это работает? Процесс прост: вы предоставляете образцы своего голоса, после чего специалисты ElevenLabs используют передовые технологии для его клонирования. Ваш цифровой голосовой двойник затем размещается в специализированном магазине ElevenLabs, где его могут приобрести или арендовать для различных целей – от создания контента до использования в качестве голоса виртуального ассистента.
Кажется что это возможность заработать на своем голосе. Каждый раз, когда кто-то покупает или берет в аренду ваш голос, вы получаете роялти. Это открывает потенциал для постоянного дохода без дополнительных усилий со стороны владельца голоса.
🎤 Сдать свой голос
ElevenLabs представляет программу лицензирования голоса, открывающую возможности для монетизации вашего голоса. Если у вас какой-то особенный голос - то это ваш шанс не только оставить свой след в мире цифровых технологий, но и получить пассивный доход.
Как это работает? Процесс прост: вы предоставляете образцы своего голоса, после чего специалисты ElevenLabs используют передовые технологии для его клонирования. Ваш цифровой голосовой двойник затем размещается в специализированном магазине ElevenLabs, где его могут приобрести или арендовать для различных целей – от создания контента до использования в качестве голоса виртуального ассистента.
Кажется что это возможность заработать на своем голосе. Каждый раз, когда кто-то покупает или берет в аренду ваш голос, вы получаете роялти. Это открывает потенциал для постоянного дохода без дополнительных усилий со стороны владельца голоса.
🎤 Сдать свой голос
Андрей Карпаты ушел из OpenAI
Андрей Карпаты, знаменитый исследователь искусственного интеллекта и один из основателей OpenAI, покинул компанию 12ого февраля 2024 года.
Говорит, что ушел не почему то конкретному, и что вообще ему нравилось тусоваться в OpenAI.
Из его сообщения можно предположить, что он ушел разрабатывать LLM OS (и видимо в ближайшем будущем, не стоит ждать этого направления от OpenAI).
Обещает не забрасывать свои видео-лекции (в комментах написал что уже работает над новой).
Ну что ж, будем посмотреть 👀
Х
Андрей Карпаты, знаменитый исследователь искусственного интеллекта и один из основателей OpenAI, покинул компанию 12ого февраля 2024 года.
Говорит, что ушел не почему то конкретному, и что вообще ему нравилось тусоваться в OpenAI.
Из его сообщения можно предположить, что он ушел разрабатывать LLM OS (и видимо в ближайшем будущем, не стоит ждать этого направления от OpenAI).
Обещает не забрасывать свои видео-лекции (в комментах написал что уже работает над новой).
Ну что ж, будем посмотреть 👀
Х
Infinite Craft: игра, с LLM в качестве движка
Давным давно, во времена, когда я учился в школе и скучал на уроках, была такая игра - надо было соединять элементы и из них получались новые (кто вспомнит название - пишите).
Так вот, на днях, кто-то сделал реанимировал ее с помощью языковых моделей.
Как играть:
Нажимаем на 2 элемента -> они соединяются в новый (конечно же, что за новый элемент, решает Мистраль на серверах together.ai). Местами получается очень даже забавно.
🦝 Играть
Давным давно, во времена, когда я учился в школе и скучал на уроках, была такая игра - надо было соединять элементы и из них получались новые (кто вспомнит название - пишите).
Так вот, на днях, кто-то сделал реанимировал ее с помощью языковых моделей.
Как играть:
Нажимаем на 2 элемента -> они соединяются в новый (конечно же, что за новый элемент, решает Мистраль на серверах together.ai). Местами получается очень даже забавно.
🦝 Играть
Forwarded from Сиолошная
Как обещал, пост про интересное применение длинного контекста в новой Gemini Pro v1.5
Google доучили свою модельку работать с миллионом токенов (GPT-4 поддерживает 128 тысяч, Claude 2 200 тысяч), причём, мультимодальных — то есть это могут быть и раскадровки видео, и текст, и просто набор изображений. Сюда влезет вся «Война и мир», наконец-то!
Но каждый раз когда мы говорим про длинный контекст встаёт вопрос: а он вообще работает? И какие возможности открывает? Я не буду отвечать на второй вопрос, но постараюсь пересказать пример ответа на первый — ведь это один из самых интересных пунктах в демках Google. И связан он с переводом каламанга. Каламанг — это язык, на котором говорят менее 200 человек (не тысяч, просто человек) в западной части Новой Гвинеи, на востоке индонезийского Папуа. Каламанг почти не представлен в Интернете, и любая модель просто не будет его знать — как и профессиональный лингвист.
Однако недавно был предложен бенчмарк по оценке навыков перевода модели с помощью 573-страничной книги лингвистки Eline Visser. В своей работе «A Grammar of Kalamang» она описывает правила языка, его устройство, часто используемые фразы итд. Это уникальный артефакт, позволяющий другим лингвистам с книжкой в одной руке и табличкой «слово -> перевод» в другой за несколько часов разобраться в языке и начать хоть как-то его переводить. Без контекста (книга+словарь) модель Gemini Pro v1.5 делает переводы, сравнимые по качеству со случайным гаданием.
Идея: давайте в промпт языковой модели положим и всю книгу от корки до корки, и словарик, и затем попросим LLM перевести текст либо с каламанга на английский, либо наоборот.
Тогда качество переводов становится сравнимым с качеством перевода человека, который работал с теми же материалами (в рамках бенчмарка им отводилось до 10 часов на перевод определенных текстов). Метрики вышли даже чуть выше, чем у кожаных, что, как предполагают авторы, модель очень эффективно утилизирует контекст, используя знания из книги на полную для выполнения сложной интеллектуальной задачи.
Так как в лабораториях Google тестируется модель на 10M токенов (20-30 книг и учебников?), то можно предположить, что качество перевода для очень редких и малоизученных языков в ближайшие полгода оооооочень сильно скакнёт.
Если вам интересно, как можно сделать такой длинный контекст, то отсылаю вас к этой работе, вышедшей за пару дней до гугловской, и по сути показыающей те же самые навыки (но применительно к видео и точности поиска в контексте).
Google доучили свою модельку работать с миллионом токенов (GPT-4 поддерживает 128 тысяч, Claude 2 200 тысяч), причём, мультимодальных — то есть это могут быть и раскадровки видео, и текст, и просто набор изображений. Сюда влезет вся «Война и мир», наконец-то!
Но каждый раз когда мы говорим про длинный контекст встаёт вопрос: а он вообще работает? И какие возможности открывает? Я не буду отвечать на второй вопрос, но постараюсь пересказать пример ответа на первый — ведь это один из самых интересных пунктах в демках Google. И связан он с переводом каламанга. Каламанг — это язык, на котором говорят менее 200 человек (не тысяч, просто человек) в западной части Новой Гвинеи, на востоке индонезийского Папуа. Каламанг почти не представлен в Интернете, и любая модель просто не будет его знать — как и профессиональный лингвист.
Однако недавно был предложен бенчмарк по оценке навыков перевода модели с помощью 573-страничной книги лингвистки Eline Visser. В своей работе «A Grammar of Kalamang» она описывает правила языка, его устройство, часто используемые фразы итд. Это уникальный артефакт, позволяющий другим лингвистам с книжкой в одной руке и табличкой «слово -> перевод» в другой за несколько часов разобраться в языке и начать хоть как-то его переводить. Без контекста (книга+словарь) модель Gemini Pro v1.5 делает переводы, сравнимые по качеству со случайным гаданием.
Идея: давайте в промпт языковой модели положим и всю книгу от корки до корки, и словарик, и затем попросим LLM перевести текст либо с каламанга на английский, либо наоборот.
Тогда качество переводов становится сравнимым с качеством перевода человека, который работал с теми же материалами (в рамках бенчмарка им отводилось до 10 часов на перевод определенных текстов). Метрики вышли даже чуть выше, чем у кожаных, что, как предполагают авторы, модель очень эффективно утилизирует контекст, используя знания из книги на полную для выполнения сложной интеллектуальной задачи.
Так как в лабораториях Google тестируется модель на 10M токенов (20-30 книг и учебников?), то можно предположить, что качество перевода для очень редких и малоизученных языков в ближайшие полгода оооооочень сильно скакнёт.
Если вам интересно, как можно сделать такой длинный контекст, то отсылаю вас к этой работе, вышедшей за пару дней до гугловской, и по сути показыающей те же самые навыки (но применительно к видео и точности поиска в контексте).
Forwarded from Что-то на нейронаучном - Полина Кривых (Polina Krivykh)
Вы уже активно используете плоды работы ИИ (искусственного интеллекта), даже не задумываясь об этом:
навигатор простраивает вам маршрут,
онлайн-кинотеатр рекомендует фильмы в разделе "вам понравится",
чат-боты отвечают на ваши вопросы
- и это лишь верхушка айсберга.
Сделала подборку топовых онлайн-курсов для тех, кто решил разобраться в новом всемирном тренде и понять принципы работы ИИ.
Introduction to Generative AI
Introduction to Large Language Models
Нейронные сети и их применение в научных исследованиях
Introduction to Artificial Intelligence (AI)
AI Foundations for Everyone Specialization
HarvardX: CS50's Introduction to Artificial Intelligence with Python
***
Подбор индивидуальной программы обучения от Полины Кривых
Гайд, как бесплатно проходить курсы на Coursera
навигатор простраивает вам маршрут,
онлайн-кинотеатр рекомендует фильмы в разделе "вам понравится",
чат-боты отвечают на ваши вопросы
- и это лишь верхушка айсберга.
Сделала подборку топовых онлайн-курсов для тех, кто решил разобраться в новом всемирном тренде и понять принципы работы ИИ.
Introduction to Generative AI
Introduction to Large Language Models
Нейронные сети и их применение в научных исследованиях
Introduction to Artificial Intelligence (AI)
AI Foundations for Everyone Specialization
HarvardX: CS50's Introduction to Artificial Intelligence with Python
***
Подбор индивидуальной программы обучения от Полины Кривых
Гайд, как бесплатно проходить курсы на Coursera
OpenAI Forum: платформа для формирования будущего ИИ с учётом вашего мнения
Форум – это инициатива OpenAI, объединяющая экспертов, исследователей и студентов для сотрудничества и (условно) совместной лепки искусственного интеллекта на благо всего человечества. На мой взгляд, круто, что OpenAI решили спросить человечество, в чем это благо.
Участники получат доступ к мероприятиям, к сети экспертов, включая исследователей и технологов OpenAI, а также возможность участия в исследовательских проектах OpenAI (за вознаграждение).
Цель - построить экосистему сотрудничества и создать площадку для обсуждения и формирования вариантов взаимодействия ИИ в различных областях жизни общества. Хочется верить, что самых разных областей - от запуска космических кораблей до юмора и флирта. Поэтому не стесняйтесь дропнуть заявку, ладушки?
Критерии для присоединения:
⁃ возможность уделять по часу времени в квартал на участие в мероприятиях,
⁃ демонстрируемая экспертиза в своей профессиональной области или академической дисциплине,
⁃ интерес на пересечении своего экспертного домена и ИИ. Например, к техническим и/или этическим вопросам.
Заявки рассматриваются на постоянной основе, потому что эта инициатива про максимальную представленность, инклюзивность и внимание к разнообразными точками зрения.
Подать заявку можно по ссылке
Форум – это инициатива OpenAI, объединяющая экспертов, исследователей и студентов для сотрудничества и (условно) совместной лепки искусственного интеллекта на благо всего человечества. На мой взгляд, круто, что OpenAI решили спросить человечество, в чем это благо.
Участники получат доступ к мероприятиям, к сети экспертов, включая исследователей и технологов OpenAI, а также возможность участия в исследовательских проектах OpenAI (за вознаграждение).
Цель - построить экосистему сотрудничества и создать площадку для обсуждения и формирования вариантов взаимодействия ИИ в различных областях жизни общества. Хочется верить, что самых разных областей - от запуска космических кораблей до юмора и флирта. Поэтому не стесняйтесь дропнуть заявку, ладушки?
Критерии для присоединения:
⁃ возможность уделять по часу времени в квартал на участие в мероприятиях,
⁃ демонстрируемая экспертиза в своей профессиональной области или академической дисциплине,
⁃ интерес на пересечении своего экспертного домена и ИИ. Например, к техническим и/или этическим вопросам.
Заявки рассматриваются на постоянной основе, потому что эта инициатива про максимальную представленность, инклюзивность и внимание к разнообразными точками зрения.
Подать заявку можно по ссылке
Google выпустил опенсорс версию Gemini
Новую модель Гугла, с открытыми весами и коммерческой лицензией, зовут Gemma. LLM доступна в 2х вариантах - 2B (работает на телефоне) и 7B (gpu).
7B модель по качеству обгоняет Мистраль 7B v0.1 и почти догоняет Llama 2 70B (на LLM Leaderboard).
Дать задание Instruct модели можно тут
Обратите внимание, что это (пока что) не чат-бот, а модель которой нужно давать инструкции (например напиши email)
🤗 Блог-пост
🖥 Блог-пост
Новую модель Гугла, с открытыми весами и коммерческой лицензией, зовут Gemma. LLM доступна в 2х вариантах - 2B (работает на телефоне) и 7B (gpu).
7B модель по качеству обгоняет Мистраль 7B v0.1 и почти догоняет Llama 2 70B (на LLM Leaderboard).
Дать задание Instruct модели можно тут
Обратите внимание, что это (пока что) не чат-бот, а модель которой нужно давать инструкции (например напиши email)
🤗 Блог-пост
Please open Telegram to view this post
VIEW IN TELEGRAM
Выпустят ли OpenAI GPT-7B в открытый доступ?
Anonymous Poll
21%
Думаю да
53%
Наверное нет
26%
Посмотреть результаты
Авиакомпания попала на деньги из за галлюцинации AI модели
Интересный прецедент из Канады, где суд встал на сторону пассажира, которому чат-бот AirCanada пообещал вернуть деньги.
После смерти бабушки Джейк Моффат зашел на сайт Air Canada, чтобы забронировать рейс из Ванкувера в Торонто. Неуверенный в правилах авиакомпании, он открыл чат-бота и задал ему вопрос.
Чат бот ответил, что пассажир имеет право на частичное возмещение тарифа в случае путешествия на похороны родственника.
К его удивлению, запрос на возврат средств был отклонен по причине того, что предоставленная чат-ботом информация, была неверной.
Дело дошло до суда, где аргумент авиакомпании о том, что чат-бот — это отдельное юридическое лицо, которое несет ответственность за свои действия, суд не убедил. Также гуманный канадский суд не убедил аргумент о том, что клиент никогда не должен доверять информации в чат боте.
В итоге, пассажир выиграл право на свою компенсацию, плюс покрытие всех судебных издержек.
Вообще это огромный прецедент. Так что если используете чат боты, скажите им чтобы особо не болтали, иначе за их креативность придется платить вам
✈️ Статья
Интересный прецедент из Канады, где суд встал на сторону пассажира, которому чат-бот AirCanada пообещал вернуть деньги.
После смерти бабушки Джейк Моффат зашел на сайт Air Canada, чтобы забронировать рейс из Ванкувера в Торонто. Неуверенный в правилах авиакомпании, он открыл чат-бота и задал ему вопрос.
Чат бот ответил, что пассажир имеет право на частичное возмещение тарифа в случае путешествия на похороны родственника.
К его удивлению, запрос на возврат средств был отклонен по причине того, что предоставленная чат-ботом информация, была неверной.
Дело дошло до суда, где аргумент авиакомпании о том, что чат-бот — это отдельное юридическое лицо, которое несет ответственность за свои действия, суд не убедил. Также гуманный канадский суд не убедил аргумент о том, что клиент никогда не должен доверять информации в чат боте.
В итоге, пассажир выиграл право на свою компенсацию, плюс покрытие всех судебных издержек.
Вообще это огромный прецедент. Так что если используете чат боты, скажите им чтобы особо не болтали, иначе за их креативность придется платить вам
✈️ Статья
Дисней купил себе AI голоса для озвучки и дубляжа
У Диснея (одной из самых больших корпораций в мире с оценкой 200 млрд $) есть свой собственный акселератор для стартапов.
Сегодня анонсировали, что в этот акселератор была принята компания ElevenLabs, которая занимается разработкой AI голосовых услуг (например Text-to-speech или дубляж видео в оригинальном голосе, но на новом языке).
Еще совсем недавно, ElevenLabs кстати запустили программу по лицензированию голосов, а теперь стало понятно кто будет главы и покупателем.
Остальные компании в списке, кстати, тоже очень интересные
Анонс
У Диснея (одной из самых больших корпораций в мире с оценкой 200 млрд $) есть свой собственный акселератор для стартапов.
Сегодня анонсировали, что в этот акселератор была принята компания ElevenLabs, которая занимается разработкой AI голосовых услуг (например Text-to-speech или дубляж видео в оригинальном голосе, но на новом языке).
Еще совсем недавно, ElevenLabs кстати запустили программу по лицензированию голосов, а теперь стало понятно кто будет главы и покупателем.
Остальные компании в списке, кстати, тоже очень интересные
Анонс
Методы уменьшения размерности
Какое-то время назад, мы с вами чатились про методы уменьшения размерности. Предлагаю продолжить обсуждение, но в этот раз предметнее:
1) Какие есть бенчмарки, что бы установить что метод X и впрямь самый лучший?
2) Как насчет скорости? Какие самые быстрые методы вы знаете?
3) Самые быстро развивающиеся методы? (Я зашел на гит нескольких вариантов umap и парочку tsne, везде комми там по паре лет, я что-то упустил и все пользуются чем то новеньким?)
Картинка: только что сфоткал в ботаническом саду Сан Франциско
Какое-то время назад, мы с вами чатились про методы уменьшения размерности. Предлагаю продолжить обсуждение, но в этот раз предметнее:
1) Какие есть бенчмарки, что бы установить что метод X и впрямь самый лучший?
2) Как насчет скорости? Какие самые быстрые методы вы знаете?
3) Самые быстро развивающиеся методы? (Я зашел на гит нескольких вариантов umap и парочку tsne, везде комми там по паре лет, я что-то упустил и все пользуются чем то новеньким?)
Картинка: только что сфоткал в ботаническом саду Сан Франциско