градиент обреченный
6.33K subscribers
477 photos
9 videos
7 files
284 links
• Машинное обучение c уклоном в NLP
• Популярная лингвистика
• tg-буст канала https://t.me/doomgrad?boost
Download Telegram
🔺 «Маленький принц» на хакасском

Благодаря Василию Адешкину @adskat, удалось собрать средства на перевод книги на хакасский язык и, собственно, перевести её (перевел Илья Топоев). Большое им спасибо!

📚 Текст выровнял и добавил к другим редакциям, так что можно читать книгу в любых языковых комбинациях.

👉 Книжка, чат
🔺 110

🔸 Это не только средняя температура на Юпитере, но и количество языков, которые на днях добавили в Google Translate (список).

🔸 После того, как Meta выпустила модель NNLB для перевода на 200 языков, Google объявил об инициативе по поддержке 1000 языков и приблизился к обещанному уже на четверть.

🔸 При переводе также используется языковая модель (PaLM 2), а среди новых языков есть много распространенных в России (абхазский, аварский, башкирский, бурятский, чеченский, чувашский, крымско-татарский, коми, марийский, осетинский, тувинский, удмуртский, якутский).

🔸 Модель может иногда ошибается в грамматике. Подобный эффект заметен, когда вы общаетесь с языковыми моделями на русском языке, а при обучении таких данных было недостаточно.

🔸 Вообще, подобный шаг — это отличная поддержка для малоресурсных языков, перевод можно встраивать по API в приложения или использовать для того же выравнивания параллельных книг.

🔸 Чем ответит Яндекс?
Тестируем новый функционал.
🔺 GPT-4o mini. Дешевый зверь

Вышла младшая модель GPT-4o с контекстом на 128k и поддержкой картинок. Вышла на замену GPT-3.5 Turbo.

Цена. $0.6 за миллион исходящих токенов и $0.15 за миллион входящих. Это примерно в 3 раза дешевле чем 3.5-turbo и в 20+ раз дешевле обычной версии.

При использовании режима батчей, пользоваться которым очень просто (если вам нужно обработать несколько тысяч запросов в пределах нескольких часов), цена будет еще в два раза ниже.
Forwarded from Complete AI (Andrey Kuznetsov)
🎬Сегодня вышел выпуск на канале Основа

Получилось довольно круто на мой взгляд! Поговорили с Борисом про современные тренды в ИИ, подискутировали про будущее и возможности современных технологий.

Приглашаю всех посмотреть, выходной как раз этому способствует! Заранее спасибо за просмотр🙏

👉Подкаст
А тем временем канал подрос и нас с вами стало 6000. Довольно большое число, учитывая, что мы тут обсуждаем успехи в области очеловечивания машин и смежные вещи.

Друзья, всем спасибо! 🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
🔺 Парад LLM

За последний месяц как из рога изобилия вышло много полезных и не очень языковых моделей. Соберем в один пост.

🔸 Llama 3.1

Линейка из трех моделей 405B, 70B и 8B параметров. Есть детальный отчет об обучении, модель нативно учили под 8 языков (русского среди них нет, поэтому может ошибаться в грамматике) и использование внешних тулов.

Кроме основных моделей выпустили Llama Guard 3 и Prompt Guard для классификации вредоносных промптов и генераций.

HF | пост | тех. репорт | чат с моделью

🔸 Mistral Large 2

123B параметров и много языков, включая русский. Опять же, есть способности по вызову внешних функций. Заявляют качество на уровне GPT-4o и Claude 3 Opus. Веса также выложили на HF.

А еще в честь 2311-й годовщины Архимеда выпустили MathΣtral, 7B модель с улучшенными способностями в математике; и Codestral Mamba для анализа кода. Новая архитектура позволяет работать с увеличенным контекстом, пишут, что тестили на 256k токенов.

HF | Пост | чат с моделью

🔸 Mistral NeMo

Снова Мистраль, но на этот раз 12B и в сотрудничестве с NVIDIA. Мультиязычная (есть русский), по замерам авторов бьет недавно вышедшую Gemma 2 9B и Llama 3 8B. Контекст 128k + обновили токенизатор, теперь он гораздо лучше сжимает тексты на 100+ языках.

HF | пост

🔸 Minitron

Модели на 4B и 8B от NVIDIA. Модели получили путем дистилляции и прунинга 15B. Затраченный компьют оценили как в 40 раз меньше, чем обучать такие модели с нуля, сравнимом или лучшем значении MLLU чем у соответствующих по размеру Gemma и Llama.

Про то, как делали, рассказывают в статье.

HF | GitHub | arxiv

🔸 T-lite

Коллеги из Тинькова также поделились моделью. Особых деталей нет, кроме того, что компьют был небольшой, а качество на бенчах как у chatgpt-3.5.

На русском генерирует действительно неплохо для модели такого размера. На вопрос "кто тебя сделал?" отвечает "разработчики из OpenAI", что намекает на необходимость чистки SFT сета.

HF

🔸 Apple DCLM-7B

Да, действительно это модель от Apple. Из интересного, рассказывают про подготовку датасета (DataComp for Language Models), чистку, удаление MMLU из обучения и т.д. Пишут, что пробовали обучаться на 270 подсетах из CC, чтобы найти наиболее "правильное" распределение.

HF | arxiv

🔸 SmolLM

SoTA модели на 135M, 360M и 1.7B параметров непосредственно от HF. Для экспериментов выложили обучающие данные и, по-моему, это самое интересное.

Сделали синтетический сет Cosmopedia v2 и дополнительно пофильтровали 220B токенов из уже почищенного-перечищенного датасета FineWeb Edu.

Модельки маленькие, можно запускать локально, выложили ONNX версии и демку для запуска прямо в браузере (загружается 172Mb весов).

HF | пост | SmolLM-Corpus | Веб-демо
Please open Telegram to view this post
VIEW IN TELEGRAM
Будучи в Ереване на экскурсии слышал от гида множество рассказов про армянских изобретателей. И вот наткнулся в книжном на такую вещь.

Рассказывается, что хоть и есть много мифов, типа коробки передач или фена, но изобретений действительно очень много.

Есть даже глава про машинный перевод (!), в котором также одним из первых отметился Шмидхубер армянин.

Upd. Спасибо за ссылки:

👉 Свежий стрим от автора про его книгу.

👉 Музей изобретений в Ереване.
This media is not supported in your browser
VIEW IN TELEGRAM
🔺 SAM 2

Meta выпустила вторую версию свой модели для сегментации (Segment Anything Model) и, если в первой версии можно было сегментировать картинку, то теперь выделять объекты можно на видео.

Кажется, что можно придумать интересные кейсы для спортивных трансляций с подсчетом статистики и всевозможные фильтры для видео-роликов. Какие еще идеи?

Лицензия Apache 2.0. Вместе с моделью релизят датасет на 51k размеченных видео.

👉 GitHub | Датасет | Пост | Демо | Статья
Llama на пальцах
🔺 Как люди ломали LLM

Подсмотрел у Тани в канале очень прикольный метод переформулирования промпта, на который отказывается отвечать модель.

Выровненная на политкорректные ответы модель перестает сопротивляться и пишет как угонять машины и прятать трупы, если запрос поставлен в прошедшем времени.

Будущее время тоже работает, но хуже.

👉 Paper | GitHub
Во, так тоже работает. #gpt4o
🔺 Новый лидер

Модель от Google Gemini 1.5 Pro Experimental 0801 вышла на первое место на лидерборде lmsys, где люди голосуют за подходящие им генерации.

Первое место в том числе и на русском.

P.S. Штуки с прошедшим временем на ней тоже работают.

Ждём Claude-4 и GPT-5.

👉 API | Чат с моделью (вкладка Direct Chat)