Data Secrets
78.8K subscribers
6.42K photos
667 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Тайминг – огонь

Угадайте, что произошло вчера сразу после рефреша Arena, про который мы писали? Правильно, появилось сразу две обновленные модели 🤨

Новая версия GPT-4-Turbo. По метрикам наблюдается сильный прирост в математических задачах, в том числе олимпиадного уровня. Кроме того, модель дообучили до декабря 2023. Для разработчиков открыли API GPT-4V.

Mixtral-8x22B. Конфиги смотрите сверху. Если кратко: 262 GB, 8 экспертов, контекст в 65536 токенов.

Если раньше лидерборды обновлялись раз в пару месяцев, то сейчас счет в гонке идет на дни, а то и на часы. Ждем, что будет дальше.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
35🔥16👍7🥰1👏1
Кстати, с интро к своей новой модели Mistral вообще не парились. Без привет и до свидания просто твитнули ссылку на торрент с весами.

Такое вот доброе утро от французских коллег 🥖
Please open Telegram to view this post
VIEW IN TELEGRAM
😁83👍761🥰1👏1
Вау, первая в России мультимодальная модель! Да еще и в опенсорс!

OmniFusion 1.1., помимо привычного LLM-диалога, может отвечать на вопросы по картинкам. Например, туда можно сгрузить написанные от руки задачи, попросить проанализировать карту, или получить рецепт по фото продуктов.

В основе – Mistral, но можно легко положить в ядро любую другую LLM. Модель – SoTA на ряде бенчмарков (среди моделей схожего размера) и, более того, она хорошо справляется со сложными задачами и понимает русский.

Разработчики открыли модель как для некоммерческой, так и для коммерческой деятельности. Кстати, статья про OmniFusion сегодня на первом месте в списке daily papers на Hugging Face.

Огромный респект коллегам из AIRI 🔥

Статья | GitHub | Пост на Хабр
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👏66🔥25👍165🤯4👌1
А что это мы все про OpenAI и Mistral? Google вот тоже старается:

⚙️ Вчера вышло крутое обновление Gemini 1.5 Pro — у нейросети появилась новая модальность в виде аудио.

Может в speech2text, суммаризацию, определение сантимента, ну и QA. Можно сгрузить до 11 часов аудио.

⚙️ В опенсорс выпущены веса для модели CodeGemma — сеточки на основе Gemma, но затюненой под всевозможные задачи по программированию. Модели небольшие, можно запускать локально (2Б и 7Б). Вот статья.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥65🤯3🌚1
Центр экосистемы ИИ сегодня – Париж. Может показаться, что это случилось как-то в одночасье после прихода Mistral. Но ничего не происходит просто так. Следите за руками:

Все началось в 2013. Тогда во Франции возникла Ecole 42 – открытая школа компьютерных наук, основанная на концепции p2p обучения. Сам концепт такого дополнительного образования был тогда не очень развит, но из школы выходили сильные спецы, чем она и привлекла внимание.

– В 2015 наш любимый француз Ян Лекун основал FAIR Paris (Facebook AI Research). После этого много талантливых ученых начали съезжаться во Францию со всей Европы.

– Кстати, сам Ян Лекун признан одним из трех "изобретателей" глубокого обучения, каким мы его знаем.

– В 2018 GoogleDeepMind открыли большую лабораторию в Париже. После этого стало очевидно, что если вы собираете большую международную ИИ-команду, то Францию во всех смыслах нельзя обойти стороной.

– В 2016 впервые была проведена VivaTech. Тогда она собрала около 2400 стартапов и 2000 инвесторов. По сей день мероприятие остается одним из крупнейших стартап-ивентов в мире, туда ежегодно съезжаются тысячи талантов.

– Также в 2016 во Франции был основан HuggingFace, а про него вы и так все знаете.

– Кстати, именно HF стал одним из первых стартапов, присоединившихся к французскому стартап-сообществу Station F (сейчас крупнейшему в мире, см.картинку), основанному в 2017, конечно же во Франции.

– Итак, к 2019 году AI в Париже уже был во всей красе. А во время пандемии главный "конкурент" – кремниевая долина – сильно потеряла в своем влиянии, и Париж стал еще более заметен.

– В 2021 году выстрелил HF, в 2023 – Mistral. И кроме того, PhotoRoom, Mithril Security, Giscard, ChainLid, Zama – это все французские стартапы.

В 2023 мы имеем то, что имеем. Как видите, это не результат удачи 2-3 стартапов, а путь длиною в десятилетие.
🔥88👍17🤯146👾6🤨1
Он не боялся восстания ИИ, и где он теперь? Делаем выводы.
😁90👍8🔥73🍓3
Meta показали свой новый чип MTIA (Meta Training and Inference Accelerator)

Говорят, он гораздо производительней первой версии, которая вышла год назад. На этом чипе Meta, как сказано в статье, уже может крутить свои рексисы, а это дорогого стоит.

На сайте можно интерактивно поиграть 3D модельками и схемами и почитать подробности.

Зачем покупать у Nvidia, когда можно сделать самим?
👍227🤯6🔥3
Неоднозначные новости: на NeurIPS 2024 будет принимать работы старшеклассников.

Мнения сообщества разделились:

Одни говорят, что это правильный шаг и даст школьникам возможность выделиться и поступить в хороший вуз. К тому же, статья не предполагает быть глубоко-технической, это должно быть исследование про влияние AI на общество.

– Другие настаивают, что написание детьми настоящих научных статей не только бессмысленно, но и нечестно по отношению к самим школьникам: одни, пользуясь знаниями родителей и учителей, могут несправедливо получить преимущество. Тем самым, крысиные бега при поступлении только усилятся, как и пустая шумиха вокруг AI.

А вы что думаете?
❤️ - здорово
🗿- не здорово
🗿29857👍2
Data Secrets
Пу-пу-пуууу, больше не первые, получается
Ну и что вы думаете? OpenAI снова первые в лидерборде со своим новым обновленным GPT-4. Недолго радовались Anthropic.

Создается небольшое ощущение дразнилок со стороны сами знаете кого, хотя возможно корпорации просто уж очень важен факт первенства
🔥447👍4😁4
Тут вышла статья, в которой авторы замерили способность LLM (без дообучения) решать задачи классического ML и, в частности, строить регрессию.

Зацените результаты на графике.

Бустинг закурил в сторонке.
🤯6312🔥7😁2👍1🥰1
Meta наступает на грабли всех генераторов изображений: на этот раз сетка не может себе представить пару, в которой люди разных рас.

Это заметили в сети: репортер The Verge кучу раз пытался сгенерировать такую пару, но генератор так и не поддался.

Это, кстати, именно тот генератор, который компания пытается развернуть в Instagram. Кроме него, они также внедряют туда поиск на основе ИИ.
😁51🌚6🤓6👍3🕊3🔥2
Где взять данные? Этим вопросом хотя бы однажды задавался каждый из нас. Итак, подборка дата-ресурсов от редакции:

1. Kaggle. Не нуждается в представлении. Тысячи бесплатных датасетов.

2. Awesome Data Github репозиторий. Список открытых наборов данных с прямыми ссылками на скачивание. Есть данные с видео, картинками, аудио, и вообще со всем.

3. Open ML. 20k+ датасетов. Есть библиотеки для Python и R.

4. Open Data Registry от AWS. Тут есть некоторые датасеты, которых больше нигде не найти.

5. Papers with Code. Краш подборки. Почти 10k датасетов, которые использовались в реальных исследованиях.

6. Dagshub. Непопулярно, но иногда полезно. Датасеты удобно поделены по областям применения (NLP, CV, пр.)

7. Hugging Face. Также не нуждается в представлении. На данный момент там 80k+ датасетов.

Пользуйтесь и пилите свои мега-проекты!
👍54🔥159👏1🍾1
Media is too big
VIEW IN TELEGRAM
Туториал по AI, который мы заслужили
😁58🥰17💋8🦄7💅6🙈4❤‍🔥3
Пока Яндекс музыка развлекается с цветовым сопровождением приложения, подстраивающимся под трек, в Spotify запускают AI плейлисты

Приложение будет подбирать композиции в плейлист по текстовому запросу. В промпте можно указать жанр и ситуацию, под которую нужна музыка. Пока тестируют в бета-версии.

Осталось ко всему этому еще прикрутить LoudlyAI, которая генерит ИИ-музыку, и будет красота
👍35🔥11😁92👌1🤗1
This media is not supported in your browser
VIEW IN TELEGRAM
Рубрика «исследования, которые мы заслужили»: ученые из Мэрилэнда изобрели мантию-невидимку 21 века

Ладно, на самом деле это не мантия, а свитер. Надев его, человек за счет хитрых узоров становится невидимым для большинства методов детекции. Мы поискали, на алиэкспресс пока нет(

Если серьезно: делалось это, конечно, не по приколу, а чтобы изучить так называемые adversarial атаки на детекторы, и в будущем улучшить существующие модели.

Статья
🔥65👍1110🤔2🤨2
Data Secrets
Неоднозначные новости: на NeurIPS 2024 будет принимать работы старшеклассников. Мнения сообщества разделились: – Одни говорят, что это правильный шаг и даст школьникам возможность выделиться и поступить в хороший вуз. К тому же, статья не предполагает…
Подготовка к NeurlPS 2024 идет полным ходом 👆

* напоминаем, что недавно появилась новость о том, что в этом году на конференцию допустят работы школьников
Please open Telegram to view this post
VIEW IN TELEGRAM
😁68🔥10👍8🤯7🥰2
Лайф рулс в стиле Дурова от Андрея Карпаты ☝️

Недавно я попробовал просыпаться и сразу идти работать. Ничего не проверяйте — ни сообщений, ни электронной почты, ни новостей, ничего. Я это не до конца понимаю, но есть что-то разрушительное в «проверке» внешнего мира. Это загружает оперативную память множеством отвлекающих факторов, и внимание не может должным образом сосредоточиться на работе. Через несколько часов пообедайте и, по желанию, проверьте внешний мир.


Завтра рабочая неделя. Пробовать будем?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍146💯31🗿117🔥7🤪2🍌1
Сегодняшняя традиционная задача (то ли на знание теории вероятностей, то ли на проверку моральных принципов):

Два равносильных игрока договорились играть до шести побед. На кону – 80 монет, которые должен получить победитель. При счете 5:3 серию игр пришлось прервать. Как честно разделить 80 монет?


Ждем голоса вашей совести в комментариях 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔19🤯6🔥5👍1
Зацените, какой постер для фанатов нарисовали твиттерские режиссеры

Скоро, на всех экранах
😁65🤯10👍72💅2🔥1😨1