Сиолошная
49.1K subscribers
857 photos
156 videos
1 file
1.05K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Forwarded from BOGDANISSSIMO
Ilya Sutskever – сооснователь OpenAI, ведущий исследователь в области AI, создатель ChatGPT и просто человек, формирующий наше будущее.

https://youtu.be/SjhIlw3Iffs

Из интересного:

• Next thing prediction is all you need. Ещё недавно все носились с идеей, что обучение без учителя – Грааль машинного обучения, а сегодня задача решена полностью, и об этом никто даже не говорит.
• Наши представления о границах больших языковых моделей меняются из года в год, и мы забываем, насколько сильно.
• Большие языковые модели уже понимают весь мир и все процессы в нём, и отдельная задача: как достать из эти знания из них.
• Подавать картинки на вход модели (делать её мультимодальной, как GPT-4) – помогает быстрее понять отдельные концепты, но не необходимо.
• Предстоящие вызовы: как учить модели понимать всё больше, используя всё меньше данных?
• Будущая роль ИИ в принятии политических и экономических решений. Люди будут голосовать не за партии, а за алгоритмы.

Extremely valuable to watch.

#interview #youtube #ai #ml #chatgpt #gpt3 #gpt4 #openai
Forwarded from Борис опять
Summer School Part (PDF).pdf
8.6 MB
#ml

Начался удаленный блок летней школы OxfordML 23. Утащил для вас презентацию Fundamentals of Mathematics for Machine Learning.

Хорошее саммари минимального необходимого материала: линейная алгебра, матанализ, оптимизация, теория вероятностей. Приятно, что все с примерами.

Лично я буду использовать ее как шпаргалку для подготовки к собеседованиям.
Forwarded from New Yorko Times (Yury Kashnitsky)
ML system design в реальных проектах – 200 блог-постов
#links_with_intro #ml

Команда Evidently (наверняка знаете Эмели Драль, она с кофаундером Elen Samuylova пилит решение для мониторинга и тестирования ML-моделей) собрала около 200 блог-постов про ML system design в реальных проектах – от Netflix, Doordash, Booking и т.д. Кажется неплохим источником знаний для “курса по Data Science, которого нет”, про который я рассказывал раньше. Я не большой фанат ссылок на в целом классные подборки, которые добавляешь в закладки, а потом забываешь про них навсегда. Но в данном случае действительно крутой ресурс, в том числе для подготовки к собеседованиям.

Сюда же можно добавить еще 10 case studies, собранных Chip Huyen в книге “Designing Machine Learning Systems” (вот мой пост в том числе про эту книгу). Там каждый из 10 кейсов еще вкратце пересказан.

Про видео и книгу Валерия Бабушкина & Co про ML system design, думаю, тут все и так в курсе (ссылка на книгу пятисотит в данный момент, но думаю, все норм, временно).
Forwarded from Борис опять
#ml #искусственный_интеллект

# The Bitter Lesson

The Bitter Lesson - знаменитое эссе от профессора Rich Sutton и один из самых важных текстов для спекциалистов по ML и всех пытающихся разобраться в буме AI. Текст написан в 2019 году и оказался пророческим, предсказав бум ChatGPT/GPT-4 и победу подхода OpenAI.

Речь вот о чем. Традиционно ученые в AI считали, что искусственный интеллект требует какого-то особого подхода, какой-то “звездной пыли.” Это называется inductive bias: некие особые знания о проблеме, направляющие машинное решение. Считалось, что чем умнее мы хотим получить машину, тем хитрее должны быть наши эвристики и тем глубже должно быть наше понимание проблемной области.

Эмпирически это казалось верным. Например, ученые наблюдали сильынй прирост качества в машинном переводе после того, как глубоко изучили лингвистику и закодировали часть ее правил в свою систему. Аналогично в анализе изображений кто-то мог придумать хитрый фильтр или стоэтапный выделять ключевые точки. Такие результаты позволял ученым почувствовать себя очень умными (и не зря!), опубликоваться, защитить свои PhD и в целом удовлетворить всех участников академической среды.

Но вот что происходило из раза в раз: кто-то просто докидывал вычислений и побольше данных. И побеждал все хитрые методы! Все добытые слезами, потом и кровью inductive bias методы оказывались на пыльной полке истории.

Так было в шахматах: сначала все делали хитрые движки, но победила система построенная практически на полном переборе. Так же было с Go. Так же было со Старкрафтом. Скорее всего так будет с Nethack.

В компьютерном зрении конволюционные нейросети победили “ручной” SIFT и подобные методы. Автор SIFT позже сказал, что создал свой метод только потому, что у него не было нейросетей, которые делают бррр. В машинном переводе LSTM положили на лопатки все системы на основе правил. ChatGPT/GPT-4 это предельный случай: модель построенная на чистом “stack more layers” обращается с языком лучше, чем все создания компьютерных лингвистов.

Горький урок в том, что общие методы построенные на вычислениях побеждают хитрости построенные на человеческой интуиции. Урок этот все еще не усвоен до конца: PhD продолжают делать хитрые методы, а общие системы остаются не в почете. Тот кто усвоит урок будет иметь более точную модель реальности.

Очень советую прочитать оригинал эссе по ссылке в заголовке.
Forwarded from градиент обреченный (Sergei Averkiev)
🔺 Новые открытые LLM #ml_news

Вот так пролетает пара недель, а за это время столько всего нового вышло.

Persimmon 8B

Adept выпустили открытую языковую модель под фруктовым названием Persimmon с 8 миллиардами параметров. Контекст у модели 16k токенов, причем обучалась она сразу на такой длине, а не на более короткой с последующим расширением. Видела она 737B токенов (75% текст, 25% код). Выглядит необычно, будем смотреть.

Пост, GitHub.

Falcon 180B

TII из Арабских Эмиратов продолжают обучать и выкладывать свои модели. На этот раз обучили огромную модель на датасете REFINEDWEB. Показали этой модели аж 3.5T токенов. В моменте получилась самая лучшая открытая модель, которая бьет Llama 70B и ChatGPT-3.5 на MMLU.

Пост, HF, Демо

Code Llama 7B, 13B, 34B

Meta дообучила модели Llama 2 дополнительно на 500B токенов кода. Затем дополнительно сделали Code Llama – Python (+100B токенов) и Code Llama – Instruct. Получились лучшие на сегодняшний день PLP модели. 7B и 13B обучались с FIM (могут заполнять код в середине документа).

Пост, GitHub

Qwen-VL 7B (+ Chat version)

Китайские исследователи обучили мультимодальную сеть на основе своей же Qwen 7B, которая видела 2.2T токенов. За счет большого количества увиденных токенов (в основном это китайский и английский) модель бьет все аналогичные картиночно-текстовые модели. Для Chat версии собрали Colab.

GitHub, HF, Colab