Forwarded from BOGDANISSSIMO
Ilya Sutskever – сооснователь OpenAI, ведущий исследователь в области AI, создатель ChatGPT и просто человек, формирующий наше будущее.
https://youtu.be/SjhIlw3Iffs
Из интересного:
• Next thing prediction is all you need. Ещё недавно все носились с идеей, что обучение без учителя – Грааль машинного обучения, а сегодня задача решена полностью, и об этом никто даже не говорит.
• Наши представления о границах больших языковых моделей меняются из года в год, и мы забываем, насколько сильно.
• Большие языковые модели уже понимают весь мир и все процессы в нём, и отдельная задача: как достать из эти знания из них.
• Подавать картинки на вход модели (делать её мультимодальной, как GPT-4) – помогает быстрее понять отдельные концепты, но не необходимо.
• Предстоящие вызовы: как учить модели понимать всё больше, используя всё меньше данных?
• Будущая роль ИИ в принятии политических и экономических решений. Люди будут голосовать не за партии, а за алгоритмы.
Extremely valuable to watch.
#interview #youtube #ai #ml #chatgpt #gpt3 #gpt4 #openai
https://youtu.be/SjhIlw3Iffs
Из интересного:
• Next thing prediction is all you need. Ещё недавно все носились с идеей, что обучение без учителя – Грааль машинного обучения, а сегодня задача решена полностью, и об этом никто даже не говорит.
• Наши представления о границах больших языковых моделей меняются из года в год, и мы забываем, насколько сильно.
• Большие языковые модели уже понимают весь мир и все процессы в нём, и отдельная задача: как достать из эти знания из них.
• Подавать картинки на вход модели (делать её мультимодальной, как GPT-4) – помогает быстрее понять отдельные концепты, но не необходимо.
• Предстоящие вызовы: как учить модели понимать всё больше, используя всё меньше данных?
• Будущая роль ИИ в принятии политических и экономических решений. Люди будут голосовать не за партии, а за алгоритмы.
Extremely valuable to watch.
#interview #youtube #ai #ml #chatgpt #gpt3 #gpt4 #openai
YouTube
The Mastermind Behind GPT-4 and the Future of AI | Ilya Sutskever
In this podcast episode, Ilya Sutskever, the co-founder and chief scientist at OpenAI, discusses his vision for the future of artificial intelligence (AI), including large language models like GPT-4.
Sutskever starts by explaining the importance of AI research…
Sutskever starts by explaining the importance of AI research…
Forwarded from Борис опять
Summer School Part (PDF).pdf
8.6 MB
#ml
Начался удаленный блок летней школы OxfordML 23. Утащил для вас презентацию Fundamentals of Mathematics for Machine Learning.
Хорошее саммари минимального необходимого материала: линейная алгебра, матанализ, оптимизация, теория вероятностей. Приятно, что все с примерами.
Лично я буду использовать ее как шпаргалку для подготовки к собеседованиям.
Начался удаленный блок летней школы OxfordML 23. Утащил для вас презентацию Fundamentals of Mathematics for Machine Learning.
Хорошее саммари минимального необходимого материала: линейная алгебра, матанализ, оптимизация, теория вероятностей. Приятно, что все с примерами.
Лично я буду использовать ее как шпаргалку для подготовки к собеседованиям.
Forwarded from New Yorko Times (Yury Kashnitsky)
ML system design в реальных проектах – 200 блог-постов
#links_with_intro #ml
Команда Evidently (наверняка знаете Эмели Драль, она с кофаундером Elen Samuylova пилит решение для мониторинга и тестирования ML-моделей) собрала около 200 блог-постов про ML system design в реальных проектах – от Netflix, Doordash, Booking и т.д. Кажется неплохим источником знаний для “курса по Data Science, которого нет”, про который я рассказывал раньше. Я не большой фанат ссылок на в целом классные подборки, которые добавляешь в закладки, а потом забываешь про них навсегда. Но в данном случае действительно крутой ресурс, в том числе для подготовки к собеседованиям.
Сюда же можно добавить еще 10 case studies, собранных Chip Huyen в книге “Designing Machine Learning Systems” (вот мой пост в том числе про эту книгу). Там каждый из 10 кейсов еще вкратце пересказан.
Про видео и книгу Валерия Бабушкина & Co про ML system design, думаю, тут все и так в курсе (ссылка на книгу пятисотит в данный момент, но думаю, все норм, временно).
#links_with_intro #ml
Команда Evidently (наверняка знаете Эмели Драль, она с кофаундером Elen Samuylova пилит решение для мониторинга и тестирования ML-моделей) собрала около 200 блог-постов про ML system design в реальных проектах – от Netflix, Doordash, Booking и т.д. Кажется неплохим источником знаний для “курса по Data Science, которого нет”, про который я рассказывал раньше. Я не большой фанат ссылок на в целом классные подборки, которые добавляешь в закладки, а потом забываешь про них навсегда. Но в данном случае действительно крутой ресурс, в том числе для подготовки к собеседованиям.
Сюда же можно добавить еще 10 case studies, собранных Chip Huyen в книге “Designing Machine Learning Systems” (вот мой пост в том числе про эту книгу). Там каждый из 10 кейсов еще вкратце пересказан.
Про видео и книгу Валерия Бабушкина & Co про ML system design, думаю, тут все и так в курсе (ссылка на книгу пятисотит в данный момент, но думаю, все норм, временно).
Forwarded from Борис опять
#ml #искусственный_интеллект
# The Bitter Lesson
The Bitter Lesson - знаменитое эссе от профессора Rich Sutton и один из самых важных текстов для спекциалистов по ML и всех пытающихся разобраться в буме AI. Текст написан в 2019 году и оказался пророческим, предсказав бум ChatGPT/GPT-4 и победу подхода OpenAI.
Речь вот о чем. Традиционно ученые в AI считали, что искусственный интеллект требует какого-то особого подхода, какой-то “звездной пыли.” Это называется inductive bias: некие особые знания о проблеме, направляющие машинное решение. Считалось, что чем умнее мы хотим получить машину, тем хитрее должны быть наши эвристики и тем глубже должно быть наше понимание проблемной области.
Эмпирически это казалось верным. Например, ученые наблюдали сильынй прирост качества в машинном переводе после того, как глубоко изучили лингвистику и закодировали часть ее правил в свою систему. Аналогично в анализе изображений кто-то мог придумать хитрый фильтр или стоэтапный выделять ключевые точки. Такие результаты позволял ученым почувствовать себя очень умными (и не зря!), опубликоваться, защитить свои PhD и в целом удовлетворить всех участников академической среды.
Но вот что происходило из раза в раз: кто-то просто докидывал вычислений и побольше данных. И побеждал все хитрые методы! Все добытые слезами, потом и кровью inductive bias методы оказывались на пыльной полке истории.
Так было в шахматах: сначала все делали хитрые движки, но победила система построенная практически на полном переборе. Так же было с Go. Так же было со Старкрафтом. Скорее всего так будет с Nethack.
В компьютерном зрении конволюционные нейросети победили “ручной” SIFT и подобные методы. Автор SIFT позже сказал, что создал свой метод только потому, что у него не было нейросетей, которые делают бррр. В машинном переводе LSTM положили на лопатки все системы на основе правил. ChatGPT/GPT-4 это предельный случай: модель построенная на чистом “stack more layers” обращается с языком лучше, чем все создания компьютерных лингвистов.
Горький урок в том, что общие методы построенные на вычислениях побеждают хитрости построенные на человеческой интуиции. Урок этот все еще не усвоен до конца: PhD продолжают делать хитрые методы, а общие системы остаются не в почете. Тот кто усвоит урок будет иметь более точную модель реальности.
Очень советую прочитать оригинал эссе по ссылке в заголовке.
# The Bitter Lesson
The Bitter Lesson - знаменитое эссе от профессора Rich Sutton и один из самых важных текстов для спекциалистов по ML и всех пытающихся разобраться в буме AI. Текст написан в 2019 году и оказался пророческим, предсказав бум ChatGPT/GPT-4 и победу подхода OpenAI.
Речь вот о чем. Традиционно ученые в AI считали, что искусственный интеллект требует какого-то особого подхода, какой-то “звездной пыли.” Это называется inductive bias: некие особые знания о проблеме, направляющие машинное решение. Считалось, что чем умнее мы хотим получить машину, тем хитрее должны быть наши эвристики и тем глубже должно быть наше понимание проблемной области.
Эмпирически это казалось верным. Например, ученые наблюдали сильынй прирост качества в машинном переводе после того, как глубоко изучили лингвистику и закодировали часть ее правил в свою систему. Аналогично в анализе изображений кто-то мог придумать хитрый фильтр или стоэтапный выделять ключевые точки. Такие результаты позволял ученым почувствовать себя очень умными (и не зря!), опубликоваться, защитить свои PhD и в целом удовлетворить всех участников академической среды.
Но вот что происходило из раза в раз: кто-то просто докидывал вычислений и побольше данных. И побеждал все хитрые методы! Все добытые слезами, потом и кровью inductive bias методы оказывались на пыльной полке истории.
Так было в шахматах: сначала все делали хитрые движки, но победила система построенная практически на полном переборе. Так же было с Go. Так же было со Старкрафтом. Скорее всего так будет с Nethack.
В компьютерном зрении конволюционные нейросети победили “ручной” SIFT и подобные методы. Автор SIFT позже сказал, что создал свой метод только потому, что у него не было нейросетей, которые делают бррр. В машинном переводе LSTM положили на лопатки все системы на основе правил. ChatGPT/GPT-4 это предельный случай: модель построенная на чистом “stack more layers” обращается с языком лучше, чем все создания компьютерных лингвистов.
Горький урок в том, что общие методы построенные на вычислениях побеждают хитрости построенные на человеческой интуиции. Урок этот все еще не усвоен до конца: PhD продолжают делать хитрые методы, а общие системы остаются не в почете. Тот кто усвоит урок будет иметь более точную модель реальности.
Очень советую прочитать оригинал эссе по ссылке в заголовке.
Forwarded from градиент обреченный (Sergei Averkiev)
🔺 Новые открытые LLM #ml_news
Вот так пролетает пара недель, а за это время столько всего нового вышло.
➕ Persimmon 8B
Adept выпустили открытую языковую модель под фруктовым названием Persimmon с 8 миллиардами параметров. Контекст у модели 16k токенов, причем обучалась она сразу на такой длине, а не на более короткой с последующим расширением. Видела она 737B токенов (75% текст, 25% код). Выглядит необычно, будем смотреть.
Пост, GitHub.
➕ Falcon 180B
TII из Арабских Эмиратов продолжают обучать и выкладывать свои модели. На этот раз обучили огромную модель на датасете REFINEDWEB. Показали этой модели аж 3.5T токенов. В моменте получилась самая лучшая открытая модель, которая бьет Llama 70B и ChatGPT-3.5 на MMLU.
Пост, HF, Демо
➕ Code Llama 7B, 13B, 34B
Meta дообучила модели Llama 2 дополнительно на 500B токенов кода. Затем дополнительно сделали Code Llama – Python (+100B токенов) и Code Llama – Instruct. Получились лучшие на сегодняшний день PLP модели. 7B и 13B обучались с FIM (могут заполнять код в середине документа).
Пост, GitHub
➕ Qwen-VL 7B (+ Chat version)
Китайские исследователи обучили мультимодальную сеть на основе своей же Qwen 7B, которая видела 2.2T токенов. За счет большого количества увиденных токенов (в основном это китайский и английский) модель бьет все аналогичные картиночно-текстовые модели. Для Chat версии собрали Colab.
GitHub, HF, Colab
Вот так пролетает пара недель, а за это время столько всего нового вышло.
➕ Persimmon 8B
Adept выпустили открытую языковую модель под фруктовым названием Persimmon с 8 миллиардами параметров. Контекст у модели 16k токенов, причем обучалась она сразу на такой длине, а не на более короткой с последующим расширением. Видела она 737B токенов (75% текст, 25% код). Выглядит необычно, будем смотреть.
Пост, GitHub.
➕ Falcon 180B
TII из Арабских Эмиратов продолжают обучать и выкладывать свои модели. На этот раз обучили огромную модель на датасете REFINEDWEB. Показали этой модели аж 3.5T токенов. В моменте получилась самая лучшая открытая модель, которая бьет Llama 70B и ChatGPT-3.5 на MMLU.
Пост, HF, Демо
➕ Code Llama 7B, 13B, 34B
Meta дообучила модели Llama 2 дополнительно на 500B токенов кода. Затем дополнительно сделали Code Llama – Python (+100B токенов) и Code Llama – Instruct. Получились лучшие на сегодняшний день PLP модели. 7B и 13B обучались с FIM (могут заполнять код в середине документа).
Пост, GitHub
➕ Qwen-VL 7B (+ Chat version)
Китайские исследователи обучили мультимодальную сеть на основе своей же Qwen 7B, которая видела 2.2T токенов. За счет большого количества увиденных токенов (в основном это китайский и английский) модель бьет все аналогичные картиночно-текстовые модели. Для Chat версии собрали Colab.
GitHub, HF, Colab
www.adept.ai
Releasing Persimmon-8B
We’re open-sourcing Persimmon-8B, the most powerful fully permissively-licensed language model with <10 billion parameters.