Книжный куб
11.1K subscribers
2.67K photos
6 videos
3 files
1.96K links
Рекомендации интересных книг, статей и выступлений от Александра Поломодова (@apolomodov), технического директора и эксперта в архитектуре
Download Telegram
Large Language Models: Friend, Foe, or Otherwise • Alex Castrounis • GOTO 2023

Интересное keynote выступление про LLM от Alex Castrounis на goto конференции в Чикаго, основвателя и CEO "Why of AI" и автор книги "AI for People and Business".
В самом выступлении автор обсуждает следующие момент

- AI today - как выглядит искусственный интеллект сегодня, как он пересекается с machine learning, нейронными сетями и deep learning. Здесь же он показывает статистику из Google Trends поиска artificial intelligence, machine learning и chatgpt, причем последний термин в 10 раз популярнее, чем два предыдущих. Кто-то боится появления AGI, кто-то боится исчезнования рабочичх мест, а кто-то спешит интегрировать LLM себе в продукты и оптимизировать работу
- What does a positive AI future look like? - про важность понимания того, как AI работает для того, чтобы не бояться неизвестного:)
- Capabilities - пример того, что LLM умеет сейчас. Здесь автор рассказывает про Hhugging Face и их библиотеку того, что умеет ML сейчас
- What about coding? - обсуждение написания кода,
- Evolution - тут автор обсуждает ключевые статьи и результаты
-- 2017 - Attention is All You Need (Ключевая статья про трансформеры)
-- 2019 - Language Models are Unsupervised Multitask Learners (OpenAI paper, gpt2 whitepaper)
-- 2020 - Language Models are Few-Shot Learners (OpenAI paper, gpt3 whitepaper)
-- 2022 - Training language models to follow instructions with human feedback (OpenAI использовали этот подход для создания chatGPT)
-- TBD
- Overview - общий обзор NLP (natural language programming), семантику слов, контекст, и так далее. Тут автор говорит про word embeddings, архитектуру трансформеров (encode и decode части), про RNN (recurrent neural network) и возвращается к GPT-3/4, BERT, BART, T5.
- Tools - дальше автор говорит о том, как LLM применяются для написания кода на примере Copilot (все-таки goto - это конференция по программированию:) )
- Pitfalls & concerns - здесь автор говорит про common sense, reasoning, причинность, планирование и так далее
- Why are LLMs beneficial? - они помогают нам делать те вещи, в которых мы не так хороши или которые требуют много времени
- The future of work - размышления на тему того, а отнимут ли LLM работу у людей или нет:)
- AI won't take your job, someone using AI will - финальная мысль ращмышления про работу
- Focus on & master what AI can't do - совет что стоит прокачивать сейчас

#ML #DataScience #Software #SoftwareDevelopment #Conference #AI
👍6🔥4
Machine Learning: The New AI

Прочитал вчера в самолете эту простую книгу Ethem Alpaydin из серии MIT Press Essential Knowledge series, которая была издана в 2016 году. Читать было достаточно интересно, но стоит отметить, что эта книга для начинающих вкатываться в эту тему - автор очень просто объясняет все концепции без использования сложной математики, но с использованием большого количества примеров. Прочитав эту книгу, вы не научитесь делать ML, но хотя бы поймете что это такое и как его можно применять в реальной жизни.
Подробнее в моей статье.

P.S.
Раньше я уже рассказывал про "Data Science" - другую книгу из этой же серии.

#DataScience #ML #ExternalReview #AI #Software #PopularScience
👍7🔥52
What Is ChatGPT Doing ... and Why Does It Work?

Дочитал вчера книгу Стивена Вольфрама, которая посвящена обзору того, как работает ChatGPT. Книга вышла в марте этого года и помимо нее у Стивена есть 3-часовой стрим, в котором вы можете все то же самое послушать и посмотреть в виде истории от автора книги. Кстати, мне было интересно мнение Стивена насчет LLM (large language model), потому что он является разработчиком системы компьютерной алгебры Mathematica и системы извлечения знаний WolframAlpha, принцип работы которых сильно отличается от ChatGPT. Кстати, про это Стивен рассказывает подробно в последней части книги, где показывает слабые стороны ChatGPT и помогает их усилить объединяя его с Wolfram Alpha:)

В общем, подробности про книгу можно прочесть в моем блоге.

#DataScience #ML #AI #Data #PopularScience #Math
🔥10👍72
Inside Google’s big AI shuffle — and how it plans to stay competitive, with Google DeepMind CEO Demis Hassabis

Интересное интервью Демиса Хассабиса, CEO Google DeepMind, с Nilay Patel в рамках подкаста Decoder от Verge, которое было дано 3 недели назад в начале июля.

В рамках интервью обсуждались вопросы:
- про объединения Deepmind и Google Brain в одну компанию Google Deepmind, которая внутри Google будет заниматься больше продуктовыми историями, чем абстрактными штуками типа Alpha Go (игра в го) или Alpha Fold, которыми был знаменит Deepmind (вот интересная документалка насчет Alpha Go)
- про причину объединения - гипотеза интервьюера была в том, что OpenAI совершила прорыв с LLM и что Google теперь надо сфокусироваться и ускориться будучи в роли догоняющего
- про причину хайпа около LLM - гипотеза в том, что LLM решают задачи, понятные большинству обывателей и решают их неплохо, а предыдущие вещи от Deepmind слишком сложны для понимания обывателей и понятны только специалистам в узких сферах
- про культурные коллизии между двумя подразделениями (Brain и Deepmind), что стали теперь одним целым
- про подход к решению задач, который использует сам Демис - здесь Демис рассказывает про шахматы, которыми он долго занимается, про визуализацию итогового результата и backcasting от целевого решения назад к текущемуу (аля working backwards от Amazon)
- про микс глубоких новых исследований (условно, что придет на смену LLM) и масштабирования текущих решений (больше параметров, больше примеров для обучения, больше мощности)
- про продукты Google в формате Bard и SGE (Search Generative Experience) - эта история про текущие продуктовые вещи с использованием LLM в Google и опыт их использования
- про знаменитую заметку "Google 'We Have No Moat, And Neither Does OpenAI'" - Демис сказал, что думает, что заметка была реальной, но с выводами в этой заметке он не согласен
- про сроки наступления AGI - оценка Демиса ~ 10 лет
- про дообучение моделей при помощи людей, которые рейтингуют ответы LLM как правильные или нет и так далее
- про риски и регуляцию AI, так как Демис подписал письмо от Center for AI Safety
- про комбинацию моделей аля LLM + специфичные модели для решения задач из предметной области - приблизительно об этом же рассказывал Стивен Вольфрам в книге "What Is ChatGPT Doing ... and Why Does It Work?" (подробнее здесь)
- про исследование "Stochastic Parrots" внутри Google, что привело к замедлению LLM в Google и дальнейшему увольнению авторов после буста ChatGPT от OpenAI
- про то, как не попасть в цикл обучения нейросетей на материале, сгенерированным нейросетями, что может привести к ухудшению моделей - тут предлагается создать специальные watermarks, что встроены в сгенерированные материалы, что позволит их распознать при обучении новых моделей

#AI #ML #Engineering #Software #DataScience #SoftwareDevelopment
👍42🔥2
Романтика искусственного интелекта

Лет 5 назад я прочитал интересную книгу "Романтика искусственного интелекта" за авторством Потопахина, которая вышла в далеком 2016 году.
Мне тогда эта книга понравилась тему, что оставила больше вопросов, чем дала ответов:) И одной из основных мыслей, проходящих сквозь всю книгу, была мысль о том, что есть 2 вопроса относительно AI:
1. Глобальный - "что такое интеллект и как создать систему, как минимум равнозначную человеку, а может быть, его и превосходящую"
2. Локальный - "как для каждого отдельно взятого интеллектуального процесса создать его эффективную техническую модель"
Причем сейчас в основном все исследования по AI решают задачи 2 типа, которые являются прикладными и которые в потенциале хорошо монетизируются:)

А вообще, книга состоит всего из 7 глав:
1. Задача тысячелетия - размышления на тему того, чем является интеллект и что им не является
2. Вся жизнь игра - рассмотрение способов обучения искусственного интелекта игре в разнообразные игры
3. Интеллект искусственный и обучаемый - рассмотрение неотъемлемого свойства интеллекта, а именно возможности обучения
4. Сетевая архитектура - куда же без нейронных сетей:)
5. Распознавание образов - тоже очень популярная тема, в которой есть ряд достижений
6. Искусственное познание - от систем логического вывода теорем до самоорганизующихся систем AI:)
7. Интеллект, равный человеческому?! - напутствие в мир AI от автора и целой когорты исследователей, посредством приведения их избранных цитат на заданную тему
Итого, книга легко читается и почти не содержит математики, т.к. она служит целям популяризации искусственного интеллекта.

P.S.
Отдельное спасибо автору за то, что в главе относительно игр основные примеры рассматривались на базе шахмат:
- дерево перебора
- оценочная функция
- минимакс и альфа-бета-алгоритм
- разные этапы игры и изменение оценочной функции на основе приоритетов факторов на разных этапах

Почуствовал дежавю, так как в дестве много лет играл в шахматы:)

#Chess #AI #Math #DataScience
5🔥5👍2
Practical ML Conf 2023

Внезапно сегодня утром наткнулся в Youtube на трансляци конференции по ML от Yandex. Вот ссылки на
- Трансляцию первого зала
- Трансляцию второго зала
Вот ссылка на канал конференции и ее сайт

P.S.
Расписание конфы приложил в изображениях.
Думаю, что вечером посмотрю что-то интересное из этой трансляции:)

#Conference #ML #DataScience #Software
👍8🔥42
Why Most Data Projects Fail and How to Avoid It • Jesse Anderson • YOW! 2022

Интересное выступление про data проекты от Jesse Anderson, автора книги "Data Teams". Автор говорит о ключевых вопросах, которые стоит задать при старте проектов
- Who - Автор говорит про правильный состав команды для data проектов. Собственно автор про это написал целую книгу и он говорит про баланс data scientists, data engineers, operations.
- What - Автор задает вопрос про бизнес значение того data продукта/проекта, которым вы занимаетесь. Автор говорит о том, что фразы "Мы делаем AI" от CEO не хватает для data strategy:) В общем, надо понимать как ваш проект принесет ценность для бизнеса. Причем помимо стратегии нужен план и его execution. Особенно во времена, когда tech компании занимаются сокращениями в направлениях, что не приносят деньги.
- When - Автор говорит о том, а когда эта бизнес ценность будет создана. Нужен проект с понятными временными границами, чтобы он не был слишокм долгим, чтобы быть отмененным где-то посердине и не слишком коротким, обещающим золотые горы, которым на самом деле будет невозможно соответствовать.
- Where - И вот мы наконец-то добрались до первого технического вопроса, а где собственно эти данные будут обрабатываться, как будет выглядеть архитектура решения. И тут для ответа тоже не хватает фразу "Мы будем использовать технологию XYZ вендора ABC". Проблема в том, что вендор может пообещать все что угодно, но это обещание не факт, что выполнимо, более того, не факт, что оно оптимально для заказчика:)
- How - Здесь речь идет про план выполнения и про фокусировку на приоритетных направлениях. Хотя часто такие data проекты пытаются успеть сразу везде, а дальше теряют эффективность на context switches и застывают на месте, переставая генерировать какую-либо ценность кроме рассказов о наступлении AI:) Автор интересно рассказывает про то, как бизнес заказчикам перпендикулярно на конкретные технические решения, но важно какую бизнес-ценность они могут получить по результатам выполнения плана.
- Why - Автор задает вопрос, а почему же эти данные обладают ценностью? Просто отгружать данные и гонять ETL/ELT пайпланы не достаточно. Важно понимать как использование данных в новых проектах позволит обеспечить нужный ROI (return on investments), причем автор говорит о том, что он ищет 10x ROI для data проектов

Напоследок автор говорит о том, что для AI и data проектов важно понимать, что такие проекты сложны и требуют навыков, людей и организационных изменений для своего успеха. И это достаточно сложно и не все способны приносить пользу в таких проектах. Конкретно, автор рассказывает про то, что если запускать data и AI проекты внутри DWH команд, то такие проекты обречены на неудачу ("the team where good data projects go to die). Это обусловлено не тем, что DWH технологии плохие, а потому, что это скорее проблема людей ("people problem"), которые очень специфично разбираются с проблемами и очень специфичным образом выстраивают свою работу. В общем, автор говорит о том, что эта не та команда, которая должна отвечать за data и AI проекты нового типа.

В конце автор рассказывает о том, как можно получить помощь с такими проектами за счет аутсорсинга (если у компании нет своей инженерной команды и культуры), за счет привлечения консультантов (правда, автор говорит о том, что консультанты по менеджменту типа BCG, Bain, Mckinsey зачастую не обладают компетенциями для помощи в таких data проектах). В конце автор упоминает свою книгу "Data teams", которую он написал для менеджеров, которым предстоит запускать data и AI проекты.

P.S.
Мне автор продал свою книгу, поэтому я добавлю ее в свой long list на чтение:)

#Management #Leadership #Data #DataScience #AI #Engineering #Software #SoftwareDevelopment #ML
👍7🔥61
Deep Learning от MIT Press

Эта книга John D. Kelleher вышла в серии Essential Knowledge Series и содержит интересное введение в deep learning. Я уже рассказывал про другую книгу "Data Science" из этой же серии, в которой он выступал в качестве соавтора. В этой книге автор рассказывает про нейронные сети на пальцах и только в одной главе (про backpropagation) он погружается немного в математику. И хоть с издания книги в 2019 году утекло много воды, но она мне кажется до сих пор неплохим обзором deep learning для людей далеких от ml. Сама книга состоит из 7 глав
1. Introduction to deep learning - введение начинается с того, что deep learning помогает принимать решения на основе данных. Автор вспоминает про тройку терминов AI (artificial intelligence), ML (machine learning), deep learning и показывает их вложенность друг в друга: deep learning ⊂ ML ⊂ AI. Дальше приводится пример с простым dataset, функцией как детерминированным маппингом входных значений в выходные, а дальше перехода от детерминизма к угадыванию функции по доступным в датасете inputs и outputs (объяснение ml на пальцах). Конечно угадать точно можно не всегда и многое зависит от доступного датасета. Дальше на пальцах разбирается обучение с учителем, без него, а также reinforcement learning. А к концу главы автор рассказывает про причины успешности deep learning: что нам не приходится самим заниматься выделением значимых фич (feature engineering), также это хорошо работает в домене с большим количеством фич (размерность задачи) и большим объемом данных (добавлю от себя про важность большого количества GPU). Кстати, в этом тексте упоминается AlphaGo, про которая есть крутая документалка.
2. Conceptual foundations - здесь рассказывается про то, что такое модель, как можно подобрать параметры модели с использованием доступных данных, как комбинируя простые модели можно получить комплексную модель
3. Neural networks: the building blocks of deep learning - краткое объяснение нейронных сетей, того как они работают и откуда появилось название глубоких нейронных сетей (от наличия hidden layers, которые расположены между input и output layers)
4. A Brief history of deep learning - здесь автор дает выжимку из истории развития нейронных сетей, причем фокус здесь как на концептуальных, так и на практических прорывах. Это описание истории показалось мне меньше biased, чем в книге "Антология машинного обучения" ("The Deep Learning Revolution"), про которую я писал раньше. Отдельно автор рассказывает почему deep learning стало так развивается в последнее время - тут работает цикл из трех элементов, что усиливают друг друга: big data, улучшение алгоритмов, улучшение железа
5. Convolutional and recurrent neural networks - здесь описывается работы сверточных и рекуррентных нейронных сетей, где первые отлично подходят для работы с изображениями, а вторые лучше для работы с текстом. Причем описание нейронных сетей дается буквально на пальцах (мне кажется, что его поймут и люди, что далеки от математики)
6. Learning functions - эта глава самая математическая из всех и здесь идет речь про градиентный спуск и backpropagation algorithm. Первый алгоритм абсолютно стандартен для задач поиска минимума/максимума функции, а вот алгоритм обратного распространения ошибки в 80х годах сильно продвинул глубокие нейронные сети в популярности, так как этот способ позволял определять как менять веса hidden layers в нейронной сети при обучении. Собственно, именно при рассмотрении backpropagation надо немного знать про частные производные
7. The future of deep learning - здесь автор описывает светлое будущее deep learning, которое за 4 прошедших года кажется наступило в виде пришествия LLM (large language models)

В общем, книга достаточно легко читается и классно подойдет для первоначального знакомства с этой областью на уровне научпоп литературы:)

#ML #Data #Learning #DataScience #Software #PopularScience
8👍4🔥3
Hello Deep Learning • Bert Hubert • GOTO 2023

Интересное выступление Bert Hubert с рассказом про Deep Learning на пальцах. Сам Bert достаточно известный товарищ, который является немного ученым, разработчиком и предпринимателем. Забавно, как вначале он говорит, что много лет игнорировал хайп вокруг deep learning, отчасти потому что также яро проповедовали и blockchain, который оказался пшиком. Но после появления chatGPT игнорировать глубокое обучение уже было нельзя и он решил погрузиться в этот домен. Для этого он выбрал подход, что похож на "Kubernetes the hard way" от Kelsey Hightower. Для этого Берт взял стандартную задачу по распознаванию цифр и решил ее решить с нуля:) А дальше он кратко рассказал про
- Статью Attention is all you need
- NIST и его подборку рукописных цифр как базу для обучения
- Подход втупую через вычитание значений пикселей для 3 и 7 между собой и ручное разделение множеств
- Дальше усложняем с перемножением на рандомную матрицу
- Дальше добавляем функцию потерь (loss function)
- Переход к трем слоям для классификации цифр по десяти категориям
- Добавление нелинейности при перемножениях (ReLU и GELU)
- Добавление градиентов для обучения коэффициентов модели и получение хороших результатов
- Добавление шума в исходные данные и получение полного треша в качестве результатов от обученной модели и дальше автор говорит следующее
Production use of a neural network tends to go through these four phases (if you are lucky):
1. It works on the training data
2. It also works on the validation data
3. After a lot of disappointment, we get it to work on other people’s real life data too
4. Other people can get it to work on their own data as well

Almost all demos declare victory after phase 2.


И дальше автор делает финальные выводы по выступлению
- Deep learning реально
- Deep learning позволяет получать магические результаты
- Deep learning не является волшебным и обманчиво простым
- Все еще можно попасть на борт этого корабля:)

В итоге, автор предлагает не опираться на внешние API облачных сервисов, а делать свои продукты поверх решений, доступных on-premise.

Автор предлагает посмотреть на следующие материалы
- Whisper.cpp: state of the art voice transcription in dozens of languages, entirely self-contained on your own computer/phone: https://github.com/ggerganov/whisper.cpp
- LlaMA “GPT-like”, self-contained, own computer etc: https://github.com/ggerganov/llama.cpp
- https://berthub.eu/articles/posts/hello-deep-learning/ - the series behind this presentation, https://github.com/berthubert/hello-dl
- https://berthub.eu/articles/posts/ai-is-guaranteed-to-disrupt-us/

#ML #DataScience #Data #Math #Software #SoftwareDevelopment #Engineering
🔥6👍32
Jeff Dean: AI isn't as smart as you think -- but it could be | TED

Интересное выступление Джеффа Дина на TED два года назад на тему AI, в котором он подсветил области развития нейронных сетей (слева как сейчас, а справа куда стоит копать)
1) Separate models -> General purpose models
2) Image or text or speach -> All modalities at once
3) Dense models -> Sparse models
Интересно, что эти направления сейчас у всех на слуху, правда в лидеры выбился Open AI со своим ChatGPT. Возможно это обусловлено концовкой выступления, где Chris Anderson (head of TED ) спрашивал Джеффа Дина насчет ответственного подхода к AI. А дальше Джефф объяснял как в Google отвественно подходят к AI, но этот ответственный подход кажется влияет на T2M (time to market). Но дальше Google начал активно уменьшать свою команду AI Ethics и сфокусировался на сокращении отставания от конкурентов.

P.S.
Мне персонально интересно следить за карьерой Джеффа, который приложил руку ко многим инфраструктурным проектам Google:
- Google Search и whitepaper
- MapReduce и whitepaper
- BigTable и whitepaper
- Google Spanner и whitepaper
- Protocol Buffers (protobuf)
- и куча чего еще

Сейчас Джефф является Google's Chief Scientist, фокусирующемся на AI для Google DeepMind and Google Research.
Интересно, что в приведенном мной видео Джефф рассказывает, что писал учебную работу по нейронным сетям еще в далеком 1990 году:)
В общем, я думаю, что у Джеффа все получится и я с большим удовольствием изучу следующие whitepapers на тему AI (последние были в 2022 году)

#ML #AI #DataScience
🔥135👍3