Душин душнит
9 subscribers
1 photo
1 video
2 links
Привет! Я Ярослав Душин, мне 19, я студент МАИ и начинающий ML-разработчик. В свободное время буду публиковать здесь интересные идеи и делиться своими новостями


Тг/инст: @dushinya
GitHub: iguanad0n
Download Telegram
Channel created
Почему умные люди часто кажутся странными? И почему гениальность в одной сфере иногда идёт рядом с полной “слепотой” в другой?

Сейчас я читаю книгу Дэвида Иглмена «Живой мозг» — и честно, очень советую её всем, кому интересна тема мозга. Чем дальше читаешь, тем сильнее ощущение, что ты не просто узнаёшь факты — ты начинаешь видеть логику работы мозга.
И многие странные вещи в поведении людей перестают быть загадкой: у них появляется понятный механизм.

В одной из глав меня особенно зацепила мысль:
«Эффективность восприятия напрямую зависит от объема „вычислительной площади“ коры. Мозг постоянно оптимизирует картографию: при утрате одного чувства он отдает его территорию другим. Однако сверхспособности в одной области часто ведут к дефициту ресурсов в других (например, социальных навыках).»


То есть мозг — не просто “набор отделов”, а система распределения ресурсов.
У него ограниченная площадь и ограниченная вычислительная мощность — и он постоянно решает, что важнее.

Иглмен приводит мощный пример: когда человек теряет слух, та нейронная ткань, которая раньше занималась обработкой звука, начинает помогать другим чувствам. Поэтому у людей с глухотой могут усиливаться визуальное внимание или способность читать по губам — вплоть до того, что они замечают тонкие особенности речи и даже могут понять, откуда человек родом.

И это приводит к простой мысли:
Сверхспособности возможны, когда мозг отдаёт под одну задачу “слишком много территории”.
Но это почти всегда происходит в ущерб другим задачам.


И меня это прям зацепило — потому что ведь правда: нередко можно увидеть человека, который невероятно силён в одном… но как будто “не видит” очевидных вещей в другом.
И если уж брать пример человека, у которого гениальность стала символом, то как тут не вспомнить Альберта Эйнштейна?

Есть даже интересная деталь, которая красиво ложится на эту идею. В статье про его мозг говорится, что:
Научные исследования показали, что области мозга Эйнштейна, ответственные за речь и язык, уменьшены, в то время как области, ответственные за обработку численной и пространственной информации, увеличены.

Но что ещё интереснее — его “особенности” проявлялись не только в строении мозга. В некоторых биографиях и воспоминаниях упоминается, что у Эйнштейна в детстве были заметные сложности с речью: он начал говорить позже сверстников (по другим источникам — вообще после 3 лет), а предложения формировал с трудом.

При этом он сам позже говорил, что ему проще думать не словами, а образами. Как будто его мышление изначально было настроено не на “объяснить”, а на “увидеть” — представить картину, структуру, форму.

И вот в этом месте у меня в голове щёлкнуло:
возможно, “странности” умных людей — это не просто характер. Иногда это следствие того, что мозг реально усиливает одни режимы работы и делает это ценой других.

То есть мозг не пытается сделать нас идеальными во всём.
Он скорее “прокачивает” то, что чаще всего нужно — и тем самым создаёт перекосы.

И, возможно, это помогает проще к этому относиться:
не ругать себя (или других) за эти перекосы,
а понять свою сильную сторону
и научиться пользоваться ей осознанно.
❤‍🔥2🔥1🍓1
Почему обучение с подкреплением (Reinforcement Learning) похоже на то, как учится младенец?

Представьте младенца, который учится говорить.
Сначала это вообще не похоже на речь — скорее набор экспериментов: звуки, слоги, лепет.

Он случайно произносит что-то вроде “ма” — и вдруг родители оживляются: улыбаются, повторяют, отвечают, дают внимание.
Младенец тут же пробует снова. Потом ещё раз. И постепенно начинает “нащупывать”, какие звуки работают лучше остальных.

А те попытки, которые не вызывают реакции, становятся менее вероятными.

По сути, обучение идёт через замкнутую петлю обратной связи: мозг не просто делает действие, а постоянно проверяет, к чему оно привело и насколько изменило реальность.

Иглмен формулирует это так:
«Мозг успешнее всего обучается двигать телом при замкнутой петле обратной связи — не только за счет посылаемых сигналов, но и за счет принимаемых, которые подтверждают, что взаимодействие с миром происходит.»


И вот ключевая мысль:
навык обучается не инструкцией, а проверкой результата.

Обратная связь позволяет системе настраивать связи между нейронами — и с каждой попыткой действовать точнее.
По сути мозг строит внутреннюю модель: что я сделал — и что из этого вышло.

А теперь самое интересное: ровно этот принцип в ML называется обучением с подкреплением (Reinforcement Learning).

Reinforcement Learning — это способ обучения, где агент не получает “правильные ответы”.
Он учится выбирать действия так, чтобы со временем получать больше “награды” от среды.

Вот базовая петля RL в одном рисунке:
(Reward)


Agent ── Action ─► Environment
▲ │
└──── State ◄───┘


Чтобы это не звучало абстрактно, разложу простыми словами:
Agent (агент) — тот, кто учится (например, модель)
Environment (среда) — мир/задача, где агент действует
State (состояние) — информация, которую агент получает о ситуации
Action (действие) — что агент делает
Reward (награда) — сигнал “полезно / не полезно”
Policy (стратегия) — правило, по которому агент выбирает действия

Главная цель RL звучит так:
найти стратегию действий (policy), которая максимизирует суммарную награду в будущем.


И это важное отличие от “обучения с учителем”:
• В supervised learning тебе дают пары: вход → правильный ответ
• В RL правильного ответа нет — есть только последствия действий
(иногда хороший результат приходит не сразу, а через серию шагов)

Именно поэтому RL особенно полезен там, где нужно принимать последовательные решения:
• игры (шахматы, Go, симуляции)
• робототехника (как двигаться, чтобы не падать)
• управление (распределение ресурсов, стратегии в сложных системах)
любые задачи, где важен не один шаг, а поведение во времени

Например, DeepMind использовали RL в AlphaGo/AlphaZero: агент играл сам с собой (self-play), получал награду за победу/поражение и постепенно находил стратегии, которые человек ему явно не прописывал.

И самое важное, что стоит помнить про RL:
алгоритм обучается не “быть умным”.

Он обучается оптимизировать награду.

Поэтому в RL ключевой вопрос почти всегда один:
какую именно награду ты задал — и чему она на самом деле учит агента.
1