116 subscribers
72 photos
12 videos
45 files
373 links
MACHINE LEARNING ALGORITHMS
Download Telegram
Channel name was changed to «MLA»
Машинное обучение (Ml) — ограниченный набор базовых алгоритмов извлечение структуры — зависимости, границ, группы или вероятности

Линейная регрессия — самый прямолинейный способ предсказания
Она пытается описать данные простой зависимостью: если меняется одно, как меняется другое

Логистическая регрессия, несмотря на название, используется не для чисел, а для решений типа «да / нет»

Дерево решений работает как

набор вложенных вопросов: если выполнено одно условие — идём туда, если другое — сюда

Метод опорных векторов (SVM) ищет границу между классами так, чтобы она была максимально устойчивой
Интуитивно — это попытка разделить данные с запасом прочности
Алгоритм хорошо работает на задачах средней сложности, особенно когда данных не слишком много, а граница между классами не совсем очевидна

Метод ближайших соседей (KNN) вообще ничего не «учит» заранее
Чтобы классифицировать новый объект, он просто смотрит на похожие объекты в данных и голосует
Это делает алгоритм концептуально простым и понятным, но на больших объёмах данных он становится медленным, потому что каждый новый запрос требует сравнения со всеми остальными

Снижение размерности — это не столько алгоритм, сколько класс методов
Их цель — упростить данные, оставив главное
Когда признаков слишком много, часть из них дублирует друг друга или добавляет шум
Такие методы позволяют сжать пространство признаков, сделать данные более наглядными или подготовить их для других алгоритмов

Случайный лес — попытка исправить слабости отдельных деревьев решений
Вместо одного дерева строится много разных, каждое со своими ошибками, а затем их ответы усредняются или объединяются голосованием
В результате модель становится устойчивее и часто даёт хороший результат без тонкой настройки

K-means — один из базовых алгоритмов кластеризации
Он не знает правильных ответов заранее, а просто пытается разбить данные на заданное число групп так, чтобы внутри групп объекты были похожи друг на друга

Наивный Байес — вероятностный подход, который делает сильные упрощающие предположения о независимости признаков

В сумме эти алгоритмы образуют своего рода «алфавит» машинного обучения

Современные модели могут быть гораздо сложнее, но почти всегда они либо развивают эти идеи, либо комбинируют их между собой

Понимание базовых методов даёт не только техническую основу, но и интуицию: что именно модель делает с данными и почему она ошибается там, где ошибается
Из небольшой LLM качество уровня DeepSeek-R1 и o3-mini без дообучения, чисто за счёт умной организации инференса

Метод называется
Recursive Self-Aggregation (RSA) и работает по принципу эволюции, не нужно тренировать новую модель или покупать доступ к дорогим API

Достаточно грамотно использовать то, что есть

Платишь вычислениями на инференсе — получаешь качество

Код открыт, метод работает на разных архитектурах. Практически применимая техника уже сейчас
Экономика, основанная на данных, диктует новые правила

Спрос на специалистов, владеющих методами количественных исследований и аналитики данных

Для компаний это переход от интуитивных решений к стратегиям, построенным на статистике и фактах

Для специалистов — необходимое условие профессионализма

Обучение в этой сфере превратилось в базовый навык, определяющий эффективность в управлении и науке

Читать статью
https://www.math.ucla.edu/~tao/preprints/forms.pdf

Т.Tao. Differential forms and integration

(популярное введение для тех, кто базовый анализ функций одной переменной уже понимает)

// via Д.Швецов
OpenAI выпустили рабочее место с MLA для ученых и исследователей

Новый продукт называется
Prism, он объединяет написание текстов, LaTeX-редактирование, поиск литературы, цитирование, совместную работу и помощь ИИ на базе GPT-5.2

Доступен любому, у кого есть аккаунт ChatGPT, регистрация не нужна дополнительная, просто заходи под своим логином

Prism - это если объединить Overleaf, Zotero, Elicit, Scite, Grammarly и Claude Projects + GPT-5.2

2026 год MLA в науке
Очень смелый прогноз от соfounder Anthropic:
50% вероятность, что через 2-3 года теоретические физики будут в основном заменены ИИ.


Джаред Каплан, сооснователь Anthropic и физик-теоретик,
говорит, что долгосрочное планирование в физике становится бессмысленным, потому что MLA радикально изменят саму природу научной работы

Высокая вероятность, что в ближайшее время теоретические физики будут в основном заменены MLA, которые смогут автономно генерировать статьи уровня таких Нима Аркани-Хамед или Эдвард Виттен (это топ-уровень теоретической физики — Виттен считается одним из величайших живущих физиков)
Между LLM и эмуляцией мозга пропасть в архитектуре и подходах - отчет о состоянии технологий эмуляции мозга от EPFL, Allen Institute, MIT - 1-й системный обзор со времён работы Sandberg & Bostrom 2008 года

Месяц
назад разбирали прорывы в коннектомике
Оценки месячной давности подтверждаются, но отчёт добавляет важный нюанс - карта связей это только треть задачи

Исследователи говорят, что сегодня в мире менее 500 человек работают над эмуляцией мозга
С учётом смежных областей — не более 5000
Причём в лидирах - Allen Institute, IARPA MICrONS, Google Research, Harvard

Авторы выделяют 3 ключевые технологические области:

Запись активности мозга
Прогресс за последние 20 лет: примерно 100-кратное увеличение эффективной пропускной способности записи нейронной активности

Сейчас можно записывать до ~1.000.000 нейронов коры мыши, но без разрешения отдельных спайков

Важный момент - ни в одном организме пока не достигнута запись ≥95 % нейронов с разрешением отдельных спайков
Даже у червя C. elegans с его 300 нейронами записывают ~50 % нервной системы

Картирование связей
Полные карты связей на уровне синапсов существуют только для:
• Червь C. elegans (~300 нейронов) — ~10 коннектомов

• Муха дрозофила (~140 000 нейронов) — полный коннектом получен в 2024-25

• Личинка рыбки данио (~100 000 нейронов) — в процессе

• Мышь (~70 млн нейронов) — отсканировано 1 мм³ (0.2 % мозга)

• Человек (~86.000.000.000 нейронов) — 1 мм³ (0.00007 % мозга)

Стоимость упала с $16.500 за нейрон (1980-е) до ~$100 (2025)
Но для полного коннектома мыши при бюджете $1.000.000.000 нужно $10/нейрон, для человека — $0.01/нейрон

Моделирование
Лучшие симуляции на сегодня:

- BAAIWorm (Китай, 2024): 136 нейронов C. elegans, воспроизводит хемотаксис и базовое движение

- Модели дрозофилы предсказывают активность для отдельных поведений

- Человеческий масштаб: только proof-of-concept на суперкомпьютерах (в 65-580 раз медленнее реального времени)

1 GPU H100 (80 ГБ) может хранить ~8.000.000 нейронов
Мышиный мозг требует кластера, человеческий — инфраструктуры масштаба полупроводниковой фабрики


Н
аучились картировать структуру быстрее, чем записывать функцию
Для млекопитающих придётся выводить функциональные свойства из анатомии, а не измерять напрямую
Это фундаментально меняет задачу и пока непонятно, возможно ли это в принципе

Что это значит?

Создание цифрового мозга
— не вопрос ближайших десятилетий даже для мыши

Реальный фронтир — организмы с <1 млн нейронов (рыбка данио, дрозофила)

Узкое место не вычисления, а данные и понимание того, какие биологические детали критичны

Между современными LLM и эмуляцией мозга — пропасть в архитектуре и подходах
Это напоминание к посту от ноября 2025
Все четыре набора данных на графике имеют одинаковые средние значения, медиану и дисперсию
Так что визуализируйте большие массивы результатов
Логика не может подойти к самому целому

Это теоретически обосновал гораздо раньше Виккенштейна, почти две тысячи лет тому назад, Нагарджуна

Любое логическое предложение раскалывает целое на два куска – субъект, предикат и связка
Целого уже нет
Целое можно только совершать

И поэтому метафора и парадокс – это язык глубины

А когда это начинает превращать в логически построенную систему, всегда можно построить другую систему, которая вот так сталкивается с этим

В общем, вместо трёхмерности или четырёхмерности получается одномерность
Задача выполнимости формул в теориях (satisfiability modulo theories, SMT) — это задача разрешимости для логических формул с учётом лежащих в их основе теорий
Как получить доступ к Guided Learning
Откройте Google Gemini в браузере
Начните новый диалог
Выберите режим Guided Learning из списка режимов
Задайте вопрос или загрузите документ для изучения
Директор НИИ Антропогенеза принял участие во Всероссийском «Физтех-форуме-2026»
 
Мероприятие собрало в Московском педагогическом государственном университете представителей научного и педагогического сообществ

Проведение такого форума — важный шаг в совершенствовании инженерного образования и подготовке технологических лидеров будущего

Правительством РФ был утверждён комплексный план мероприятий по повышению качества математического и естественно-научного образования на период до 2030 года

Во всех регионах страны проводится работа по ежегодному увеличению не менее чем на 10 % числа школьников, изучающих математику и естественно-научные предметы

В 2024/25 учебном году на углублённом уровне программы осваивали более 800.000 ребят, что на 41 % больше, чем в прошлом учебном году

В 2025 году выполнен плановый показатель мероприятия комплексного плана по увеличению доли выбравших ЕГЭ по профильной математике и естественно-научным предметам
Его значение составило 33.1 %

Мероприятия форума продлились два дня

Организаторы —
МПГУ и Ассоциация школьного кластера при поддержке Минпросвещения России
Wow! DeepMind выложил Genie 3 как проект (доступен только с подпиской Ultra)

https://deepmind.google/models/genie/

Promptable world model это интересно...
Едут в одном вагоне четверо программистов и четверо пользователей

У пользователей четыре билета на четверых, а у программистов один

Приходит пора предъявлять билеты
Программисты запираются в туалете, приходит контролер
Стучится, из сортира высовывается рука и протягивает билет
Контролер уходит

Пользователи все видят и им завидно
Едут все те же пользователи и программисты обратно
Но на этот раз у пользователей один билет на четверых, а у программистов - ни одного
Приходит пора проверки билетов
Пользователи запираются в сортир
Приходит один из программист и стучится в дверь
Ему высовывают билет
Он берет билет, программисты запираются в другом сортире
Приходит контролер...

Мораль: не всякий алгоритм, разработанный системным программистом, подходит для рядового пользователя