Хабр / ML & AI
483 subscribers
5.48K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
Кратко про алгортим обучения Q-learning и как он реализуется в Python для новичков

Привет, Хабр!

Q-learning — это алгоритм обучения с подкреплением, который позволяет агенту оптимизировать свою стратегию действий в динамичной среде, стремясь максимизировать сумму будущих наград. Агент исследует среду, принимая решения, основанные на предыдущем опыте, а не на предварительной модели мира.

В этой статье мы и рассмотрим этот алгоритм.

Читать далее

#ml #q_learning #python | @habr_ai
[Перевод] Гайд на Reinforcement Learning для новичков. Реализация простой задачи

Давайте рассмотрим аналогию с обучением собаки новым трюкам. В этом сценарии мы моделируем ситуацию, а собака пытается реагировать на нее по-разному. Если реакция собаки оказывается желаемой, мы поощряем ее кормом. В противном случае мы тем или иным способом даем понять, что ее реакция не является желаемой.

Теперь каждый раз, когда собака попадает в ту же ситуацию, она выполняет аналогичное действие с еще большим энтузиазмом, ожидая получить больше еды. По сути, она учится тому, что нужно делать, на основе положительного опыта. Точно так же она будет учиться тому, что не следует делать, когда сталкивается с негативным опытом.

Именно так работает Reinforcement Learning в широком смысле

Читать далее

#ml #q_learning #reinforcement_learning #алгоритмы #машинное_обучение | @habr_ai
Нейронные оптимизаторы запросов в реляционных БД (Часть 1)

В 1970-х годах известный программист Эдгар Кодд разработал математически выверенную теорию организации данных в виде таблиц (реляций). С тех пор утекло немало воды — появилось большое количество различных коммерческих и open-source реляционных систем управления базами данных (РСУБД). Скоро стало понятно, что эффективное получение данных из базы — задача далеко не тривиальная. Если говорить прямо, она нелинейная и в общем случае NP-сложная.

Когда SQL-запрос становится немного сложнее: SELECT * FROM table, у нас появляется огромная вариативность его исполнения внутри системы — и не всегда понятно, какой из возможных вариантов эффективнее как по памяти, так и по скорости. Чтобы сократить огромное количество вариантов до приемлемого, обычно используются так называемые эвристики — эмпирические правила, которые придуманы человеком для сокращения пространства поиска на несколько порядков. Понятное дело, эти правила могут отсечь и сам оптимальный план выполнения запроса, но позволяют получить хоть что-то приемлемое за адекватное время.

В последние годы в связи с активным развитием ML начали развиваться и нейронные оптимизаторы запросов —особенность которых в том, что они самостоятельно, без участия человека, находят необходимые закономерности в выполнении сложных планов исходя из обучения на огромном количестве данных. Тенденция началась приблизительно в 2017 году и продолжается до сих пор. Давайте посмотрим, что уже появилось в этой области в хронологическом порядке и какие перспективы нас ждут.

Читать далее

#postgresql #оптимизация #оптимизация_запросов #reinforcement_learning #машинное_обучение #нейросети #q_learning #deep_q_learning #оптимизация_плана #субд | @habr_ai
Как я открыл WebSocket для Сомников из Чёрного Зеркала, а они начали водить хороводы

С приходом популярности генеративных нейросетей, другие виды искусственного интеллекта тоже получили своё место под солнцем. Однако, ещё до этого уже существовали проекты, где искусственный интеллект играет в различные игры, получает очки за достижение целей и обучается на основе своих результатов. При этом, у каждого игрового ИИ есть свой массив доступных ему действий, который может быть постоянным или изменяемым согласно правилам. Я решил собрать небольшой проект, описать механизм взаимодействия ИИ с игровым пространством, а уже потом наполнить игру правилами и смыслом. Читать далее

#искусственный_интеллект #java #html #javascript #webflux #spring #q_learning #gamedev #черное_зеркало | @habr_ai
Обыгрываем казино, с блэкджеком и стратегиями

В данной статье рассмотрим работу с библиотекой gymnasium для изучения машинного обучения с подкреплением. Реализуем агента, который использует метод машинного обучения q-learning для максимизации выигрыша в карточной игре blackjack. Сравним средний выигрыш за 100000 игр при различных реализациях игры blackjack. Читать далее

#rl #blackjack #ml #python #q_learning | @habr_ai