Python, Data Science, нейросети, ИИ все-все-все

Прочитал статью @roman-gorb «Нейросеть, способная объяснить себе задачу: P-tuning для YaLM» https://habr.com/ru/company/yandex/blog/588214/. Ниже мой краткий конспект.

Есть метод обучения Few-shot. Он позволяет без дообучения решать задачи ОЕЯ. Например, сгенерировать по тексту сокращенный вариант (задача суммаризации новостей, отзывов и книг). Для этого используется предобученная модель, которая доучивается на небольшом количестве данных. Так как данных мало, сигнал получается шумным: нейросеть додумывает куски текста, не имеющие отношения к подводке, или повторяет отдельные фразы.

Есть уточнение этой модели, называемое P-tuning. Формулировка задачи та же. И там, и там мы работаем не с самими текстами, а с их векторными представлениями — эмбеддингами. Но в случае P-tuning модель нагло оптимизирует эмбеддинг текста так, чтобы итоговая задача решалась лучше. То есть вместо статичных векторов используют обучаемые. Эмбеддинги моделируют, используя LSTM и MLP. Фактически делают adversarial attack на часть входного текста в NLP-модель. Идея предложена в статье с arXiv: https://arxiv.org/pdf/2103.10385.pdf

P-tuning обеспечивает лучшее качество, чем Few-shot, и обычно не производит артефакты, присущие последнему. В бенчмарке Russian SuperGLUE https://russiansuperglue.com/leaderboard/2 модель заняла 3 место, обогнав single-model-методы, а также более дорогостоящие finetuning-модели.

#natural_language_processing #нейросети

35 viewsleomatyushkin_bot, 09:46

Добавил несколько ссылок на бесплатные книжки по Deep Learning и общему Machine Learning в любимый читателями репозиторий https://github.com/matyushkin/ds

Не стесняйтесь делать пул-реквесты и обмениваться идеями через телеграм-чат https://t.me/matyushkin_chat или в комментариях вк-группы. Хочется обмена идеями между всеми, но большинство ребят до сих пор пишут только в личные сообщения.

#data_science

33 viewsleomatyushkin_bot, 18:02

Python, Data Science, нейросети, ИИ все-все-все

Хорошую идею для создания сервиса предложил на Хабре песочный пользователь lfwsmrp в статье «Метод анализа вакансий с HR-агрегаторов» https://habr.com/ru/post/588478/

Фактически в инструктивном ключе описан способ получения моды по вакансиям, когда указаны широкие интвервалы «от» и «до» или не указана одна из границ.

#анализ_данных_без_machine_learning #зарплаты

Хабр

Сколько ты стоишь? Метод анализа вакансий с HR-агрегаторов

Вводная Конечно, когда мы решаемся сменить работу, мы исходим из своих личных побуждений и мотиваций; и очевидно, что увеличение своего материального положения — не последняя из причин. Но при ответе...

31 viewsleomatyushkin_bot, 19:41

Python, Data Science, нейросети, ИИ все-все-все

Несколько книг по компьютерному (машинному) зрению, которые полезны независимо от выбора языка и без приложения глубокого обучения. На годы выпуска можно не смотреть, в них описаны концептуальные нестареющие вещи.

— Шапиро Л., Стокман Дж. Компьютерное зрение. 2015 (основные аспекты алгоритмического распознавания образов: базовый анализ изображений, фильтрация, цвет, текстура, восприятие движения и трехмерных сцен; алгоритмы даны на псевдокоде; качественный перевод Богуславского, достойные иллюстрации)
— Гонсалес Р. Вудс Р. Цифровая обработка изображений. 2012 (введение в основные понятия и методы цифровой обработки изображений, большое количество примеров и иллюстраций, упраженния)
— Клетте Р. Компьютерное зрение: теория и алгоритмы. 2019 (обработка и анализ изображений, сегментация, реконструкция, обнаружение объектов; есть цветные иллюстрации, упражнения, нужно владеть математическим аппаратом)
— Justin Solomon. Numerical Algorithms. Methods for Computer Vision, Machine learning and Graphics. 2015 (очень емкое при этом практичное введение в те части линейной алгебры, оптимизационных методов, матанализа и дифференциальных, которые пригождаются в компьютерном зрении и машинном обучении)
— Szeliski R. Computer Vision: Algorithms and Applications. 2010 (обработка, сегментация, выравнивание, движение, вычислительная фотография, 3D-реконструкция, рендеринг, детектирование)
— Hartley R. Zisserman A. Multiple View Geometry in Computer Vision. 2004. (о работе с объектами, распознаваемыми с разных точек наблюдения)

Другие примеры в репозитории https://github.com/matyushkin/ds

Если знаете другие хорошие примеры, напишите.

#computer_vision #books

37 viewsleomatyushkin_bot, 13:36

Python, Data Science, нейросети, ИИ все-все-все

Алексей Алексеев рассказал и показал (на PyTorch) окрашивание изображений по свежей публикации с arXiv: Color2Embed: Fast Exemplar-Based Image Colorization using Color Embeddings. Метод очень похож на модифицированный алгоритм StyleGAN с интересными подходами к уменьшению переобучения.

Главный результат: высокая скорость работы. Алексей выдвигает практичную гипотезу, что использование несколько картинок-источников цвета может улучшить качество результата.

Если хотите сразу перейти к делу и попробовать собственные картинки, открывайте блокнот в Google Colab: https://colab.research.google.com/drive/1Xyq-kuTWzvoQH4r7d5C7YN7sVe19pUv0#scrollTo=6Nm25AlJzmyn

Сама статья Алексея: https://habr.com/ru/company/ntechlab/blog/586122/

#deep_learning #images

38 viewsleomatyushkin_bot, 17:37

Python, Data Science, нейросети, ИИ все-все-все

Люблю, когда программирование сталкивается с реальным миром, дизайном и всяческими жизненными деталями. У Тинькофф вышел занятный пост о метриках, которые использовались для обновления интерфейса банкоматов: https://habr.com/ru/company/tinkoff/blog/588410/

#банкоматы #design

Хабр

На какие метрики мы смотрели, обновляя интерфейс банкоматов

Зачем вообще в 2021 году заниматься банкоматами? Кажется, что уже все кто только можно перешли на безнал. Но на самом деле количество пользователей банкоматов Тинькофф растет, причем быстрее, чем...

36 viewsleomatyushkin_bot, 16:51

Python, Data Science, нейросети, ИИ все-все-все

Айрана Монгуш описала свой трек по изучению Data Science: https://habr.com/ru/post/589765/
Всё по делу.

#data_science #courses

32 viewsleomatyushkin_bot, 14:30

Python, Data Science, нейросети, ИИ все-все-все

На Хабре перевели прошлогоднюю статью Тристана Хэнди о стеках данных (продуктах для Big Data) : https://habr.com/ru/post/590511/

Будет полезно, если вы слышали о MPP, Resshift, KSQL.

#базыданных

32 viewsleomatyushkin_bot, 08:02

Python, Data Science, нейросети, ИИ все-все-все

Для тех, кто любит статистику и R, статья «Вычисляем возраст Вселенной в R»: https://habr.com/ru/post/590277/

Обратите внимание на комментарии к публикации.

#статистика #rlang #вселенная

32 viewsleomatyushkin_bot, 13:03

Python, Data Science, нейросети, ИИ все-все-все

Не хватает визуальных примеров, но интересно: https://habr.com/ru/post/591255/

Пользователь Хабра NewTechAudit описал работу над моделью автоматического распознавания русского рукописного текста. Модель основана на архитектуре Simple HTR: свёрточный + рекуррентный нейросетевые блоки.

Докер-контейнер с лучшей моделью и инструкцией для использования: https://hub.docker.com/r/droidkos/htr-mb-inference

#natural_language_processing #handwritten_russian

Хабр

Исследование в области русского рукописного текста. Реализация и тестирование прототипа

Недавно мы с коллегами работали над задачей автоматического распознавания русского рукописного текста. В предыдущей статье была описана работа над созданием нашего датасета для обучения...

35 viewsleomatyushkin_bot, 17:22

Python, Data Science, нейросети, ИИ все-все-все

Подборка свежих проектов на базе Raspberry Pi: https://habr.com/ru/company/selectel/blog/584122/
В подборке следующее:
— Кластер из Raspberry Pi Zero 2 W
— Аркадный игровой аппарат
— Иллюминация на Новый Год и Рождество
— Коммерческий сервер
— Счетчик подписчиков YouTube
— Велосипедный ПК
— Радиоуправляемая машинка

#electronics

Хабр

Роботы, кластеры и рождественская иллюминация: новые проекты на Raspberry Pi

Одноплатники от Raspberry — рабочие лошадки, которые позволяют реализовать множество разнообразных проектов, от самых простых, до комплексных hi-end систем. Нашей команде очень нравятся «малинки»,...

38 viewsleomatyushkin_bot, 16:34

Python, Data Science, нейросети, ИИ все-все-все

Выпустили вместе с Библиотекой программиста до конца курс «Статьи для IT» https://stepik.org/101672

Для кого: для всех, кто хочет научиться занятно писать о собственных проектах, крутых программных решениях и разработке вообще.

О чём: как собирать и систематизировать заметки, писать, редактировать и иллюстрировать информационные статьи, распространять и зарабатывать на том, что ваши тексты читают. Всё это на примерах публикаций про информационные технологии.

Зачем: чтобы продвигать личные IT-продукты и услуги, научиться доносить идеи и развить навыки письма и общения. Всех авторов, прошедших курс, Библиотека программиста приглашает к сотрудничеству.

Сколько стоит: бесплатный, но придётся потратить несколько часов на прохождение и ещё больше — на практическое освоение приёмов. Чтобы вам было легче справиться, отвечаю на все вопросы в комментариях курса.

Stepik: online education

Статьи для IT: как объяснять и распространять значимые идеи

Для тех, кто любит качественные IT-публикации и хочет научиться интересно писать о программировании и собственных IT-проектах

36 viewsleomatyushkin_bot, 14:15

Python, Data Science, нейросети, ИИ все-все-все

Денис Ольшин рассказал о своем подходе к генерации игровых миров на базе Python, диаграммы Вороного, шумов Перлина и симплексных шумов.

https://habr.com/ru/post/590547/

#python #gamedev

Хабр

Воссоздаем Minecraft-подобную генерацию мира на Python

...используя диаграммы Вороного и много шумов Перлина/симплексных шумов Прим. переводчика : стоит отметить, что непосредственно в Minecraft используются отличные от описанных ниже подходов — игра не...

50 viewsleomatyushkin_bot, 19:00

Python, Data Science, нейросети, ИИ все-все-все

Татьяна Гайнцева подробно рассмотрела понятие нейронных сетей inductive bias: https://habr.com/ru/post/591779/

#нейросети

Хабр

Inductive bias и нейронные сети

В этой статье я расскажу, что такое inductive bias, зачем он нужен и где встречается в машинном обучении. Спойлер: везде. Любая нейросеть имеет inductive bias (даже та, что в человеческом мозге,...

55 viewsleomatyushkin_bot, 13:02

Python, Data Science, нейросети, ИИ все-все-все

На рождественских каникулах изучал мир NoCode. Буду понемногу приводить заинтересовавшие меня инструменты.

— https://landbot.io/ — можно натренировать чатбота на внятное общение с клиентами и поместить на собственный сайт или в вотсап
— https://bubble.io/ — быстро создать и захостить сайт
— https://webflow.com/ — дорисовать лэндинг или портфолио, подправив шаблон под собственную задачу, «кодинг» похож на фотошоп
— https://www.bravostudio.app/ — подключаем проект из Figma, добавляем Airtable, хоп — готовое iOS- или Android-приложение
— https://www.glideapps.com/apps — можно строить веб-приложение не от дизайна, а от данных в Google-таблицах

#nocode #lowcode #списки

44 viewsleomatyushkin_bot, 18:00

Python, Data Science, нейросети, ИИ все-все-все

В журнале Код разобрали на примере Python идею из твиттера @goodboy_nomore: как сделать генератор забавных слов склеиванием из двух известных: https://thecode.media/glukozanostra/

В чём идея. Например, у нас есть слово «программа», которое заканчивается на «грамма». И есть слово «грамматика», которое начинается на эти же буквы. Если их записать друг за другом, чтобы слово как бы перетекало одно в другое, получится «программатика». Или вот ещё пара примеров:

абрикосуля = абрикос + косуля (3 буквы в пересечении);
капитание = капитан + питание (5 букв в пересечении).

Берём первое слово и ищем другое слово, которое начинается на те же буквы, которыми заканчивается первое.

Хороший пример для обучения в школе: легко объяснить идею и потом забавно изучать результат выполнения кода.

#python #education

39 viewsleomatyushkin_bot, 19:34

Python, Data Science, нейросети, ИИ все-все-все

Занятная сама по себе статья (перевод) про решение популярной головоломки Wordle на Python. С частотным анализом алфавита и процедурой итерирования ответа. Жаль, что под постом мало комментариев.

https://habr.com/ru/company/skillfactory/blog/645653/

#puzzle #wordle #python

Хабр

К старту курса по Fullstack-разработке на Python рассказываем, как решать Wordle. Worlde — новая головоломка, которая захватила внимание множества людей по всему миру. За подробностями приглашаем под...

41 viewsleomatyushkin_bot, 13:58

Python, Data Science, нейросети, ИИ все-все-все

Занятная статья от аспиранта питерской Вышки про градиенты в нейронных сетях для поиска аномалий в данных. Словесное описание + немного математики.

https://habr.com/ru/company/hsespb/blog/646219/

#math #networks

Хабр

Градиенты в нейронных сетях для поиска аномалий в данных

В основе машинного обучения лежит предположение, что данные для обучения, тестирования и применения взяты из одного и того же распределения. К сожалению, в процессе применения модели это предположение...

42 viewsleomatyushkin_bot, 17:52

Python, Data Science, нейросети, ИИ все-все-все

Подборка из девяти библиотек для разработки игр на Python: https://habr.com/ru/post/645041/

#python #gamedev

Хабр

9 библиотек Python для разработки игр

Разработка игр на Python — это не только PyGame, Tower Defense и платформеры, а это и DOOM , и MMORPG, и симуляторы свиданий/отношений, и визуальные новеллы, и конкурсы DARPA, и моделирование...

50 viewsleomatyushkin_bot, 16:38

Python, Data Science, нейросети, ИИ все-все-все

Чтение на выходные: член сообщества ODS Олег Седухин опубликовал на Хабре обстоятельный лонгрид про CatBoost, XGBoost и выразительную способность решающих деревьев. С большим количеством занимательных экспериментов и ценных мыслей — рекомендую:

https://habr.com/ru/company/ods/blog/645887/

#data_science #machinelearning #catboost #xgboost

Хабр

CatBoost, XGBoost и выразительная способность решающих деревьев

Сейчас существенная часть машинного обучения основана на решающих деревьях и их ансамблях, таких как CatBoost и XGBoost, но при этом не все имеют представление о том, как устроены эти алгоритмы...

41 viewsleomatyushkin_bot, 08:59

About

Blog

Apps

Platform