Bayesian Noise
61 subscribers
57 photos
234 links
Канал @nesterione. Посты про ИТ, машинное обучение, рациональность, иногда просто заметки и наблюдения.

з.ы. картинка не картинка...
Download Telegram
Немного забросил свой микроблог, хотя материала накопилось большое количество и много сохранённых набросков с разными наблюдениями.

В одной статье AI и блокчейн, иногда кажется, компании-динозавры просто пытаются хайпануть по любому поводу https://dev.by/lenta/main/ibm-counter-counterfeit-tech

Но на самом деле идея то очень полезная. Недавно в очередной раз столкнулись с проблемой как отличить настоящий ли товар. Когда покупаешь брендовый товар, хочется иметь простую возможность проверить его подлинность.

Нужен ли для этого AI? Наверное задачу можно проще решить, если все производители будут добавлять специальные метки для проверки. Но идея с ИИ всё равно не лишёна смысла, т.к. товаров много без специальных меток, которые вполне могут проверяться интеллектуальным алгоритмом.

А ведь блокчейн не выглядит глупой идеей для построения специальной сети верификации товаров? Не правда ли было бы удобно иметь децентрализованную сеть, где фиксировались бы все покупки и продажи оригинальных вещей.

#ai #blockchain
Недавно был на конференции YaC2018 от компании Yandex, на одном из стендов можно было прокатиться на прототипе беспилотного авто.

Честно скажу, что поездка у меня не вызвала никакого "вау" эффекта, это представляется как необратимый этап в развитии транспорта. На стенде яндекса был закрытый полигон, но на мониторе можно было наблюдать как автомобиль "видит" пешеходов вокруг. Выкладывал видео в ВК, https://vk.com/wall100458783_1105 в комментах ещё некоторые размышления по поводу беспилотников.

Сейчас кажется, что это всё будет ещё не скоро, но вы посмотрите как активно развивается область, сейчас почти любая автомобильная компания вовлечена в разработку автопилотов.

Считаю что разработки Яндекса очень важны, они очень хорошо понимают специфику наших дорог. Согласитесь не одно и тоже ездить по дорогам Калифорнии и наши дороги, временами покрытые снегом, часто без разметки и усыпанные ямами, в которых можно оставить колёса.

И ещё свежая новость, Waymo (дочерняя компания google), заключает договор на производство 62000 автомобилей оснащённых полным набором датчиков. Не сообщается на какой период этот договор, и не понятно когда планируются поставки.
https://www.nytimes.com/2018/05/31/business/waymo-chrysler-minivans.html

Waymo собирается решать задачи перевозки людей (такси), доставки, и транспортировки грузов (вполне логичный список, не правда ли?)

Я сторонник автоматизации, техника всегда лучше справляется с рутинными задачами. На человека может оказывать влияние множество факторов, в среднем он не может контролировать всё и сразу, а компьютер может при необходимом количестве датчиков и хорошем софте.

#ai #selfdriving
Увидел такую демку визуализатора для МРТ. https://youtu.be/478ynSlt_TA

Кажется мы всё ближе к фантастическим фильмам, но вот нужно ли это врачам? Иногда кажется, что ИТшники видят идеальное применение какой-то технологии, но делают не всегда то, что нужно.

Думаю нас ждёт интереснее применение AR или VR технологий в медицине. Например VR отлично подойдёт для обучения (вот из недавнего, https://dev.by/lenta/main/vr-programma-ot-leap-motion-pozvolyaet-razobrat-kota-video добавьте статьи про каждый орган, и получится отличный интерактивный учебник)

Применение AR выглядит очень перспективно. Во время операции можно выводить важную информацию о состоянии пациента, также выделять важные участки дорисовывая выделения поверх изображения, которое видит врач.

#ar #ai #vr
Познакомился с термином предиктивная аналитика (Predictive analytics, PA), говорят это то же самое, что машинное обучение, захотелось разобраться

Встречается информация что предиктивная аналитика это одно из направлений в машинном обучении, но задачи предиктивной аналитики могут решаться без использования машинного обучения. Например с использованием классических статистических методов и с использованием теории игр.

Машинное обучение покрывает широкий класс задача, в то время как предиктивная аналитика рассматривает задачи построения прогнозов на основе исторических данных.
Следовательно, я бы сделал вывод, что PA больше про класс задач, а машинное обучение больше про способ решения задач, в том числе PA.

Примеры задач: кредитный скоринг (https://en.wikipedia.org/wiki/Credit_score), прогнозирование рисков, прогнозирование разных параметров в сфере торговли, ну и так далее, на самом деле, понятно, что сейчас почти всё эти задачи эффективно решаются с применением методов машинного обучения.

https://www.quora.com/What-is-the-difference-between-machine-learning-and-predictive-analytics

https://en.wikipedia.org/wiki/Predictive_analytics

#ai #ml
Недавно Yandex совершил большую поездку от Москвы до Казани на беспилотнике. Действительно важное событие и новая ачивка для разработчиков. Мы всё время слышим про испытания в США, приятно что русская компания идёт в ногу со всем миром, а с учётом сложности русских дорог приходится решать много сложных задач.

https://yandex.ru/blog/company/bolshoe-bespilotnoe-puteshestvie

#ai #selfdriving #news
Крутая статья про новые результаты с GAN https://blog.openai.com/glow/

Это генеративно состязательная сеть, которая учится генерировать объекты принадлежащие к определённому классу (например разные лица, машины, планеты).

Где-то год назад я рассказывал на публичной лекции (Курилка Гутенберга в Гомеле) про GAN, и утром перед выступлением я увидел про генератор котиков https://ajolicoeur.wordpress.com/cats/ .

И вот теперь OpenAI ещё один большой шаг. Сравните детализацию котиков и то, что они сейчас показывают. Круто же, правда?

По первой ссылке доступна статья и исходный код. И обязательно зацените online-демку генератора лиц)

#gan #nn #ai
Ian Goodfellow, известеный исследованиями GAN, проведёт вебинар, где расскажет, как ни странно, про состязательное машинное обучение Adversarial Machine Learning.

Несколько последних лет GAN часто появляются в научных работах и приложениях (например faceapp). Если есть интерес, записывайтесь по ссылке ниже

https://event.on24.com/eventRegistration/EventLobbyServlet?target=reg20.jsp&partnerref=twitterShareFromReg&ms=1531251848082&eventid=1633807&sessionid=1&key=8B7A8F4B65B54C35752F8A6FE23F641A&regTag=&sourcepage=register

#ai
Если вам интересно познакомиться с NLP (Natural Language Processing), посмотрите статью, вышедшую несколько недель назад и уже переведённую несколько раз на русский.

https://medium.com/@ageitgey/natural-language-processing-is-fun-9a0bff37854e
(перевод https://proglib.io/p/fun-nlp/)

В статье весьма поверхностная, но не плохая для ознакомления, прочитайте, если вы не знаете что такое: NLU, лемматизация, стемминг, стоп-слова, парсинг зависимостей, NER (распознавание именованных сущностей), кореференции.

Ещё рекомендую прочесть пост от Яндекса https://habr.com/company/yandex/blog/205198/ ( он также обзорный, но мне понравились примеры, которые использовали для объяснений проблем NLP )

#nlp #ai #ml #nlu
В дополнение к посту выше, набор библиотек для работы с текстом:

https://spacy.io/ - хорошая библиотека для работы с текстом, во многом превосходит аналоги, но не так много языков поддерживает из коробки

https://textacy.readthedocs.io/en/latest/ - дополнение к spacy, поможет с извлечением фактов из текста

https://github.com/huggingface/neuralcoref - дополнение к spacy поможет с разрешением кореференций

https://www.nltk.org/ - самая известная библиотека обработки языков для python

https://radimrehurek.com/gensim/ - просто замечательная библиотека, их слоган topic modeling for humans, от части так и есть. Вы легко можете загрузить готовые обученные word2vec вектора и найдёте большое число полезных функций.

Как преобразовать текст в числа? Здача не простая, но есть решения:

https://nlp.stanford.edu/projects/glove/ - здесь вы найдёте обученные вектора на разных корпусах и можете воспользоваться кодом на github, чтобы обучить свои

https://fasttext.cc/ - замечательная библиотека, и хорошо обученные вектора для разных языков

#nlp #ai #tool #libs
И ещё один пост про тексты, только на этот раз про красивые визуализации семантических векторов. Звучит сложно, но идея простая: давайте подберём каждому слову числовой вектор, и так, чтобы похожие по смыслу слова имели вектора близко расположенные в пространстве.

Когда-то я уже публиковал похожую демку https://t.me/tj4me/40, а вот теперь нашёл ещё одну от tensorflow https://projector.tensorflow.org/

#nlp #ai #demo #visualization
Если вам интересно, как машинное обучение уже сейчас меняет нашу с вами жизнь, рекомендую посмотреть доклад Ивана Ямщикова с YaC https://youtu.be/lE1p5rO7yHo Доклад совсем не технический, слушать очень приятно и затрагивает важные идеи.

Иван также известен участием в проектах Нейронная оборона, neurona и генерацией музыки в стиле Скрябина.

#ai #future #yac #conference
Интересная подборка от dev.by https://dev.by/news/25-open-source-repozitoriev-mashinnogo-obucheniya

Собрали они конечно всего в одну кучу, но среди этого списка нашлись незнакомые мне забавные проекты.

Я выделил проекты, которые хочу проверить (и может про некоторые расскажу отдельно). Да, они не кажутся полезными, но уж точно достаточно интересны, чтобы упомянуть где-нибудь на публичной лекции о достижениях AI.

style2paints
https://github.com/lllyasviel/style2paints - алгоритм раскрашивает скетчи, выглядит очень прикольно. Авторы обновляют сайт, но на github все исходники, можно попробовать запустить. Проверил, модели они тоже предоставляют, и есть набор скетчей для обучения. По описанию на github, кажется это целый редактор на основе нейронных сетей. Проект очень заинтересовал меня, интересно попробовать.

Image-to-image translation in PyTorch
Тоже выглядит интересно, помню статью про это, но готовой модели я не видел.

ParlAI
По заявлению facebook этот фреймворк для обучения и испытания диалоговых нейронных систем. Попробую применить для одного из проектов, расскажу о своих впечатлениях.

Deep photo style transfer
Очень достойные результаты, изображения выглядят реалистичными. Как на деле окажется нужно пробовать.

Deep image prior
В детстве приходилось играть с фотошопом, чтобы исправить дефекты на старых фотографиях, теперь можно проще.

Open Pose
Круто, что теперь это можно без кинекта, используя обычную камеру. Я хотел что-то такое на диплом 4 года назад, вот тогда такое сделать нельзя было с достойным качеством.

Deep Exemplar-Based Colorization
Проекты с разукрашиванием были уже несколько лет, у меня на стере в ВК можно найти ссылку, а это что-то новое и говорят качество существенно лучшее. Кстати яндекс разукрашивал старые фильмы используя нейронную сеть, видели результат?

#nn #ai #art #news #tool #fun
Попался на глаза прошлогодний подробнейший отчёт о прогрессе исследований ИИ. Отчёт содержит огромное число диаграмм и сравнительных таблиц разных подходов для различных классов задач ИИ https://www.eff.org/ai/metrics

Отчёт поражает размерами, отдельное уважение авторам, здесь полно ценной информации о текущем (прошлогоднем) состоянии ИИ.

#ai #progress #metrics #report #info #presentation
Ещё один свежий отчёт о внедрении ИИ в разных компаниях https://dev.by/news/ai-otchyot-ot-deloitte По результатам опросов понятно, что интерес к ИИ решений продолжает расти. Несмотря на некоторые неудачные попытки внедрения, всё больше примеров, где ИИ решения позволяют решать новые и новые сложности.

#ai #report
С интересом прослушал несколько эпизодов подкастов на тему развития ИИ.

Первый, довольно интересный разговор с Sebastian Ruder
https://twimlai.com/twiml-talk-195-milestones-in-neural-natural-language-processing-with-sebastian-ruder/

Он рассказывает о современных достижениях, проблемах и интересных исследованиях связанных с обработкой естественных языков. Sebastian говорит, что мы скоро получим для текстов прорыв, как было с обработкой изображений в 2012, его обоснование можно почитать в блоге http://ruder.io/nlp-imagenet/ . Хотелось бы верить, и недавний выпуск BART гуглом вселяет оптимизм.

Второй подкаст с очень интересным человеком в ИТ Джефом Дином (Jeff Dean). Он с 1999 года работает в google и приложил руку к основным разработкам гугла, сейчас возглавляет Google Brain. Он рассказывает, как ИИ развивался в гугл и какие проблемы они решают сейчас.
https://twimlai.com/twiml-talk-124-systems-software-machine-learning-scale-jeff-dean/

Также Jeff упомянул 14 Grand Challenges for Engineering in the 21st Century http://www.engineeringchallenges.org/challenges.aspx Многие из задач решаются с помощью ИИ.

И третий подкаст с Andrew Ng, профессор Стэнфорда, сооснователь Coursera, бывший глава ИИ подразделения в Baidu, сейчас он занимается несколькими проектами, про один из которых (https://landing.ai/) он рассказывает. Andrew считает ИИ новым электричеством, и пытается всячески способствовать трансформации компаний и улучшать их процессы внедрением ИИ
https://soundcloud.com/greylock-partners/greylock-andrewsarah-podcast

#ai #future #podcast
Ещё один курс по машинному обучению. На сей раз Amazon опубликовали 45ч видео. Лекций много, рекламы amazon продуктов много, корпорациям это понравится.

Видео записаны качественно, но меня на много не хватило:
- нет упражнений.
- очень низкая плотность информации
- нет ускорения видео. Нужно регистрироваться.

За просмотр любого из видео дают сертификаты, если вам это интересно (просто картинки, вряд ли они кому-то нужны).

https://aws.amazon.com/ru/training/learning-paths/machine-learning/

Позже ещё посмотрю, но кажется видео записаны больше для менеджеров нежели для ML-инженеров.

#amazon #ai
Полезная статья от Andrew Ng, который известен своими курсами про ml/dl на coursera, работал в google brain и baidu. Сейчас он занимается своими проектами, цель одного из них: помогать другим компаниям начать использовать AI решения.

https://landing.ai/ai-transformation-playbook

Мысль, которую Andrew пытается донести:
AI (Artificial Intelligence) technology is now poised to transform every industry, just as electricity did 100 years ago. 


Andrew выделяет 5 важных шагов и объясняет почему это важно. В каждом из них вы найдете полезные советы. В частности советы из 1 и 3 будут полезны не только для продуктовых компаний.

#ai #transformation
Bayesian Noise
Полезная статья от Andrew Ng, который известен своими курсами про ml/dl на coursera, работал в google brain и baidu. Сейчас он занимается своими проектами, цель одного из них: помогать другим компаниям начать использовать AI решения. https://landing.ai/ai…
Статья от https://twitter.com/AndrewYNg о том, как выбрать AI-проект для компании. От части советы пересекаются с его предыдущей публикацией. Советы кажутся очевидными, но для некоторых простых выводов нужно много опыта https://hbr.org/2019/02/how-to-choose-your-first-ai-project.

Основные идеи:

1. Выбирайте проект, который может начать приносить выгоду как можно раньше, 6-12 обычно достаточный период.

2. Не нужно браться за решение нерешённых AI-проблем, но в то же время нужно, чтобы проект был достаточно значимым.

3. Следует выбирать проект из своего домена/индустрии - если вы разбираетесь в каком-то домене, это позволяет вам лучше понимать проблемы, которые могут быть решены с помощью AI.

4. Начать можно не имея внутренней AI-команды, но в любом случае выгодно наращивать экспертизу внутри.

5. Нужно брать значимый для бизнеса проект, а не просто, где много данных. Сделать что-то значимое, можно имея небольшое количество данных.

Для того, чтобы проект был успешным, не следует пытаться автоматизировать всю работу определённых специалистов, для можно разработать инструменты повышающие их эффективность.

- Для успеха проекта нужно назначить лидера, который будет мостом между AI-командой и доменными экспертами.

- Нужно убедиться, что проект действительно важен для бизнеса и технически выполним. Обычно за несколько недель может быть сделан небольшой прототип и проверены идеи.

- Пилотный проект стоит запускать небольшой командой 5-15 человек, которые кросс-функциональны и понимают весь проект. Не стоит браться за проект где нужно 100+ людей.

- Если проект достиг определённого результата, важно рассказывать о результате.

#ai #transformation
Важное достижение AI в биологии, была решена задача над которой работали 50 лет: задача фолдинга белка.

https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

В чём заключается задача?

В 1972-м году Christian Anfinsen в своей речи постулировал теорию, что аминокислотная последовательность белка должна полностью определять его структуру. Эта гипотеза вызвала пятидесятилетний поиск возможности предсказать трехмерную структуру белка, основываясь исключительно на его одномерной аминокислотной последовательности, в качестве дополнительной альтернативы этим дорогостоящим и трудоемким экспериментальным методам.

Другими словами, по известной аминокислотной последовательности нужно восстановить 3D структуру белка.

Почему это важно?

Современные способы исследования белков основаны на методах требующих дорогостоящего оборудования, которое могут себе позволить только несколько лабораторий в мире.

Предсказание белков позволит ускорить понимание болезней и создание новых лекарств, но не только, в целом это важная фундаментальная задача для биологии.

Я плохо разбираюсь в биологии, но думаю это можно сравнить с началом использования компьютерного моделирования в инженерии и производстве материалов. Математические модели позволили значительно ускорить эксперименты и сократить расходы. Только представьте, вместо долгих натурных экспериментов со сложным оборудованием, можно построить точную математическую модель и изучить её свойства.

Вот с белками до недавнего времени нельзя было обойтись компьютерной моделью, теперь можно.

В чём сложность?

Основная сложность, это вариативность возможных способов, как белки могут свернуться. Levinthal определил сложность задачи, как 10^300. В очередной раз AI показал эффективность в решении вычислительно сложных задач.

В чём прорыв?

Была создана end-to-end модель, которая почти в 2 раза увеличивает точность предсказаний и почти достигает качества экспериментальных подходов.

Для оценки алгоритмов используется Global Distance Test, который измеряется в диапозоне 0—100
Точность экспериментальных подходов оценивается в 90
Текущая модель набирает — 87
Предыдущая модель от deepmind была на уровне — 60
А другие решения не превосходили — 40

#ai