Bayesian Noise
61 subscribers
57 photos
234 links
Канал @nesterione. Посты про ИТ, машинное обучение, рациональность, иногда просто заметки и наблюдения.

з.ы. картинка не картинка...
Download Telegram
Если вам интересно, как машинное обучение уже сейчас меняет нашу с вами жизнь, рекомендую посмотреть доклад Ивана Ямщикова с YaC https://youtu.be/lE1p5rO7yHo Доклад совсем не технический, слушать очень приятно и затрагивает важные идеи.

Иван также известен участием в проектах Нейронная оборона, neurona и генерацией музыки в стиле Скрябина.

#ai #future #yac #conference
Как вы составляете свои туристические маршруты? Используете какие-то приложения? Я как-то пробовал google trips, и вообще не плохо, загрузил в офлайн и полезная информация с собой. Но вот маршруты оказались не очень интересными.

А ведь совершенно простая идея:

1) дайте возможность людям составлять туристические маршруты
2) постройте рейтинг и отзывы
3) добавьте геймификацию, чтобы как-то стимулировать пользователей
4) ????
5) PROFIT!!! мы получаем карту интересных маршрутов, для тех, кто не любит турфирмы и скучные массовые экскурсии.

maps.me хороший выбор, когда нужны офлайн карты, недавно заметил, что они почти реализовали эту идею https://maps.me/specials/routes/en/ . Пока не понятно на сколько это удобно, но собираюсь попробовать. А если знаете какие-то удобные способы составления своих туристических маршрутов, поделитесь идеями, мне очень не хватает удобного решения.

#future #trip #travel #routes
На прошлой неделе google представили новую статью https://arxiv.org/abs/1810.04805 (BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding), и если кратко, то звучит многообещающе, но всё же дождёмся общедоступной реализации и, очень надеюсь, предобученных моделей.

В компьютерном зрении активно используется техника transfer learning, когда используется предобученная на большом объеме данных глубокая модель, для обучения для своей задачи. При внедрении машинного обучения в продакшен возникают стандартные проблемы:

- недостаточно данных
- недостаточно вычислительных мощностей

При том, проблема с мощностями решается гораздо проще нежели проблема данных и transfer learning в какой-то степени позволяет применить сложные модели для ваших задач не имея гигантского набора данных.

Так вот о чём это я, сейчас в NLP нет возможности эффективно применять transfer learning. А вот BERT может послужить решением этой проблемы, и тогда внедрение сильных NLP моделей упростится.

Здесь можете прочитать сжатое содержание публикации https://medium.com/syncedreview/best-nlp-model-ever-google-bert-sets-new-standards-in-11-language-tasks-4a2a189bc155

#google #nlp #future #paper
Данные для каждого

Знаете ли вы, что некоторые города публично предоставляют данные о городе, от расположения остановок, до статистики по совершённым преступлениям и ДТП. Есть движение за открытые данные.

Данные - топливо для ИИ. Без данных вы не сделаете ничего интересного, не важно, какие крутые алгоритмы вы знаете. Собрать данные для конкретной задачи это всегда дорого и долго. Когда публично доступны данные для разных предметных областей, вы можете воспользоваться ими для решения вашей задачи. Когда есть данные, всегда можно придумать крутые идеи, как их применить.

Так вот к чему это я, в городе регулярно происходят ДТП. Очень часто они происходят при похожих условиях. Предположим что у нас есть доступ к базе всех ДТП за несколько лет, мы можем составить тепловую карту города по опасным участкам.

Интерес могут представлять конкретные виды ДТП.

Например на одном участке дороги происходят часто столкновения машин, на другом часто сбивают пешеходов, а где-то происходят аварии с участием общественного транспорта.

Дополнительно можно анализировать время суток и освещённость (темнеет в разное время суток в зависимости от времени года и погодных условий) и можно ещё использовать историю погодных условий, учитывая какие аварии происходят в зависимости от условий на дороге. Можно очень много полезной информации извлечь и сделать это не долго, когда доступны данные. А ведь всё это было бы не плохим дополнением в навигаторе, особенно в незнакомом для вас месте, не правда ли?

Всё что нужно, чтобы эти данные были легкодоступны каждому, тогда любую идею можно проверить за считанное время. Ведь может оказаться, что нет никакой явной зависимости, и все эти гипотезы ничего не стоят, а быть может найдете интересные зависимости, которые сделают город безопаснее.

Мне бы было интересно поиграть с таким набором данных. В РБ можно найти некоторые данные публично, но пока всё очень скудно. Может вы знаете где и как достать данные о ДТП?

А может вы знаете людей в управлении, кому можно продвинуть такие идеи? Было бы интересно продвигать такие идеи на государственный уровень.

#opendata #dataset #ml #future #world_optimization
С интересом прослушал несколько эпизодов подкастов на тему развития ИИ.

Первый, довольно интересный разговор с Sebastian Ruder
https://twimlai.com/twiml-talk-195-milestones-in-neural-natural-language-processing-with-sebastian-ruder/

Он рассказывает о современных достижениях, проблемах и интересных исследованиях связанных с обработкой естественных языков. Sebastian говорит, что мы скоро получим для текстов прорыв, как было с обработкой изображений в 2012, его обоснование можно почитать в блоге http://ruder.io/nlp-imagenet/ . Хотелось бы верить, и недавний выпуск BART гуглом вселяет оптимизм.

Второй подкаст с очень интересным человеком в ИТ Джефом Дином (Jeff Dean). Он с 1999 года работает в google и приложил руку к основным разработкам гугла, сейчас возглавляет Google Brain. Он рассказывает, как ИИ развивался в гугл и какие проблемы они решают сейчас.
https://twimlai.com/twiml-talk-124-systems-software-machine-learning-scale-jeff-dean/

Также Jeff упомянул 14 Grand Challenges for Engineering in the 21st Century http://www.engineeringchallenges.org/challenges.aspx Многие из задач решаются с помощью ИИ.

И третий подкаст с Andrew Ng, профессор Стэнфорда, сооснователь Coursera, бывший глава ИИ подразделения в Baidu, сейчас он занимается несколькими проектами, про один из которых (https://landing.ai/) он рассказывает. Andrew считает ИИ новым электричеством, и пытается всячески способствовать трансформации компаний и улучшать их процессы внедрением ИИ
https://soundcloud.com/greylock-partners/greylock-andrewsarah-podcast

#ai #future #podcast
Удивительно, что может сделать компания с большим количеством ресурсов и данных уже сейчас. Представьте, всё это сможет сделать каждый на своём ноутбуке, через несколько лет.

Демонстрация работы GAN от nvidia, генерация людей и перенос признаков на фотографии.

https://www.youtube.com/watch?v=kSLJriaOumA&feature=youtu.be&t=30

ссылка на статью https://arxiv.org/pdf/1812.04948.pdf

#nn #future
Представлена работа по трансляции активности мозга в речь. Подобные работы ведутся давно, например с визуализацией образов по мозговой активности. Как обычно, используются нейронные сети, исходный код в открытом доступе, но вот только поиграть дома с такой нейронкой не получится, нужды устройства для электроэнцефалографии (EEG), электрокортикографии (ECoG) и магнитоэнцефалографии (MEG).

Пока рано говорить о результатах, но если это работает, то сколько интересных экспериментов можно поставить с таким инструментом.

https://m.habr.com/ru/post/438508/

https://www.nature.com/articles/s41598-018-37359-z

http://naplab.ee.columbia.edu/naplib.html

#brain #nn #future
Немного киберпанка

Все эти люди не существуют https://thispersondoesnotexist.com/ - они полностью сгенерированы нейронной сетью (при каждом обновлении сайта, генерируется случайное изображение человека). Очень интересно наблюдать за прогрессом, всего за 2 года уровень улучшился от "мутного пятна" похожего на лицо, до "почти без артефактов" лиц в большом разрешении.

#gan #nvidia #nn #future
Все, кто пишет код, знают, как хороший инструмент позволяет повысить эффективность работы. Вот интересный экспериментальный проект https://kite.com/ который призван ускорить разработку умным автодополнением кода, такой вот intellisense с использованием machine learning.

Примерно так выглядят первые шаги по замене copypaste программистов (Или наоборот стимулирует увеличение их числа). Всё же идея мне кажется перспективной и очень хотелось бы получить это в виде обычного плагина к любимой IDE.

#future #tool
Поймал себя на мысли, что когда думаю о прошлом, кажется, что тогда многих технологий ещё не было, а они появились только в нашем детстве. Вот вы задумывались, когда появились первые магнитные банковские карты?

Немного информации из википедии:

в 1951 - нью-йоркским банком выпущена первая карта в мире
в 1951 - первая карта в европе
1964 - Япония не отстаёт
Конец 1960-х — Master Charge является ведущей банковской кредитной картой в США. - в 1979 становится известным нам MasterCard
1970 - появляется National BankAmericard Inc - в последствии VISA
2002 - MasterCard - первый PayPass. И более того в 2005 VISA и MasterCard договорились о едином стандарте

Что по поводу России? Так вот, 21 сентября 1991 первая транзакция, по карте произведённой в россии. Комментарий придумайте сами)

Вот не первый раз задумываюсь что в современных учебниках истории есть большой пробел, мы совершенно упускаем историю технологий, историю, как инженеры и учёные меняли мир вокруг. Потом вырастает поколение, которое считает, что калькулятор, это изобретение рептилоидов (привет рентв).

Многие современные технологии старше чем кажутся, иногда так не кажется, когда люди всё также стоят перед банкоматом в очереди в день получения ЗП, чтобы снять всё.

И если вы ещё никогда не посещали музеи науки, посетите обязательно (жаль в РБ/РФ нет ни одного хорошего).

#future #history
Знаете ли вы, что такое топологическая оптимизация? Основная идея в создании конструкций заданных прочностных характеристик, но с минимальным расходом материала (https://postnauka.ru/faq/84374). Естественно возникает сложность в изготовлении таких "оптимальных" конструкций, поэтому оптимизация проводилась очень давно, но нужно было учитывать, что цена производства может значительно вырасти https://caeai.com/blog/what-topology-optimization-and-why-use-it.

С развитием 3d печати, многие идеи могут получить реальное воплощение, поэтому интерес к этим исследованиям вернулся.

Каково же было моё удивление, когда я узнал, что в современных пакетах для проектирования: ANSYS и SolidWorks (с которыми я сталкивался во время учёбы в университете) есть возможность проводить такого рода оптимизацию.

Ещё одно новое направление, использование машинного обучения для оптимизации таких конструкций. Результат выглядит футуристично и самое важное, что это на самом деле можно использовать. #future #mechanics #optimization
AutoDarw это такой редактор, в котором вы можете нарисовать любые каракули, а он вам предложит выбрать один из рисунков. https://www.autodraw.com/

Конечно пользы от этого редактора не много, а алгоритм тоже не сложный за этим стоит, но вот если развить идею и например и так диаграммы разные рисовать... Мне кажется это могло бы быть полезно. Берёшь графический планшет, рисуешь от руки разные блоки и в результате получаешь готовую красивую диаграмму. Может уже что-то есть такое?

#future
Bayesian Noise
Все, кто пишет код, знают, как хороший инструмент позволяет повысить эффективность работы. Вот интересный экспериментальный проект https://kite.com/ который призван ускорить разработку умным автодополнением кода, такой вот intellisense с использованием machine…
я уже писал про похожее и вот теперь мы дождались использования GPT-2 для автодополениние код https://tabnine.com/blog/deep . До этого мы видели генерацию текста и музыки с этой же архитектурой. По мне это не плохое дополнение к IDE, типичного copypaste программиста :) И я не вижу в этом ничего плохого, большая часть индустрии нуждается в выполнении типичных задач, единственное что меня беспокоит - это качество train сета.

upd:
Увы начать использоваться не получится, она платная, а платить за такую сырую штуку я не советую, подождём бесплатной. Можем свою такую натренить, пишите, кому интересно ;)

#future #intellisense
А эта новость порадовала. Веселый вопрос о фотолаборатории «Странные вещи» становится все более популярным: «Какова цель этой« красной комнаты »?» https://amp.businessinsider.com/stranger-things-darkroom-question-meme-2019-7

Очередной показательный пример, как всё быстро развивается и шутки про иконку дискеты на кнопке сохранить уже давно не шутки. Если говорить о цифровой фотографии, то "Первый экспериментальный бесплёночный фотоаппарат, основанный на фотоэлектрическом преобразовании, создал в 1975 году инженер компании Eastman Kodak Стивен Сассон (англ. Steven Sasson). Применявшаяся в нём ПЗС-матрица имела разрешение 0,01 мегапикселя, а запись данных происходила на компакт-кассету" (wiki)

Так что от прототипов до реального внедрения всё же проходит много времени.

#future
О, теперь гугл тренирует нейронные сети играть в футбол https://ai.googleblog.com/2019/06/introducing-google-research-football.html пока в компьютерный, но очень жду, что ребята из boston dynamics объединится с гугл и проведут матч по футболу, который я бы с удовольствием посмотрел :)

#future
Статья от DeepMind о том, как они построили систему детектирования острого повреждения почек (acute kidney injury), позволяющую за 48ч до приступа предупредить врача. https://deepmind.com/blog/predicting-patient-deterioration/

Статья совсем нетехническая. Её задача изменить мышление о том, как должна работать медицина. Иногда мы думаем, но почему мы до сих пор стоим в очередях, если можно всё автоматизировать, провязать с другими сервисами и максимально упростить и ускорить обслуживание.

Поверьте, далёким от технологий людям все эти новые подходы кажутся колдовством каким-то и они готовы сжечь вас на костре, когда ты предлагаешь автоматизировать работу врача (прошу заметить, что пока никто и не пытается заменить врачей, автоматизируют рутинную работу или улучшают средства детектирования болезней). Небольшими шагами можно сдвигать устоявшуюся парадигму о том, как должна работать медицина.
Было бы странно, если бы бухгалтера пользовались счётами, когда уже сделали калькулятор.#future
Однажды мы устраивали мозговой штурм, искали какой-нибудь интересный проект, где можно было бы применить компьютерное зрение. В итоге в шутку (или нет) обсуждали робота, который будет ходить по грядкам и давить колорадских жуков (кому в детстве доводилось работать на грядках, поймут всю боль) И вот сейчас я вижу ролик про самоездящего робота огородника https://twitter.com/ErikSolheim/status/1157169348013768709 - не так далеко от нашей идеи.

#future #fun
Вы наверное слышали про GPT-2 и её впечатляющие способности к генерации правдоподобного текста, OpenAI даже решили не публиковать пока самую большую модель, но недавно была опубликована большая версия (половина от самой большой) и даже есть возможность попробовать onlin https://talktotransformer.com/ вводите начало текста и сеть его продолжит.

Несмотря на то, что это не самая большая модель, результаты прям впечатляют.

А ещё сообщество натренировало свою версию большой модели, саму модель и ссылку на colab ноутбук можно найти в статье https://medium.com/@vanya_cohen/opengpt-2-we-replicated-gpt-2-because-you-can-too-45e34e6d36dc

Для картинки к посту, я взял 7 строк с python zen (https://www.python.org/dev/peps/pep-0020/) и сеть сгенерировала продолжение, наслаждайтесь :)

//напомню что openai применила эту же архитектуру для генерации музыки https://openai.com/blog/musenet/ и получилось тоже очень круто.
#future #nlp #gpt2
Huggingface опубликовали интересный проект (Write With Transformer) — это автодополнение для текстов. Вы начинаете некую мысль, просите сеть продолжить, таким образом вы можете писать текст совместно с сетью https://transformer.huggingface.co/ . Попробуйте, иногда получается довольно не плохо.

Если помните, несколько лет назад похожая функция была добавлена в gmail https://ai.googleblog.com/2018/05/smart-compose-using-neural-networks-to.html

В целом, мне нравится эта технология, почему бы и нет, ведь мы не каждый раз пишем реально уникальный текст, часто используем очень шаблонные формулировки, почему бы не ускорить набор текста. Такое автодополнение может помочь научиться формулировать мысли разными способами, особенно полезно, когда вы изучаете иностранный язык.

Не забываем, что качество будет зависеть от датасета, на котором сеть обучили 🙂

#nlp #textgen #future
С внедрением ML решений, приходится сталкиваться с новыми типами уязвимостей, которые не существовали раньше. Например простым добавлением особых наклеек, можно полностью запутать алгоритм, подробная статья про такие атаки https://blog.floydhub.com/introduction-to-adversarial-machine-learning/ С внедрением алгоритмов нам неизбежно придётся бороться с такими атаками. Обратите на существующие тепы атак и способов защиты. #future #atack #adversarial