Bayesian Noise
61 subscribers
57 photos
234 links
Канал @nesterione. Посты про ИТ, машинное обучение, рациональность, иногда просто заметки и наблюдения.

з.ы. картинка не картинка...
Download Telegram
Важное достижение AI в биологии, была решена задача над которой работали 50 лет: задача фолдинга белка.

https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

В чём заключается задача?

В 1972-м году Christian Anfinsen в своей речи постулировал теорию, что аминокислотная последовательность белка должна полностью определять его структуру. Эта гипотеза вызвала пятидесятилетний поиск возможности предсказать трехмерную структуру белка, основываясь исключительно на его одномерной аминокислотной последовательности, в качестве дополнительной альтернативы этим дорогостоящим и трудоемким экспериментальным методам.

Другими словами, по известной аминокислотной последовательности нужно восстановить 3D структуру белка.

Почему это важно?

Современные способы исследования белков основаны на методах требующих дорогостоящего оборудования, которое могут себе позволить только несколько лабораторий в мире.

Предсказание белков позволит ускорить понимание болезней и создание новых лекарств, но не только, в целом это важная фундаментальная задача для биологии.

Я плохо разбираюсь в биологии, но думаю это можно сравнить с началом использования компьютерного моделирования в инженерии и производстве материалов. Математические модели позволили значительно ускорить эксперименты и сократить расходы. Только представьте, вместо долгих натурных экспериментов со сложным оборудованием, можно построить точную математическую модель и изучить её свойства.

Вот с белками до недавнего времени нельзя было обойтись компьютерной моделью, теперь можно.

В чём сложность?

Основная сложность, это вариативность возможных способов, как белки могут свернуться. Levinthal определил сложность задачи, как 10^300. В очередной раз AI показал эффективность в решении вычислительно сложных задач.

В чём прорыв?

Была создана end-to-end модель, которая почти в 2 раза увеличивает точность предсказаний и почти достигает качества экспериментальных подходов.

Для оценки алгоритмов используется Global Distance Test, который измеряется в диапозоне 0—100
Точность экспериментальных подходов оценивается в 90
Текущая модель набирает — 87
Предыдущая модель от deepmind была на уровне — 60
А другие решения не превосходили — 40

#ai
paperswithcode это такая крутая идея собирать научные статьи и код, которые реализует описанные модели. Раньше весь контент относился только к Machine Learning, но код есть не только в таких статьях. Теперь стали доступны статьи с кодом для информатики, физики, математики, астрономии и статистики.

https://portal.paperswithcode.com/

#papers
Ещё одна сетка, которая превращает фото в эскиз, довольно неплохо и можно запускать в colab https://github.com/vijishmadhavan/ArtLine
OpenAI опять всех удивляет, теперь можно генерировать картинки по текстовому описанию ( https://openai.com/blog/dall-e/), выглядит удивительно. Вот пример "Стул в форме авакадо"
Вышел jupyter lab 3.0 https://blog.jupyter.org/jupyterlab-3-0-is-out-4f58385e25bb

Изменения которые мне нравятся:
- visual debugger - раньше было отдельным плагином
- table of content - этого не хватало для отчётов

В тему jupyter, есть ещё либа https://github.com/fastai/nbdev которая добавляет много всего python library in Jupyter Notebooks, putting all your code, tests and documentation in one place.

Мне не нравится тренд превращаться jupyter в среду разработки, для этого есть более удобные инструменты, но опыт говорит, что не малое число Data Science команд держит весь код в ноутбуках. Работать с этим невозможно и если ноутбуки станут в этом отношении удобнее, то всём от этого станет лучше.

#tool
Несколько раз ссылался на paperswithcode — это замечательный проект, в котором вы можете найти научные статьи и ссылки на github с примерами реализации. Позволяет быстро вникнуть в любую новую тему.

Теперь они ещё и собирают информацию по датасетам используемым в статьях https://www.paperswithcode.com/datasets

#datasets
Иногда хочется посмотреть код на github, но обычный UI не позволяет делать это удобным способом, если нужно работать с несколькими файлами.

Попался на глаза проект https://github1s.com/, решающий эту проблему.
Через него, вы можете открыть любой публичный проект в облачной visual studio code.

Сделать это очень просто, просто копируете путь к проекту.
Например чтобы открыть https://github.com/tensorflow/tensorflow нужно сделать так: https://github1s.com/tensorflow/tensorflow

#tools
Рубрика ML Stand-up

Наблюдая как ML команды меняются с получениям опыта, выделил следующие этапы взросления ML команды:

* Отрицание — мы сделаем крутую AI систему, данный у нас нет, сейчас применим самые крутые алгоритмы и всё будет работать.
* Злость — ничего не работает, ML инженеры плохие, программисты плохие
* Торг — ну может всё-таки можно что-то сделать? Разметим 100 документов, а может придумаем какой-то автоматический генератор данных?
* Депрессия — нам нужны данные, данные качественные и разнообразные, это долго, дорого, зачем нам вообще весь этот AI?
* Принятие — окей, нам нужны данные, давайте начнём делать что-то сейчас, чтобы через год мы могли сделать хорошую AI систему
Привет! Выступаю на конференции, буду рассказывать про особенности разработки и внедрения ML-фич, больше про процессы и минимум про сам ML. Также смотрите другие доклады, найдете много интересного


https://www.facebook.com/groups/teamleadcamp/permalink/1062154844314349/
Прошел тест Growth Skills Assessment Test https://gopractice.io/sat/ который состоит из 4-х разделов:

1. Retention and product/market fit
2. Measuring the impact of product changes with data
3. Understanding and improving product value
4. Accelerating customer acquisition

Тест помогает найти пробелы в знаниях и предлагает публично доступные материалы, а также курс от https://gopractice.io, про который я слышал много хорошего, но сам не проходил.

Если вы занимаетесь разработкой своего продукта (стартапа), хотите развить навыки аналитика или продакт менеджера, тест будет вам полезен.
Рекомендую интервью с Николаем Давыдовым, про стартапы и венчурные инвестиции, как всегда, интересно.

Нравится, как Николай рассказывает про сложные вещи понятным языком, превращая факты в истории.

Заряжает позитивом и желанием делать стартапы:)

https://youtu.be/EbsdrlYRrXo
Привет, я с @werinolic записали первый выпуск подкаста. 

Договорились сделать запись без долгой прокрастинации объясняемой “not perfect enough”. 

Сели, выбрали случайную тему, записали на телефон, и попытались собрать результат, чтобы это было не ужасно. 
Этот подкаст — это MVP, если будет получаться, а идея будет драйвить, будем развивать. 

———
В этот раз мы собрались в солнечном Батуми и провели брейнсторм, попытались придумать продукт для местных, определили набор шагов для его реализации, а в следующий раз расскажем про наши результаты 🙂 

Стоит отметить, что мы обычные инженеры, которые мечтают создавать свои продукты и компании. Мы учимся задавать правильные вопросы и проверять гипотезы быстро.

- https://t.me/devpeople_podcast
- https://anchor.fm/devpeople
- https://www.youtube.com/watch?v=4BEVjWyIHsI
Очередная работа от OpenAI по генерации кода https://youtu.be/Ru5fQZ714x8

Стоит ли программистам искать новую работу? Если на работе вы получаете хорошо поставленные задачи по которым не возникает вопросов, а все что вам остается, это набрать код, то наверное стоит задуматься.

Если вашу работу и не заменят с помощью AI, то уж точно придет NO CODE в многие области.

Не скучайте на работе, скука — признак, что вы решаете простые задачи, для решения которых не приходится думать.

Следующий этап — AI, который будет придумывать задачи 🙂 а другой AI, конечно же, будет их имплементить
Записали продолжение, рассказываем, как мы проверяли идею без кода, мы познакомились с tilda, google adwords, facebook ads manager и даже выловили UI баг с помощью вебвизор от yandex metrika — все это за неделю и 16$

p.s. настраивать рекламу в гугл не так прикольно, как это звучит на big data конференциях 🙂
Forwarded from devpeople | podcast
#2 devpeople | podcast

Второй выпуск с элементами грузинского колорита и результатами эксперимента. Хотим поделиться инсайдами и некоторыми особенностями грузинского рынка, которые не так очевидны на первый взгляд.

Спикеры: @werinolic @nesterione
Spotify: https://open.spotify.com/show/4ZJMDoYsfMtYrZGh9pCH3i
Ancor: https://anchor.fm/devpeople
Youtube: https://www.youtube.com/watch?v=pp6_kKGMNzA
Вы читаете новости? 

Мы недавно обсуждали с @werinolic в нашем подкасте devpeople тему новостных сайтов. Я выделяю для себя 2 проблемы: 
- перекос в сторону негатива, 
- много контента, но мало фактов 

Поясню, если произошла авария, в новостях напишут, но если какой-нибудь Петя сел в машину и доехал до места назначения, то это не информационный повод. Еще новостные статьи очень многословны, где найти время на книги, если читать все подряд?

Очевидно, нам интересно узнавать важные факты, но как их фильтровать, как отделить факты от текста? Можно не читать новости, но так можно пропустить что-то действительно важное. 


Вы наверное знаете, что нейронные сети шагнули далеко вперед. Поэтому я подумал, а можно ли создать робота, который будет читать новости и выделять ключевые факты из каждой статьи и присылать краткое содержимое мне?


Мы подумали, а может такой робот будет полезен еще кому-то, и я с @werinolic канал в телеграме: 

https://t.me/onlyfacts_by — контент в этом канале генерируется с помощью искусственного интеллекта. Боту мы показываем ресурсы важные для белорусов и только из области финансов, экономики и технологий (без политики и происшествий). 

Мы только запустили, поэтому читаем один источник, но будем добавлять. 

Если интересен такой формат, то обязательно делитесь с друзьями и пишите в комментариях, какие источники информации для вас самые полезные, покажем боту, может он начнет их читать)
Иногда я вспоминаю про этот канал, вот сегодня захотел поделиться новостью. Сбер опубликовал сервис, где можно ввести текстовое описание, а сеть сгенерирует картинку.

Один из примеров в статье: «Красивый горный пейзаж», я же попробовал «Некрасивый горный пейзаж», с отрицанием сеть не справилась, но картинка выглядит круто.


- Статья на VC https://vc.ru/ml/313740-sber-predstavil-neyroset-kotoraya-sozdaet-izobrazheniya-po-opisaniyu-na-russkom-yazyke
- Ссылка на сервис https://rudalle.ru/
Каждый день появляются новости о новых нейронных сетях. Помимо позитивных сторон, придется бороться и с багами, которые не встречались раньше в программах. Нейронные сети представляют собой черный ящик, поведение которого сложно объяснить, почему сеть пришла к тому или иному решению. 

Аdversarial attacks это класс атак, направленный на модификацию входных данных таким образом, чтобы запутать модель. Результаты выглядят как магия, добавление невидимого шума или наклейки способно запутать модель.  

Два свежих твитта на эту тему: 

https://twitter.com/AlexTamkin/status/1456149826337263621 - пример такой атаки на downscaling модели, добавили шум, получили из кота собаку.

https://twitter.com/naotokui/status/1450673712722702340 - пример использования принтов на одежде, которая запутывает алгоритмы на CCTV камерах. 

Идея и не новая, почитайте статью https://habr.com/ru/post/586094/ там ссылки на похожие работы.
Сегодня открыл для себя Межславянский язык

Цель: сделать язык, который будет понятен всем славянам. Идея следующая: взяли слова из всех славянских языков, выбрали наиболее популярные, то же самое сделали с правилами — вот и получился межславянский язык. 

В отличие от Эсперанто, его не надо учить славянам, чтобы понимать. На слух как смесь русского и польского. С чтением могут быть сложности из-за кириллицы и латиницы. 

Проверил на польских друзьях (не знающих русский), по их словам, понимают процентов на 80%. Не знаю как он может использоваться в реальном мире, хотя например в музеях можно писать таблички на нем 🙂 Далеко не все люди английский знают. 

 Еще можно взять идею и выбрать  top славянских слов, выучить и значительно увеличить свою способность понимать соседей. 

Пример:

Меджусловјанскы јест језык, кторы Словјани разных народностиј користајут, да бы комуниковали једин с другым. То јест можно, ибо словјанске језыкы сут сходна и сродна група. Знанје једного језыка обычно јест достаточно, да бы имєло се приблизно разумєнје о чем јест текст на којем-небуд другом словјанском језыку. Хвала столєтјам близкого сусєдства Словјани добро знајут, како договорити се с другыми Словјанами с помочју простых, импровизованых нарєчиј.


Подробнее тут http://steen.free.fr/interslavic/index.html