Очень давно в этом канале ничего не происходило, но новый год (кстати, прошло уже 5% 2020-го), пора чем-то поделиться.
Как вы знаете сейчас всё ещё много мистификации вокруг специалистов, которые делают AI. Кто-то учит модели, кто-то пишет if-else, а кто-то анализирует данные и помогает принимать бизнес решения.
Отчёт от workera https://workera.ai/candidates/report/ довольно подробно рассказывает про разные роли AI инженеров. #ds
Как вы знаете сейчас всё ещё много мистификации вокруг специалистов, которые делают AI. Кто-то учит модели, кто-то пишет if-else, а кто-то анализирует данные и помогает принимать бизнес решения.
Отчёт от workera https://workera.ai/candidates/report/ довольно подробно рассказывает про разные роли AI инженеров. #ds
И ещё новость, вышел pytorch 1.4 https://pytorch.org/blog/pytorch-1-dot-4-released-and-domain-libraries-updated/
Обновление библиотеки это не большое дело обычно, но в этот раз появились интересные фичи, которые очень важны для создания data-продуктов
1. PyTorch Mobile — теперь обещают улучшенную поддержку мобилок, если кто-то попробует, поделитесь плз мнением
2. Distributed model parallel training — тоже важно, модели сейчас большие
3. Java bindings (Experimental) — кажется при чём тут джава? Но уж простите, мир энтерпрайза он такой, и там разные джавы водились, водятся и будут ещё долго
#pytorch
Обновление библиотеки это не большое дело обычно, но в этот раз появились интересные фичи, которые очень важны для создания data-продуктов
1. PyTorch Mobile — теперь обещают улучшенную поддержку мобилок, если кто-то попробует, поделитесь плз мнением
2. Distributed model parallel training — тоже важно, модели сейчас большие
3. Java bindings (Experimental) — кажется при чём тут джава? Но уж простите, мир энтерпрайза он такой, и там разные джавы водились, водятся и будут ещё долго
#pytorch
PyTorch
PyTorch 1.4 released, domain libraries updated
Today, we’re announcing the availability of PyTorch 1.4, along with updates to the PyTorch domain libraries. These releases build on top of the announcements from NeurIPS 2019, where we shared the availability of PyTorch Elastic, a new classification framework…
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня мне показывали эту gif, про работу мьютексов, пожалуй это одно из лучших объяснений:)
Оказывается Elasticsearch начиная с версии 7 поддерживает поиск по векторам https://www.elastic.co/blog/text-similarity-search-with-vectors-in-elasticsearch как-то совсем пропустил эту новость,
Поиск по векторам - это когда вы каким-то умным способом генерируете вектор для каждого документа, а во время поиска генерируете вектор для запроса и находите похожие вектора. Поиск в данном случае зависит от алгоритма, генерирующего вектора, вы можете использовать, например BERT.
К слову для многих это хорошо, т.к. теперь не надо тащить дополнительные системы, многие используют annoy (https://github.com/spotify/annoy) или faiss (https://github.com/facebookresearch/faiss).
К слову у другого известного движка для поиска Solr пока только висят открытые тикеты (https://issues.apache.org/jira/browse/SOLR-12890 https://issues.apache.org/jira/browse/SOLR-12890)
#elastic #ann #semantic #search
Поиск по векторам - это когда вы каким-то умным способом генерируете вектор для каждого документа, а во время поиска генерируете вектор для запроса и находите похожие вектора. Поиск в данном случае зависит от алгоритма, генерирующего вектора, вы можете использовать, например BERT.
К слову для многих это хорошо, т.к. теперь не надо тащить дополнительные системы, многие используют annoy (https://github.com/spotify/annoy) или faiss (https://github.com/facebookresearch/faiss).
К слову у другого известного движка для поиска Solr пока только висят открытые тикеты (https://issues.apache.org/jira/browse/SOLR-12890 https://issues.apache.org/jira/browse/SOLR-12890)
#elastic #ann #semantic #search
Elasticsearch Labs
Text similarity search with vector fields - Elasticsearch Labs
This post explores how text embeddings and Elasticsearch’s new dense_vector type could be used to support similarity search.
Хорошая подборка лекций-ноутбуков по pytorch для работы с текстами. От самых основ до fine-tuning BERT, что в общем то выглядит не плохо, если вы давно хотели попробовать, но всё не решались. Ноутбуки подробные и можно запускать прямо в google colab https://github.com/dair-ai/pytorch_notebooks
В добавок советую заглядывать на сайт https://dair.ai/ там много интересного про NLP собирают, включая обзорные статьи и краткое содержание научных статей.
#nlp #learn
В добавок советую заглядывать на сайт https://dair.ai/ там много интересного про NLP собирают, включая обзорные статьи и краткое содержание научных статей.
#nlp #learn
GitHub
GitHub - dair-ai/pytorch_notebooks: 🔥 A collection of PyTorch notebooks for learning and practicing deep learning
🔥 A collection of PyTorch notebooks for learning and practicing deep learning - dair-ai/pytorch_notebooks
Узнал про полезный плагин для Visual Studio Code - https://github.com/hediet/vscode-drawio
Вы наверное знаете сервис для рисования диаграмм draw.io, теперь вы можете создавать файлы (с расширением .drawio) и редактировать прямо в vs code, очень удобно и быстро.
#tool #draw #diagram
Вы наверное знаете сервис для рисования диаграмм draw.io, теперь вы можете создавать файлы (с расширением .drawio) и редактировать прямо в vs code, очень удобно и быстро.
#tool #draw #diagram
Используете ли вы https://www.notion.so/ ? Это такая очень удобная wiki-блокнот, где можно организовано хранить заметки, планы, цели и тд.
Почему я использую notion?
- Реально удобный UX - не приходится страдать во время использования (но мобилкам есть куда расти)
- Шаблоны - это замечательная штука, вы просто открываете и смотрите какие шаблоны есть и у вас сразу сотни идей как организовать свои дела
- Выгрузка данных - для меня это важно. Когда ты можешь выгрузить всю свою базу знаний, то чувствуешь себя свободнее
- Раньше были жесткие лимиты на бесплатную версию и для полноценного использования приходилось платить (5$ в месяц) - теперь ограничения на количество страниц сняты https://techcrunch.com/2020/05/19/notion-drops-usage-limit-on-its-its-personal-free-tier/
Если у вас очень много заметок на google docs и everynote, google keep и вы теряетесь в поиске, попробуйте notion, возможно вам понравится.
#tool #notion #productivity
Почему я использую notion?
- Реально удобный UX - не приходится страдать во время использования (но мобилкам есть куда расти)
- Шаблоны - это замечательная штука, вы просто открываете и смотрите какие шаблоны есть и у вас сразу сотни идей как организовать свои дела
- Выгрузка данных - для меня это важно. Когда ты можешь выгрузить всю свою базу знаний, то чувствуешь себя свободнее
- Раньше были жесткие лимиты на бесплатную версию и для полноценного использования приходилось платить (5$ в месяц) - теперь ограничения на количество страниц сняты https://techcrunch.com/2020/05/19/notion-drops-usage-limit-on-its-its-personal-free-tier/
Если у вас очень много заметок на google docs и everynote, google keep и вы теряетесь в поиске, попробуйте notion, возможно вам понравится.
#tool #notion #productivity
Notion
The AI workspace that works for you. | Notion
A tool that connects everyday work into one space. It gives you and your teams AI tools—search, writing, note-taking—inside an all-in-one, flexible workspace.
Как вы знаете, за последние годы происходит много нового в машинном обучении. Rак в исследованиях, так и в инструментах для разработки.
Чем больше машинное обучение используется в продакшене, там больше возникает спрос на разные инструменты помогающие организовать работу.
Если вы занимаетесь разработкой, то по любому используете систему контроля версий, для машинного обучения ещё нет такого же повсеместно используемого инструмента, но есть хорошие проекты, например https://dvc.org/
Сегодня команда DVC запустила ещё один продукт https://cml.dev/ (Continuous Machine Learning (CML) is CI/CD for Machine Learning Projects), на первый взгляд выглядит просто, но ещё остаётся масса вопросов.
Нет проблем, когда вы работаете с малыми датасетами, но возникают вопросы, когда нужно запустить обучение каких-то больших сетей. Во-первых им скорее всего нужен GPU, во-вторых запускать тренировку не нужно на каждый коммит. В результате могу сказать, что лендинг у них правда красивый, но вот польза пока сомнительная.
#ml #tool
Чем больше машинное обучение используется в продакшене, там больше возникает спрос на разные инструменты помогающие организовать работу.
Если вы занимаетесь разработкой, то по любому используете систему контроля версий, для машинного обучения ещё нет такого же повсеместно используемого инструмента, но есть хорошие проекты, например https://dvc.org/
Сегодня команда DVC запустила ещё один продукт https://cml.dev/ (Continuous Machine Learning (CML) is CI/CD for Machine Learning Projects), на первый взгляд выглядит просто, но ещё остаётся масса вопросов.
Нет проблем, когда вы работаете с малыми датасетами, но возникают вопросы, когда нужно запустить обучение каких-то больших сетей. Во-первых им скорее всего нужен GPU, во-вторых запускать тренировку не нужно на каждый коммит. В результате могу сказать, что лендинг у них правда красивый, но вот польза пока сомнительная.
#ml #tool
Data Version Control · DVC
Open-source version control system for Data Science and Machine Learning projects. Git-like experience to organize your data, models, and experiments.
Вот так AI отнимает работу у людей уже сегодня https://huggingface.co/stevhliu/astroGPT теперь писатели гороскопов в газетах не нужны :) Кто следующий?
huggingface.co
stevhliu/astroGPT · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Яндекс опубликовал исследование про затраты на содержание авто https://yandex.ru/company/researches/2020/auto-cost
Главная цель исследования — маркетинг сервисов яндекс такси и каршеринговых сервисов, но это не отменяет полезность их отчёта. Как мы знаем, мы обычно не пытаемся всё посчитать, что не редко приводит к различным заблуждениям.
Например, средний пользователь авто использует его только для перемещения в городе, решая проблему более быстрого перемещения из точки A в точку Б. Для такой задачи уже сейчас такси конкурирует с личным транспортом.
Интересен также другой момент, если вы посмотрите за окно, то там будет множество припаркованных авто. Они были произведены, затрачены ресурсы, но они просто стоят, не принося никакой выгоды. Не просто стоят, а занимают место, посчитайте всё занятое место, и здесь мы тоже теряем, как в эстетике города, так и в неразумном использовании территории. Поэтому авто-как-сервис в какой-то степени неизбежное будущее.
Авто только самый простой пример Sharing Еconomy, на деле же мы можем делиться от сложной техники, до элементов одежды.
В онлайне мы уже давно перешли от собственности к аренде, например сейчас средний пользователь интернета не покупает музыку или фильмы, мы используем подписки — фактически берём в аренду.
Для себя я выделяю несколько проблем, которые могут останавливать от использования таких сервисов:
— Привычка, нужно время, чтобы избавиться от привычки всё покупать
— Доступность, хочется, чтобы было так же, как со своей вещью
— Страховка, любая вещь может сломаться, и нужна защита как пользователя, так и арендодателя
А вы что думаете? Не зря же комментарии в telegram добавили (обновляйтесь, если ещё не видно)
👇
Главная цель исследования — маркетинг сервисов яндекс такси и каршеринговых сервисов, но это не отменяет полезность их отчёта. Как мы знаем, мы обычно не пытаемся всё посчитать, что не редко приводит к различным заблуждениям.
Например, средний пользователь авто использует его только для перемещения в городе, решая проблему более быстрого перемещения из точки A в точку Б. Для такой задачи уже сейчас такси конкурирует с личным транспортом.
Интересен также другой момент, если вы посмотрите за окно, то там будет множество припаркованных авто. Они были произведены, затрачены ресурсы, но они просто стоят, не принося никакой выгоды. Не просто стоят, а занимают место, посчитайте всё занятое место, и здесь мы тоже теряем, как в эстетике города, так и в неразумном использовании территории. Поэтому авто-как-сервис в какой-то степени неизбежное будущее.
Авто только самый простой пример Sharing Еconomy, на деле же мы можем делиться от сложной техники, до элементов одежды.
В онлайне мы уже давно перешли от собственности к аренде, например сейчас средний пользователь интернета не покупает музыку или фильмы, мы используем подписки — фактически берём в аренду.
Для себя я выделяю несколько проблем, которые могут останавливать от использования таких сервисов:
— Привычка, нужно время, чтобы избавиться от привычки всё покупать
— Доступность, хочется, чтобы было так же, как со своей вещью
— Страховка, любая вещь может сломаться, и нужна защита как пользователя, так и арендодателя
А вы что думаете? Не зря же комментарии в telegram добавили (обновляйтесь, если ещё не видно)
👇
Компания Яндекс
Компания Яндекс — Во сколько обходится личный автомобиль
Из чего складываются расходы и что выгоднее: своя машина, такси или каршеринг
Узнал про полезное расширение для goolge chrome https://chrome.google.com/webstore/detail/the-great-suspender/klbibkeccnjlkjkiokjodocebajanakg
Идея простая: оно выгружает из памяти вкладки, которые долго неактивны.
Штука полезная, если у вас есть вредная привычка держать открытыми десятки вкладок "на потом", расходуя RAM впустую.
#tool
Идея простая: оно выгружает из памяти вкладки, которые долго неактивны.
Штука полезная, если у вас есть вредная привычка держать открытыми десятки вкладок "на потом", расходуя RAM впустую.
#tool
Google
Chrome Web Store
Add new features to your browser and personalize your browsing experience.
Знаете, у нас, у ИТ-шников есть странная проблема, часто мы выбираем инструмент, а потом пытаемся найти подходящую проблему.
Если привести аналогию со стройкой, это всё равно что долго выбирать инструменты, а потом решать, что ты хочешь построить. Можно выбрать отличный молоток, но вам может понадобиться закручивать шурупы.
Картинка не ради критики, просто попалась на глаза. Нет ничего плохого в том, чтобы пробовать разные инструменты для решения разных задач, только нужно разделять творчество и продакшен.
Если цель попробовать сделать что-то странное и новое, то круто, вперёд. Если же цель сделать какой-то продукт, то вначале поймите вашу проблему, а потом возьмите лучший инструмент подходящий для решения вашей проблемы.кроме php (шутка)
Вы тоже иногда так делаете? (Я - да, бывает)
#thoughts
Если привести аналогию со стройкой, это всё равно что долго выбирать инструменты, а потом решать, что ты хочешь построить. Можно выбрать отличный молоток, но вам может понадобиться закручивать шурупы.
Картинка не ради критики, просто попалась на глаза. Нет ничего плохого в том, чтобы пробовать разные инструменты для решения разных задач, только нужно разделять творчество и продакшен.
Если цель попробовать сделать что-то странное и новое, то круто, вперёд. Если же цель сделать какой-то продукт, то вначале поймите вашу проблему, а потом возьмите лучший инструмент подходящий для решения вашей проблемы.
#thoughts
Иногда читаю разные статьи для расширения кругозора, буду делиться некоторыми из них и кратким содержанием:
Опцион для сотрудников в стартапе
Основные идеи:
— опцион - обязательство компании, продать акции по фиксированной цене в случае выхода ещё на IPO (публичное размещение акций)
— опционы используются как механизм удержания ключевых сотрудников
— обычно платят ниже ЗП выплачивая часть опционами, в случае успеха компании в выигрыше все, в случае провала бизнеса, опционы ничего не стоят
Что не раскрыто:
— что произойдёт с опционом, если компания будет приобретена другой компанией.
Терминология:
Вестинг — механизм отложенного получения опциона.
Стандартный вестинг — четыре года с клиффом на один год, то есть по истечению первого года работы (клифф) сотрудник получает 25% опциона (если он уйдёт из компании раньше, то он не получает ничего), а потом каждый месяц идёт начисление равными долями на оставшиеся три года.
Ссылка в комментариях
#investments
Опцион для сотрудников в стартапе
Основные идеи:
— опцион - обязательство компании, продать акции по фиксированной цене в случае выхода ещё на IPO (публичное размещение акций)
— опционы используются как механизм удержания ключевых сотрудников
— обычно платят ниже ЗП выплачивая часть опционами, в случае успеха компании в выигрыше все, в случае провала бизнеса, опционы ничего не стоят
Что не раскрыто:
— что произойдёт с опционом, если компания будет приобретена другой компанией.
Терминология:
Вестинг — механизм отложенного получения опциона.
Стандартный вестинг — четыре года с клиффом на один год, то есть по истечению первого года работы (клифф) сотрудник получает 25% опциона (если он уйдёт из компании раньше, то он не получает ничего), а потом каждый месяц идёт начисление равными долями на оставшиеся три года.
Ссылка в комментариях
#investments
Конспект: Схемы бизнес процессов для нетерпеливых
Важно знать:
Бизнес процесс — это обычная блок-схема алгоритма, только описываете не работу код и взаимодействие сервисов, а людей и взаимодействие между отделами.
Например самый простой алгоритм для приёма заказы пиццы:
— Задайте границы, укажите начало (A) и конец процесса (B), потом обозначьте основные задачи, чтобы пройти из A в B
— Когда каркас готов (обычно последовательный набор действий) добавьте возможные разветвления, разные случаи if-else
— Разделяйте разные отделы, показывайте взаимодействие между ними
— Добавьте артефакты если это нужно. Это может быть результат действия или что-то необходимое для выполнения (презентация, контракт, заявка и т.д.)
— Отметьте базы данных (crm, таблицы) и инструменты, которые вы используете — фокусируйтесь на потоке работ
— Помните про метрики, всегда нужно собирать различные показатели, обозначьте прямо на диаграмме метрики, на каком этапе и что вы измеряете (число звонков, число принятых заказов и т.д.)
— Свяжите с другими бизнес процессами (когда завершился процесс оформления заказа, начинается процесс приготовления или процесс доставки)
Инструменты:
— Самая популярная нотация, BPMN 2.0 (Business Process Management Notation), такие диаграммы легко читаются и понятны, даже если вы ничего не знаете о BPMN.
Ссылка в комментариях
#business #process
Важно знать:
Бизнес процесс — это обычная блок-схема алгоритма, только описываете не работу код и взаимодействие сервисов, а людей и взаимодействие между отделами.
Например самый простой алгоритм для приёма заказы пиццы:
[звонок]-[принять заказ]-[получить адрес доставки]-[передать заказ на кухню]-[заказ оформлен]
Советы:— Задайте границы, укажите начало (A) и конец процесса (B), потом обозначьте основные задачи, чтобы пройти из A в B
— Когда каркас готов (обычно последовательный набор действий) добавьте возможные разветвления, разные случаи if-else
— Разделяйте разные отделы, показывайте взаимодействие между ними
— Добавьте артефакты если это нужно. Это может быть результат действия или что-то необходимое для выполнения (презентация, контракт, заявка и т.д.)
— Отметьте базы данных (crm, таблицы) и инструменты, которые вы используете — фокусируйтесь на потоке работ
— Помните про метрики, всегда нужно собирать различные показатели, обозначьте прямо на диаграмме метрики, на каком этапе и что вы измеряете (число звонков, число принятых заказов и т.д.)
— Свяжите с другими бизнес процессами (когда завершился процесс оформления заказа, начинается процесс приготовления или процесс доставки)
Инструменты:
— Самая популярная нотация, BPMN 2.0 (Business Process Management Notation), такие диаграммы легко читаются и понятны, даже если вы ничего не знаете о BPMN.
Ссылка в комментариях
#business #process
Конспект: Convertible note
Для кого полезно:
для людей кто собирается привлекать инвестиции на создание своей компании
Введение:
У вас есть идея, вы хотите делать стартап, решаете привлечь инвестиции на создание прототипа, seed стадия.
Инвесторы бывают: профессиональные и непрофессиональные.
Профессиональные — вкладывают не свои деньги, обычно это фонды
Непрофессиональные, a.k.a. бизнес ангелы — вкладывают в проекты свои собственные деньги
Бизнес Ангелы часто выбирают convertible note, как способ предоставления инвестиций.
Терминология:
— convertible note (конвертируемый займ) - инвестор вкладывает деньги, получая право в будущем, на конвертацию займа в долю компании со скидкой. Обычно конвертирование происходит на следующем раунде инвестиций. Скидка оговаривается при заключения контракта, обычно 15-30%
— valuation cap (предел оценки) - предварительная оценка компании. В будущем даёт возможность инвестору выбирать, по какой цене он может конвертировать займ между начальной оценкой (valuation cap) и оценкой на следующем раунде инвестиций.
Основные идеи:
— сделка заключается быстро и недорого (в сравнении с другими способами)
— в договоре указывается формула, по которой инвестор будет получать долю в компании
— формула может быть привязана к оценке на следующем раунде инвестиции или к договорной цене на этапе заключения договора
— если оценка привязана к будущей стоимости, инвестор может получить мало выгоды, при высокой оценки
— но, может использоваться две формулы, тогда инвестор решает, что ему выгоднее или может быть прописана доля. Используется valuation cap. Пример формулы (1 – [процент инвестора series A] ) * [количество денег, вложенных как conv note] / [valuation cap].
— инвестор не обязан конвертировать в долю компании и может потребовать возврат займа, но по поскольку сделка заключается с юр. лицом, то есть риск банкротства компании, в результате займ не будет выплачен.
Пример (без valuation cap):
— инвестор вложил 10К $ на seed стадии
— на следующем стартап поднимает инвестиции в 100К $ при оценке в 1М $
— таким образом у вас покупают 10% компании)
— без скидки на покупку за свои 10К инвестор получил бы 1% компании, но имея скидку (за риск на ранней стадии), он получит больше
#investments
На этот раз две ссылки.
Для кого полезно:
для людей кто собирается привлекать инвестиции на создание своей компании
Введение:
У вас есть идея, вы хотите делать стартап, решаете привлечь инвестиции на создание прототипа, seed стадия.
Инвесторы бывают: профессиональные и непрофессиональные.
Профессиональные — вкладывают не свои деньги, обычно это фонды
Непрофессиональные, a.k.a. бизнес ангелы — вкладывают в проекты свои собственные деньги
Бизнес Ангелы часто выбирают convertible note, как способ предоставления инвестиций.
Терминология:
— convertible note (конвертируемый займ) - инвестор вкладывает деньги, получая право в будущем, на конвертацию займа в долю компании со скидкой. Обычно конвертирование происходит на следующем раунде инвестиций. Скидка оговаривается при заключения контракта, обычно 15-30%
— valuation cap (предел оценки) - предварительная оценка компании. В будущем даёт возможность инвестору выбирать, по какой цене он может конвертировать займ между начальной оценкой (valuation cap) и оценкой на следующем раунде инвестиций.
Основные идеи:
— сделка заключается быстро и недорого (в сравнении с другими способами)
— в договоре указывается формула, по которой инвестор будет получать долю в компании
— формула может быть привязана к оценке на следующем раунде инвестиции или к договорной цене на этапе заключения договора
— если оценка привязана к будущей стоимости, инвестор может получить мало выгоды, при высокой оценки
— но, может использоваться две формулы, тогда инвестор решает, что ему выгоднее или может быть прописана доля. Используется valuation cap. Пример формулы (1 – [процент инвестора series A] ) * [количество денег, вложенных как conv note] / [valuation cap].
— инвестор не обязан конвертировать в долю компании и может потребовать возврат займа, но по поскольку сделка заключается с юр. лицом, то есть риск банкротства компании, в результате займ не будет выплачен.
Пример (без valuation cap):
— инвестор вложил 10К $ на seed стадии
— на следующем стартап поднимает инвестиции в 100К $ при оценке в 1М $
— таким образом у вас покупают 10% компании)
— без скидки на покупку за свои 10К инвестор получил бы 1% компании, но имея скидку (за риск на ранней стадии), он получит больше
#investments
На этот раз две ссылки.
Про разметку данных в машинном обучении
Разметка данных довольно трудоёмкий процесс, в частности нередко возникает вопрос, чем размечать данные. Ввиду того, что требования очень разные от задачи, к задаче, универсальной таблетки нет.
Есть разные подборки инструментов https://github.com/heartexlabs/awesome-data-labeling, но большая часть просто ужасны, поэтому компании вынуждены делать что-то своё или покупать платное решение (вполне ниша для бизнеса)
Совершенно недавно узнал про новый инструмент https://labelstud.io
Почему вам стоит на него посмотреть?
— Можно размечать картинки, текст, звук, временные ряды
— Можно подключать ML модель, чтобы делать предварительную разметку, и тем самым ускорять подготовку новых данных
— Есть возможность задавать различные атрибуты и проставлять связи, между объектами
— Вполне живой github
— Хорошая документация и приятный UX
— Есть интеграция с s3, google cloud, странная, но работает
Что пока не понравилось?
— Нет возможности группировать картинки, например если вы делаете разметку pdf документов, хотелось бы все страницы в одном месте
— Довольно странная конфигурация проектов
Ссылка на github https://github.com/heartexlabs/label-studio , если вам нужна разметка, попробуйте, возможно вам подойдёт.
#ml #data #labeling
Разметка данных довольно трудоёмкий процесс, в частности нередко возникает вопрос, чем размечать данные. Ввиду того, что требования очень разные от задачи, к задаче, универсальной таблетки нет.
Есть разные подборки инструментов https://github.com/heartexlabs/awesome-data-labeling, но большая часть просто ужасны, поэтому компании вынуждены делать что-то своё или покупать платное решение (вполне ниша для бизнеса)
Совершенно недавно узнал про новый инструмент https://labelstud.io
Почему вам стоит на него посмотреть?
— Можно размечать картинки, текст, звук, временные ряды
— Можно подключать ML модель, чтобы делать предварительную разметку, и тем самым ускорять подготовку новых данных
— Есть возможность задавать различные атрибуты и проставлять связи, между объектами
— Вполне живой github
— Хорошая документация и приятный UX
— Есть интеграция с s3, google cloud, странная, но работает
Что пока не понравилось?
— Нет возможности группировать картинки, например если вы делаете разметку pdf документов, хотелось бы все страницы в одном месте
— Довольно странная конфигурация проектов
Ссылка на github https://github.com/heartexlabs/label-studio , если вам нужна разметка, попробуйте, возможно вам подойдёт.
#ml #data #labeling
GitHub
GitHub - HumanSignal/awesome-data-labeling: A curated list of awesome data labeling tools
A curated list of awesome data labeling tools. Contribute to HumanSignal/awesome-data-labeling development by creating an account on GitHub.
Вышел новый отчёт State of AI 2020 https://www.stateof.ai/ , презентация https://docs.google.com/presentation/d/1ZUimafgXCBSLsgbacd6-a-dqO7yLyzIl1ZJbiCBUUT4/edit
Некоторые моменты из отчёта:
- 15% статей публикуют свой код
- PyTorch становится популярнее в ресёрче и на github
- Модели в NLP продолжают расти по количеству параметров GPT-3
- Тренировка GPT-3 оценивается в 10 млн $
- Ещё одна модель которая обходит BERT для re-ranking ConveRT
- NLP бенчмарк SuperGLUE почти побит
- AI в биологии, 50% рост количества статей по биологии, где используются AI методы
- Большое количество улучшений CV
- Фармакологические компании активно заявляют, что используют AI для разработки лекарств
- Super-resolution используются в электронных микроскопах
- Больше половины штатов в США приняли законы для регулирования автономных автомобилей
- Качество supervised систем перестало ускоряться, возможно нужны другие подходы
- Многие компании выкладывают в open source большие датасеты, это важно для развития области
- Graphcore hardware компания, которая показывает впечатляющие результаты, и может быть сможет составить конкуренцию NVIDIA
- Взрыв популярности к MLOPS — это хорошо, означает, что индустрия начинает взрослеть
- RPA наиболее популярная область в enterprise
- BERT используется в поиске google и microsoft
- Hugging Face один из важнейших проектов в NLP
- Ещё большое случаев, когда модель ведёт себя не политкорректно из-за данных, на которых была обучена
Рекомендую посмотреть отчёт
#ml #progress
Некоторые моменты из отчёта:
- 15% статей публикуют свой код
- PyTorch становится популярнее в ресёрче и на github
- Модели в NLP продолжают расти по количеству параметров GPT-3
- Тренировка GPT-3 оценивается в 10 млн $
- Ещё одна модель которая обходит BERT для re-ranking ConveRT
- NLP бенчмарк SuperGLUE почти побит
- AI в биологии, 50% рост количества статей по биологии, где используются AI методы
- Большое количество улучшений CV
- Фармакологические компании активно заявляют, что используют AI для разработки лекарств
- Super-resolution используются в электронных микроскопах
- Больше половины штатов в США приняли законы для регулирования автономных автомобилей
- Качество supervised систем перестало ускоряться, возможно нужны другие подходы
- Многие компании выкладывают в open source большие датасеты, это важно для развития области
- Graphcore hardware компания, которая показывает впечатляющие результаты, и может быть сможет составить конкуренцию NVIDIA
- Взрыв популярности к MLOPS — это хорошо, означает, что индустрия начинает взрослеть
- RPA наиболее популярная область в enterprise
- BERT используется в поиске google и microsoft
- Hugging Face один из важнейших проектов в NLP
- Ещё большое случаев, когда модель ведёт себя не политкорректно из-за данных, на которых была обучена
Рекомендую посмотреть отчёт
#ml #progress
www.stateof.ai
State of AI Report 2024
The State of AI Report analyses the most interesting developments in AI. Read and download here.
MLOps становится всё популярнее
Поскольку ML всё больше проникает в разные проекты, а тем самым всё больше инженеров нуждаются в решении разного рода прикладных задач: как построить инфраструктуру для машинного обучения, как выстроить мониторинг моделей, как деплоить модели — это лишь несколько примеров.
Недавно встретил такой сайт https://ml-ops.org/, где собрана и хорошо структурирована информация по MLOps. Очень рекомендую
Отмечу несколько разделов:
https://ml-ops.org/content/phase-zero — тут представляется AI Canvas, похоже на Lean Canvas, только для AI проекта, шаблон полезный, так как предлагает набор вопросов, о которых следует подумать до начала проекта
https://ml-ops.org/content/state-of-mlops — здесь собраны инструменты и сгруппированы по их назначению.
#ml #ops
Поскольку ML всё больше проникает в разные проекты, а тем самым всё больше инженеров нуждаются в решении разного рода прикладных задач: как построить инфраструктуру для машинного обучения, как выстроить мониторинг моделей, как деплоить модели — это лишь несколько примеров.
Недавно встретил такой сайт https://ml-ops.org/, где собрана и хорошо структурирована информация по MLOps. Очень рекомендую
Отмечу несколько разделов:
https://ml-ops.org/content/phase-zero — тут представляется AI Canvas, похоже на Lean Canvas, только для AI проекта, шаблон полезный, так как предлагает набор вопросов, о которых следует подумать до начала проекта
https://ml-ops.org/content/state-of-mlops — здесь собраны инструменты и сгруппированы по их назначению.
#ml #ops
MESTO — крутая инициатива, которую стартанули участники интервью Дудя про Кремневую долину https://mesto.co/. Это такое место, где вы можете найти людей, которые могут вам помочь. Место где вы можете кому-то помочь и тем самым обзавестись новыми знакомствами со всего мира.
Вначале это были просто тематические чаты и встречи в zoom, теперь они запустили площадку, где можно искать людей с определённым опытом.
Важная идея этого сообщества в том, что тут собраны люди с разным опытом, там есть инженеры и программисты, продакты и бизнесмены, инвесторы, или люди, у которых есть идеи.
Если ценности сообщества совпадают с вашими, обязательно подавайте заявку.
#community
Вначале это были просто тематические чаты и встречи в zoom, теперь они запустили площадку, где можно искать людей с определённым опытом.
Важная идея этого сообщества в том, что тут собраны люди с разным опытом, там есть инженеры и программисты, продакты и бизнесмены, инвесторы, или люди, у которых есть идеи.
Если ценности сообщества совпадают с вашими, обязательно подавайте заявку.
#community
mesto.co
Mesto :: Сообщество людей, стартапов и идей
Бесплатное комьюнити стартаперов, предпринимателей, специалистов и экспертов. Питчинг проектов, менторинг, поиск кофаундеров, сбор команды. Прокачка идей и проектов. Поиск инвесторов, менторов, эдвайзеров. IT, EdTech, MarTech, VR, AR, Web 3.0, AI, нейросети.
Небольшая статья достоянная прочтения о том, почему ML проекты проваливаются https://towardsdatascience.com/what-is-the-main-reason-most-ml-projects-fail-515d409a161f
В статье говорится о двух основных причинах:
Цена итерации — при разработке ML продуктов подготовка данных очень дорогая стадия, как по деньгам, так и по времени. Если плохо поставили задачу или данные разметили не так, то повторная операция приведёт к существенным затратам.
Определения готовности (definition of readiness) — "How good is good enough" — действительно это частая проблема, когда принимающее решение на проекте люди, не понимают, когда стоит остановиться и продолжить внедрение. Всегда можно попробовать ещё что-нибудь, чтобы улучшить модель, но для успешного продукта, нужно держать в уме цели продукта, не только модели.
Нельзя сказать, что это единственные проблемы, но точно стоит уделить им особое внимание.
#ml #production
В статье говорится о двух основных причинах:
Цена итерации — при разработке ML продуктов подготовка данных очень дорогая стадия, как по деньгам, так и по времени. Если плохо поставили задачу или данные разметили не так, то повторная операция приведёт к существенным затратам.
Определения готовности (definition of readiness) — "How good is good enough" — действительно это частая проблема, когда принимающее решение на проекте люди, не понимают, когда стоит остановиться и продолжить внедрение. Всегда можно попробовать ещё что-нибудь, чтобы улучшить модель, но для успешного продукта, нужно держать в уме цели продукта, не только модели.
Нельзя сказать, что это единственные проблемы, но точно стоит уделить им особое внимание.
#ml #production
Medium
What is THE main reason most ML projects fail?
You might have been using ML as a scapegoat…