Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤3👍1
“Компании-миллиардеры, состоящие из одного человека”
#почитать
⏱ Читать статью
#почитать
Большинство «низко висящих фруктов» уже собрано. Остались наиболее трудоёмкие варианты, в которых заинтересованы немногие.
Люди поняли, что в области генеративного ИИ трудно быть конкурентоспособным, поэтому ажиотаж поутих.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍1
Как работает Нейро Яндекса
#почитать
Пользователь может задать Нейро любой вопрос, а тот сам подберёт подходящие материалы в ЯПоиске, проанализирует их и соберёт найденную информацию в одном ответе, подкрепив его ссылками на источники.
⏱ Читать статью
#почитать
Пользователь может задать Нейро любой вопрос, а тот сам подберёт подходящие материалы в ЯПоиске, проанализирует их и соберёт найденную информацию в одном ответе, подкрепив его ссылками на источники.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2❤1
Проблема множественного тестирования на практике
#почитать
⏱ Читать статью
#почитать
Нередко случаются ситуации, когда в A/B экспериментах ну очень хочется нужно проверять сразу несколько гипотез на одном и том же наборе данных, то есть в качестве тестового варианта использовать не одну группу, а сразу несколько. Особенно часто такая необходимость встречается в некоторых областях биологии. Но и в продуктовых командах возникают кейсы, когда, например, уже есть несколько вариантов дизайна каких-то элементов / моделей рекомендаций / ранжирования / etc, и хочется выбрать лучший в рамках одного эксперимента.
Меня зовут Артем Пономарев, я участник клуба анонимных дата-аналитиков Data Analyst, и мне приходилось сталкиваться с множественными экспериментами в продукте. Когда это случалось, и я начинал искать больше дополнительной информации на эту тему, мне показалось, что существует достаточно мало материала с упором на реальную практику в индустрии. Эта статья – попытка структурировать знания о проблеме множественного тестирования, сравнить методы решения проблемы и поделиться практическим опытом работы с множественными экспериментами.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
ML-борьба с фишингом в VK
#почитать
⏱ Читать статью
#почитать
Перед построением классификатора, нужно разобраться с признаковым пространством. У нас в арсенале есть:
Текст из письма.
Картинки из письма.
Репутация по отправителю.
Репутация по URL.
Для построения признаков на основе картинок у нас используется отдельная CV-модель, обученная распознавать определенные объекты. На основе вероятностей этой модели формируются признаки, которые сообщают о том, есть объект на картинке или нет. Как работать с репутационными признаками понятно, давайте разберем, как можно работать с текстом.
Самый первый и простой способ работы с текстом — это мешок слов (bag of words).
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3🔥1
RecTools – опенсорсная библиотека для рекомендательных систем
#почитать
⏱ Читать статью
#почитать
Если вы когда-либо работали с рекомендательными системами, то знаете, что все необходимые и самые часто используемые инструменты разбросаны по разным библиотекам. Более того, каждая из таких библиотек имеет много уникальных особенностей, к которым нужно приноровиться (например, разные форматы данных на вход).
Выходит, что чтобы просто протестировать на своей задаче базовый пул подходов, нужно немало помучиться. Получается довольно грустно.
К такому же выводу, видимо, пришли ребята из МТС – и выкатили в опенсурс RecTools.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥2
Модели YOLO и ResNet для обнаружения нежелательных предметов на фотографиях
#почитать
На примере поиска ножей на кухне.
⏱ Читать статью
#почитать
На примере поиска ножей на кухне.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Извлечение полезной информации из категориальных признаков
#почитать
⏱ Читать статью
#почитать
Категориальный признак (categorical feature) — это признак, который содержит в себе какую-либо метку (свойство), описывающую этот признак. При этом, категориальные признаки не измеряются в непрерывной шкале, в отличие от непрерывных признаков (continuous features).
Категориальные признаки могут содержать фиксированный набор значений.
К примеру, признак RGB содержит значения: Red (красный), Green (зелёный) и Blue (голубой).
Также они могут содержать набор значений, который может со временем меняться.
Например, номера поликлиник в городе: 321, 213, 2 и так далее. Город может построить новую поликлинику, и таким образом она добавится в ваш список.
Если категориальный признак принимает только два значения, его называют бинарным (True / False, Да / Нет, Зеленый / Красный и так далее).
Большая часть классических ML-моделей использует в своей работе числовые признаки, в связи с этим следует уметь корректно представлять категориальные значения числами.
Можно ли не утруждать себя при работе с такими признаками?
Ответ: и да, и нет. Вы действительно можете использовать какие-то базовые приёмы работы с ними, но рискуете потерять в качестве модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥1
Уродливая математика в машинном обучении
#почитать
⏱ Читать статью
#почитать
Когда слушаешь доклады на больших ML-конференциях, то часть докладов вызывает восторг, но другая часть на послевкусии вызывает странное чувство. Да, доклад может быть очень крутым, математика блестящей, сложность крышесносной, но что-то как будто бы не так.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1🔥1
Распознавание паспорта РФ в PWA
#почитать
⏱ Читать статью
#почитать
Утечки персональных данных в России бьют все рекорды. За два года их совокупное число выросло – только вдумайтесь – в 40 раз. В 2021-м году таких инцидентов было всего четыре, в 2022 – свыше 140, а за первые семь месяцев 2023 года – уже 150.
Одним из возможных путей утечки является передача персональных данных на обработку третьей стороне. По сути, компания передает изображения удостоверяющих документов (паспортов или любых других) своих клиентов незнакомым людям, а что дальше происходит с данными – неизвестно.
Между тем, есть еще один способ ввода данных из документов – прямо на устройстве, без необходимости отправлять куда-то картинку. Он полностью исключает риск любой утечки. Речь идет о нашем мобильном SDK для распознавания паспорта.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
Как работает нейросеть SORA
#почитать
⏱ Читать статью
#почитать
В основе SORA заложена та же идея, что и в LLM по типу GPT. Языковые модели хорошо показали себя в генерации текста отчасти из-за использования принципов токенизации, которые умело связывают и представляют текст в виде скрытых пространств. OpenAI переняли эту стратегию и ввели “визуальные патчи” для столь же эффективного представления видео.
Первым этапом в обучении SORA стало обучение такой сети, которая могла бы принимать необработанное видео в качестве входных данных и выводить скрытое представление визуальных патчей, сжатое как во времени, так и в пространстве. В последствии основная модель генерирует именно это латентное представление, которое позже декодируются обратно в пространство пикселей.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2❤1
Как сделать чат-бота лучше - RAGAS
#почитать
⏱ Читать статью
#почитать
Обычно оценка качества производится путём анализа обратной связи от пользователей, либо пользователь голосует рублем. Допустим, вы разработали чат-бота и обнаружили, что юзеры не в восторге от его ответов. Вы вносите изменения, например, заменяете одну LLM на другую и надеетесь, что теперь-то ответы всех устроят. Это можно сделать ещё более умно через A/B-тестирование. Но можно ли ускорить релизный цикл, заранее оценив влияние внесённых изменений? RAGAS как раз предлагает ответ на этот вопрос.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Машинное обучение и дизельные двигатели
#почитать
⏱ Читать статью
#почитать
По имеющимся оценкам, только эксплуатационные затраты на один самосвал достигают 50 тысяч рублей в час. При этом, если простой оказался незапланированным, это увеличивает сумму ещё на 30%. Очевидно, что одно дело, когда самосвал остановили на запланированный ремонт, и совершенно другое — если он груженный рудой внезапно сломался посреди смены где‑нибудь в глубине карьера.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Предварительная обработка данных для машинного обучения
#почитать
⏱ Читать статью
#почитать
Подготовка данных – это процесс подготовки «сырых» (необработанных) данных для их дальнейшей обработки и анализа.
Предобработка данных включает следующие процедуры:
проверка данных;
очистка данных;
трансформация данных;
трансформация данных;
дополнение;
оптимизация.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Меньше работы с людьми, больше работы с данными: кому подойдет мир аналитики
#почитать
Профессия аналитика идеально подходит тем, кто находит удовольствие в работе с данными и анализе, предпочитая это общению с людьми. Это не означает, что аналитикам вообще не приходится взаимодействовать с коллегами или клиентами, но основная часть их работы связана с анализом информации, а не с постоянным общением.
Аналитика данных требует глубокого погружения в информацию, изучения трендов и поиска закономерностей. Это занятие для тех, кто может часами сосредотачиваться на цифрах и таблицах.
⏱ Читать статью
#почитать
Профессия аналитика идеально подходит тем, кто находит удовольствие в работе с данными и анализе, предпочитая это общению с людьми. Это не означает, что аналитикам вообще не приходится взаимодействовать с коллегами или клиентами, но основная часть их работы связана с анализом информации, а не с постоянным общением.
Аналитика данных требует глубокого погружения в информацию, изучения трендов и поиска закономерностей. Это занятие для тех, кто может часами сосредотачиваться на цифрах и таблицах.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2❤1
Улучшаем технику серфинга с помощью компьютерного зрения
#почитать
⏱ Читать статью
#почитать
Я — серфер. Я катаюсь на волнах Тенерифе и углубленно изучаю мир серфинга.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2❤1
Почему именно SQL и Python — мастхев для аналитика
#почитать
1. SQL используется для работы с базами данных, позволяет извлекать, преобразовывать данные и изменять структуру таблиц.
2. Python используется для более сложных манипуляций с данными, включая сложные вычисления и визуализацию.
3. Важные библиотеки Python для аналитики данных включают NumPy, Pandas, Matplotlib и SciPy.
4. Python и SQL покрывают основные потребности аналитиков, делая их более ценными на рынке труда по сравнению с знающими только Excel.
⏱ Читать статью
#почитать
1. SQL используется для работы с базами данных, позволяет извлекать, преобразовывать данные и изменять структуру таблиц.
2. Python используется для более сложных манипуляций с данными, включая сложные вычисления и визуализацию.
3. Важные библиотеки Python для аналитики данных включают NumPy, Pandas, Matplotlib и SciPy.
4. Python и SQL покрывают основные потребности аналитиков, делая их более ценными на рынке труда по сравнению с знающими только Excel.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1🔥1
Разбор Gradient Boosting
#почитать
Архитектурные шаблоны в машинном обучении представляют собой общие структуры и методологии, которые позволяют разработчикам более эффективно решать задачи. Они представляют собой набор bewährte Lösungen, то есть "проверенных решений", которые могут быть адаптированы к конкретным задачам и данным. Использование архитектурных шаблонов позволяет сэкономить время и ресурсы при разработке моделей машинного обучения.
Gradient Boosting – это один из наиболее мощных и гибких архитектурных шаблонов в машинном обучении. Он позволяет строить ансамбли моделей, комбинируя слабые ученики в сильную модель, способную решать разнообразные задачи классификации и регрессии. Этот метод обрел популярность благодаря своей способности обучаться на ошибках предыдущих моделей, постепенно улучшая свои прогнозы.
⏱ Читать статью
#почитать
Архитектурные шаблоны в машинном обучении представляют собой общие структуры и методологии, которые позволяют разработчикам более эффективно решать задачи. Они представляют собой набор bewährte Lösungen, то есть "проверенных решений", которые могут быть адаптированы к конкретным задачам и данным. Использование архитектурных шаблонов позволяет сэкономить время и ресурсы при разработке моделей машинного обучения.
Gradient Boosting – это один из наиболее мощных и гибких архитектурных шаблонов в машинном обучении. Он позволяет строить ансамбли моделей, комбинируя слабые ученики в сильную модель, способную решать разнообразные задачи классификации и регрессии. Этот метод обрел популярность благодаря своей способности обучаться на ошибках предыдущих моделей, постепенно улучшая свои прогнозы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🔥1
Дата-сайентисты и Docker с Kubernetes
#почитать
⏱ Читать статью
#почитать
В целом, хотя дата-сайентистам не обязательно становиться экспертами по Kubernetes, общее представление об этой технологии полезно для эффективного взаимодействия с другими командами, развертывания моделей и приложений.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2❤1👌1
➡️ Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
аналитик от бога
Божественный канал по бизнес-анализу и системному анализу
По всем вопросам @anothertechrock
По всем вопросам @anothertechrock
❤5👍3🔥1
Linux для аналитика
#почитать
⏱ Читать статью
#почитать
Я ведущий аналитик направления Big Data Лиги Цифровой Экономики. Я проведу небольшую ознакомительную экскурсию в мир Linux и покажу, что аналитик вполне себе может решать повседневные задачи в этой операционной системе.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1🔥1👌1