DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
https://www.computerworld.com/article/3712700/italian-watchdog-says-chatgpt-breached-data-privacy-norms.html

Опять скандал вокруг Open AI, теперь они перешли на заимствование контента )) в грубой форме. Судебные иски вырастают перед их дверьми со скоростью ветра.

На этот раз вляпалась итальянская компания Garante (фирма занимается исследованием соблюдений правил ЕС о конфиденциальности данных различными компаниями и их платформами искусственного интеллекта.), которая обвиняет OpenAI в нарушении норм конфиденциальности данных, установленных ЕС.

OpenAI не ответил на запросы Garante, но получил 30 дней на ответ и подготовку аргументов в свою защиту. Предвидя такой оборот, Garante собрала целевую группы, для окончательного вынесения решения по этому делу. Более того, это далеко не первый случай подобной практики. OpenAI просто забирает контент отовсюду не выплачивая никаких компенсаций правообладателям.
Mozilla сокращает штат и переориентируется на внедрение «надежного ИИ в Firefox»

Mozilla планирует сократить инвестиции в ряд продуктов, включая VPN, Relay и Online Footprint Scrubber. Mozilla также закроет Hubs, виртуальный 3D-мир, запущенный в 2018 году и сократит инвестиции в свой экземпляр mozilla.social Mastodon. Увольнения коснутся примерно 60 сотрудников.

👉 Как сообщается во внутреннем меморандуме компании, Mozilla сосредоточится на внедрении «надежного ИИ в Firefox». Для этого будут объединены команды, работающие над Pocket, Content и AI/Ml.

В последние годы Mozilla начала расширять свой портфель продуктов, в то время как ее флагманский продукт, браузер Firefox, продолжал терять долю рынка. И хотя организацию часто подвергали за это резкой критике, ее руководство утверждало, что диверсификация портфеля продуктов необходима для обеспечения выживания Mozilla в долгосрочной перспективе. В конце концов, Firefox обеспечивал подавляющую часть доходов Mozilla, но это также означало, что организация по существу зависела от сделок с Google.

Теперь похоже, что Mozilla может снова собирается переориентироваться на Firefox, что наверняка порадует многих поклонников браузера.
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_208

🔠 Какие библиотеки и инструменты могут использоваться для создания и настройки генераторов фичей?

- Featuretools: Featuretools — это библиотека, которая автоматически генерирует новые признаки из ваших данных. Она может автоматически создавать временные признаки, агрегировать данные и многое другое.

- Category Encoders: Это библиотека для кодирования категориальных переменных в числовые значения, которая предлагает различные методы, такие как OneHotEncoder, OrdinalEncoder и TargetEncoder.

- Statsmodels: Эта библиотека предоставляет статистические модели и методы для работы с временными рядами, что может быть полезно при создании временных признаков.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_209

🔠Какие методы кодирования категориальных переменных можно использовать с помощью Category Encoders? (Часть_1)

- BackwardDifferenceEncoder: Кодирует категории, используя разницу между категорией и предыдущей категорией.
- BaseNEncoder: Кодирует категории, используя кодирование в основание N.
- BinaryEncoder: Кодирует категории в бинарный формат.
- CatBoostEncoder: Кодирует категории с использованием CatBoost.
- CountEncoder: Кодирует категории, используя количество наблюдений каждой категории.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_209

🔠Какие методы кодирования категориальных переменных можно использовать с помощью Category Encoders? (Часть_2)

- GLMMEncoder: Кодирует категории, используя обобщенную линейную модель (GLMM).
- GrayEncoder: Кодирует категории, используя сеточное кодирование.
- HashingEncoder: Кодирует категории с использованием хеширования.
- HelmertEncoder: Кодирует категории, используя кодирование Хелмерта.
- JamesSteinEncoder: Кодирует категории, используя кодирование Джеймса-Штейна.
- LeaveOneOutEncoder: Кодирует категории, используя метод оставить один.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_209

🔠Какие методы кодирования категориальных переменных можно использовать с помощью Category Encoders? (Часть_3)

- MEstimateEncoder: Кодирует категории, используя M-оценку.
- OneHotEncoder: Кодирует категории в бинарные векторы, где каждая категория представлена вектором из нулей и единиц.
- OrdinalEncoder: Кодирует категории в числовые значения, где каждая категория получает уникальное числовое значение.
- PolynomialEncoder: Кодирует категории, используя полиномиальное кодирование.
- QuantileEncoder: Кодирует категории, используя квантильное кодирование.
- RankHotEncoder: Кодирует категории, используя ранговое горячее кодирование.
- SumEncoder: Кодирует категории, используя суммарное кодирование.
- TargetEncoder: Кодирует категории, используя целевое кодирование.
- WOEEncoder: Кодирует категории, используя кодирование WOE (Weight of Evidence).

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration
Сервис вытянет для вас текст с любой фотографии — NormCap распознает даже заголовки печатных газет.

Работает просто: активируете утилиту и выделяете поле, откуда нужно скопировать текст. Русский язык поддерживает — его можно выставить в настройках. Есть версии для Windows, Mac и Linux. И да, полностью бесплатно.

Наконец-то можно остановить видео по Python и скопировать из него код.
Тут на сетке (https://www.scientificamerican.com/article/how-scientists-are-using-ai-to-talk-to-animals/) появилась статья, что через год или 3 будет расшифрован язык животных, их поведение и речь, если это так можно назвать. Лучшего мема я так и не нашел для сие новости.

Ну что, шерстяной, выкладывай все, есть разговор. )))) ахахаах
Посты сегодня будут, много работы последнее время, сорян, бойцы ))
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_210

🔠 Назовите условия применения линейной регрессии (Часть_1)

- Линейная зависимость: Между независимыми и зависимыми переменными должна существовать линейная зависимость. Это можно проверить, например, с помощью точечной диаграммы, где наблюдаемые значения X и Y должны следовать за определенной линией. Если это не так, может потребоваться применение нелинейных функций для создания линейной зависимости 2.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#Linear Dependence #Linear Independence #Vectors #Matrix #PivotPosition #FreeVariables
#Span #NonlinearFunctions
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_210

🔠 Назовите условия применения линейной регрессии (Часть_2)

- Остаточная независимость: Остатки (разница между наблюдаемыми и прогнозируемыми значениями) не должны иметь идентифицируемой закономерности между собой. Это можно проверить с помощью различных математических тестов, например, теста Дурбина-Уотсона. Важно, чтобы остатки не показывали систематические отклонения, которые могли бы указывать на наличие выбросов или других проблем с данными

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#LinearDependence #LinearIndependence #Vectors #Matrix #PivotPosition #FreeVariables
#Span #NonlinearFunctions
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_210

🔠 Назовите условия применения линейной регрессии (Часть_3)

- Нормальность: Невязки (остатки) должны быть нормально распределены. Это можно проверить с помощью графиков Q-Q или других статистических методов. Если невязки не нормализованы, возможно, потребуется проверить данные на наличие выбросов или нетипичных значений и, возможно, выполнить нелинейные преобразования данных.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#LinearDependence #LinearIndependence #Vectors #Matrix #PivotPosition #FreeVariables
#Span #NonlinearFunctions
👍Прикольный опыт, получил не так давно. Пригласили проверять, домашки и вести семинары в МФТИ (Московский физико-тезнический университет) по курсу: Advanced NLP. В целом, все прошло хорошо, для меня особо нового было не очень много, но отличный опыт.

🔥Консультирую я по коду уже более 6 лет, как в частном порядке так и в групповом. Задачи были самые разные. Но больше всего мне понравились задачи связанные с детекцией негативного контента в соцсетях. Очень занимательно и круто. Задачи более чем знакомые, но все же, лишний раз. Так же мастерили всяких чат-ботов и иже с ними. В общем, огонь время провели. Особенно приятно когда получаешь вот такие отзывы.
Please open Telegram to view this post
VIEW IN TELEGRAM
2
👋Сейчас нахожусь в процессе подготовки обзорной статьи по h2oGPT от h2o.io. https://github.com/h2oai/h2ogpt. В двух словах, что это. Это комбайн для подготовки данных для задач NLP. Весьма мощная штука, заточенная на работу внутри компании. Конечно вы можете работать и в сети с ней, но здесь упор сделан на приватность ваших данных и на полное коммерческое использование.

🥳Машинка работает на Linux, Windows, MacOS. Есть сборка под докер, прокси. Поддерживает множество моделей от LLama2, Mistral, Vicuna, WizardLM. Настроена на работу, в цикле полного конвейера: от очистка данных до задача сумаризации и выделения эмбедингов. Статья скоро выйдет.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1