Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.25K photos
111 videos
64 files
4.65K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
😈 Скандалы и интриги в ИИ-отрасли

🍿На днях Google представила свою мультимодальную модель Gemini и выпустила ролик, демонстрирующий её возможности. Там модели предъявляли разные видеозаписи и просили рассказать, что она «видит». Многие сразу отметили, что «это выглядит слишком хорошо, чтобы быть правдой».

Как оказалось, они были правы. Во-первых, Google ещё в описании видео указала, что ускорила ответы Gemini. Во-вторых, и вовсе призналась позже, что модель не давала ответы непосредственно на голос и видеоролики. Gemini лишь показывали кадры, сопровождаемые промптом. Например, ИИ предъявили изображение резиновой утки и спросили, из какого материала она сделана, добавив в текстовый запрос информацию о том, что игрушка издаёт характерный звук при сжатии.

🍿Другой скандал разворачивается вокруг твиттерского ИИ-ассистента Grok от Илона Маска. Один из пользователей опубликовал скриншот ответа модели, в котором она не удовлетворяет запрос, ссылаясь на политику OpenAI. Многие решили, что для Grok просто скопировали кодовую базу ChatGPT. Как заявили создатели ассистента, это всё произошло из-за того, что в интернете полно сгенерированного главным чат-ботом контента.
😁8👍32🎉1
Forwarded from Книги для дата сайентистов | Data Science
📚Data Science from Scratch: First Principles with Python, Second Edition (2019)

✍️Автор: Joel GrusPerry S.D.George B. Thomas Jr.

📃Страниц: 406

Если у вас есть способности к математике и некоторые навыки программирования, автор Джоэл Грас поможет вам освоиться с основами науки о данных, а также со специальными навыками, необходимыми для начала работы в качестве специалиста по дата сайнсу. С помощью этого обновленного издания вы узнаете, как работают многие из инструментов и алгоритмов data science

Что внутри:
🔸Пройдите ускоренный курс по Python
🔸Изучите основы линейной алгебры, статистики и теории вероятностей, а также то, как и когда они используются в науке о данных
🔸Собирайте, исследуйте, очищайте данные, управляйте ими и манипулируйте ими
🔸Погрузитесь в основы машинного обучения

Ссылка на книгу
👍7
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
3
🇪🇺Согласован Европейский The AI Act

Это первое соглашение Евросоюза по регулированию искусственного интеллекта. Скоро будет принят и общеевропейский закон.

Европейские чиновники договорились, что ИИ никогда не должен применяться для:
▪️биометрических систем классификации, использующих чувствительные характеристики (раса, сексуальная ориентация и так далее);
▪️сбора изображений лиц из интернета или с камер видеонаблюдения;
▪️распознавания эмоций на рабочих или учебных местах;
▪️системы социального рейтинга;
▪️систем, манипулирующих человеческим поведением;
▪️систем, использующих уязвимости людей (ввиду их возраста или социального статуса).

Использование технологии удалённой биометрической идентификации в общественных местах правоохранительными органами не было полностью запрещено, но парламент решил это ограничить.

👩‍💻Также чиновники ввели такое понятие как высокорисковая ИИ-система. Такие системы могут нанести «значительный потенциальный вред здоровью, безопасности, основным правам, окружающей среде, демократии и верховенству закона». Подобные GPT модели были определены как «общие». Их регулирование тоже будет усилено.
👍4🤔43
🏠А вы знали, что знаменитый датасет Boston housing prices удалили из scikit-learn?

Раньше можно было загрузить датасет одной строчкой sklearn.datasets.load_boston(). Начиная с версии scikit-learn 1.2 вызов этой функции приводит к ошибке.

Дело в том, что в датасете нашли этическую проблему. Оказалось, что авторы Boston housing prices сгенерировали новый признак B, учитывающий долю темнокожих по городам. Этот признак показывал, что расовая самосегрегация положительно влияет на цены на жильё.

Стоит отметить, что эти данные были собраны для исследования «Hedonic prices and the demand for clean air» («Гедонические цены и спрос на чистый воздух») 1978 года.

Команда scikit-learn настоятельно не рекомендует использовать этот набор данных, если только целью не является изучение этических проблем в data science и machine learning. Датасет всё ещё можно достать по прямой ссылке: http://lib.stat.cmu.edu/datasets/boston
😁33🤔9👍6👏2👾21🥰1
Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы

#️⃣C#

Библиотека шарписта
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Библиотека Data Science — полезные статьи, новости и обучающие материалы
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие профильные каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика

💼Каналы с вакансиями

Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

🤖Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ
👍5
🎄В декабре уже не хочется работать не только людям, но и ChatGPT

Энтузиаст Роб Линч обнаружил любопытный эффект у модели gpt-4-turbo. Он обращался к ней по API и заметил, что если модель «думает», что отвечает в декабре, то даёт более короткие ответы. Разница с длиной ответов в мае оказалась статистически значимой (p-value — 2.28e-07).

Линч использовал для запросов один и тот же промпт (просил GPT сгенерировать код). Также он создал два системных промпта: один сообщал, что сейчас май, а другой — что на дворе декабрь. Линч получил два распределения.

Для майского промпта gpt-4-turbo в среднем генерировала ответы длиной 4298 символов, а для декабрьского — 4086.
😁243
💬Слышали ли вы про новый язык программирования Mojo? А про Julia?
Их описывают как альтернативы Python, и некоторые разработчики уже активно используют новые языки в проектах. А вы разделяете энтузиазм по поводу «пайтонзаменителей»?

❤️ — про Mojo/Julia слышал, но не заинтересовался и не изучил
👍 — про Mojo/Julia слышал, заинтересовался и планирую изучить
👾 — не слышал про такое/неинтересно

#интерактив
68👍32👾23
🧠Чему вы бы хотели научиться?

Расскажите нам о ваших пожеланиях: какие навыки вы хотели бы прокачать в ближайшее время или какую профессию хотели бы приобрести?

За прохождение опроса вы получите промокод на скидку 15% на все наши курсы до конца 2024 года.

👉Опрос по ссылке👈
😁72
🔥 «Для дома»: вышла опенсорсная языковая модель Mixtral с производительностью уровня GPT-3.5

Особенность новой Mixtral 8x7B в том, что она использует подход sparse mixture of experts (SMoE). Эта нейросеть состоит только из декодеров, в каждом из которых блок feedforward выбирает из восьми различных групп параметров. На каждом слое для каждого токена сеть использует две из этих групп («экспертов»), чтобы получить выход. Это позволяет модели не задействовать все параметры сразу, что ускоряет работу. Всего у Mixtral 46.7 млрд параметров, но используются 12.9 млрд на токен.

🏃‍♂️Авторы утверждают, что их модель превосходит Llama 2 70B в большинстве бенчмарков — показывает скорость работы 6x.

Вот ещё возможности Mixtral:
🔸Позволяет работать с контекстным окном в 32 тысяч токенов.
🔸Показывает хорошую производительность при генерации кода.
🔸Её можно дообучить до хорошей instruct-модели (будет следовать вашим инструкциям).

📖 Подробный блогпост Mistral AI
🔥9👍1
👀 Небольшой обзор функций активации в машинном обучении

Функция активации — это, по сути, нелинейное преобразование, которое применяется к пришедшим на вход данным.

✔️Sigmoid, сигмоида
Исторически была одной из первых. Её область значений лежит в промежутке от 0 до 1. Требует ресурсозатратного вычисления экспоненты, может привести к затуханию градиента.
✔️Tanh, гиперболический тангенс
Область значений у неё в отличие от сигмоиды симметрична; лежит в диапазоне от -1 до 1. В остальном имеет те же проблемы.
✔️ReLU, Rectified linear unit
Эта простая кусочно-линейная функция довольно популярна. Её область значений смещена относительно нуля, при использовании возможно затухание градиента. Зато ReLU легко вычисляется.
✔️Leaky ReLU
Благодаря дополнительному гиперпараметру ϵ имеет более симметричную относительно нуля область значений. Меньше провоцирует затухание градиента.

Есть также популярная GELU, в которой используется функция распределения стандартной нормальной случайной величины.
15👍7👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Google Colaboratory стал умнее

🔸Во-первых, в колаб добавили встроенный ИИ-помощник. Теперь при нажатии на ячейку можно выбрать generate и появится поле для ввода промпта. Можно, например, ввести «write a simple linear regression model» и в ячейке тут же сгенерируется простой код с использованием библиотеки scikit-learn.
🔸Во-вторых, для всех, кто использует экспериментальные функции в Chrome, стала доступна фишка с прямым экспортом результатов поискового запроса в Colaboratory. Это касается запросов, связанных с Python. Нужно, чтобы был активирован Search Generative Experiences (SGE).
🔥14👍21😁1🤩1
🐍🤖✍️ Документирование кода и проектов на Python с помощью ChatGPT

Научимся создавать документацию к коду, комментарии, руководства к библиотекам и README-файлы с помощью популярного чат-бота.

👉Читать статью
🔥5
Forwarded from Библиотека программиста | программирование, кодинг, разработка
This media is not supported in the widget
VIEW IN TELEGRAM