Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🏠А вы знали, что знаменитый датасет Boston housing prices удалили из scikit-learn?

Раньше можно было загрузить датасет одной строчкой sklearn.datasets.load_boston(). Начиная с версии scikit-learn 1.2 вызов этой функции приводит к ошибке.

Дело в том, что в датасете нашли этическую проблему. Оказалось, что авторы Boston housing prices сгенерировали новый признак B, учитывающий долю темнокожих по городам. Этот признак показывал, что расовая самосегрегация положительно влияет на цены на жильё.

Стоит отметить, что эти данные были собраны для исследования «Hedonic prices and the demand for clean air» («Гедонические цены и спрос на чистый воздух») 1978 года.

Команда scikit-learn настоятельно не рекомендует использовать этот набор данных, если только целью не является изучение этических проблем в data science и machine learning. Датасет всё ещё можно достать по прямой ссылке: http://lib.stat.cmu.edu/datasets/boston
😁33🤔9👍6👏2👾21🥰1
Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы

#️⃣C#

Библиотека шарписта
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Библиотека Data Science — полезные статьи, новости и обучающие материалы
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие профильные каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика

💼Каналы с вакансиями

Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

🤖Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ
👍5
🎄В декабре уже не хочется работать не только людям, но и ChatGPT

Энтузиаст Роб Линч обнаружил любопытный эффект у модели gpt-4-turbo. Он обращался к ней по API и заметил, что если модель «думает», что отвечает в декабре, то даёт более короткие ответы. Разница с длиной ответов в мае оказалась статистически значимой (p-value — 2.28e-07).

Линч использовал для запросов один и тот же промпт (просил GPT сгенерировать код). Также он создал два системных промпта: один сообщал, что сейчас май, а другой — что на дворе декабрь. Линч получил два распределения.

Для майского промпта gpt-4-turbo в среднем генерировала ответы длиной 4298 символов, а для декабрьского — 4086.
😁243
💬Слышали ли вы про новый язык программирования Mojo? А про Julia?
Их описывают как альтернативы Python, и некоторые разработчики уже активно используют новые языки в проектах. А вы разделяете энтузиазм по поводу «пайтонзаменителей»?

❤️ — про Mojo/Julia слышал, но не заинтересовался и не изучил
👍 — про Mojo/Julia слышал, заинтересовался и планирую изучить
👾 — не слышал про такое/неинтересно

#интерактив
68👍32👾23
🧠Чему вы бы хотели научиться?

Расскажите нам о ваших пожеланиях: какие навыки вы хотели бы прокачать в ближайшее время или какую профессию хотели бы приобрести?

За прохождение опроса вы получите промокод на скидку 15% на все наши курсы до конца 2024 года.

👉Опрос по ссылке👈
😁72
🔥 «Для дома»: вышла опенсорсная языковая модель Mixtral с производительностью уровня GPT-3.5

Особенность новой Mixtral 8x7B в том, что она использует подход sparse mixture of experts (SMoE). Эта нейросеть состоит только из декодеров, в каждом из которых блок feedforward выбирает из восьми различных групп параметров. На каждом слое для каждого токена сеть использует две из этих групп («экспертов»), чтобы получить выход. Это позволяет модели не задействовать все параметры сразу, что ускоряет работу. Всего у Mixtral 46.7 млрд параметров, но используются 12.9 млрд на токен.

🏃‍♂️Авторы утверждают, что их модель превосходит Llama 2 70B в большинстве бенчмарков — показывает скорость работы 6x.

Вот ещё возможности Mixtral:
🔸Позволяет работать с контекстным окном в 32 тысяч токенов.
🔸Показывает хорошую производительность при генерации кода.
🔸Её можно дообучить до хорошей instruct-модели (будет следовать вашим инструкциям).

📖 Подробный блогпост Mistral AI
🔥9👍1
👀 Небольшой обзор функций активации в машинном обучении

Функция активации — это, по сути, нелинейное преобразование, которое применяется к пришедшим на вход данным.

✔️Sigmoid, сигмоида
Исторически была одной из первых. Её область значений лежит в промежутке от 0 до 1. Требует ресурсозатратного вычисления экспоненты, может привести к затуханию градиента.
✔️Tanh, гиперболический тангенс
Область значений у неё в отличие от сигмоиды симметрична; лежит в диапазоне от -1 до 1. В остальном имеет те же проблемы.
✔️ReLU, Rectified linear unit
Эта простая кусочно-линейная функция довольно популярна. Её область значений смещена относительно нуля, при использовании возможно затухание градиента. Зато ReLU легко вычисляется.
✔️Leaky ReLU
Благодаря дополнительному гиперпараметру ϵ имеет более симметричную относительно нуля область значений. Меньше провоцирует затухание градиента.

Есть также популярная GELU, в которой используется функция распределения стандартной нормальной случайной величины.
15👍7👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Google Colaboratory стал умнее

🔸Во-первых, в колаб добавили встроенный ИИ-помощник. Теперь при нажатии на ячейку можно выбрать generate и появится поле для ввода промпта. Можно, например, ввести «write a simple linear regression model» и в ячейке тут же сгенерируется простой код с использованием библиотеки scikit-learn.
🔸Во-вторых, для всех, кто использует экспериментальные функции в Chrome, стала доступна фишка с прямым экспортом результатов поискового запроса в Colaboratory. Это касается запросов, связанных с Python. Нужно, чтобы был активирован Search Generative Experiences (SGE).
🔥14👍21😁1🤩1
🐍🤖✍️ Документирование кода и проектов на Python с помощью ChatGPT

Научимся создавать документацию к коду, комментарии, руководства к библиотекам и README-файлы с помощью популярного чат-бота.

👉Читать статью
🔥5
Forwarded from Библиотека программиста | программирование, кодинг, разработка
This media is not supported in the widget
VIEW IN TELEGRAM
🔢 LLM-ки DeepMind превзошли людей в решении математических проблем

Команда Google представила новый метод поиска решений FunSearch. Он объединяет разные большие языковые модели (в частности, PaLM 2), чтобы получать решения в форме кода. В системе также есть компонент, которые борется с галлюцинациями LLM.

В DeepMind заявляют, что это первый раз, когда языковые модели сделали открытие в области науки или математики. FunSearch предложил новые решения для cap set problem, а также нашёл более эффективные алгоритмы для задачи об упаковке в контейнеры (bin packing problem).

📖Исследовательская статья DeepMind
👏17👍1
Вышел новый arXiv Report с самыми цитируемыми статьями по ИИ за Q1-Q3 2023 г.

1️⃣GPT-4 Technical Report
На первом месте по цитированиям, конечно, статья OpenAI про GPT-4, вышедшая в марте.
2️⃣Llama 2: Open Foundation and Fine-Tuned Chat Models
На втором месте июльская статья про одну из крупнейших опенсорсных языковых моделей LLaMa-2.
3️⃣LLaMA: Open and Efficient Foundation Language Models
А на третьем более старая LLaMA, вышедшая в феврале.
4️⃣Sparks of Artificial General Intelligence: Early experiments with GPT-4
Далее снова работа про GPT-4 (всё-таки самая важная модель для сообщества). Авторы статьи показали, что LLM способна решать новые и сложные задачи, касающиеся математики, программирования и др.
5️⃣Judging LLM-as-a-Judge with MTBench and Chatbot Arena
Авторы изучали, могут ли языковые модели служить для оценки производительности чат-ботов.

👉Весь arXiv Report можно прочесть по этой ссылке
👍5👏1🤩1
🤖 Машинное обучение: что это такое и как оно работает

В вводной статье рассказали, из каких компонентов состоит машинное обучение, какие алгоритмы в нём используются и что за задачи решают.

👉Читать статью
👍95👏2