Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Новостной #дайджест по сфере ИИ

🔥 Google выпустила Gemma 2 2B — лучшую в своей категории
Эта модель была обучена на более крупных моделях посредством дистилляции. Новинка превосходит все модели GPT-3.5 на Chatbot Arena. Веса можно скачать тут.

👀 ИИ научился определять ранние стадии опухоли молочной железы
Новая модель использует изображения тканей и учитывает пространственную организацию клеток, что повышает точность диагностики. Это поможет врачам более эффективно оценивать стадии рака и избежать чрезмерного лечения.

🔋 Представлена новая технология, которая снижает энергопотребление ИИ-моделей в 1000 раз и более
Исследователи разработали новую технологию CRAM, которая вместо традиционного перемещения данных между процессором и памятью обрабатывает данные прямо внутри ячеек памяти. Это позволяет сократить энергозатраты более чем в 1000 раз.

👍5

2.56K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Введение в MLflow

MLflow — это платформа для управления жизненным циклом моделей машинного обучения. Она помогает организовать процесс разработки, обучения, развёртывания и отслеживания моделей.

В новой статье на «Хабре» рассматривается, как:

▪️организовать эксперименты и запуски,
▪️оптимизировать гиперпараметры с помощью optuna,
▪️сравнивать модели и выбирать лучшие параметры,
▪️упаковать проект в MLproject,
▪️установить удалённый Tracking Server MLflow.

🔗 Читать статью
🔗 Ссылка на репозиторий с гайдом

👏9❤4👍1

3.27K views07:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✨ Torchchat — библиотека для запуска LLM на локальных серверах, настольных компьютерах и мобильных устройствах

Это решение от PyTorch. Torchchat:

▪️включает в себя инструменты для чата и генерации текста;
▪️поддерживает популярные модели, такие как Llama и GPT;
▪️может быть использована для оценки моделей.

🔗 Ссылка на репозиторий проекта

❤4

2.91K views18:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👀 «Гайд по методу опорных векторов (SVM) для идиотов»

Автор книги Practical Guide to Applied Conformal-Prediction составил An Idiot’s guide to Support vector machines (SVMs). Это небольшая книжка, в которой рассказывается о:

▪️ключевых принципах SVM;
▪️ограничениях и модификациях метода.

Всё это сопровождается подробными иллюстрациями.

🔗 Ссылка на гайд

😁12❤8👍2🥰1

3.13K views07:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

✏️ Вопрос с реального собеседования по Data Science

Что вы знаете про биномиальное распределение? Зачем оно нужно в Data Science?

Биномиальное распределение в основном моделирует количество успешных исходов в фиксированном числе испытаний. В целом, позволяет характеризовать испытания с помощью двух параметров n и p, представляющих количество испытаний и вероятность успеха в одном испытании соответственно.

На практике биномиальное распределение можно использовать для определения вероятности определённого числа успехов, таких как продажи, за определённый период для нового продукта. Кроме того, биномиальное распределение помогает понять вероятностное распределение числа клиентов, обслуживаемых в течение временного интервала.

#собес_academy

👍16

2.58K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

🎉3

2.57K views06:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔍 alphaXiv — доска для обсуждений любой статьи с arXiv

Исследователи из Стэнфорда создали проект, который позволяет обсуждать содержимое научных статей «в прямом эфире». Через alphaXiv можно открыть любую статью и начать дискуссию в том месте, откуда удобно.

Есть два способа воспользоваться alphaXiv:

✅ Ввести ID статьи здесь;
✅ Поменять в URL-адресе arXiv на alphaXiv.

❤10🎉5

2.72K views09:12

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Азбука айтишника

🐍 Python: универсальный язык программирования для начинающих и профессионалов

Если вы выбрали всерьез изучать Python, то нужно узнать о нем все подробности. В нашей статье поговорим о сферах применения, преимуществах, библиотеках и не только. 👇

🔗 Ссылка

👍1

2.37K views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💰 Распределение зарплат в DS

Таблицу предоставил Виктор Кантор, работавший Chief Data Scientist в МТС. Данные он собрал благодаря опросу в своём Telegram-канале.

Кантор напомнил, что при переходе на какой-то грейд, скорее всего, вы будете в нижней части распределения по зарплате.

👍7🌚3

2.81K views07:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

🔋

Hard & Soft skills для дата-сайентиста

Рассмотрим необходимые скиллы для начинающего Data Science специалиста в карточках.👆

Ознакомьтесь со скиллами для Data Science, а также вы можете забрать наши курсы:

🔵

Базовые модели ML и приложения

🔵

Математика для Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

2.42K views11:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Привет, друзья! 👋

Мы готовим статью о важных soft skills для сеньоров, тимлидов и других старших IT-специалистов. Нам очень интересно узнать ваше мнение! Поделитесь своими мыслями, ответив на следующие вопросы:

Какой из перечисленных soft skills вы считаете самым важным для успешной работы в IT? 🤔

- Умение говорить «нет» 🚫
- Давать конструктивный фидбэк 💬
- Брать на себя ответственность 💪
- Общаться с токсичными людьми 🧘
- Доводить процессы до завершения ✅
- Организовывать эффективные совещания 📊
- Импровизировать на публике 🎭
- Сохранять спокойствие в сложных ситуациях 😌

Какой дополнительный soft skill вы бы добавили в этот список? 🆕
Как вы развиваете свои soft skills? 📈

Поделитесь своими мыслями и опытом в комментариях! Самые интересные идеи и предложения мы обязательно включим в нашу статью. Спасибо за участие! 🙏

🔥4

2.57K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👾🎮 «ИИ и игры» — новая бесплатная книга

Книга «Искусственный интеллект и игры (2-е издание)» авторов Георгиоса Н. Яннакакиса и Джулиана Тогелиуса посвящена применению методов ИИ в игровой индустрии. Она охватывает основные аспекты использования искусственного интеллекта для создания и анализа видеоигр, а также для повышения качества взаимодействия пользователей с игрой.

🔗 Скачать можно по этой ссылке

❤2

2.51K views07:13

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😺 Как работает Catboost кодирование категориальных переменных

CatBoost — это алгоритм машинного обучения, используйющий градиентный бустинг над решающими деревьями. Он поддерживает работу как с числовыми признаками, так и с категориальными (то есть теми, которые выражены как строковые значения или набор ограниченных значений).

Когда речь идет о категориальных признаках, CatBoost автоматически преобразует их в числовые, используя несколько методов. Основные этапы этого процесса включают:

1️⃣ Перемешивание данных:
Набор данных перемешивается в случайном порядке, чтобы избежать зависимости от порядка объектов.

2️⃣ Преобразование меток:
Значения меток преобразуются из числовых с плавающей точкой в целые числа, что упрощает дальнейшие вычисления.

3️⃣ Использование различных методов кодирования (метод определяется стартовыми параметрами):

▪️Borders, то есть вычисление среднего значения целевой переменной для каждой корзины данных.
▪️Bucket, или вычисление среднего для всех корзин.
▪️BinarizedTargetMeanValue. Этот метод использует средние значения целевых переменных, бинаризованных по некоторому порогу.
▪️Counter. В этом методе для каждой уникальной категории вычисляется количество объектов.

В результате каждому значению категориального признака присваивается числовой признак.

❤4👍3🥱3

2.61K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤗 Вышло обновление библиотеки Transformers

В версии v4.44.0 появилось следующее:

🧡 Сквозная компиляция для метода model.generate, что позволяет улучшить производительность генерации текста с использованием предобученных моделей;

🧡 Ускорение процесса компиляции в 3-5 раз;

🧡 Возможность выгружать кэш на процессор (CPU), что особенно полезно, если у вас ограниченные ресурсы GPU;

🧡 Поддержка Gemma 2, Codestral и Nemotron.

🔗 В подробностях можно почитать здесь

🔥6❤2

2.61K views07:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Жиза?

#memes

❤17😁15👍2

2.54K views11:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🌟 Какой тренд в использовании языков программирования и ИИ-инструментов, по вашему мнению, стал самым значимым в последнее время? Напишите в комментариях, почему и как он повлиял на вашу работу или планы по развитию?

Anonymous Poll

Взрывной рост популярности Rust

51%

Доминирование Python в сфере AI и машинного обучения

Укрепление позиций TypeScript в веб-разработке

Возрождение интереса к функциональным языкам (например, Haskell или Clojure)

Рост Go в облачных и микросервисных архитектурах

23%

Массовое внедрение ИИ-ассистентов для написания и ревью кода

Популяризация no-code/low-code платформ с ИИ-генерацией

Тестирование с помощью ИИ-инструментов

Другое (напишу в комментариях)

👏3

257 voters2.42K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Книги для программистов

📖 Обзор книги "Программирование на Python с помощью GitHub Copilot и ChatGPT", Портер Л., Зингаро Д.

Направление: #proglib_python
Уровень: #proglib_junior

Это практическое руководство помогает разработчикам использовать передовые инструменты искусственного интеллекта для создания качественного кода. Книга охватывает ключевые аспекты Python и показывает, как GitHub Copilot и ChatGPT могут изменить и улучшить процесс программирования.

💬 Что говорят люди:

Книга произвела сильное впечатление на читателей благодаря новому предлагаемому подходу к обучению ращработке на Python с помощью искусственного интеллекта. Многие отмечают, что использование ИИ-инструментов существенно облегчает процесс написания кода и ускоряет работу. Однако некоторые читатели испытывают трудности с непредсказуемым поведением Copilot и считают, что написать код "вручную" быстрее.

➕ Плюсы

- Книга отлично подходит для новичков, помогая им быстрее освоить язык программирования с использованием ИИ.
- В книге представлено множество полезных примеров и упражнений, которые делают процесс обучения удобнее и эффективнее.
- Описание новейших технологий и их применение делают книгу ценной для современных разработчиков.
- Книга помогает понять, как ИИ меняет правила игры и может изменить процесс программирования, делая его более эффективным.

➖ Минусы

- Некоторые читатели сталкиваются с проблемами при использовании Copilot, отмечая его непредсказуемость и трудности с установкой.
- Некоторые разделы могут показаться сложными для тех, кто только начинает изучать программирование.

🖊 Об авторах

Лео Портер — профессор, преподаватель Калифорнийского университета, специалист в области компьютерных наук и искусственного интеллекта.
Даниэль Зингаро — доцент, преподаватель Университета Торонто. Автор популярных книг “Алгоритмы на практике” и “Python без проблем”.

Книга: Ссылка

🥱3👍2🤔2❤1😁1

1.71K views07:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✍️ Feature engineering от A до Z

Это справочник по всем методам отбора и создания признаков.

✨Каждая глава описывает определённый метод с примерами кода на R и Python.

🔗 Ссылка на справочник

👍6🤩5

2.74K views07:10

About

Blog

Apps

Platform