Анализ данных (Data analysis)
45.2K subscribers
2.12K photos
232 videos
1 file
1.91K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🔥 Google только что выпустила новые языковые модели PaliGemma 2 - 3B, 10B и 28B Vision!

> 9 предварительно обученных моделей: 3B, 10B и 28B с разрешением 224x224, 448x448 и 896x896
> ВI 2 модели Image-text поддерживающие формат 3B и 10B (448x448)

https://huggingface.co/collections/google/paligemma-2-release-67500e1e1dbfdd4dee27ba48

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Make-It-Animatable — ИИ-утилита, которая позволяет легко и быстро создать любую 3D-анимацию гуманоида!

🔗 Попробовать: *клик*
🔗 Страница проекта: *клик*

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Llama 3.3 70B.

Модель доступна в версии с 70 млрд параметров и оптимизирована для диалоговых сценариев использования на нескольких языках. Llama 3.3 превосходит многие доступные модели с открытым и закрытым исходным кодом по стандартным отраслевым бенчмаркам.

Llama 3.3 основана на оптимизированной архитектуре трансформера и использует авторегрессивный подход. Настройка модели включает SFT с RLHF для согласования с человеческими предпочтениями в отношении полезности и безопасности.

Модель была обучена на новом наборе общедоступных онлайн-данных, включающем более 15 триллионов токенов, с ограничением по свежести данных до декабря 2023 года.

Llama 3.3 поддерживает английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский языки.

▶️ Пример инфренса на Transformers:

import transformers
import torch

model_id = "meta-llama/Llama-3.3-70B-Instruct"

pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)

messages = [
{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
{"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])


📌Лицензирование: LLAMA 3.3 License.


🟡Модель
🟡Demo


@ai_machinelearning_big_data

#AI #ML #LLM #Llama3
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
⚡️ Новый искусственный интеллект DeepMind для игр Делает Невозможное!

Google DeepMind совершила значительный прорыв, представив Genie 2 – модель, которая способна создавать бесконечное множество интерактивных 3D-миров.

Genie 2 представляет собой мировую модель с автогрессивной латентной диффузией, обученную на большом объеме видеоданных. Модель умеет строить играбельные миры всего лишь на основе одного изображения, а также реагировать на действия пользователя с помощью клавиатуры и мыши.

Основные возможности системы включают:

🔹Создание последовательных миров продолжительностью до одной минуты
🔹Запоминание и точное воспроизведение частей мира, которые временно выходят за пределы видимости
🔹Моделирование сложных физических процессов, таких как гравитация, дым, вода и освещение
🔹Анимация персонажей и их взаимодействия с окружающей средой
🔹Генерация NPC с продвинутыми поведенческими моделями
🔹Поддержка различных перспектив, начиная от вида от первого лица и заканчивая изометрическим видом

Особо стоит отметить возможность быстрого прототипирования. Дизайнерам теперь легко преобразовывать концептуальные рисунки в полноценные интерактивные среды, что значительно ускоряет процесс создания игр. Кроме того, Genie 2 способна работать с реальными фотографиями, воссоздавая мелкие детали вроде колеблющейся травы или текущей воды.

Мы собрали для вас целую коллекцию примеров – это просто невероятно!

Несмотря на то, что технология пока находится на начальной стадии развития, мы уверены, что через несколько лет она произведет настоящую революцию в индустрии компьютерных игр.

🎯Разбор статьи
🎯Статья

@data_analysis_ml
🔍 Agenta — платформа для работы с приложениями, основанными на LLM!

🌟 Agenta помогает разработчикам тестировать, сравнивать и внедрять LLM-решения, упрощая процесс оценки производительности различных моделей и их версий. Основные функции включают создание экспериментов, настройку конфигураций, управление тестовыми данными и анализ результатов.

🌟 Платформа поддерживает интеграцию с популярными фреймворками, такими как FastAPI, и включает API для автоматизации задач. Agenta разработан для тех, кто активно работает с генеративными моделями и их оптимизацией, предоставляя инструменты для повышения точности и эффективности приложений, основанных на искусственном интеллекте.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Cloudberry — это проект с открытым исходным кодом от Apache, предназначенный для анализа и визуализации больших данных в реальном времени!

🌟 Он ориентирован на обработку и анализ данных, хранящихся в распределенных и облачных системах, с интеграцией возможностей визуализации, которые позволяют более эффективно работать с большими объемами данных. Одной из ключевых особенностей является тесная интеграция с базами данных, что делает Cloudberry удобным инструментом для аналитиков, работающих с большими и сложными наборами данных.

🌟 Основное внимание в Cloudberry уделяется обработке данных, хранящихся в распределенных базах данных, таких как HBase или Apache Cassandra, что позволяет эффективно обрабатывать и анализировать большие объемы информации. Проект поддерживает расширенные возможности по интеграции с такими системами, обеспечивая высокую производительность и масштабируемость. Cloudberry использует SQL-подобные запросы для извлечения данных из таких распределенных хранилищ и предоставляет интерфейсы для анализа и визуализации этих данных.

🌟 Кроме того, Cloudberry фокусируется на предоставлении простых инструментов для взаимодействия с данными и их представления в виде удобных графиков и отчетов. Это полезно для пользователей, которые хотят интегрировать аналитику с облачными хранилищами данных, используя мощные инструменты визуализации для анализа и принятия решений на основе больших данных.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Модель преобразования текста в видео на основе DiT ,от команды, работающей над open sora plan!

https://huggingface.co/collections/BestWishYsh/consisid-6746dd0b18db651d5d502766
https://huggingface.co/papers/2411.17440

обеспечения единообразия.
Высокое качество изображения: позволяет создавать реалистичные видеоролики, сохраняющие индивидуальность, с высоким качеством исполнения.

@data_analysis_ml
Forwarded from Machinelearning
🌟 EuroLLM: многоязычные модели европейских языков.

EuroLLM - проект, финансируемый ЕС, цель которого создание набора LLM, способных понимать и генерировать текст на всех языках Европейского Союза, а также на некоторых других распространенных не-ЕС языках:

Болгарский, хорватский, чешский, датский, голландский, английский, эстонский, финский, французский, немецкий, греческий, венгерский, ирландский, итальянский, латышский, литовский, мальтийский, польский, португальский, румынский, словацкий, словенский, испанский, шведский, арабский, каталанский, китайский, галисийский, хинди, японский, корейский, норвежский, русский, турецкий и украинский.

▶️В коллекции представлены модели:

🟢EuroLLM-9B - модель с 9 млрд. параметров, контекстом 4096, обученная на 4 трлн. токенов;

🟢EuroLLM-9B-Instruct - инструктивная версия на основе EuroBlocks, набора данных для настройки инструкций, ориентированного на общее следование инструкциям и машинный перевод;

🟠EuroLLM-1.7B - модель с 1,7 млрд. параметров, контекст - 4096;

🟠EuroLLM-1.7B-Instruct - инструктивная версия на датасете EuroBlocks. Демо


⚠️ Ко всем моделям неофициально выпущены квантованные версии в GGUF-формате, ссылки доступны в карточке модели на HF.


▶️Пример кода инференса EuroLLM-9B на Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "utter-project/EuroLLM-9B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

text = "English: My name is EuroLLM. Portuguese:"

inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))


📌Лицензирование: Apache License 2.0


🟡Набор моделей
🟡Arxiv
🟡Demo EuroLLM-1.7B-Instruct


@ai_machinelearning_big_data

#AI #ML #LLM #EuroLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 OpenAI предоставила доступ к Sora — новому мощному генератору видео, способному изменить множество отраслей. Это произошло!

Теперь вы можете:

- Создавать видео на основе текстов и изображений, делать ремиксы и объединять несколько роликов в единый видеоряд.
- Качество видео превосходит все ожидания — оно лучше, чем у Kling, GEN-3 и других конкурентов.
- Интерфейс включает в себя галерею, возможность создания папок и монтажа.
- Вы можете выбрать продолжительность видео до 20 секунд и разрешение до 1080p, а также продлить генерацию до пяти раз.
- Система была обучена на новостных материалах, поэтому генерация телевизионных передач получается особенно реалистичной.
- Доступ предоставляется платным подписчикам. За $20 в месяц вы получите 50 генераций, а за $200 — неограниченное количество генераций и отсутствие водяных знаков.

Попробовать можно здесь!

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Только что выпущена обновленная версия Deep Seek-V2.5,

🌟 DeepSeek-V2.5-1210: файнтюн базовой DeepSeek-V2.5.

Файнтюн модели DeepSeek-V2.5 с 236 млрд. параметров с улучшенными показателями в математических вычислениях, программировании, генерации текста и рассуждении. В модели также оптимизированы функции загрузки файлов и обобщения веб-страниц.

Точность решения задач с DeepSeek-V2.5-1210 на LiveCodebench выросла с 29,2% до 34,38% относительно родительской DeepSeek-V2.5, в математических тестах MATH-500 с 74.8% до 82.8%.

DeepSeek-V2.5-1210 поддерживает function calling и использует обновленный шаблон чата для расширения возможностей модели.

⚠️ Чтобы использовать модель в инференсе с BF16 требуется 8 GPU c 80 GB VRAM каждый.


▶️Пример инференса DeepSeek-V2.5-1210 на Transformers:

python
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig

model_name = "deepseek-ai/DeepSeek-V2.5-1210"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
# `max_memory` should be set based on your devices
max_memory = {i: "75GB" for i in range(8)}
# `device_map` cannot be set to `auto`
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True, device_map="sequential", torch_dtype=torch.bfloat16, max_memory=max_memory, attn_implementation="eager")
model.generation_config = GenerationConfig.from_pretrained(model_name)
model.generation_config.pad_token_id = model.generation_config.eos_token_id

messages = [
{"role": "user", "content": "Write a piece of quicksort code in C++"}
]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(input_tensor.to(model.device), max_new_tokens=100)

result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)
print(result)



Лицензирование: MIT License.

Модель

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Книги, меняющие жизнь, — топ, составленный основателем OpenAI Сэмом Альтманом

Запоминаем и развиваемся:
1. Виктор Франкл, «Человек в поисках смысла».
2. Даниэль Канеман, «Думай медленно… решай быстро».
3. Питер Тиль, «От нуля к единице».
4. Олдос Хаксли, «О дивный новый мир».
5. Дэвид Дойч, «Начало бесконечности».
6. Рид Хоффман, «Блиц-масштабирование».
7. Ник Бостром, «Искусственный интеллект».
8. Джек Уэлч, «Победитель».
9. Скот Купор, «Секреты Сэнд-Хилл Роад».

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM