Python Community
13.1K subscribers
1.24K photos
26 videos
15 files
711 links
Python Community RU - СНГ сообщество Python-разработчиков

Чат канала: @python_community_chat

Сотрудничество: @cyberJohnny и @Sergey_bzd

РКН реестр:
https://knd.gov.ru/license?id=67847dd98e552d6b54a511ed&registryType=bloggersPermission
Download Telegram
🌟 Model2Vec: разработка компактных и быстрых моделей на основе Sentence Transformer.

Model2Vec - это библиотека, позволяющая создавать компактные и быстрые модели на основе предобученных моделей Sentence Transformer.

С помощью Model2Vec можно создавать эмбединг-модели для слов и предложений, которые значительно меньше по размеру, но при этом сопоставимы по производительности с исходными моделями Sentence Transformer.

Вот некоторые ключевые особенности:

🟢 Быстрая дистилляция, процесс создания модели занимает всего несколько минут.

🟢 Быстрый инференс, который в 500 раз быстрее на CPU по сравнению с оригинальной моделью.

🟢 Возможность использования любой модели Sentence Transformer с любым словарем (BYOM и BYOV).

🟢 Мультиязычность, требуется лишь мультиязычная модель в качестве источника.

🟢 Интеграция с Huggingface, поддержка загрузки и выгрузки моделей с использованием привычных методов from_pretrained и push_to_hub.

Пайплайн Model2Vec состоит из трех этапов. На первом этапе словарь проходит через модель Sentence Transformer для получения векторов эмбеддингов для каждого слова.

Затем размерность полученных эмбеддингов уменьшается с помощью метода главных компонент (PCA). В завершение применяется zipf-взвешивание для учета частоты слов в словаре.

Model2Vec работает в двух режимах:

🟠 Output, где модель функционирует как Sentence Transformer с использованием subword токенизации.

🟠 Vocab, где создается набор статических эмбеддингов слов, аналогично GloVe или Word2Vec.

Оценка производительности Model2Vec проводилась на наборе данных MTEB по задачам PEARL (оценка качества представления фраз) и WordSim (оценка семантической близости слов).

Результаты показывают, что Model2Vec превосходит GloVe и модели на основе WordLlama по всем задачам оценки.

▶️ Пример дистилляции:

from model2vec.distill import distill

# Выбор модели Sentence Transformer
model_name = "BAAI/bge-base-en-v1.5"

# Дистилляция модели
m2v_model = distill(model_name=model_name, pca_dims=256)

# Сохранение модели
m2v_model.save_pretrained("m2v_model")

▶️ Пример инференса:

from model2vec import StaticModel

# Загрузка модели из HuggingFace hub или локальной.
model_name = "minishlab/M2V_base_output"
# Можно передать токен, если загружаете приватную модель
model = StaticModel.from_pretrained(model_name, token=None)

# Создание эмбеддингов
embeddings = model.encode(["It's dangerous to go alone!", "It's a secret to everybody."])

📌 Лицензирование: MIT License.

Набор моделей (https://huggingface.co/minishlab)
GitHub (https://github.com/MinishLab/model2vec)

(https://t.me/pythonl)

#AI #ML #LLM #Embedding #Model2Vec #python
@Python_Community_ru
Data Fusion 2025 — главное событие весны для специалистов в области работы с данными, которое в пятый раз соберет более 250 экспертов.

Вас ожидает:
• Два дня практических кейсов, 14 треков и более 70 сессий, посвященных передовым исследованиям в области больших данных и технологий искусственного интеллекта
• Кейс-стадии о применении машинного обучения в различных сферах бизнеса — от финтеха и промышленности до медицины
• Экспертиза от ученых, бизнес-лидеров и представителей государства.

📅 16-17 апреля
📍 Москва, технологический кластер «Ломоносов»

Не упустите возможность узнать о главных трендах в искусственном интеллекте и задать вопросы лидерам отрасли.

Участие бесплатное. Регистрация уже открыта.

#AI #ML #BigData #DataFusion #DataScience #IT

*IT — информационные технологии
*AI — искусственный интеллект
*DS — наука о методах анализа данных
*Нетворкинг — полезные связи
*Воркшоп — практическое обучение
@Python_Community_ru
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Новый фреймворк Function (fxn) компилирует Python-функции в нативный код с производительностью, сравнимой с Rust.

🧠 Как это работает?
- Используется символическое трассирование на CPython для анализа функций.
- Генерируется промежуточное представление (IR).
- IR транслируется в C++ или Rust, а затем компилируется в бинарный код.
- Поддерживаются платформы: Linux, Android, WebAssembly и другие.

📦 Пример:
@compile
def fma(x: float, y: float, z: float) -> float:
return x * y + z
После компиляции вы получаете нативный бинарный файл, который можно запускать без интерпретатора Python.

🔗 Подробнее (https://blog.fxn.ai/python-at-the-speed-of-rust/)
🔗 Github (https://github.com/olokobayusuf/)

#Python #Rust #fxn #Compiler #Performance #AI #ML #Wasm

@Python_Community_ru
🤖 AI, который сам пишет код — умный агент на базе LangGraph

Проект находится в активной разработке и уже умеет автоматизировать весь цикл: от планирования проекта до генерации кода. Всё построено на надёжных multi-agent workflow'ах с использованием LangGraph.


🚀 Что делает агент:

🧠 Понимает задачу и строит план
AI-архитектор анализирует требования и создаёт пошаговый план разработки.

💻 Генерирует и редактирует код
Dev-агент аккуратно применяет изменения в кодовой базе, редактируя конкретные файлы.

🔁 Разделяет роли — надёжнее работает
Отдельные агенты для планирования и реализации — меньше ошибок и больше контроля.

🧬 Понимает структуру проекта
Использует tree-sitter и семантический поиск, чтобы ориентироваться в коде как человек.

📦 Работает по шагам
Разбивает задачи на мелкие изменения — удобно для review и безопасно для CI.

💡 Если интересуешься автоматизацией разработки, AI-помощниками и мультиагентными системами — стоит попробовать уже сейчас.

Github (https://github.com/langtalks/swe-agent)




#AI #AutoCoding #LangGraph #DevTools #MultiAgent #CodeAutomation

@Python_Community_ru