Tensorflow(@CVision)
13.2K subscribers
1.12K photos
196 videos
67 files
2.12K links
اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر

TensorFlow, Keras, Deep Learning, Computer Vision

سایت دوره
http://class.vision

👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
No Code 🙅‍♂️👨‍💻 Computer Vision platform by Google

Use a live camera and ML models to create effects like face stickers.
Import custom ML models and compare side-by-side results.
Use Visual Blocks in Colab and create nodes for custom Python code.

https://visualblocks.withgoogle.com/
https://github.com/google/visualblocks
Forwarded from School of AI
پروژه Open Assistant یک چت‌بات مکالمه‌ای اوپن‌سورس است که توسط شرکت LAION (سازنده‌ی Stable Diffusion) معرفی شده. این چت‌بات:

- توانایی بازیابی اطلاعات را دارد
- میتواند از طریق api به سیستم‌های دیگر متصل شود و با آن‌ها تعامل کند
- مبتنی بر چند LLM اوپن‌سورس است
- از Reinforcement Learning with Hindsight Feedback استفاده می‌کند
- کاملا رایگان است
- کاملا اوپن‌سورس است و می‌تواند برای کابرد خاص شما fine-tune شود

https://open-assistant.io/
This media is not supported in your browser
VIEW IN TELEGRAM
SoundStorm: Efficient Parallel Audio Generation

SoundStorm generates 30 seconds of audio in 0.5 seconds on a TPU-v4.
Demonstrate the ability of model to scale audio generation to longer sequences by synthesizing high-quality, natural dialogue segments, given a transcript annotated with speaker turns and a short prompt with the speakers' voices

https://huggingface.co/papers/2305.09636

project page:
https://google-research.github.io/seanet/soundstorm/examples/
Scikit-LLM is a scikit-learn compatible wrapper around OpenAI API, which allows to build ChatGPT-based text classification models

GitHub: https://github.com/iryna-kondr/scikit-llm
Blog Post: https://medium.com/@iryna230520/scikit-llm-nlp-with-chatgpt-in-scikit-learn-733b92ab74b1
This media is not supported in your browser
VIEW IN TELEGRAM
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
https://huggingface.co/papers/2305.10973

#gan
Tensorflow(@CVision)
دوره‌ی آموزشی آنلاین Graph Neural Network https://class.vision/product/graph-neural-network/
دوستان بزرگواری که در دوره ی شبکه های عصب گرافی ثبت نام کرده اند اما هنوز در گروه تلگرامی مروبط به دوره عضو نشده اند لطفا حتما به پشتیبانی دوره پیام بدهند:
@classvision_support
خبر جعلی انفجار، بازار سهام آمریکا را تکان داد!

اومدن یه فیلم با استفاده از مدل‌های هوش مصنوعی تولید کردند که یه انفجار بزرگ رو در نزدیکی پنتاگون نمایش میده، معامله‌گرها هم ترسیدن و شروع کردن به فروختن سهام‌شون و بورس آمریکا به اصطلاح ریخته!

بعد که خبر بیشتر تو فضای مجازی پیچیده، پنتاگون اعلام کرده ویدئو جعلیه و در نزدیکی وزارت دفاع آمریکا هیچ انفجاری رخ نداده!

دوباره معامله‌گرها هم پوزیشن باز کردن؛ خلاصه یه ویدئوی جعلی با استفاده از مدل‌های هوش مصنوعی، تونسته تمام بازارشون رو به هم بریزه!

به نظر کسی که این اتفاق رو رقم زده آدم خلاقی بوده، قیمت رو آورده پایین و خرید زده! البته قدرت رسانه‌ای خوبی هم داشته که تونسته اتفاق به این بزرگی رو رقم بزنه!

🙏Thanks to: @Ai_Events
MMS: Massively Multilingual Speech.
- Can do speech2text and text speech in 1100 languages.
- Can recognize 4000 spoken languages.
- Code and models available under the CC-BY-NC 4.0 license.
- half the word error rate of Whisper.

Code+Models:
https://github.com/facebookresearch/fairseq/tree/main/examples/mms

Paper | Blog

منبع
Papers that extend your horizon and sharpen your cognitive abilities.

1- Stable Diffusion
is a deep learning, text-to-image model mainly designed to fabricate intricate images based on text inputs, with potential usage in other tasks like text-guided image-to-image conversions.
https://github.com/CompVis/stable-diffusion

2- Composed of standard ConvNet modules, ConvNeXts competes favorably with Transformers in accuracy and scalability, achieving ImageNet top-1 accuracy and surpassing Transformers, while retaining the simplicity and efficiency of standard ConvNets.
https://github.com/facebookresearch/ConvNeXt

3- In NLP, DNNs frequently fall prey to backdoors during the fine-tuning process of large-scale Pre-trained Language Model (PLM) with corrupted samples. The solution lies in leveraging the pre-trained (unfine-tuned) weights to neutralize backdoors in fine-tuned language models.
https://arxiv.org/pdf/2210.09545v1.pdf

4- Make-A-Video introduces an avant-garde text-to-video model capable of creating videos derived from a text prompt.
https://arxiv.org/abs/2209.14792

5- PaddleOCR's mission is to build multilingual, superior, leading, and practical OCR tools that empower users to train better models and put them into application.
https://github.com/PaddlePaddle/PaddleOCR

6- Gato, a versatile agent, operates as a multi-modal, multi-task, multi-embodiment generalist policy; its capabilities span from playing Atari to conversing and stacking blocks with a real robot arm.
https://arxiv.org/abs/2205.06175v3

7- Meta AI Unveils an expansive translation model (NLLB-200), proficient in translating between 200 languages.
https://arxiv.org/abs/2207.04672v3
This media is not supported in your browser
VIEW IN TELEGRAM
فتوشاپ + فایرفلای
استفاده از هوش مصنوعی در فتوشاپ

🙏Thanks to: @ai_person
یه قدم بزرگ برای جامعه اوپن سورس در زمینه مدل‌های زبانی بزرگ!

شاید تا چند ماه اخیر خیلی از این مدل‌های زبانی بزرگ یا همون LLM ها رو نمیشد روی GPU های معمولی حتی اینفرس یا خروجی گرفت چه برسه به fine-tune ولی الان با کوانتایزد کردن مدل و تکنیک‌های PEFT(Parameter-Efficient Fine-Tuning) میشه روی GPU های معمولی برای هر تسک خاص fine-tune کرد این مدل‌ها رو.

یکی از این تکنیک‌ها
LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
هست و جدیدا یه ورژن از اون اومده که روی مدل‌های کوانتایزد شده کار میکنه.
اسم این متد QLoRA: Efficient Finetuning of Quantized LLMs هست که با استفاده از Low Rank Adapterها و NF4 quantization میتونه بدون افت پرفورمنس مدل رو fine-tune کنه.
میتونید مقاله و کدش رو از لینک‌های زیر ببینید

مقاله:
https://arxiv.org/abs/2305.14314
کد:
https://github.com/artidoro/qlora
بلاگ پست:
https://huggingface.co/blog/4bit-transformers-bitsandbytesw
متا ادعا کرده که با fine-tune کردن مدل LLaMA (ورژن ۶۵ میلیارد پارامتری) با فقط ۱۰۰۰ نمونه instruction و response تونسته به پرفورمنس GPT4 و Bard برسه.
به گفته خودشون بیشتر (تقریبا همه) دانش مدل در حین pre-training به دست میاد و اون مرحله fine-tuning بیشتر برای alignment هست که کیفیت خروجی رو بهبود بده.
میتونید برای جزییات بیشتر مقاله‌شون رو بخونید:

LIMA: Less Is More for Alignment

https://arxiv.org/abs/2305.11206