Tensorflow(@CVision)
13.9K subscribers
1.16K photos
236 videos
68 files
2.22K links
اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر

TensorFlow, Keras, Deep Learning, Computer Vision

سایت دوره
http://class.vision

👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support
Download Telegram
#مجموعه_داده
نسخه جدید opendataset منتشر شد.

GoogleAI presents #OpenImagesV4, a dataset of 9.2M images with unified annotations for image classification, object detection and visual relationship detection.

paper(Pre-print accepted to #IJCV):
https://arxiv.org/pdf/1811.00982v2.pdf
website:
https://storage.googleapis.com/openimages/web/index.html

30.1M image-level labels for 19.8k concepts, 15.4M bounding boxes for 600 object classes.

Join us: @cvision
#مجموعه_داده #label #annotation
VoTT (Visual Object Tagging Tool)
نسخه جدید ابزار لیبل زنی اوپن سورس و تحت وب ماکروسافت

Better open source tools for labeling segments in images using active learning. It'd be a game changer if researchers could load a weak model into an annotator to build larger datasets for better models. https://github.com/microsoft/VoTT is looking good but development has stalled.
#مجموعه_داده
ایران سلب تقریبا حدود دو ساله که شروع شده، و حدود 1 ساله که با جدیت داره یک دیتابیس بومی از افراد معروف برای کارهای تحقیقاتی شناسایی چهره جمع آوری میکنه.
فعلا قراره این دیتابیس برای کارهای تحقیقاتی باشه.
اکنون، iran-celeb.ir فعال تر از همیشه در حال فعالیت است. و به کمک شما هم نیاز داریم...
از تمامی دوستان دعوت می‌شود که در label زدن افراد یا معرفی افراد مشهوری که نامشون در لیست نیست همکاری کنند که هر چه زودتر یک دیتابیس بزرگ در زمینه چهره بتونیم ریلیز کنیم.

به پاس تشکر از این کار از badge های فعالیت در این سایت میتوانید به عنوان اعتبار در خرید دوره های حضوری و یا آفلاین سایت class.vision استفاده کنید.

در صورت مشکل و سوال گروه تلگرامی این دیتاست:
https://t.me/joinchat/A3HTSkZ8iNB46WgxqPxKSQ
#مجموعه_داده شامل متن #فارسی

Wiki-40B: Multilingual Language Model Dataset

https://research.google/pubs/pub49029/

#NLP
#مجموعه_داده #nlp
مجموعه دادهٔ بزرگ فارسی محاوره‌ای

- شامل ۱۲۰ میلیون جمله فارسی محاوره‌ای از ۲۷ میلیون توئیت
- به همراه درخت اشتقاق، برچسب‌گذاری دستوری (جزء کلام)، قطبیت احساسات و ترجمه هر جمله در زبان انگلیسی، آلمانی، چکی، ایتالیایی و هندی

سایت این پروژه:
https://iasbs.ac.ir/~ansari/lscp/
همچنین شما می‌توانید از http://hdl.handle.net/11234/1-3195 دانلود کنید.

در گوگل کولب نگاهی به این مجموعه داده و پیش‌پردازش های مقدماتی آن بیندازید:
https://colab.research.google.com/drive/1VoY2BjOdI0thx6bpOK5zAxQiP0ry4V70

🙏Thanks to: Alireza Asadi
@cvision
دیتاست-اسامی-نام-های-فارسی.csv
86 KB
#مجموعه_داده #دیتاست

اسامی فارسی و درصد استفاده از آنها
#مجموعه_داده #دیتاست #nlp #فارسی
پیکره‌ متنی ناب.

این پیکره مجموعه پاک‌سازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است.
همچنین نسخه خام ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیز‌سازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانید نسخه تمیز شده‌ پیکره خود را بسازید.
از این پیکره می‌توان برای fine-tune کردن مدل‌های زبانی - که در اصل برای زبان انگلیسی تهیه شده‌اند - برای زبان فارسی نیز استفاده کرد. از جمله این مدل‌های زبانی می‌توان به BERT, BART, T5 و ... اشاره کرد.

+ https://arxiv.org/abs/2208.13486
+ https://huggingface.co/datasets/SLPL/naab
+ https://huggingface.co/datasets/SLPL/naab-raw

@cvision
دیتاست سایت باسلام

شامل اطلاعات فروش و مشخصات 2.4 میلیون محصول موجود در سایت باسلام به همراه دیتاست 3.3 میلیونی کامنت محصولات.

🔗لینک دیتاست در هاگینگ فیس
🔗لینک دیتاست در کگل

#دیتاست #مجموعه_داده