#مجموعه_داده
نسخه جدید opendataset منتشر شد.
GoogleAI presents #OpenImagesV4, a dataset of 9.2M images with unified annotations for image classification, object detection and visual relationship detection.
paper(Pre-print accepted to #IJCV):
https://arxiv.org/pdf/1811.00982v2.pdf
website:
https://storage.googleapis.com/openimages/web/index.html
30.1M image-level labels for 19.8k concepts, 15.4M bounding boxes for 600 object classes.
Join us: @cvision
نسخه جدید opendataset منتشر شد.
GoogleAI presents #OpenImagesV4, a dataset of 9.2M images with unified annotations for image classification, object detection and visual relationship detection.
paper(Pre-print accepted to #IJCV):
https://arxiv.org/pdf/1811.00982v2.pdf
website:
https://storage.googleapis.com/openimages/web/index.html
30.1M image-level labels for 19.8k concepts, 15.4M bounding boxes for 600 object classes.
Join us: @cvision
#مجموعه_داده #label #annotation
VoTT (Visual Object Tagging Tool)
نسخه جدید ابزار لیبل زنی اوپن سورس و تحت وب ماکروسافت
Better open source tools for labeling segments in images using active learning. It'd be a game changer if researchers could load a weak model into an annotator to build larger datasets for better models. https://github.com/microsoft/VoTT is looking good but development has stalled.
VoTT (Visual Object Tagging Tool)
نسخه جدید ابزار لیبل زنی اوپن سورس و تحت وب ماکروسافت
Better open source tools for labeling segments in images using active learning. It'd be a game changer if researchers could load a weak model into an annotator to build larger datasets for better models. https://github.com/microsoft/VoTT is looking good but development has stalled.
#nlp #مجموعه_داده
Persian raw text - حدود ۸۰ گیگابایت متن خام فارسی
https://github.com/danyaljj/persian_raw_text
🙏Thanks to: @Sed_Amin_Taheri
Persian raw text - حدود ۸۰ گیگابایت متن خام فارسی
https://github.com/danyaljj/persian_raw_text
🙏Thanks to: @Sed_Amin_Taheri
GitHub
GitHub - danyaljj/persian_raw_text: Persian raw text
Persian raw text . Contribute to danyaljj/persian_raw_text development by creating an account on GitHub.
#مجموعه_داده
ایران سلب تقریبا حدود دو ساله که شروع شده، و حدود 1 ساله که با جدیت داره یک دیتابیس بومی از افراد معروف برای کارهای تحقیقاتی شناسایی چهره جمع آوری میکنه.
فعلا قراره این دیتابیس برای کارهای تحقیقاتی باشه.
اکنون، iran-celeb.ir فعال تر از همیشه در حال فعالیت است. و به کمک شما هم نیاز داریم...
از تمامی دوستان دعوت میشود که در label زدن افراد یا معرفی افراد مشهوری که نامشون در لیست نیست همکاری کنند که هر چه زودتر یک دیتابیس بزرگ در زمینه چهره بتونیم ریلیز کنیم.
به پاس تشکر از این کار از badge های فعالیت در این سایت میتوانید به عنوان اعتبار در خرید دوره های حضوری و یا آفلاین سایت class.vision استفاده کنید.
در صورت مشکل و سوال گروه تلگرامی این دیتاست:
https://t.me/joinchat/A3HTSkZ8iNB46WgxqPxKSQ
ایران سلب تقریبا حدود دو ساله که شروع شده، و حدود 1 ساله که با جدیت داره یک دیتابیس بومی از افراد معروف برای کارهای تحقیقاتی شناسایی چهره جمع آوری میکنه.
فعلا قراره این دیتابیس برای کارهای تحقیقاتی باشه.
اکنون، iran-celeb.ir فعال تر از همیشه در حال فعالیت است. و به کمک شما هم نیاز داریم...
از تمامی دوستان دعوت میشود که در label زدن افراد یا معرفی افراد مشهوری که نامشون در لیست نیست همکاری کنند که هر چه زودتر یک دیتابیس بزرگ در زمینه چهره بتونیم ریلیز کنیم.
به پاس تشکر از این کار از badge های فعالیت در این سایت میتوانید به عنوان اعتبار در خرید دوره های حضوری و یا آفلاین سایت class.vision استفاده کنید.
در صورت مشکل و سوال گروه تلگرامی این دیتاست:
https://t.me/joinchat/A3HTSkZ8iNB46WgxqPxKSQ
#مجموعه_داده شامل متن #فارسی
Wiki-40B: Multilingual Language Model Dataset
https://research.google/pubs/pub49029/
#NLP
Wiki-40B: Multilingual Language Model Dataset
https://research.google/pubs/pub49029/
#NLP
#مجموعه_داده #nlp
مجموعه دادهٔ بزرگ فارسی محاورهای
- شامل ۱۲۰ میلیون جمله فارسی محاورهای از ۲۷ میلیون توئیت
- به همراه درخت اشتقاق، برچسبگذاری دستوری (جزء کلام)، قطبیت احساسات و ترجمه هر جمله در زبان انگلیسی، آلمانی، چکی، ایتالیایی و هندی
سایت این پروژه:
https://iasbs.ac.ir/~ansari/lscp/
همچنین شما میتوانید از http://hdl.handle.net/11234/1-3195 دانلود کنید.
در گوگل کولب نگاهی به این مجموعه داده و پیشپردازش های مقدماتی آن بیندازید:
https://colab.research.google.com/drive/1VoY2BjOdI0thx6bpOK5zAxQiP0ry4V70
🙏Thanks to: Alireza Asadi
@cvision
مجموعه دادهٔ بزرگ فارسی محاورهای
- شامل ۱۲۰ میلیون جمله فارسی محاورهای از ۲۷ میلیون توئیت
- به همراه درخت اشتقاق، برچسبگذاری دستوری (جزء کلام)، قطبیت احساسات و ترجمه هر جمله در زبان انگلیسی، آلمانی، چکی، ایتالیایی و هندی
سایت این پروژه:
https://iasbs.ac.ir/~ansari/lscp/
همچنین شما میتوانید از http://hdl.handle.net/11234/1-3195 دانلود کنید.
در گوگل کولب نگاهی به این مجموعه داده و پیشپردازش های مقدماتی آن بیندازید:
https://colab.research.google.com/drive/1VoY2BjOdI0thx6bpOK5zAxQiP0ry4V70
🙏Thanks to: Alireza Asadi
@cvision
iasbs.ac.ir
LSCP: Enhanced Large Scale Colloquial Persian Language Understanding
#مجموعه_داده #دیتاست #nlp #فارسی
پیکره متنی ناب.
این پیکره مجموعه پاکسازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است.
همچنین نسخه خام ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیزسازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانید نسخه تمیز شده پیکره خود را بسازید.
از این پیکره میتوان برای fine-tune کردن مدلهای زبانی - که در اصل برای زبان انگلیسی تهیه شدهاند - برای زبان فارسی نیز استفاده کرد. از جمله این مدلهای زبانی میتوان به BERT, BART, T5 و ... اشاره کرد.
+ https://arxiv.org/abs/2208.13486
+ https://huggingface.co/datasets/SLPL/naab
+ https://huggingface.co/datasets/SLPL/naab-raw
@cvision
پیکره متنی ناب.
این پیکره مجموعه پاکسازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است.
همچنین نسخه خام ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیزسازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانید نسخه تمیز شده پیکره خود را بسازید.
از این پیکره میتوان برای fine-tune کردن مدلهای زبانی - که در اصل برای زبان انگلیسی تهیه شدهاند - برای زبان فارسی نیز استفاده کرد. از جمله این مدلهای زبانی میتوان به BERT, BART, T5 و ... اشاره کرد.
+ https://arxiv.org/abs/2208.13486
+ https://huggingface.co/datasets/SLPL/naab
+ https://huggingface.co/datasets/SLPL/naab-raw
@cvision
huggingface.co
SLPL/naab-raw · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
دیتاست سایت باسلام
شامل اطلاعات فروش و مشخصات 2.4 میلیون محصول موجود در سایت باسلام به همراه دیتاست 3.3 میلیونی کامنت محصولات.
🔗لینک دیتاست در هاگینگ فیس
🔗لینک دیتاست در کگل
#دیتاست #مجموعه_داده
شامل اطلاعات فروش و مشخصات 2.4 میلیون محصول موجود در سایت باسلام به همراه دیتاست 3.3 میلیونی کامنت محصولات.
🔗لینک دیتاست در هاگینگ فیس
🔗لینک دیتاست در کگل
#دیتاست #مجموعه_داده
huggingface.co
RadeAI/BaSalam_comments_products · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.