Tensorflow(@CVision)

#مجموعه_داده

A benchmark dataset for data-driven weather forecasting

https://github.com/pangeo-data/WeatherBench

GitHub - pangeo-data/WeatherBench: A benchmark dataset for data-driven weather forecasting

A benchmark dataset for data-driven weather forecasting - pangeo-data/WeatherBench

2.3K viewsAlireza Akhavan, edited 15:19

#مجموعه_داده
نسخه جدید opendataset منتشر شد.

GoogleAI presents #OpenImagesV4, a dataset of 9.2M images with unified annotations for image classification, object detection and visual relationship detection.

paper(Pre-print accepted to #IJCV):
https://arxiv.org/pdf/1811.00982v2.pdf
website:
https://storage.googleapis.com/openimages/web/index.html

30.1M image-level labels for 19.8k concepts, 15.4M bounding boxes for 600 object classes.

Join us: @cvision

2.9K viewsAlireza Akhavan, edited 18:58

Tensorflow(@CVision)

#مجموعه_داده #label #annotation
VoTT (Visual Object Tagging Tool)
نسخه جدید ابزار لیبل زنی اوپن سورس و تحت وب ماکروسافت

Better open source tools for labeling segments in images using active learning. It'd be a game changer if researchers could load a weak model into an annotator to build larger datasets for better models. https://github.com/microsoft/VoTT is looking good but development has stalled.

4.2K viewsAlireza Akhavan, 10:29

Tensorflow(@CVision)

#nlp #مجموعه_داده
Persian raw text - حدود ۸۰ گیگابایت متن خام فارسی
https://github.com/danyaljj/persian_raw_text

🙏Thanks to: @Sed_Amin_Taheri

GitHub

GitHub - danyaljj/persian_raw_text: Persian raw text

Persian raw text . Contribute to danyaljj/persian_raw_text development by creating an account on GitHub.

2.8K viewsAlireza Akhavan, 19:32

Tensorflow(@CVision)

#مجموعه_داده
ایران سلب تقریبا حدود دو ساله که شروع شده، و حدود 1 ساله که با جدیت داره یک دیتابیس بومی از افراد معروف برای کارهای تحقیقاتی شناسایی چهره جمع آوری میکنه.
فعلا قراره این دیتابیس برای کارهای تحقیقاتی باشه.
اکنون، iran-celeb.ir فعال تر از همیشه در حال فعالیت است. و به کمک شما هم نیاز داریم...
از تمامی دوستان دعوت می‌شود که در label زدن افراد یا معرفی افراد مشهوری که نامشون در لیست نیست همکاری کنند که هر چه زودتر یک دیتابیس بزرگ در زمینه چهره بتونیم ریلیز کنیم.

به پاس تشکر از این کار از badge های فعالیت در این سایت میتوانید به عنوان اعتبار در خرید دوره های حضوری و یا آفلاین سایت class.vision استفاده کنید.

در صورت مشکل و سوال گروه تلگرامی این دیتاست:
https://t.me/joinchat/A3HTSkZ8iNB46WgxqPxKSQ

5.6K viewsAlireza Akhavan, edited 14:16

Tensorflow(@CVision)

#مجموعه_داده شامل متن #فارسی

Wiki-40B: Multilingual Language Model Dataset

https://research.google/pubs/pub49029/

#NLP

2.2K viewsAlireza Akhavan, 20:41

Tensorflow(@CVision)

#مجموعه_داده #nlp
مجموعه دادهٔ بزرگ فارسی محاوره‌ای

- شامل ۱۲۰ میلیون جمله فارسی محاوره‌ای از ۲۷ میلیون توئیت
- به همراه درخت اشتقاق، برچسب‌گذاری دستوری (جزء کلام)، قطبیت احساسات و ترجمه هر جمله در زبان انگلیسی، آلمانی، چکی، ایتالیایی و هندی

سایت این پروژه:
https://iasbs.ac.ir/~ansari/lscp/
همچنین شما می‌توانید از http://hdl.handle.net/11234/1-3195 دانلود کنید.

در گوگل کولب نگاهی به این مجموعه داده و پیش‌پردازش های مقدماتی آن بیندازید:
https://colab.research.google.com/drive/1VoY2BjOdI0thx6bpOK5zAxQiP0ry4V70

🙏Thanks to: Alireza Asadi
@cvision

iasbs.ac.ir

LSCP: Enhanced Large Scale Colloquial Persian Language Understanding

4.3K viewsAlireza Akhavan, edited 17:37

Tensorflow(@CVision)

دیتاست-اسامی-نام-های-فارسی.csv

86 KB

#مجموعه_داده #دیتاست

اسامی فارسی و درصد استفاده از آنها

3.6K viewsAlireza Akhavan, 02:37

Tensorflow(@CVision)

#مجموعه_داده #دیتاست #nlp #فارسی
پیکره‌ متنی ناب.

این پیکره مجموعه پاک‌سازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است.
همچنین نسخه خام ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیز‌سازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانید نسخه تمیز شده‌ پیکره خود را بسازید.
از این پیکره می‌توان برای fine-tune کردن مدل‌های زبانی - که در اصل برای زبان انگلیسی تهیه شده‌اند - برای زبان فارسی نیز استفاده کرد. از جمله این مدل‌های زبانی می‌توان به BERT, BART, T5 و ... اشاره کرد.

+ https://arxiv.org/abs/2208.13486
+ https://huggingface.co/datasets/SLPL/naab
+ https://huggingface.co/datasets/SLPL/naab-raw

@cvision

huggingface.co

SLPL/naab-raw · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

2.9K viewsAlireza Akhavan, edited 05:37

Tensorflow(@CVision)

دیتاست سایت باسلام

شامل اطلاعات فروش و مشخصات 2.4 میلیون محصول موجود در سایت باسلام به همراه دیتاست 3.3 میلیونی کامنت محصولات.

🔗لینک دیتاست در هاگینگ فیس
🔗لینک دیتاست در کگل

#دیتاست #مجموعه_داده

huggingface.co

RadeAI/BaSalam_comments_products · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

6.6K viewsAlireza Akhavan, edited 13:00

About

Blog

Apps

Platform