DLeX: AI Python
24.1K subscribers
4.61K photos
1.21K videos
763 files
3.79K links
هوش‌مصنوعی و برنامه‌نویسی

ارتباط :
https://twitter.com/NaviDDariya
Download Telegram
Forwarded from DLeX: AI Python (Milad Farzalizadeh)
دیتاست کامل توییت های سیاسیون ایرانی در توییتر برای کارهای پردازش متن (NLP) + همراه با کد

#دیتاست #dataset

https://github.com/miladfa7/Iranian-politicians-twitter-dataset-persian

@ai_python
مقاله داغ روز برای علاقمندان به خلاصه سازی و پردازش متن در این مقاله به خلاصه‌سازی رفرنسهای مقالات وکیپدیا پرداخته شده است

WikiAsp: A Dataset for Multi-domain Aspect-based Summarization

Paper:
https://arxiv.org/abs/2011.07832
Data:
https://github.com/neulab/wikiasp

#مقاله #خلاصه_سازی #پردازش_زبان_طبیعی #دیتا #دیتاست
#NLP

❇️ @AI_Python
🗣 @AI_Python_arXiv
✴️ @AI_Python_EN
مقاله داغ روز

Learning from the Worst: Dynamically Generated Datasets to Improve Online Hate Detection

- A first-of-its-kind large synthetic training dataset for online hate classification, created from scratch with trained annotators over multiple rounds of dynamic data collection.
Paper:
https://arxiv.org/abs/2012.15761
Dataset:
https://github.com/bvidgen/Dynamically-Generated-Hate-Speech-Dataset

#مقاله #هوش_مصنوعی #دیتا #دیتاست

🗣 @AI_Python_arXiv
✴️ @AI_Python_EN
❇️ @AI_Python
دیتا مربوط به واکنشهای ناسازگار به واکسن کووید در این پیج در سایت CDC است.
https://wonder.cdc.gov/vaers.html

#دیتا #دیتاست

❇️ @AI_Python
🗣 @AI_Python_arXiv
✴️ @AI_Python_EN
Learning from the Worst: Dynamically Generated Datasets to Improve Online Hate Detection

- A first-of-its-kind large synthetic training dataset for online hate classification, created from scratch with trained annotators over multiple rounds of dynamic data collection.
Paper:
https://arxiv.org/abs/2012.15761
Dataset:
https://github.com/bvidgen/Dynamically-Generated-Hate-Speech-Dataset

#مقاله #پردازش_زبان_طبیعی #دیتا #دیتاست

❇️ @AI_Python
🗣 @AI_Python_arXiv
✴️ @AI_Python_EN
ConditionalQA is a question answering dataset that contains complex questions with conditional answers, i.e. the answers are only true when certain conditions apply.

It can motivate doing research for complex question answering over long documents.

ConditionalQA: A Complex Reading Comprehension Dataset with Conditional Answers

https://paperswithcode.com/dataset/conditionalqa
#مقاله #دیتا #دیتاست

❇️ @AI_Python
Do Datasets Have Politics? Disciplinary Values in Computer Vision Dataset Development" :

https://morgan-klaus.com/pdfs/pubs/Scheuerman-CSCW2021-datapolitics.pdf

#دیتاست #بینایی_کامپیوتر #مقاله

❇️ @AI_Python
سایت دیتا برای nlp و ریکامندرها
http://jmcauley.ucsd.edu/data/amazon/

#دیتاست

❇️@AI_Python
Yandex: An Open-source Yet another Language Model 100B

YaLM 100B is trained for 2 terabyte of text: dataset the Pile and web-pages, including not only Wikipedia, news articles, and books, but also Github and arxiv.org. Yandex has applied the generative neural networks YaLM in the recent Y1 search update. Now they are already helping to give answers to searches in Yandex and Alice.

Github: https://github.com/yandex/YaLM-100B

#دیتاست

❇️ @AI_Python
دیتاست حاوی ۳۴۰MB متن است.

دیتاست مجموعه اخبار تسنیم نیوز هست که اخبار label نوع خبر هم دارند. خود خزشگر رو داخل گیت هابم به آدرس زیر گذاشتم
https://github.com/pourmand1376/TasnimNewsCrawler
و #دیتاست هم در kaggle اپلود شده است.
https://www.kaggle.com/datasets/amirpourmand/tasnimdataset

اینم فقط برا تسنیمه
دیتاستی که اسکریپ شده رو هم گذاشته

❇️ @AI_Python