VIRSUN

📦 کتابخانه LangExtract از گوگل؛ استخراج ساختار از متن به کمک هوش مصنوعی

🔍 گوگل به‌تازگی از LangExtract رونمایی کرده؛ یک کتابخانه اپن‌سورس پایتون برای استخراج اطلاعات ساختار‌یافته از متون بلند، با بهره‌گیری از مدل‌های LLM مثل Gemini.

📌 ویژگی‌های برجسته LangExtract:

✅ ردیابی دقیق منبع اطلاعات:
هر داده‌ای که استخراج می‌شود (مثل نام، تاریخ یا دوز دارو)، به مکان دقیق آن در متن اصلی اشاره دارد. این یعنی می‌توان منشأ دقیق اطلاعات را بررسی کرد.

✅ فرمت خروجی قابل‌اعتماد و مشخص:
با استفاده از چند مثال و تعیین ساختار موردنظر، خروجی همیشه فرمتی منسجم و قابل‌پیش‌بینی دارد.

✅ پشتیبانی از متون بسیار طولانی:
متن‌ها به بخش‌هایی تقسیم شده و به‌صورت موازی پردازش می‌شوند. این باعث افزایش دقت و مقیاس‌پذیری در داده‌های سنگین می‌شود.

✅ نمایش گرافیکی HTML:
با خروجی تعاملی HTML می‌توانید هزاران برچسب استخراج‌شده را در متن به‌صورت بصری بررسی کنید.

✅ سازگار با LLMهای مختلف:
گرچه توسط گوگل توسعه یافته، اما فقط محدود به Gemini نیست. می‌توانید از مدل‌های دیگر به‌صورت محلی یا ابری استفاده کنید.

✅ قابلیت غنی‌سازی با دانش عمومی مدل‌ها:
بعضی داده‌ها ممکن است از "دانش درونی" مدل استخراج شوند؛ مثلاً اطلاعاتی که صراحتاً در متن نیست اما مدل بر اساس دانش عمومی خود پیشنهاد می‌دهد.

🔬 کاربرد اصلی اولیه: تحلیل گزارش‌های پزشکی گوگل در دمو RadExtract نشان داده که این ابزار چگونه می‌تواند از گزارش‌های رادیولوژی، داده‌های مهم را استخراج و ساختاردهی کند.

🧪 دمو آنلاین: RadExtract در Hugging Face
📚 توضیح رسمی: مقاله وبلاگ گوگل
💾 سورس‌کد: LangExtract در گیت‌هاب
🔖 لایسنس: Apache 2.0

@rss_ai_ir
#استخراج_اطلاعات #هوش_مصنوعی #Google #LangExtract #LLM #پردازش_زبان_طبیعی

❤2👍1🙏1

197 views13:17

About

Blog

Apps

Platform