📦 کتابخانه LangExtract از گوگل؛ استخراج ساختار از متن به کمک هوش مصنوعی
🔍 گوگل بهتازگی از LangExtract رونمایی کرده؛ یک کتابخانه اپنسورس پایتون برای استخراج اطلاعات ساختاریافته از متون بلند، با بهرهگیری از مدلهای LLM مثل Gemini.
📌 ویژگیهای برجسته LangExtract:
✅ ردیابی دقیق منبع اطلاعات:
هر دادهای که استخراج میشود (مثل نام، تاریخ یا دوز دارو)، به مکان دقیق آن در متن اصلی اشاره دارد. این یعنی میتوان منشأ دقیق اطلاعات را بررسی کرد.
✅ فرمت خروجی قابلاعتماد و مشخص:
با استفاده از چند مثال و تعیین ساختار موردنظر، خروجی همیشه فرمتی منسجم و قابلپیشبینی دارد.
✅ پشتیبانی از متون بسیار طولانی:
متنها به بخشهایی تقسیم شده و بهصورت موازی پردازش میشوند. این باعث افزایش دقت و مقیاسپذیری در دادههای سنگین میشود.
✅ نمایش گرافیکی HTML:
با خروجی تعاملی HTML میتوانید هزاران برچسب استخراجشده را در متن بهصورت بصری بررسی کنید.
✅ سازگار با LLMهای مختلف:
گرچه توسط گوگل توسعه یافته، اما فقط محدود به Gemini نیست. میتوانید از مدلهای دیگر بهصورت محلی یا ابری استفاده کنید.
✅ قابلیت غنیسازی با دانش عمومی مدلها:
بعضی دادهها ممکن است از "دانش درونی" مدل استخراج شوند؛ مثلاً اطلاعاتی که صراحتاً در متن نیست اما مدل بر اساس دانش عمومی خود پیشنهاد میدهد.
🔬 کاربرد اصلی اولیه: تحلیل گزارشهای پزشکی گوگل در دمو RadExtract نشان داده که این ابزار چگونه میتواند از گزارشهای رادیولوژی، دادههای مهم را استخراج و ساختاردهی کند.
🧪 دمو آنلاین: RadExtract در Hugging Face
📚 توضیح رسمی: مقاله وبلاگ گوگل
💾 سورسکد: LangExtract در گیتهاب
🔖 لایسنس: Apache 2.0
@rss_ai_ir
#استخراج_اطلاعات #هوش_مصنوعی #Google #LangExtract #LLM #پردازش_زبان_طبیعی
🔍 گوگل بهتازگی از LangExtract رونمایی کرده؛ یک کتابخانه اپنسورس پایتون برای استخراج اطلاعات ساختاریافته از متون بلند، با بهرهگیری از مدلهای LLM مثل Gemini.
📌 ویژگیهای برجسته LangExtract:
✅ ردیابی دقیق منبع اطلاعات:
هر دادهای که استخراج میشود (مثل نام، تاریخ یا دوز دارو)، به مکان دقیق آن در متن اصلی اشاره دارد. این یعنی میتوان منشأ دقیق اطلاعات را بررسی کرد.
✅ فرمت خروجی قابلاعتماد و مشخص:
با استفاده از چند مثال و تعیین ساختار موردنظر، خروجی همیشه فرمتی منسجم و قابلپیشبینی دارد.
✅ پشتیبانی از متون بسیار طولانی:
متنها به بخشهایی تقسیم شده و بهصورت موازی پردازش میشوند. این باعث افزایش دقت و مقیاسپذیری در دادههای سنگین میشود.
✅ نمایش گرافیکی HTML:
با خروجی تعاملی HTML میتوانید هزاران برچسب استخراجشده را در متن بهصورت بصری بررسی کنید.
✅ سازگار با LLMهای مختلف:
گرچه توسط گوگل توسعه یافته، اما فقط محدود به Gemini نیست. میتوانید از مدلهای دیگر بهصورت محلی یا ابری استفاده کنید.
✅ قابلیت غنیسازی با دانش عمومی مدلها:
بعضی دادهها ممکن است از "دانش درونی" مدل استخراج شوند؛ مثلاً اطلاعاتی که صراحتاً در متن نیست اما مدل بر اساس دانش عمومی خود پیشنهاد میدهد.
🔬 کاربرد اصلی اولیه: تحلیل گزارشهای پزشکی گوگل در دمو RadExtract نشان داده که این ابزار چگونه میتواند از گزارشهای رادیولوژی، دادههای مهم را استخراج و ساختاردهی کند.
🧪 دمو آنلاین: RadExtract در Hugging Face
📚 توضیح رسمی: مقاله وبلاگ گوگل
💾 سورسکد: LangExtract در گیتهاب
🔖 لایسنس: Apache 2.0
@rss_ai_ir
#استخراج_اطلاعات #هوش_مصنوعی #Google #LangExtract #LLM #پردازش_زبان_طبیعی
❤2👍1🙏1