خبرنامه هوش مصنوعی دومان
711 subscribers
265 photos
180 videos
2 files
307 links
ابزار، نوآوری‌ها و اخبار هوش مصنوعی و رباتیک

📌 ارتباط با من:

dumannewsletter@gmail.com

📌 لینک Boost کانال:

https://t.me/dumannewsletter?boost

📌 آرشیو وبسایت (به روز نمی‌شود):

duman.pouyae.ir

#هوش_مصنوعی
#رباتیک
Download Telegram
اضافه شدن بینایی به چت‌بات Grok1.5

در آپدیت جدید Grok قابلیت پردازش دیتای تصویری نیز به این مدل اضافه شد. این نسخه که با نام Grok-1.5V معرفی شده با مدل‌های مشابه در بنچ‌مارک‌های مختلف در تصویر مقایسه شده است. این مدل همانند نمونه‌های مشابه می‌تواند به سوالات کاربر حول یک تصویر پاسخ دهد، برای تصاویر کپشن نوشته و یا حتی با تصویر فلوچارت برای آن کد بنویسد (منبع)!

پرسش و پاسخ Grok حول منوی تصویر:

User:
How many calories are there in 5 slices of this?

Grok:
If one serving size is 3 slices and contains 60 calories, then 5 slices would contain approximately 100 calories. This is calculated by first determining the calories per slice: 60 calories / 3 slices = 20 calories per slice. Then, multiply the calories per slice by the number of slices: 20 calories per slice * 5 slices = 100 calories.


#xai
#grok

@dumannewsletter
با استفاده از هوش‌مصنوعی MindMap بسازید

۱. ابتدا از ChatGPT بخواهید برای موضوع موردنظرتان Mindmap بنویسد. سپس Mindmap پیشنهادی را براساس نیازمندی خود اصلاح کنید. برای نوشتن Mindmap می‌توانید از prompt زیر استفاده کنید:

Create a mind map of [Your Topic]. List topics as central ideas, main branches, and sub-branches.

۲. پس از آماده شدن Mindmap با استفاده از prompt زیر بخواهید که آن را با فرمت Markdown بازنویسی کند:

Create this same mind map in markdown format.

۳. اکنون فرمت Markdown را در این سایت کپی کرده و نسخه ویژوال Mindmap را تحویل بگیرید. این وب سایت در دو فرمت svg و html خروجی می‌دهد. برای تبدیل svg به png یا jpg می‌توانید از سرویس‌های رایگان و آنلاین استفاده کنید.

#آموزشی
#mindmap

@dumannewsletter
تبدیل ویدئو/صوت به متن

با استفاده از سرویس رایگان Whisper Web در اینجا می‌توانید فایل‌های صوتی و ویدئویی خود را به متن تبدیل کنید. این سرویس به سه شکل ضبط صدا (Record)، آپلود فایل (From File) و با لینک مستقیم فایل (From URL) از کاربر ورودی می‌گیرد. پس از آپلود فایل زبان مورد نظر را انتخاب کنید. همچنین می‌توانید از ترجمه خودکار این سرویس نیز استفاده کنید. بدیهی است که این سرویس دارای محدودیت بوده و ممکن است دقت کافی را نداشته باشد.

#آموزشی
#transcribe

@dumannewsletter
ربات Atlas بازنشسته شد!

ربات انسان‌نمای Atlas بعد از ۱۰ سال بازنشسته شد. توسعه این ربات در سال ۲۰۱۳ با همکاری شرکت بوستون داینامیکز و دارپا (DARPA) آغاز شد. بعد از این همکاری در سال‌های اخیر بوستون داینامیکز با به‌روزرسانی‌های متعدد قابلیت‌های مختلفی را به این ربات اضافه کرد. شرکت بوستون داینامیکز در سال ۲۰۲۱ توسط هیوندای خریداری شد و پس از آن روی تجاری سازی محصولاتی نظیر Spot و Handle تمرکز کرده است. گمانه‌زنی‌های مختلفی در مورد این تصمیم بوستون داینامیکز مطرح شده است. شاید با ورود رقبای جدی به عرصه تولید ربات‌های انسان‌نما بوستون داینامیکز شانسی برای خود نمی‌بیند و یا اینکه قرار است در آینده به جای نسخه هیدرولیکی نسخه الکتریکی معرفی کند.
برای آشنایی بیشتر با تفاوت‌های ربات‌های هیدرولیکی و الکتریکی مصاحبه Marc Raibert (موسس بوستون داینامیکز) با Lex Fridman را از اینجا مشاهده کنید.


#spot
#robotics
#boston_dynamics

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
تولد نسل جدید Atlas!

همان‌طور که حدس زده می‌شد، بوستون داینامیکز با معرفی نسخه الکتریکی Atlas حضور جدی خود را در رقابت ربات‌های انسان‌نما اعلام کرد. نسخه قبلی هیدرولیکی بود. در موتورهای هیدرولیکی فشار و جریان سیالات به حرکت تبدیل می‌شود. هر گونه آسیب و سوراخ شدن در این موتورها منجر به از کار افتادن آن می‌شد. نمونه‌های این حادثه در تست‌های نسخه قبلی مشهود بود (ویدئو قبل را ببینید). موتورهای الکتریکی حرکت روان‌تری را برای ربات فراهم کرده و هزینه تمام شده را کاهش می‌دهند.

#atlas
#robotics
#boston_dynamics

@dumannewsletter
نسخه ۳ مدل زبانی Llama منتشر شد

متا نسخه ۳ مدل اپن‌سورس Llama را در سایزهای ۸ و ۷۰ میلیارد پارامتر منتشر کرد. طول Context Window در این نسخه ۸ هزار توکن است. قرار است به زودی این نسخه در پلتفرم‌های مختلف کلاد در دسترس قرار بگیرد. نسخه ۳ با ۱۵ تریلیون توکن در یک کلاستر با ۲۴ هزار GPU آموزش داده شده است. سایز دیتاست آن ۷ برابر دیتاست نسخه ۲ است. این دیتاست از منابع عمومی گردآوری شده است و حدود ۳۰ زبان مختلف را در بر می‌گیرد، با این وجود کیفیت آن برای تمامی زبان‌ها اندازه انگلیسی نیست. طبق ادعای متا ایمنی این نسخه توسط متخصصان داخلی و خارجی مورد تست قرار گرفته و مکانیزم‌های مختلفی برای آن در نظر گرفته شده است. قابل ذکر است که نسخه ۴۰۰ میلیارد پارامتری این مدل در حال Training است. برای مطالعه جزئیات فنی و مقایسه آن با مدل‌های مشابه اینجا را بخوانید.

#llama
#meta

@dumannewsletter
شماره هجدهم خبرنامه هوش‌مصنوعی دومان منتشر شد.

برای مطالعه شماره هجدهم به این لینک مراجعه کنید. اگر مایل به دریافت این خبرنامه در پست‌الکترونیک خود هستید از اینجا ثبت‌نام کنید. این خبرنامه هر دو هفته به پست الکترونیک شما ارسال خواهد شد.

#خبرنامه

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
به عقیده جنسن هوآنگ مدیرعامل NVIDIA ربات‌های انسان‌نما در آینده نزدیک با قیمت ۱۰-۲۰ هزار دلار در دسترس عموم قرار خواهند گرفت و این ربات‌ها در محیط زندگی انسان‌ چابکی و کارایی زیادی خواهند داشت.

#nvidia
#robotics

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
پیام مارک زاکربرگ در مورد نسخه ۳ مدل زبانی Llama

مارک زاکربرگ در این پیام بار دیگر به توسعه اپن‌سورس هوش‌مصنوعی تاکید کرد. طبق گفته زاک قرار است از این مدل زبانی در محصولات مختلف متا نظیر واتساپ و اینستاگرام استفاده شود. نسخه وب Llama با آدرس meta.ai نیز در دسترس قرار گرفته است.

#meta
#llama
#zuck

@dumannewsletter
رقابت تنگاتنگ برای تولید ربات‌های انسان‌نما!

#robotics

@dumannewsletter
انتشار مدل‌های کوچک زبانی توسط اپل

کمپانی اپل مجموعه‌ای از مدل‌های کوچک زبانی را با نام OpenELM به صورت اپن‌سورس منتشر کرد. سایز این مدل‌های کوچک زبانی عبارت است از ۲۷۰ میلیون، ۴۵۰ میلیون، ۱.۱ میلیارد و ۳ میلیارد پارامتر. این مدل‌های کوچک با هدف اجرا در مک و آیفون بدون دسترسی به سرویس‌های کلاد طراحی شده‌اند. برای آموزش این مدل‌ها از دیتاست‌های عمومی استفاده شده که سایز آن‌ها در مجموع به حدود ۱.۸ تریلیون توکن می‌رسد. در این مجموعه از استراتژی Layer-Wise Scaling برای تخصیص پارامتر در هر لایه از ترنسفورمر استفاده شده تا دقت مدل افزایش پیدا کند. تیم اپل برای آموزش این مجموعه از مدل‌ها از لایبرری CoreNet استفاده کرده که آن را نیز به صورت اپن‌سورس در گیت‌هاب منتشر کرده است.
👈 برای دسترسی به این مدل‌ها اینجا را بخوانید.

#apple
#slm
#open_elm

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
نسل هفتم ربات انسان‌نمای Phoenix توسط شرکت کانادایی Sanctuary AI معرفی شد. این نسخه توانایی اجرای تسک‌های پیچیده‌تر و طولانی‌تر را دارد. با بهبودهای انجام شده این نسخه بسیار سریع‌تر از نسخه‌های قبلی شده است.

#robotics
#sanctuary_ai
#phoenix

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
مدل VideoGigaGAN ویدئو را تا ۸ برابر بزرگتر می‌کند.

محققان شرکت Adobe مدل جدیدی به نام VideoGigaGAN را برای بزرگنمایی ویدئو معرفی کردند. این مدل می‌تواند بدون افت کیفیت یک ویدئو را تا ۸ برابر بزرگتر کند. این روش جدید براساس شبکه GAN توسعه داده شده است.
👈 برای آشنایی بیشتر با GAN اینجا را بخوانید.
👈 برای مطالعه جزئیات بیشتر درباره VideoGigaGAN اینجا را بخوانید.

#adobe
#video_giga_gan
#gan

@dumannewsletter
انتشار گزارش AI Index توسط موسسه HAI

موسسه Human Centered AI از دانشگاه استنفورد در یک گزارش جدید و مفصل نتایج ارزیابی و مطالعه ترندهای هوش‌مصنوعی در سال ۲۰۲۳ را به صورت عمومی منتشر کرد. این گزارش از سال ۲۰۱۷ به صورت پیوسته منتشر شده و بارها به شکل‌های مختلفی مورد رفرنس قرار گرفته است. در این مقاله مهم‌ترین نکات این گزارش به همراه چارت‌ ارائه شده است.

👈 برای مطالعه ادامه مقاله اینجا را بخوانید

#hai
#ai_index

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
رقیب چینی مدل Sora با نام Vidu معرفی شد!

این مدل می‌تواند براساس متن ورودی یک ویدئوی ۱۶ ثانیه‌ای با کیفیت HD تولید کند (منبع).

#vidu
#sora

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
اریک اشمیت مدیرعامل سابق گوگل: زمانی که ایجنت‌های هوش‌مصنوعی با زبان جدیدی که ما درک نمی‌کنیم ارتباط برقرار کنند، باید کامپیوترها را از برق بکشیم!

👈 مشاهده ویدئو کامل

#eric_schmidt

@dumannewsletter
مدل Phi3 توسط مایکروسافت معرفی شد.

نسخه ۳ مجموعه مدل‌های زبانی Phi توسط مایکروسافت معرفی شد. این مدل‌ها در دسته مدل‌های زبانی کوچک یا SLM قرار گرفته و توانسته‌اند عملکرد قابل توجهی را از خود به نمایش بگذارند. نسخه ۳ با سه سایز مختلف به نام‌های mini با ۳.۸ میلیارد پارامتر، small با ۷ میلیارد پارامتر و medium با ۱۴ میلیارد پارامتر معرفی شده است ولی در حال حاضر تنها نسخه mini با دو سایز مختلف Context Window (۴و ۱۲۸ هزار توکن)در دسترس عموم قرار گرفته و قرار است به زودی سایر نسخه‌ها نیز منتشر شوند. نتایج مقایسه این مجموعه با مدل‌های مشابه نشان‌دهنده عملکرد مناسب آن است. قابل ذکر است که مدل‌های کوچک زبانی نسبت به مدل‌های بزرگ زبانی در بنچ‌مارک‌های factual knowledge نظیر TriviaQA عملکرد ضعیف‌تری دارند، زیرا این مدل‌ها ظرفیت کمتری برای نگهداری اطلاعات دارند.

👈 قبلاً نسخه ۲ را در اینجا معرفی کرده بودم.
👈 برای اطلاعات بیشتری درباره نسخه ۳ اینجا را بخوانید.
👈 برای دسترسی به مجموعه Phi صفحه مایکروسافت در HF را از اینجا مشاهده کنید.

#phi
#microsoft

@dumannewsletter