خبرنامه هوش مصنوعی دومان
712 subscribers
262 photos
180 videos
2 files
303 links
ابزار، نوآوری‌ها و اخبار هوش مصنوعی و رباتیک

📌 ارتباط با من:

dumannewsletter@gmail.com

📌 لینک Boost کانال:

https://t.me/dumannewsletter?boost

📌 آرشیو وبسایت (به روز نمی‌شود):

duman.pouyae.ir

#هوش_مصنوعی
#رباتیک
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
نسخه Gemini Pro 1.5 معرفی شد.

نسخه 1.5 سرویس هوش‌مصنوعی گوگل با نام Gemini Pro به صورت محدود برای تست در دسترس عده محدودی از کاربران قرار گرفته است. این نسخه توانایی دریافت ۱ میلیون توکن را به عنوان ورودی دارد! (هر توکن را معادل یک لغت در نظر بگیرید). سایز ورودی مدل‌های هوش‌مصنوعی با عنوان سایز Context Window معرفی می‌شود. هر چقدر این مقدار بیشتر باشد، امکان دریافت ورودی‌های بزرگ نظیر یک کتاب قطور نیز برای آن فراهم می‌شود. قابل ذکر است که سایز Context Windows در آخرین نسخه مدل GPT-4 برابر ۱۲۸ هزار توکن است. ۱ میلیون توکن معادل یک ساعت ویدئو، ۱۱ ساعت صوت، بیش از ۳۰ هزار خط کد و بیش از ۷۰۰ هزار لغت است(منبع خبر)!

#gemini
#google

@dumannewsletter
Media is too big
VIEW IN TELEGRAM
معرفی مدل جدید OpenAI برای تولید ویدیو | معرفی Sora

مدل جدید OpenAI با نام Sora می‌تواند ویدئو با طول یک دقیقه تولید کند. ویدئوی تولید شده توسط Sora در تمام طول آن ضمن حفظ کیفیت از prompt کاربر تبعیت می‌کند. Sora فعلا برای تست و دریافت فیدبک در اختیار عده محدودی از کاربران قرار گرفته است. در این ویدئو می‌توانید خروجی‌های نمونه به همراه prompt هرکدام را مشاهده کنید (صوت ندارد). با وجود کیفیت فوق‌العاده آن هنوز دارای ضعف‌هایی نیز هست. به عنوان مثال اثر یک اتفاق روی یک شی اعمال نمی‌شود (وقتی که به کوکی گاز زده می‌شود بدون تغییر باقی می‌ماند) و یا مختصات فضایی نظیر چپ و راست را اشتباه می‌کند. Sora از مدل Diffusion و معماری ترنسفورمر استفاده می‌کند. علاوه بر ورودی متنی (text) می‌تواند با دریافت تصویر برای آن ویدئو خلق کرده و یا با اضافه کردن به طول یک ویدئو زمان آن را طولانی‌تر کند. در صورتی که به صورت عمومی در دسترس قرار بگیرد، متا دیتای C2PA همانند DALL.E در خروجی‌های آن گنجانده خواهد شد تا جلوی سواستفاده از آن با نشر Deep Fake گرفته شود (منبع).

#openai
#sora

@dumannewsletter
Media is too big
VIEW IN TELEGRAM
معرفی عینک مخصوص نابینایان AiSee

محققان دانشگاه ملی سنگاپور (NUS) عینک جدیدی برای کمک به نابینایان طراحی کرده‌اند. این عینک که AiSee نام داشته از قابلیت‌های هوش‌مصنوعی مولد برای کمک به نابینایان در کارهای روزمره‌ای چون خرید از فروشگاه استفاده می‌شود. در واقع این عینک با پردازش تصویر محیط جزئیات آن را از طریق هدفون به کاربر اعلام می‌کند، به این ترتیب شخص نابینا می‌تواند از محیط اطراف خود آگاه شود. همچنین کاربر می‌تواند درباره جزئیات تصویر نیز از آن سوال بپرسد. این گجت پوشیدنی علاوه بر دوربین و میکروفن دارای یک باطری کوچک نیز است.

#aisee
#accessibility

@dumannewsletter
شماره پانزدهم خبرنامه هوش‌مصنوعی دومان منتشر شد!

در این شماره می‌‌خوانید:

- مدل حیرت‌انگیز OpenAI برای تولید ویدئو 🎞
- ادامه مصاحبه بیل‌گیتس و سم آلتمن
- مصاحبه مدیرعامل NVIDIA و وزیر هوش‌مصنوعی امارات!
- اخبار جدید از ربات‌های انسان‌نما 🤖
- قابلیت‌های هوش‌مصنوعی برای نابینایان
- اخبار و به روزرسانی‌های جدید از Gen. AI

برای مطالعه شماره پانزدم به این لینک مراجعه کنید. اگر مایل به دریافت این خبرنامه در پست‌الکترونیک خود هستید از اینجا ثبت‌نام کنید. این خبرنامه هر دو هفته به پست الکترونیک شما ارسال خواهد شد.

#خبرنامه

@dumannewsletter
معرفی پرازنده‌های مخصوص مدل‌های زبانی توسط Groq

استارتاپی به نام Groq پرازنده‌های مخصوص مدل‌های زبانی را با عنوان Language Processing Unit یا به طور مختصر LPU معرفی کرده است. این پرازنده مخصوص مدل‌های زبانی طراحی شده و از GPUهای ساخت NVIDIA نیز بسیار سریع‌تر هستند. تعدادی از اعضای این تیم قبلاً در توسعه پرازنده‌های TPU گوگل مشارکت داشته‌اند. در این تصویر هزینه استفاده از زیرساخت‌های مشابه و سرعت هر کدام مقایسه شده است. همانطور که مشخص است Groq ضمن داشتن هزینه کمتر با سرعت حدود ۴۰۰ الی ۴۵۰ توکن در ثانیه از تمامی زیرساخت‌های موجود بهتر است.

#groq
#lpu

@dumannewsletter
معرفی مدل‌های اپن‌سورس Gemma توسط Google DeepMind

گوگل DeepMind مجموعه‌از مدل‌های سبک را با نام Gemma به صورت اپن‌سورس منتشر کرد. طبق گفته DeepMind این مدل با استفاده از تکنولوژی و نتایج تحقیقاتی جمینای (Gemini) توسعه داده شده است. در حال حاضر دو نسخه از این مدل زبانی کوچک (SLM) با سایزهای 2B و 7B منتشر شده است. هر سایز نیز در نسخه‌های Instruction Tuned (IT) و (PT) Pre Trained موجود است. طبق نتایج منتشر شده نسخه 7B در بنچ‌مارک‌های مختلف عملکرد بهتری از نسخه‌های 7B و 13B مدل Llama2 داشته است. مدل‌های Gemma را می‌توان در کامپیوتر شخصی به صورت لوکال اجرا کرده و مشکلی بابت منابع پردازشی نداشت.

👈 برای مطالعه ادامه مطلب اینجا را بخوانید.

#google
#deepmind
#gemma

@dumannewsletter
نسخه ۳ Stable Diffusion منتشر شد.

مدل‌های Stable Diffusion توسط استارتاپ Stability AI توسعه داده شده است. این مدل‌ها از معماری Diffusion برای تولید تصویر از متن استفاده می‌کنند. در حال حاضر نسخه ۳ آن به صورت عمومی در دسترس قرار نگرفته ولی می‌توانید از اینجا در لیست انتظار ثبت‌نام کنید. مدل‌های این نسخه در سایزهای‌ مختلف از ۸۰۰ میلیون تا ۸ میلیارد پارامتر دارند. بهبود کیفیت تصویر و spelling درست متن در تصویر از جمله تغییرات این نسخه نسبت به نسخه قبلی است (منبع).
پرامپت استفاده شده برای تصویر جادوگر:

Prompt: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy

#stability_ai
#stable_diffusion

@dumannewsletter
گوگل امکان تولید تصویر انسان در جمینای را برای مدتی غیر فعال کرد.
براساس تصاویر منتشر شده در شبکه‌های اجتماعی مدل Imagen گوگل که برای تولید تصاویر در جمینای مورد استفاده قرار می‌گرفته بیش از اندازه به diversity اهمیت داده و این موضوع باعث تولید تصاویر اشتباه از انسان در کشورها، برهه‌های زمانی و موقعیت‌های مختلف شده است. یکی از چالش‌های مدل‌های هوش‌مصنوعی بایاس بودن آن به موضوعاتی نظیر جنسیت و نژاد است به‌همین جهت برای جلوگیری از این بایاس‌ها تغییراتی در مدل داده می‌شود. اما همان‌طور که در تصاویر مشخص شده، در مورد گوگل این تغییرات بیش از اندازه بوده است. طبق اعلام گوگل، بعد از اصلاح این مشکل دوباره امکان تولید تصویر انسان در جمینای در دسترس قرار خواهد گرفت.

#google
#gemini

@dumannewsletter
مدل‌های تولید موسیقی

با استفاده از مدل‌های زیر می‌توانید موسیقی موردنظر خود را شرح داده و خروجی تولید شده توسط آن را بشنوید.

1. MusicGen (Meta AI)
2.
Stable Audio (Stability AI)
3
. MusicFX (Google)
4. Suno
5.
Udio
6. ElevenLabs (coming soon)


#musicgen
#stable_audio
#musicfx
#suno
#udio
#eleven_labs

@dumannewsletter
سرمایه‌گذاری مایکروسافت در Mistral AI و انتشار مدل Mistral Large

مایکروسافت اعلام کرد که در استارتاپ فرانسوی Mistral AI سرمایه‌گذاری کرده و از این به بعد مدل‌های زبانی این استارتاپ در پلتفرم ابری Azure نیز در دسترس قرار می‌گیرد. تنها حدود ۱۰ ماه از راه‌اندازی استارتاپ Mistral AI می‌گذرد و در این مدت ارزش آن به حدود ۲ میلیارد دلار رسیده است. همزمان با انتشار این خبر، Mistral مدل زبانی جدید خود با نام Mistral Large (یا Au Large) را نیز معرفی کرد. برخلاف مدل‌های قبلی، این مدل اپن‌سورس نیست و تنها از طریق Azure و یا زیرساخت Mistral (به نام La Plateforme)در دسترس قرار گرفته است. طبق ادعای Mistral، مدل Mistral Large توانایی رقابت با GPT-4 را دارد و براساس بنچ‌مارک‌ معروف MMLU در جایگاه دوم پس از GPT-4 قرار می‌گیرد. این مدل جدید دارای Context Window به سایز ۳۲KB بوده و به زبان‌های انگلیسی، آلمانی، فرانسوی، ایتالیایی و اسپانیایی مسلط است. در کنار این مدل، چت‌باتی به نام Le Chat نیز منتشر شده است. برای تست این چت‌بات از اینجا ثبت‌نام کنید (منبع).

#microsoft
#mistral_ai
#le_chat

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
دموی نتایج فریم‌ورک Universal Manipulation Interface برای آموزش ربات براساس مشاهده رفتارهای انسان (مطالعه جزئیات فنی)

#robotics
#umi

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
دموی آخرین وضعیت ربات انسان‌نمای Figure

برت ادکاک (Brett Adcock) در یک ویدئوی جدید آخرین توانایی‌های ربات Figure 01 را به نمایش گذاشت. اخیراً ارزش این استارتاپ با جذب ۶۷۵ میلیون دلار سرمایه از سمت جف بزوس، NVIDIA، مایکروسافت و OpenAI به ۲ میلیارد دلار رسید. اینتل و سامسونگ از دیگر سرمایه‌گذاران خرد Figure هستند. در حال حاضر از ربات‌های Figure در بخشی از کارخانه BMW در خاک آمریکا به جای انسان استفاده می‌شود.

#figure
#robotics

@dumannewsletter
شرکت Qualcomm مجموعه‌ای شامل بیش از ۷۰ مدل معروف هوش‌مصنوعی را برای پلتفرم‌های خود به خصوص snapdragon بهینه‌سازی کرده و به صورت عمومی در HuggingFace منتشر کرده است. برای دسترسی به این مدل‌ها اینجا را مشاهده کنید.

#qualcomm

@dumannewsletter
دوره Prompt نویسی برای مدل Llama با همکاری Meta AI در پلتفرم آموزشی DeepLearning.AI به صورت رایگان منتشر شد. این دوره حدود یک ساعت بوده و از اینجا می‌توانید به آن دسترسی داشته باشید.

#llama

@dumannewsletter
Media is too big
VIEW IN TELEGRAM
شرکت Adobe ابزار جدید خود برای تولید موسیقی را دمو کرد. با استفاده از این ابزار می‌توان prompt ورودی را به موسیقی تبدیل کرد. همچنین کاربر می‌تواند علاوه بر ژانر، شدت و طول خروجی را کنترل کرده و یا به آن loop اضافه کند. هنوز این ابزار در دسترس عموم قرار نگرفته است. Adobe مجموعه ابزارهای مبتنی بر هوش‌مصنوعی مولد را تحت عنوان Firefly در ماه‌های اخیر منتشر کرده است (منبع).

👈 مشاهده ابزارهای Firefly
👈 معرفی ابزارهای تولید موسیقی با هوش‌مصنوعی

#adobe
#firefly

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
دموی نسخه ۳ ربات‌انسان نمای Unitree H1

شرکت چینی Unitree Robotics در ویدئوی جدید قدرت و انعطاف ربات انسان‌نمای خود را به نمایش گذاشت. طبق ادعای این کمپانی رکورد سرعت ربات‌ انسان‌نما توسط H1 شکسته شده است. رکورد قبلی ۲.۵ متر بر ثانیه بوده ولی این ربات می‌تواند با سرعت ۳.۳ متر بر ثانیه راه برود.

#unitree
#robotics

@dumannewsletter