خبرنامه هوش مصنوعی دومان
705 subscribers
229 photos
140 videos
2 files
270 links
ابزار، نوآوری‌ها و اخبار هوش مصنوعی و رباتیک

📌 ارتباط با من:

dumannewsletter@gmail.com
@pouyation
pouyae.xyz

📌 لینک Boost کانال:

https://t.me/dumannewsletter?boost

📌 آرشیو وبسایت (به روز نمی‌شود):

duman.pouyae.ir

#هوش_مصنوعی
#رباتیک
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
تولید موسیقی با MusicFX

گوگل مدل جدید خود برای تولید موسیقی را به صورت محدود در دسترس عموم قرار داده است. این مدل MusicFX نام داشته و برای ثبت‌نام در لیست انتظار آن به اینجا مراجعه کنید. این مدل با دریافت Prompt از کاربر موسیقی مورد نظر را تولید می‌کند. ویدئویی که در تصویر مشاهده می‌کنید نمونه‌ای از خروجی MusicFX است.

#google
#musicfx

@dumannewsletter
گوگل ریسرچ سیستم جدیدی به نام AMIE را برای تشخیص و مکالمه پزشکی معرفی کرد.

سیستم AMIE از یک LLM استفاده کرده که برای تشخیص پزشکی بهینه شده است. این سیستم با پرسیدن سوال‌های مناسب طی مکالمه تشخیص خود را بهبود می‌بخشد. علاوه‌ بر آن با ایجاد همدردی تلاش می‌کند با کاربر ارتباط ایجاد کرده تا شرایط یک مکالمه اثربخش را فراهم کند. طبق نتایج ارائه شده از نظر دقت و کیفیت، AMIE حداقل به اندازه پزشک مراقبت‌های اولیه عملکرد داشته است. به عقیده گوگل معرفی چنین سیستم‌هایی می‌تواند دسترس‌پذیری و کیفیت مراقبت‌های پزشکی را برای عموم افزایش دهد.

#google
#amie

@dumannewsletter
رقابت DeepMind با برنده مدال طلای المپیاد ریاضی | معرفی مدل AlphaGeometry

شرکت Google DeepMind مدل جدیدی به نام AlphaGeometry را برای حل مسائل هندسه معرفی کرد. بنا بر ادعای DeepMind این مدل می‌تواند در حد دارنده مدال طلای المپیاد ریاضی مسائل هندسه را حل کند. AlphaGeometry در زمان استاندارد این رقابت ۲۵ سوال از ۳۰ سوال را به درستی حل کرده است. این ۳۰ مسأله از میان مسائل سال‌های ۲۰۰۰ الی ۲۰۲۲ المپیاد ریاضی انتخاب شده‌اند. AlphaGeometry با الهام از کتاب معروف Thinking, Fast and Slow از دو بخش LLM و Symbolic Engine تشکیل شده است. بخش LLM یا مدل زبانی مشابه قسمت سریع ذهن عمل کرده و ایده‌های اولیه برای حل مسأله را به سرعت ارائه می‌دهد. مدل‌های بزرگ زبانی در شناسایی الگوها به خوبی عمل کرده ولی در استنتاج دارای ضعف هستند. برای پوشش این ضعف بخش Symbolic Engine وارد عمل می‌شود. بخش Symbolic Engine براساس قوانین منطقی نتایج را استنتاج کرده و ارائه می‌دهد. نتایج این مدل در مجله nature منتشر شده است.

👈 مطالعه جزئیات بیشتر

#deepmind
#google
#alpha_geometry

@dumannewsletter
قابلیت‌های جدید Google Chrome با استفاده از هوش‌مصنوعی مولد معرفی شد.

قابلیت Tab Organizer: این قابلیت تب‌های باز کاربر را به صورت خودکار گروه‌بندی می‌کند.

قابلیت Custom Theme: کاربر می‌تواند با انتخاب رنگ، استایل، موضوع و مود تم مورد نظر خود را در کروم رندر کند.

قابلیت Writing Help: قابلیت Help me write می‌تواند به کاربر در وب‌سایت‌های مختلف برای نوشتن متن پیشنهاد دهد.

این قابلیت‌ها در نسخه M121 معرفی شده‌ و در ابتدا در اختیار کاربران آمریکایی قرار خواهد گرفت. به مرور در سایر کشورها و تمامی‌ سیستم‌عامل‌ها نیز در دسترس قرار خواهند گرفت (منبع خبر).

#google
#chrome

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
تیم Google Research مدل جدیدی به نام lumiere را برای تولید ویدئو معرفی کرد. این مدل با دریافت متن و یا تصویر به عنوان ورودی، یک ویدیو ۵ ثانیه‌ای تولید می‌‌کند. نمونه‌های مشابهی اخیراً توسط #runway و #pika معرفی شده بود. همچنین این مدل می‌تواند با دریافت یک تصویر رفرنس ویدئوهای جدید را با همان استایل تولید کند. برای مطالعه جزئیات فنی اینجا را بخوانید.

#google
#lumiere

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
گوگل بارد نقاشی می‌کشد!

گوگل بارد با مدل Gemini Pro در بیش از ۲۳۰ کشور و ۴۰ زبان مختلف در دسترس عموم قرار گرفته است. در به‌روزرسانی جدید، این سرویس به مدل تولید تصویر گوگل به نام Imagen متصل شده و اکنون می‌تواند با دریافت prompt از کاربر تصویر موردنظر وی را بکشد (منبع).

#google
#bard
#imagen

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
معرفی اپلیکیشن Lookout گوگل برای افراد کم‌بینا و نابینا

اپلیکیشن Lookout گوگل به افراد کم‌بینا و نابینا با استفاده از ماشین‌بینایی و هوش‌مصنوعی مولد کمک می‌کند. این اپلیکیشن دارای قابلیتی به نام Image Q&A است که امکان پرسش و پاسخ حول یک تصویر را از طریق صدا برای کاربر فراهم می‌سازد. به عنوان مثال کاربر می‌تواند از محیط عکس گرفته و آن را در اپلیکیشن آپلود کند و سپس درباره چیزهایی که در تصویر موجود بوده و جزئیاتی نظیر رنگ سوال پرسیده و پاسخ اپلیکیشن درباره سوال خود را بشنود. برای دسترسی به این اپلیکیشن اینجا را ببینید.

#lookout_app
#google
#accessibility

@dumannewsletter
به‌روزرسانی‌های گوگل بارد (جمینای)

- گوگل نام سرویس هوش‌مصنوعی بارد را به جمینای تغییر داد. سرویس بارد بعد از معرفی ChatGPT برای رقابت با آن معرفی شد ولی در آن زمان اقبال چندانی پیدا نکرد. پس از این ماجرا گوگل برای حفظ موقعیت خود در بازار مدل قدرتمندی به نام جمینای (Gemini) را منتشر کرد. سپس به مرور از نسخه Pro این مدل در سرویس بارد استفاده کرد و آن را برای ۴۰ زبان مختلف در ۲۳۰ کشور در دسترس قرار داد.
- نسخه Ultra مدل جمینای در دسترس قرار گرفت. مدل جمینای در سه نسخه Nano، Pro و Ultra معرفی شده بود ولی انتشار عمومی نسخه Ultra در آن زمان به بعد موکول شده بود. نسخه Nano برای تلفن همراه، نسخه Pro برای کاربردهای معمولی و نسخه Ultra برای کاربردهای پیچیده‌تر طراحی شده است. برای دسترسی به Ultra باید اشتراک ماهانه پرداخت کنید ولی Pro از اینجا در دسترس است.
- جمینای در تلفن‌های همراه آیفون و اندرویدی نیز در دسترس قرار گرفته است. برای نصب آن در اندروید به اینجا مراجعه کنید. در آیفون نیز طی روزهای آینده از طریق گوگل اپ در دسترس قرار خواهد گرفت.

👈 معرفی Gemini

#google
#gemini

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
نسخه Gemini Pro 1.5 معرفی شد.

نسخه 1.5 سرویس هوش‌مصنوعی گوگل با نام Gemini Pro به صورت محدود برای تست در دسترس عده محدودی از کاربران قرار گرفته است. این نسخه توانایی دریافت ۱ میلیون توکن را به عنوان ورودی دارد! (هر توکن را معادل یک لغت در نظر بگیرید). سایز ورودی مدل‌های هوش‌مصنوعی با عنوان سایز Context Window معرفی می‌شود. هر چقدر این مقدار بیشتر باشد، امکان دریافت ورودی‌های بزرگ نظیر یک کتاب قطور نیز برای آن فراهم می‌شود. قابل ذکر است که سایز Context Windows در آخرین نسخه مدل GPT-4 برابر ۱۲۸ هزار توکن است. ۱ میلیون توکن معادل یک ساعت ویدئو، ۱۱ ساعت صوت، بیش از ۳۰ هزار خط کد و بیش از ۷۰۰ هزار لغت است(منبع خبر)!

#gemini
#google

@dumannewsletter
معرفی مدل‌های اپن‌سورس Gemma توسط Google DeepMind

گوگل DeepMind مجموعه‌از مدل‌های سبک را با نام Gemma به صورت اپن‌سورس منتشر کرد. طبق گفته DeepMind این مدل با استفاده از تکنولوژی و نتایج تحقیقاتی جمینای (Gemini) توسعه داده شده است. در حال حاضر دو نسخه از این مدل زبانی کوچک (SLM) با سایزهای 2B و 7B منتشر شده است. هر سایز نیز در نسخه‌های Instruction Tuned (IT) و (PT) Pre Trained موجود است. طبق نتایج منتشر شده نسخه 7B در بنچ‌مارک‌های مختلف عملکرد بهتری از نسخه‌های 7B و 13B مدل Llama2 داشته است. مدل‌های Gemma را می‌توان در کامپیوتر شخصی به صورت لوکال اجرا کرده و مشکلی بابت منابع پردازشی نداشت.

👈 برای مطالعه ادامه مطلب اینجا را بخوانید.

#google
#deepmind
#gemma

@dumannewsletter
گوگل امکان تولید تصویر انسان در جمینای را برای مدتی غیر فعال کرد.
براساس تصاویر منتشر شده در شبکه‌های اجتماعی مدل Imagen گوگل که برای تولید تصاویر در جمینای مورد استفاده قرار می‌گرفته بیش از اندازه به diversity اهمیت داده و این موضوع باعث تولید تصاویر اشتباه از انسان در کشورها، برهه‌های زمانی و موقعیت‌های مختلف شده است. یکی از چالش‌های مدل‌های هوش‌مصنوعی بایاس بودن آن به موضوعاتی نظیر جنسیت و نژاد است به‌همین جهت برای جلوگیری از این بایاس‌ها تغییراتی در مدل داده می‌شود. اما همان‌طور که در تصاویر مشخص شده، در مورد گوگل این تغییرات بیش از اندازه بوده است. طبق اعلام گوگل، بعد از اصلاح این مشکل دوباره امکان تولید تصویر انسان در جمینای در دسترس قرار خواهد گرفت.

#google
#gemini

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
مدل جدید گوگل برای تولید بازی!

گوگل مدل جدیدی به نام Genie را برای تولید بازی ویدئویی تعاملی معرفی کرد. این مدل می‌تواند محیط جدیدی را خلق کرده که کاربر می‌تواند کاراکتر اصلی آن را حرکت داده و کنترل کند. این مدل، یک مدل پایه (Foundation Model) بوده که با ویدئوهای بدون لیبل آموزش داده شده است. در حال حاضر Genie به صورت عمومی در دسترس قرار نگرفته است. برای مطالعه جزئیات فنی اینجا را بخوانید.

#genie
#google

@dumannewsletter
گوگل DeepMind ایجنت هوش مصنوعی SIMA را برای بازی‌های ویدئویی معرفی کرد. این ایجنت تنها با دستورات متنی و تصاویر محیط روی بازی‌های مختلف آموزش داده شده و با بیش از ۱۵۰۰ تسک مختلف در دسته‌هایی نظیر جهت‌یابی، تعامل با اشیا و جمع‌آوری منابع مورد ارزیابی قرار گرفته است. طبق نتایج این ایجنت عملکرد مشابه انسان داشته است. از چنین مدل‌هایی می‌توان برای پیاده‌سازی NPC در بازی‌های ویدئویی استفاده کرد. حتی در آینده با فراهم شدن زیرساخت‌های مورد نیاز امکان تعامل ربات و انسان در محیط‌های واقعی نیز دور از انتظار نخواهد بود(منبع).

#deepmind
#google
#sima

@dumannewsletter
اپل در حال مذاکره با گوگل و مایکروسافت برای استفاده از مدل‌های هوش‌مصنوعی این دو کمپانی درتلفن‌های همراه آیفون است. قرار است از این مدل‌ها برای قابلیت‌های هوش‌مصنوعی مولد نظیر تولید متن، ویرایش تصاویر و ویدئوها استفاده شود. هنوز جزئیات بیشتری از این مذاکرات منتشر نشده است. گوگل و مایکروسافت در ماه‌های اخیر در رقابت تنگاتنگی بوده‌اند، همکاری هر کدام از این دو کمپانی با اپل برگ برنده‌ای در این رقابت خواهد بود. قابل ذکر است که گوگل اخیراً به خاطر قرارداد انحصاری موتور جستجوی پیش‌فرض در آیفون مورد انتقاد قرار گرفته و یک پرونده قضایی به خاطر انحصار علیه آن در جریان است (منبع).

#apple
#google
#microsoft

@dumannewsletter
معرفی مربی فوتبال توسط گوگل DeepMind

گوگل DeepMind مدل جدیدی به نام TacticAI را برای پیش‌بینی نتیجه کرنر در بازی فوتبال معرفی کرد. این مدل با همکاری باشگاه لیورپول توسعه داده شده است. در این مدل هر بازیکن به منزله یک نود در گراف بوده که با استفاده از Graph Neural Network براساس موقعیت بازیکن‌های هر دو تیم نتیجه کرنر را پیش‌بینی می‌کند (منبع).

#tacticai
#google
#deepmind

@dumannewsletter