خبرنامه هوش مصنوعی دومان
728 subscribers
202 photos
131 videos
1 file
244 links
نوآوری‌ها و اخبار هوش مصنوعی و رباتیک

📌 ارتباط با من:

dumannewsletter@gmail.com

📌 لینک Boost کانال:

https://t.me/dumannewsletter?boost

📌 آرشیو وبسایت (به روز نمی‌شود):

duman.pouyae.ir

#هوش_مصنوعی
#رباتیک
Download Telegram
رقابت DeepMind با برنده مدال طلای المپیاد ریاضی | معرفی مدل AlphaGeometry

شرکت Google DeepMind مدل جدیدی به نام AlphaGeometry را برای حل مسائل هندسه معرفی کرد. بنا بر ادعای DeepMind این مدل می‌تواند در حد دارنده مدال طلای المپیاد ریاضی مسائل هندسه را حل کند. AlphaGeometry در زمان استاندارد این رقابت ۲۵ سوال از ۳۰ سوال را به درستی حل کرده است. این ۳۰ مسأله از میان مسائل سال‌های ۲۰۰۰ الی ۲۰۲۲ المپیاد ریاضی انتخاب شده‌اند. AlphaGeometry با الهام از کتاب معروف Thinking, Fast and Slow از دو بخش LLM و Symbolic Engine تشکیل شده است. بخش LLM یا مدل زبانی مشابه قسمت سریع ذهن عمل کرده و ایده‌های اولیه برای حل مسأله را به سرعت ارائه می‌دهد. مدل‌های بزرگ زبانی در شناسایی الگوها به خوبی عمل کرده ولی در استنتاج دارای ضعف هستند. برای پوشش این ضعف بخش Symbolic Engine وارد عمل می‌شود. بخش Symbolic Engine براساس قوانین منطقی نتایج را استنتاج کرده و ارائه می‌دهد. نتایج این مدل در مجله nature منتشر شده است.

👈 مطالعه جزئیات بیشتر

#deepmind
#google
#alpha_geometry

@dumannewsletter
قابلیت‌های جدید Google Chrome با استفاده از هوش‌مصنوعی مولد معرفی شد.

قابلیت Tab Organizer: این قابلیت تب‌های باز کاربر را به صورت خودکار گروه‌بندی می‌کند.

قابلیت Custom Theme: کاربر می‌تواند با انتخاب رنگ، استایل، موضوع و مود تم مورد نظر خود را در کروم رندر کند.

قابلیت Writing Help: قابلیت Help me write می‌تواند به کاربر در وب‌سایت‌های مختلف برای نوشتن متن پیشنهاد دهد.

این قابلیت‌ها در نسخه M121 معرفی شده‌ و در ابتدا در اختیار کاربران آمریکایی قرار خواهد گرفت. به مرور در سایر کشورها و تمامی‌ سیستم‌عامل‌ها نیز در دسترس قرار خواهند گرفت (منبع خبر).

#google
#chrome

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
تیم Google Research مدل جدیدی به نام lumiere را برای تولید ویدئو معرفی کرد. این مدل با دریافت متن و یا تصویر به عنوان ورودی، یک ویدیو ۵ ثانیه‌ای تولید می‌‌کند. نمونه‌های مشابهی اخیراً توسط #runway و #pika معرفی شده بود. همچنین این مدل می‌تواند با دریافت یک تصویر رفرنس ویدئوهای جدید را با همان استایل تولید کند. برای مطالعه جزئیات فنی اینجا را بخوانید.

#google
#lumiere

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
گوگل بارد نقاشی می‌کشد!

گوگل بارد با مدل Gemini Pro در بیش از ۲۳۰ کشور و ۴۰ زبان مختلف در دسترس عموم قرار گرفته است. در به‌روزرسانی جدید، این سرویس به مدل تولید تصویر گوگل به نام Imagen متصل شده و اکنون می‌تواند با دریافت prompt از کاربر تصویر موردنظر وی را بکشد (منبع).

#google
#bard
#imagen

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
معرفی اپلیکیشن Lookout گوگل برای افراد کم‌بینا و نابینا

اپلیکیشن Lookout گوگل به افراد کم‌بینا و نابینا با استفاده از ماشین‌بینایی و هوش‌مصنوعی مولد کمک می‌کند. این اپلیکیشن دارای قابلیتی به نام Image Q&A است که امکان پرسش و پاسخ حول یک تصویر را از طریق صدا برای کاربر فراهم می‌سازد. به عنوان مثال کاربر می‌تواند از محیط عکس گرفته و آن را در اپلیکیشن آپلود کند و سپس درباره چیزهایی که در تصویر موجود بوده و جزئیاتی نظیر رنگ سوال پرسیده و پاسخ اپلیکیشن درباره سوال خود را بشنود. برای دسترسی به این اپلیکیشن اینجا را ببینید.

#lookout_app
#google
#accessibility

@dumannewsletter
به‌روزرسانی‌های گوگل بارد (جمینای)

- گوگل نام سرویس هوش‌مصنوعی بارد را به جمینای تغییر داد. سرویس بارد بعد از معرفی ChatGPT برای رقابت با آن معرفی شد ولی در آن زمان اقبال چندانی پیدا نکرد. پس از این ماجرا گوگل برای حفظ موقعیت خود در بازار مدل قدرتمندی به نام جمینای (Gemini) را منتشر کرد. سپس به مرور از نسخه Pro این مدل در سرویس بارد استفاده کرد و آن را برای ۴۰ زبان مختلف در ۲۳۰ کشور در دسترس قرار داد.
- نسخه Ultra مدل جمینای در دسترس قرار گرفت. مدل جمینای در سه نسخه Nano، Pro و Ultra معرفی شده بود ولی انتشار عمومی نسخه Ultra در آن زمان به بعد موکول شده بود. نسخه Nano برای تلفن همراه، نسخه Pro برای کاربردهای معمولی و نسخه Ultra برای کاربردهای پیچیده‌تر طراحی شده است. برای دسترسی به Ultra باید اشتراک ماهانه پرداخت کنید ولی Pro از اینجا در دسترس است.
- جمینای در تلفن‌های همراه آیفون و اندرویدی نیز در دسترس قرار گرفته است. برای نصب آن در اندروید به اینجا مراجعه کنید. در آیفون نیز طی روزهای آینده از طریق گوگل اپ در دسترس قرار خواهد گرفت.

👈 معرفی Gemini

#google
#gemini

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
نسخه Gemini Pro 1.5 معرفی شد.

نسخه 1.5 سرویس هوش‌مصنوعی گوگل با نام Gemini Pro به صورت محدود برای تست در دسترس عده محدودی از کاربران قرار گرفته است. این نسخه توانایی دریافت ۱ میلیون توکن را به عنوان ورودی دارد! (هر توکن را معادل یک لغت در نظر بگیرید). سایز ورودی مدل‌های هوش‌مصنوعی با عنوان سایز Context Window معرفی می‌شود. هر چقدر این مقدار بیشتر باشد، امکان دریافت ورودی‌های بزرگ نظیر یک کتاب قطور نیز برای آن فراهم می‌شود. قابل ذکر است که سایز Context Windows در آخرین نسخه مدل GPT-4 برابر ۱۲۸ هزار توکن است. ۱ میلیون توکن معادل یک ساعت ویدئو، ۱۱ ساعت صوت، بیش از ۳۰ هزار خط کد و بیش از ۷۰۰ هزار لغت است(منبع خبر)!

#gemini
#google

@dumannewsletter
معرفی مدل‌های اپن‌سورس Gemma توسط Google DeepMind

گوگل DeepMind مجموعه‌از مدل‌های سبک را با نام Gemma به صورت اپن‌سورس منتشر کرد. طبق گفته DeepMind این مدل با استفاده از تکنولوژی و نتایج تحقیقاتی جمینای (Gemini) توسعه داده شده است. در حال حاضر دو نسخه از این مدل زبانی کوچک (SLM) با سایزهای 2B و 7B منتشر شده است. هر سایز نیز در نسخه‌های Instruction Tuned (IT) و (PT) Pre Trained موجود است. طبق نتایج منتشر شده نسخه 7B در بنچ‌مارک‌های مختلف عملکرد بهتری از نسخه‌های 7B و 13B مدل Llama2 داشته است. مدل‌های Gemma را می‌توان در کامپیوتر شخصی به صورت لوکال اجرا کرده و مشکلی بابت منابع پردازشی نداشت.

👈 برای مطالعه ادامه مطلب اینجا را بخوانید.

#google
#deepmind
#gemma

@dumannewsletter
گوگل امکان تولید تصویر انسان در جمینای را برای مدتی غیر فعال کرد.
براساس تصاویر منتشر شده در شبکه‌های اجتماعی مدل Imagen گوگل که برای تولید تصاویر در جمینای مورد استفاده قرار می‌گرفته بیش از اندازه به diversity اهمیت داده و این موضوع باعث تولید تصاویر اشتباه از انسان در کشورها، برهه‌های زمانی و موقعیت‌های مختلف شده است. یکی از چالش‌های مدل‌های هوش‌مصنوعی بایاس بودن آن به موضوعاتی نظیر جنسیت و نژاد است به‌همین جهت برای جلوگیری از این بایاس‌ها تغییراتی در مدل داده می‌شود. اما همان‌طور که در تصاویر مشخص شده، در مورد گوگل این تغییرات بیش از اندازه بوده است. طبق اعلام گوگل، بعد از اصلاح این مشکل دوباره امکان تولید تصویر انسان در جمینای در دسترس قرار خواهد گرفت.

#google
#gemini

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
مدل جدید گوگل برای تولید بازی!

گوگل مدل جدیدی به نام Genie را برای تولید بازی ویدئویی تعاملی معرفی کرد. این مدل می‌تواند محیط جدیدی را خلق کرده که کاربر می‌تواند کاراکتر اصلی آن را حرکت داده و کنترل کند. این مدل، یک مدل پایه (Foundation Model) بوده که با ویدئوهای بدون لیبل آموزش داده شده است. در حال حاضر Genie به صورت عمومی در دسترس قرار نگرفته است. برای مطالعه جزئیات فنی اینجا را بخوانید.

#genie
#google

@dumannewsletter
گوگل DeepMind ایجنت هوش مصنوعی SIMA را برای بازی‌های ویدئویی معرفی کرد. این ایجنت تنها با دستورات متنی و تصاویر محیط روی بازی‌های مختلف آموزش داده شده و با بیش از ۱۵۰۰ تسک مختلف در دسته‌هایی نظیر جهت‌یابی، تعامل با اشیا و جمع‌آوری منابع مورد ارزیابی قرار گرفته است. طبق نتایج این ایجنت عملکرد مشابه انسان داشته است. از چنین مدل‌هایی می‌توان برای پیاده‌سازی NPC در بازی‌های ویدئویی استفاده کرد. حتی در آینده با فراهم شدن زیرساخت‌های مورد نیاز امکان تعامل ربات و انسان در محیط‌های واقعی نیز دور از انتظار نخواهد بود(منبع).

#deepmind
#google
#sima

@dumannewsletter
اپل در حال مذاکره با گوگل و مایکروسافت برای استفاده از مدل‌های هوش‌مصنوعی این دو کمپانی درتلفن‌های همراه آیفون است. قرار است از این مدل‌ها برای قابلیت‌های هوش‌مصنوعی مولد نظیر تولید متن، ویرایش تصاویر و ویدئوها استفاده شود. هنوز جزئیات بیشتری از این مذاکرات منتشر نشده است. گوگل و مایکروسافت در ماه‌های اخیر در رقابت تنگاتنگی بوده‌اند، همکاری هر کدام از این دو کمپانی با اپل برگ برنده‌ای در این رقابت خواهد بود. قابل ذکر است که گوگل اخیراً به خاطر قرارداد انحصاری موتور جستجوی پیش‌فرض در آیفون مورد انتقاد قرار گرفته و یک پرونده قضایی به خاطر انحصار علیه آن در جریان است (منبع).

#apple
#google
#microsoft

@dumannewsletter
معرفی مربی فوتبال توسط گوگل DeepMind

گوگل DeepMind مدل جدیدی به نام TacticAI را برای پیش‌بینی نتیجه کرنر در بازی فوتبال معرفی کرد. این مدل با همکاری باشگاه لیورپول توسعه داده شده است. در این مدل هر بازیکن به منزله یک نود در گراف بوده که با استفاده از Graph Neural Network براساس موقعیت بازیکن‌های هر دو تیم نتیجه کرنر را پیش‌بینی می‌کند (منبع).

#tacticai
#google
#deepmind

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
نسخه ۲ مدل Imagen گوگل DeepMind در آپدیت جدید می‌تواند متن را به ویدئوی کوتاه ۴ ثانیه‌ای تبدیل کند. این مدل از تکنولوژی Diffusion استفاده کرده و برای مشخص کردن محتوای تولید شده توسط AI از SynthID استفاده می‌کند (منبع).

#imagen
#google

@dumannewsletter
ساخت پردازنده‌‌های اختصاصی توسط کمپانی‌های بزرگ

با سودآوری حیرت‌انگیز کمپانی NVIDIA در موج هوش‌مصنوعی کمپانی‌های بزرگ تلاش‌ها برای ساخت پردازنده‌‌های اختصاصی را بیشتر کرده‌اند. در روزهای اخیر شاهد معرفی پردازنده ARM-based جدید توسط گوگل با نام Google Axion و نسخه جدید تراشه MTIA توسط متا بوده‌ایم. علاوه بر گوگل و متا کمپانی‌های بزرگ دیگری نظیر آمازون و IBM نیز در این زمینه در حال توسعه و پیشرفت هستند.

👈 برای آشنایی بیشتر با تراشه گوگل اینجا را بخوانید.
👈 برای آشنایی بیشتر با تراشه متا اینجا را بخوانید.

#meta
#google
#chip

@dumannewsletter
نسخه ۳ آلفافولد (AlphaFold) توسط گوگل DeepMind معرفی شد!

نسخه ۳ مدل‌ هوش‌‌مصنوعی AlphaFold با همکاری گوگل DeepMind و Isomorphic Labs توسعه داده شده است. این مدل برای پیش‌بینی ساختار مولکول‌های پروتئین، DNA، RNA و سایر اجزای بیولوژیکی سازنده حیات و نحوه تعامل آن‌ها به کار می‌رود. مهم‌ترین کاربرد این مدل کشف داروهای جدید و نحوه عملکرد آن بر روی انسان است. نسخه ۲ این مدل در سال ۲۰۲۰ معرفی شد و برای کشف واکسن مالاریا، داروهای سرطان و طراحی آنزیم مورد استفاده قرار گرفت. AlphaFold 3 از تمامی نمونه‌های مشابه عملکرد بهتر و دقیق‌تری دارد و از اینجا در دسترس محققان دنیا قرار گرفته است. گوگل نحوه استفاده از این مدل قدرتمند هوش‌مصنوعی را در قالب یک کورس در اینجا آموزش داده است. علاوه بر این، گوگل ساختار بیش از ۲۰۰ میلیون مولکول پروتئین را که با استفاده از پروژه AlphaFold استخراج شده به صورت رایگان در اینجا در دسترس عموم قرار داده است (منبع).

#google
#deepmind
#alphafold
#isomorphic_labs

@dumannewsletter
ویدئوهای تولید شده توسط مدل VideoFX گوگل

مدل VideoFX متن ورودی (prompt) را به ویدئوی کوتاه تبدیل می‌کند. این مدل رقیب نمونه‌های چون #pika و #sora است. برای قرار گرفتن در لیست انتظار آن اینجا را مشاهده کنید.

#google
#videofx

@dumannewsletter
Media is too big
VIEW IN TELEGRAM
حدود ده روز پیش گوگل در کنفرانس Google IO 24 مجموعه‌ای از محصولات و آپدیت‌های جدید خود در حوزه AI را معرفی کرد. مهم‌ترین نکات این کنفرانس عبارتند از:

- یکپارچه شدن جمینای با محصولات مختلف گوگل به خصوص سرچ
- افزایش Context Window جمینای از ۱.۵ میلیون توکن به ۲ میلیون توکن
- معرفی ایجنت هوش‌مصنوعی Project Astra: چند وجهی بودن و Context Window بزرگ دو ویژگی مهم جمینای برای فراهم کردن توسعه چنین ایجنت‌هایی است.
- معرفی نسخه Gemini 1.5 Flash: این نسخه نسبت به Pro سبک‌تر است و هدف از معرفی آن کاهش هزینه و افزایش سرعت بوده است.
- معرفی مدل Veo برای تولید ویدئو از متن
- معرفی نسل جدید پردازنده‌های تریلیوم
- اضافه شدن مدل PhaliGemma به مجموعه Gemma و معرفی نسخه ۲ مجموعه Gemma در ماه‌ ژوئن

#google

@dumannewsletter
دموی ایجنت‌ هوش‌مصنوعی Project Astra

این ایجنت هوش‌مصنوعی توسط گوگل DeepMind با استفاده از مدل‌های جمینای توسعه داده شده است. در این ویدئوها کار با این دستیار هوش‌مصنوعی با استفاده از عینک گوگل و تلفن همراه نمایش داده شده است. در یکی به حل مساله ریاضی کمک کرده و در دیگری به سوالات کاربر حول تصویر پاسخ می‌دهد (مشاهده نمونه‌های بیشتر).

#google
#deepmind
#project_astra

@dumannewsletter