This media is not supported in your browser
VIEW IN TELEGRAM
نسخه Gemini Pro 1.5 معرفی شد.
نسخه 1.5 سرویس هوشمصنوعی گوگل با نام Gemini Pro به صورت محدود برای تست در دسترس عده محدودی از کاربران قرار گرفته است. این نسخه توانایی دریافت ۱ میلیون توکن را به عنوان ورودی دارد! (هر توکن را معادل یک لغت در نظر بگیرید). سایز ورودی مدلهای هوشمصنوعی با عنوان سایز Context Window معرفی میشود. هر چقدر این مقدار بیشتر باشد، امکان دریافت ورودیهای بزرگ نظیر یک کتاب قطور نیز برای آن فراهم میشود. قابل ذکر است که سایز Context Windows در آخرین نسخه مدل GPT-4 برابر ۱۲۸ هزار توکن است. ۱ میلیون توکن معادل یک ساعت ویدئو، ۱۱ ساعت صوت، بیش از ۳۰ هزار خط کد و بیش از ۷۰۰ هزار لغت است(منبع خبر)!
#gemini
#google
@dumannewsletter
نسخه 1.5 سرویس هوشمصنوعی گوگل با نام Gemini Pro به صورت محدود برای تست در دسترس عده محدودی از کاربران قرار گرفته است. این نسخه توانایی دریافت ۱ میلیون توکن را به عنوان ورودی دارد! (هر توکن را معادل یک لغت در نظر بگیرید). سایز ورودی مدلهای هوشمصنوعی با عنوان سایز Context Window معرفی میشود. هر چقدر این مقدار بیشتر باشد، امکان دریافت ورودیهای بزرگ نظیر یک کتاب قطور نیز برای آن فراهم میشود. قابل ذکر است که سایز Context Windows در آخرین نسخه مدل GPT-4 برابر ۱۲۸ هزار توکن است. ۱ میلیون توکن معادل یک ساعت ویدئو، ۱۱ ساعت صوت، بیش از ۳۰ هزار خط کد و بیش از ۷۰۰ هزار لغت است(منبع خبر)!
#gemini
@dumannewsletter
Media is too big
VIEW IN TELEGRAM
معرفی مدل جدید OpenAI برای تولید ویدیو | معرفی Sora
مدل جدید OpenAI با نام Sora میتواند ویدئو با طول یک دقیقه تولید کند. ویدئوی تولید شده توسط Sora در تمام طول آن ضمن حفظ کیفیت از prompt کاربر تبعیت میکند. Sora فعلا برای تست و دریافت فیدبک در اختیار عده محدودی از کاربران قرار گرفته است. در این ویدئو میتوانید خروجیهای نمونه به همراه prompt هرکدام را مشاهده کنید (صوت ندارد). با وجود کیفیت فوقالعاده آن هنوز دارای ضعفهایی نیز هست. به عنوان مثال اثر یک اتفاق روی یک شی اعمال نمیشود (وقتی که به کوکی گاز زده میشود بدون تغییر باقی میماند) و یا مختصات فضایی نظیر چپ و راست را اشتباه میکند. Sora از مدل Diffusion و معماری ترنسفورمر استفاده میکند. علاوه بر ورودی متنی (text) میتواند با دریافت تصویر برای آن ویدئو خلق کرده و یا با اضافه کردن به طول یک ویدئو زمان آن را طولانیتر کند. در صورتی که به صورت عمومی در دسترس قرار بگیرد، متا دیتای C2PA همانند DALL.E در خروجیهای آن گنجانده خواهد شد تا جلوی سواستفاده از آن با نشر Deep Fake گرفته شود (منبع).
#openai
#sora
@dumannewsletter
مدل جدید OpenAI با نام Sora میتواند ویدئو با طول یک دقیقه تولید کند. ویدئوی تولید شده توسط Sora در تمام طول آن ضمن حفظ کیفیت از prompt کاربر تبعیت میکند. Sora فعلا برای تست و دریافت فیدبک در اختیار عده محدودی از کاربران قرار گرفته است. در این ویدئو میتوانید خروجیهای نمونه به همراه prompt هرکدام را مشاهده کنید (صوت ندارد). با وجود کیفیت فوقالعاده آن هنوز دارای ضعفهایی نیز هست. به عنوان مثال اثر یک اتفاق روی یک شی اعمال نمیشود (وقتی که به کوکی گاز زده میشود بدون تغییر باقی میماند) و یا مختصات فضایی نظیر چپ و راست را اشتباه میکند. Sora از مدل Diffusion و معماری ترنسفورمر استفاده میکند. علاوه بر ورودی متنی (text) میتواند با دریافت تصویر برای آن ویدئو خلق کرده و یا با اضافه کردن به طول یک ویدئو زمان آن را طولانیتر کند. در صورتی که به صورت عمومی در دسترس قرار بگیرد، متا دیتای C2PA همانند DALL.E در خروجیهای آن گنجانده خواهد شد تا جلوی سواستفاده از آن با نشر Deep Fake گرفته شود (منبع).
#openai
#sora
@dumannewsletter
Media is too big
VIEW IN TELEGRAM
معرفی عینک مخصوص نابینایان AiSee
محققان دانشگاه ملی سنگاپور (NUS) عینک جدیدی برای کمک به نابینایان طراحی کردهاند. این عینک که AiSee نام داشته از قابلیتهای هوشمصنوعی مولد برای کمک به نابینایان در کارهای روزمرهای چون خرید از فروشگاه استفاده میشود. در واقع این عینک با پردازش تصویر محیط جزئیات آن را از طریق هدفون به کاربر اعلام میکند، به این ترتیب شخص نابینا میتواند از محیط اطراف خود آگاه شود. همچنین کاربر میتواند درباره جزئیات تصویر نیز از آن سوال بپرسد. این گجت پوشیدنی علاوه بر دوربین و میکروفن دارای یک باطری کوچک نیز است.
#aisee
#accessibility
@dumannewsletter
محققان دانشگاه ملی سنگاپور (NUS) عینک جدیدی برای کمک به نابینایان طراحی کردهاند. این عینک که AiSee نام داشته از قابلیتهای هوشمصنوعی مولد برای کمک به نابینایان در کارهای روزمرهای چون خرید از فروشگاه استفاده میشود. در واقع این عینک با پردازش تصویر محیط جزئیات آن را از طریق هدفون به کاربر اعلام میکند، به این ترتیب شخص نابینا میتواند از محیط اطراف خود آگاه شود. همچنین کاربر میتواند درباره جزئیات تصویر نیز از آن سوال بپرسد. این گجت پوشیدنی علاوه بر دوربین و میکروفن دارای یک باطری کوچک نیز است.
#aisee
#accessibility
@dumannewsletter
شماره پانزدهم خبرنامه هوشمصنوعی دومان منتشر شد!
در این شماره میخوانید:
- مدل حیرتانگیز OpenAI برای تولید ویدئو 🎞
- ادامه مصاحبه بیلگیتس و سم آلتمن
- مصاحبه مدیرعامل NVIDIA و وزیر هوشمصنوعی امارات!
- اخبار جدید از رباتهای انساننما 🤖
- قابلیتهای هوشمصنوعی برای نابینایان
- اخبار و به روزرسانیهای جدید از Gen. AI
برای مطالعه شماره پانزدم به این لینک مراجعه کنید. اگر مایل به دریافت این خبرنامه در پستالکترونیک خود هستید از اینجا ثبتنام کنید. این خبرنامه هر دو هفته به پست الکترونیک شما ارسال خواهد شد.
#خبرنامه
@dumannewsletter
در این شماره میخوانید:
- مدل حیرتانگیز OpenAI برای تولید ویدئو 🎞
- ادامه مصاحبه بیلگیتس و سم آلتمن
- مصاحبه مدیرعامل NVIDIA و وزیر هوشمصنوعی امارات!
- اخبار جدید از رباتهای انساننما 🤖
- قابلیتهای هوشمصنوعی برای نابینایان
- اخبار و به روزرسانیهای جدید از Gen. AI
برای مطالعه شماره پانزدم به این لینک مراجعه کنید. اگر مایل به دریافت این خبرنامه در پستالکترونیک خود هستید از اینجا ثبتنام کنید. این خبرنامه هر دو هفته به پست الکترونیک شما ارسال خواهد شد.
#خبرنامه
@dumannewsletter
معرفی پرازندههای مخصوص مدلهای زبانی توسط Groq
استارتاپی به نام Groq پرازندههای مخصوص مدلهای زبانی را با عنوان Language Processing Unit یا به طور مختصر LPU معرفی کرده است. این پرازنده مخصوص مدلهای زبانی طراحی شده و از GPUهای ساخت NVIDIA نیز بسیار سریعتر هستند. تعدادی از اعضای این تیم قبلاً در توسعه پرازندههای TPU گوگل مشارکت داشتهاند. در این تصویر هزینه استفاده از زیرساختهای مشابه و سرعت هر کدام مقایسه شده است. همانطور که مشخص است Groq ضمن داشتن هزینه کمتر با سرعت حدود ۴۰۰ الی ۴۵۰ توکن در ثانیه از تمامی زیرساختهای موجود بهتر است.
#groq
#lpu
@dumannewsletter
استارتاپی به نام Groq پرازندههای مخصوص مدلهای زبانی را با عنوان Language Processing Unit یا به طور مختصر LPU معرفی کرده است. این پرازنده مخصوص مدلهای زبانی طراحی شده و از GPUهای ساخت NVIDIA نیز بسیار سریعتر هستند. تعدادی از اعضای این تیم قبلاً در توسعه پرازندههای TPU گوگل مشارکت داشتهاند. در این تصویر هزینه استفاده از زیرساختهای مشابه و سرعت هر کدام مقایسه شده است. همانطور که مشخص است Groq ضمن داشتن هزینه کمتر با سرعت حدود ۴۰۰ الی ۴۵۰ توکن در ثانیه از تمامی زیرساختهای موجود بهتر است.
#groq
#lpu
@dumannewsletter
معرفی مدلهای اپنسورس Gemma توسط Google DeepMind
گوگل DeepMind مجموعهاز مدلهای سبک را با نام Gemma به صورت اپنسورس منتشر کرد. طبق گفته DeepMind این مدل با استفاده از تکنولوژی و نتایج تحقیقاتی جمینای (Gemini) توسعه داده شده است. در حال حاضر دو نسخه از این مدل زبانی کوچک (SLM) با سایزهای 2B و 7B منتشر شده است. هر سایز نیز در نسخههای Instruction Tuned (IT) و (PT) Pre Trained موجود است. طبق نتایج منتشر شده نسخه 7B در بنچمارکهای مختلف عملکرد بهتری از نسخههای 7B و 13B مدل Llama2 داشته است. مدلهای Gemma را میتوان در کامپیوتر شخصی به صورت لوکال اجرا کرده و مشکلی بابت منابع پردازشی نداشت.
👈 برای مطالعه ادامه مطلب اینجا را بخوانید.
#google
#deepmind
#gemma
@dumannewsletter
گوگل DeepMind مجموعهاز مدلهای سبک را با نام Gemma به صورت اپنسورس منتشر کرد. طبق گفته DeepMind این مدل با استفاده از تکنولوژی و نتایج تحقیقاتی جمینای (Gemini) توسعه داده شده است. در حال حاضر دو نسخه از این مدل زبانی کوچک (SLM) با سایزهای 2B و 7B منتشر شده است. هر سایز نیز در نسخههای Instruction Tuned (IT) و (PT) Pre Trained موجود است. طبق نتایج منتشر شده نسخه 7B در بنچمارکهای مختلف عملکرد بهتری از نسخههای 7B و 13B مدل Llama2 داشته است. مدلهای Gemma را میتوان در کامپیوتر شخصی به صورت لوکال اجرا کرده و مشکلی بابت منابع پردازشی نداشت.
👈 برای مطالعه ادامه مطلب اینجا را بخوانید.
#deepmind
#gemma
@dumannewsletter
نسخه ۳ Stable Diffusion منتشر شد.
مدلهای Stable Diffusion توسط استارتاپ Stability AI توسعه داده شده است. این مدلها از معماری Diffusion برای تولید تصویر از متن استفاده میکنند. در حال حاضر نسخه ۳ آن به صورت عمومی در دسترس قرار نگرفته ولی میتوانید از اینجا در لیست انتظار ثبتنام کنید. مدلهای این نسخه در سایزهای مختلف از ۸۰۰ میلیون تا ۸ میلیارد پارامتر دارند. بهبود کیفیت تصویر و spelling درست متن در تصویر از جمله تغییرات این نسخه نسبت به نسخه قبلی است (منبع).
پرامپت استفاده شده برای تصویر جادوگر:
#stability_ai
#stable_diffusion
@dumannewsletter
مدلهای Stable Diffusion توسط استارتاپ Stability AI توسعه داده شده است. این مدلها از معماری Diffusion برای تولید تصویر از متن استفاده میکنند. در حال حاضر نسخه ۳ آن به صورت عمومی در دسترس قرار نگرفته ولی میتوانید از اینجا در لیست انتظار ثبتنام کنید. مدلهای این نسخه در سایزهای مختلف از ۸۰۰ میلیون تا ۸ میلیارد پارامتر دارند. بهبود کیفیت تصویر و spelling درست متن در تصویر از جمله تغییرات این نسخه نسبت به نسخه قبلی است (منبع).
پرامپت استفاده شده برای تصویر جادوگر:
Prompt: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy
#stability_ai
#stable_diffusion
@dumannewsletter
گوگل امکان تولید تصویر انسان در جمینای را برای مدتی غیر فعال کرد.
براساس تصاویر منتشر شده در شبکههای اجتماعی مدل Imagen گوگل که برای تولید تصاویر در جمینای مورد استفاده قرار میگرفته بیش از اندازه به diversity اهمیت داده و این موضوع باعث تولید تصاویر اشتباه از انسان در کشورها، برهههای زمانی و موقعیتهای مختلف شده است. یکی از چالشهای مدلهای هوشمصنوعی بایاس بودن آن به موضوعاتی نظیر جنسیت و نژاد است بههمین جهت برای جلوگیری از این بایاسها تغییراتی در مدل داده میشود. اما همانطور که در تصاویر مشخص شده، در مورد گوگل این تغییرات بیش از اندازه بوده است. طبق اعلام گوگل، بعد از اصلاح این مشکل دوباره امکان تولید تصویر انسان در جمینای در دسترس قرار خواهد گرفت.
#google
#gemini
@dumannewsletter
براساس تصاویر منتشر شده در شبکههای اجتماعی مدل Imagen گوگل که برای تولید تصاویر در جمینای مورد استفاده قرار میگرفته بیش از اندازه به diversity اهمیت داده و این موضوع باعث تولید تصاویر اشتباه از انسان در کشورها، برهههای زمانی و موقعیتهای مختلف شده است. یکی از چالشهای مدلهای هوشمصنوعی بایاس بودن آن به موضوعاتی نظیر جنسیت و نژاد است بههمین جهت برای جلوگیری از این بایاسها تغییراتی در مدل داده میشود. اما همانطور که در تصاویر مشخص شده، در مورد گوگل این تغییرات بیش از اندازه بوده است. طبق اعلام گوگل، بعد از اصلاح این مشکل دوباره امکان تولید تصویر انسان در جمینای در دسترس قرار خواهد گرفت.
#gemini
@dumannewsletter
مدلهای تولید موسیقی
با استفاده از مدلهای زیر میتوانید موسیقی موردنظر خود را شرح داده و خروجی تولید شده توسط آن را بشنوید.
1. MusicGen (Meta AI)
2. Stable Audio (Stability AI)
3. MusicFX (Google)
4. Suno
5. Udio
6. ElevenLabs (coming soon)
#musicgen
#stable_audio
#musicfx
#suno
#udio
#eleven_labs
@dumannewsletter
با استفاده از مدلهای زیر میتوانید موسیقی موردنظر خود را شرح داده و خروجی تولید شده توسط آن را بشنوید.
1. MusicGen (Meta AI)
2. Stable Audio (Stability AI)
3. MusicFX (Google)
4. Suno
5. Udio
6. ElevenLabs (coming soon)
#musicgen
#stable_audio
#musicfx
#suno
#udio
#eleven_labs
@dumannewsletter
سرمایهگذاری مایکروسافت در Mistral AI و انتشار مدل Mistral Large
مایکروسافت اعلام کرد که در استارتاپ فرانسوی Mistral AI سرمایهگذاری کرده و از این به بعد مدلهای زبانی این استارتاپ در پلتفرم ابری Azure نیز در دسترس قرار میگیرد. تنها حدود ۱۰ ماه از راهاندازی استارتاپ Mistral AI میگذرد و در این مدت ارزش آن به حدود ۲ میلیارد دلار رسیده است. همزمان با انتشار این خبر، Mistral مدل زبانی جدید خود با نام Mistral Large (یا Au Large) را نیز معرفی کرد. برخلاف مدلهای قبلی، این مدل اپنسورس نیست و تنها از طریق Azure و یا زیرساخت Mistral (به نام La Plateforme)در دسترس قرار گرفته است. طبق ادعای Mistral، مدل Mistral Large توانایی رقابت با GPT-4 را دارد و براساس بنچمارک معروف MMLU در جایگاه دوم پس از GPT-4 قرار میگیرد. این مدل جدید دارای Context Window به سایز ۳۲KB بوده و به زبانهای انگلیسی، آلمانی، فرانسوی، ایتالیایی و اسپانیایی مسلط است. در کنار این مدل، چتباتی به نام Le Chat نیز منتشر شده است. برای تست این چتبات از اینجا ثبتنام کنید (منبع).
#microsoft
#mistral_ai
#le_chat
@dumannewsletter
مایکروسافت اعلام کرد که در استارتاپ فرانسوی Mistral AI سرمایهگذاری کرده و از این به بعد مدلهای زبانی این استارتاپ در پلتفرم ابری Azure نیز در دسترس قرار میگیرد. تنها حدود ۱۰ ماه از راهاندازی استارتاپ Mistral AI میگذرد و در این مدت ارزش آن به حدود ۲ میلیارد دلار رسیده است. همزمان با انتشار این خبر، Mistral مدل زبانی جدید خود با نام Mistral Large (یا Au Large) را نیز معرفی کرد. برخلاف مدلهای قبلی، این مدل اپنسورس نیست و تنها از طریق Azure و یا زیرساخت Mistral (به نام La Plateforme)در دسترس قرار گرفته است. طبق ادعای Mistral، مدل Mistral Large توانایی رقابت با GPT-4 را دارد و براساس بنچمارک معروف MMLU در جایگاه دوم پس از GPT-4 قرار میگیرد. این مدل جدید دارای Context Window به سایز ۳۲KB بوده و به زبانهای انگلیسی، آلمانی، فرانسوی، ایتالیایی و اسپانیایی مسلط است. در کنار این مدل، چتباتی به نام Le Chat نیز منتشر شده است. برای تست این چتبات از اینجا ثبتنام کنید (منبع).
#microsoft
#mistral_ai
#le_chat
@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
دموی نتایج فریمورک Universal Manipulation Interface برای آموزش ربات براساس مشاهده رفتارهای انسان (مطالعه جزئیات فنی)
#robotics
#umi
@dumannewsletter
#robotics
#umi
@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
دموی آخرین وضعیت ربات انساننمای Figure
برت ادکاک (Brett Adcock) در یک ویدئوی جدید آخرین تواناییهای ربات Figure 01 را به نمایش گذاشت. اخیراً ارزش این استارتاپ با جذب ۶۷۵ میلیون دلار سرمایه از سمت جف بزوس، NVIDIA، مایکروسافت و OpenAI به ۲ میلیارد دلار رسید. اینتل و سامسونگ از دیگر سرمایهگذاران خرد Figure هستند. در حال حاضر از رباتهای Figure در بخشی از کارخانه BMW در خاک آمریکا به جای انسان استفاده میشود.
#figure
#robotics
@dumannewsletter
برت ادکاک (Brett Adcock) در یک ویدئوی جدید آخرین تواناییهای ربات Figure 01 را به نمایش گذاشت. اخیراً ارزش این استارتاپ با جذب ۶۷۵ میلیون دلار سرمایه از سمت جف بزوس، NVIDIA، مایکروسافت و OpenAI به ۲ میلیارد دلار رسید. اینتل و سامسونگ از دیگر سرمایهگذاران خرد Figure هستند. در حال حاضر از رباتهای Figure در بخشی از کارخانه BMW در خاک آمریکا به جای انسان استفاده میشود.
#figure
#robotics
@dumannewsletter
شرکت Qualcomm مجموعهای شامل بیش از ۷۰ مدل معروف هوشمصنوعی را برای پلتفرمهای خود به خصوص snapdragon بهینهسازی کرده و به صورت عمومی در HuggingFace منتشر کرده است. برای دسترسی به این مدلها اینجا را مشاهده کنید.
#qualcomm
@dumannewsletter
#qualcomm
@dumannewsletter
دوره Prompt نویسی برای مدل Llama با همکاری Meta AI در پلتفرم آموزشی DeepLearning.AI به صورت رایگان منتشر شد. این دوره حدود یک ساعت بوده و از اینجا میتوانید به آن دسترسی داشته باشید.
#llama
@dumannewsletter
#llama
@dumannewsletter
Media is too big
VIEW IN TELEGRAM
شرکت Adobe ابزار جدید خود برای تولید موسیقی را دمو کرد. با استفاده از این ابزار میتوان prompt ورودی را به موسیقی تبدیل کرد. همچنین کاربر میتواند علاوه بر ژانر، شدت و طول خروجی را کنترل کرده و یا به آن loop اضافه کند. هنوز این ابزار در دسترس عموم قرار نگرفته است. Adobe مجموعه ابزارهای مبتنی بر هوشمصنوعی مولد را تحت عنوان Firefly در ماههای اخیر منتشر کرده است (منبع).
👈 مشاهده ابزارهای Firefly
👈 معرفی ابزارهای تولید موسیقی با هوشمصنوعی
#adobe
#firefly
@dumannewsletter
👈 مشاهده ابزارهای Firefly
👈 معرفی ابزارهای تولید موسیقی با هوشمصنوعی
#adobe
#firefly
@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
دموی نسخه ۳ رباتانسان نمای Unitree H1
شرکت چینی Unitree Robotics در ویدئوی جدید قدرت و انعطاف ربات انساننمای خود را به نمایش گذاشت. طبق ادعای این کمپانی رکورد سرعت ربات انساننما توسط H1 شکسته شده است. رکورد قبلی ۲.۵ متر بر ثانیه بوده ولی این ربات میتواند با سرعت ۳.۳ متر بر ثانیه راه برود.
#unitree
#robotics
@dumannewsletter
شرکت چینی Unitree Robotics در ویدئوی جدید قدرت و انعطاف ربات انساننمای خود را به نمایش گذاشت. طبق ادعای این کمپانی رکورد سرعت ربات انساننما توسط H1 شکسته شده است. رکورد قبلی ۲.۵ متر بر ثانیه بوده ولی این ربات میتواند با سرعت ۳.۳ متر بر ثانیه راه برود.
#unitree
#robotics
@dumannewsletter