خبرنامه هوش مصنوعی دومان
711 subscribers
259 photos
178 videos
2 files
301 links
ابزار، نوآوری‌ها و اخبار هوش مصنوعی و رباتیک

📌 ارتباط با من:

dumannewsletter@gmail.com

📌 لینک Boost کانال:

https://t.me/dumannewsletter?boost

📌 آرشیو وبسایت (به روز نمی‌شود):

duman.pouyae.ir

#هوش_مصنوعی
#رباتیک
Download Telegram
به روزرسانی‌های جدید ElevenLabs

- محصول Speech to Speech استارتاپ ElevenLabs اکنون ۲۹ زبان مختلف را پشتیبانی می‌کند. با استفاده از این قابلیت می‌توانید صدای ضبط شده خود را به لحن‌ها و کاراکترهای مختلف تبدیل کنید (برای تست اینجا را نگاه کنید).

- همانطور که وعده داده شده بود، از این به بعد کاربران می‌توانند کلون صدای خود را برای کسب درآمد در این پلتفرم منتشر کنند. برای اینکار باید فایل صوتی حداقل ۳۰ دقیقه‌ای در VoiceLab آپلود کرد. این فایل‌های صوتی در ElevenLabs Voice Library منتشر شده و در اختیار کاربران دیگر قرار می‌گیرد. در صورت استفاده از آن، سهم صاحب صدا پرداخت خواهد شد.

#eleven_labs

@dumannewsletter
گروه‌های معترض به فعالیت‌های OpenAI در توسعه AGI و همکاری با پنتاگون مقابل دفتر این کمپانی در لس‌آنجلس جمع شده و اعتراض خود را بیان کردند (منبع خبر).

#openai

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
پیام دیکتاتور سابق اندونزی از قبر!

اخیراً یک ویدئوی ساختگی از دیکتاتور سابق اندونزی به نام Suharto در شبکه‌های اجتماعی منتشر شده که توجه زیادی را به خود جلب کرده است. این ویدئو با صدا و تصویر Suharto در حمایت از یکی از کاندیداهای ریاست جمهوری این کشور ساخته شده است. Suharto در سال ۲۰۰۸ فوت کرده است! استفاده از هوش‌مصنوعی برای تولید DeepFake یکی از نگرانی‌های جدی سیاست‌مداران در سال‌های اخیر بوده است. از DeepFake برای انتشار اطلاعات اشتباه و دستکاری افکار عمومی استفاده می‌شود. پیشرفت‌های هوش‌مصنوعی مولد در سال‌های اخیر تولید DeepFake را بسیار ساده‌تر و در دسترس‌تر کرده است.
(منبع خبر)

#deep_fake

@dumannewsletter
مصاحبه بیل گیتس با سم آلتمن (بخش دوم)

در ادامه مصاحبه بیل‌گیتس با سم آلتمن در پادکست Unconfuse Me with Bill Gates درباره رباتیک، کاهش هزینه‌های سیستم‌های هوش‌مصنوعی و OpenAI صحبت شد. قبل از مطالعه این پست، قسمت اول آن را بخوانید.

👈 بخش اول
👈 بخش دوم

#bill_gates
#sam_altman

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
مصاحبه وزیر هوش‌مصنوعی امارات با جنسن هوانگ مدیرعامل NVIDIA

امارات متحده عربی از سال ۲۰۱۳ با راه اندازی World Governments Summit همایشی برای گردهم‌آیی رهبران سیاسی، اقتصادی و اجتماعی از سراسر دنیا فراهم کرده است. این اجلاس امسال از ۱۲ام تا ۱۴ام فوریه مانند سال‌های قبل در دوبی برگزار شد. مصاحبه وزیر هوش‌مصنوعی امارات عمر العلماء (Omar Al Olama) با افراد به نامی چون سم آلتمن (Sam Altman) مدیرعامل OpenAI و جنسن هوانگ (Jensen Huang) مدیرعامل NVIDIA این اجلاس را در کانون توجه قرار داد. در ادامه این مقاله، خلاصه نکات مهم این مصاحبه‌ با جنسن هوانگ ارائه می‌شود. جنسن هوانگ موسس و مدیرعامل تایوانی شرکت NVIDIA است که پیشرفته‌ترین پرازنده‌های گرافیکی هوش‌مصنوعی را تولید می‌کند. به لطف ترند شدن هوش‌مصنوعی در چند سال اخیر ارزش این کمپانی پیوسته افزایش پیدا کرده و در حال حاضر حدوداً به ۱.۸ تریلیون دلار رسیده است.

👈 مطالعه جزئیات بیشتر

#nvidia
#uae
#jensen_huang

@dumannewsletter
بازار سرمایه در سیطره هوش‌مصنوعی

طی روزهای گذشته ارزش کمپانی NVIDIA از شرکت‌های آلفابت (گوگل) و آمازون نیز فراتر رفت. تراشه‌های قدرتمند NVIDIA زیرساخت توسعه بسیاری از مدل‌های هوش‌مصنوعی پیشرفته است، همین موضوع منجر به رشد ارزش سهام این کمپانی در ماه‌های گذشته شده است. قابل ذکر است که ارزش مایکروسافت نیز از اپل پیشی گرفته و در حال حاضر تنها کمپانی دنیاست که بیشتر از ۳ تریلیون دلار ارزش دارد. یکی از دلایل این رشد سرمایه‌گذاری مایکروسافت در هوش‌مصنوعی بوده است. همچنین در لیست ده کمپانی با ارزش دنیا نام شرکت تایوانی TSMC نیز در رتبه دهم دیده می‌شود. این کمپانی نیز پیشرفته‌ترین تولید کننده Foundry تراشه در دنیاست (مشاهده آنلاین Market Cap).

مطالعه این مقالات پیشنهاد می‌شود:

👈 جنگ تراشه
👈 جولان NVIDIA در موج هوش‌مصنوعی

#nvidia
#tsmc
#microsoft

@dumannewsletter
This media is not supported in your browser
VIEW IN TELEGRAM
نسخه Gemini Pro 1.5 معرفی شد.

نسخه 1.5 سرویس هوش‌مصنوعی گوگل با نام Gemini Pro به صورت محدود برای تست در دسترس عده محدودی از کاربران قرار گرفته است. این نسخه توانایی دریافت ۱ میلیون توکن را به عنوان ورودی دارد! (هر توکن را معادل یک لغت در نظر بگیرید). سایز ورودی مدل‌های هوش‌مصنوعی با عنوان سایز Context Window معرفی می‌شود. هر چقدر این مقدار بیشتر باشد، امکان دریافت ورودی‌های بزرگ نظیر یک کتاب قطور نیز برای آن فراهم می‌شود. قابل ذکر است که سایز Context Windows در آخرین نسخه مدل GPT-4 برابر ۱۲۸ هزار توکن است. ۱ میلیون توکن معادل یک ساعت ویدئو، ۱۱ ساعت صوت، بیش از ۳۰ هزار خط کد و بیش از ۷۰۰ هزار لغت است(منبع خبر)!

#gemini
#google

@dumannewsletter
Media is too big
VIEW IN TELEGRAM
معرفی مدل جدید OpenAI برای تولید ویدیو | معرفی Sora

مدل جدید OpenAI با نام Sora می‌تواند ویدئو با طول یک دقیقه تولید کند. ویدئوی تولید شده توسط Sora در تمام طول آن ضمن حفظ کیفیت از prompt کاربر تبعیت می‌کند. Sora فعلا برای تست و دریافت فیدبک در اختیار عده محدودی از کاربران قرار گرفته است. در این ویدئو می‌توانید خروجی‌های نمونه به همراه prompt هرکدام را مشاهده کنید (صوت ندارد). با وجود کیفیت فوق‌العاده آن هنوز دارای ضعف‌هایی نیز هست. به عنوان مثال اثر یک اتفاق روی یک شی اعمال نمی‌شود (وقتی که به کوکی گاز زده می‌شود بدون تغییر باقی می‌ماند) و یا مختصات فضایی نظیر چپ و راست را اشتباه می‌کند. Sora از مدل Diffusion و معماری ترنسفورمر استفاده می‌کند. علاوه بر ورودی متنی (text) می‌تواند با دریافت تصویر برای آن ویدئو خلق کرده و یا با اضافه کردن به طول یک ویدئو زمان آن را طولانی‌تر کند. در صورتی که به صورت عمومی در دسترس قرار بگیرد، متا دیتای C2PA همانند DALL.E در خروجی‌های آن گنجانده خواهد شد تا جلوی سواستفاده از آن با نشر Deep Fake گرفته شود (منبع).

#openai
#sora

@dumannewsletter
Media is too big
VIEW IN TELEGRAM
معرفی عینک مخصوص نابینایان AiSee

محققان دانشگاه ملی سنگاپور (NUS) عینک جدیدی برای کمک به نابینایان طراحی کرده‌اند. این عینک که AiSee نام داشته از قابلیت‌های هوش‌مصنوعی مولد برای کمک به نابینایان در کارهای روزمره‌ای چون خرید از فروشگاه استفاده می‌شود. در واقع این عینک با پردازش تصویر محیط جزئیات آن را از طریق هدفون به کاربر اعلام می‌کند، به این ترتیب شخص نابینا می‌تواند از محیط اطراف خود آگاه شود. همچنین کاربر می‌تواند درباره جزئیات تصویر نیز از آن سوال بپرسد. این گجت پوشیدنی علاوه بر دوربین و میکروفن دارای یک باطری کوچک نیز است.

#aisee
#accessibility

@dumannewsletter
شماره پانزدهم خبرنامه هوش‌مصنوعی دومان منتشر شد!

در این شماره می‌‌خوانید:

- مدل حیرت‌انگیز OpenAI برای تولید ویدئو 🎞
- ادامه مصاحبه بیل‌گیتس و سم آلتمن
- مصاحبه مدیرعامل NVIDIA و وزیر هوش‌مصنوعی امارات!
- اخبار جدید از ربات‌های انسان‌نما 🤖
- قابلیت‌های هوش‌مصنوعی برای نابینایان
- اخبار و به روزرسانی‌های جدید از Gen. AI

برای مطالعه شماره پانزدم به این لینک مراجعه کنید. اگر مایل به دریافت این خبرنامه در پست‌الکترونیک خود هستید از اینجا ثبت‌نام کنید. این خبرنامه هر دو هفته به پست الکترونیک شما ارسال خواهد شد.

#خبرنامه

@dumannewsletter
معرفی پرازنده‌های مخصوص مدل‌های زبانی توسط Groq

استارتاپی به نام Groq پرازنده‌های مخصوص مدل‌های زبانی را با عنوان Language Processing Unit یا به طور مختصر LPU معرفی کرده است. این پرازنده مخصوص مدل‌های زبانی طراحی شده و از GPUهای ساخت NVIDIA نیز بسیار سریع‌تر هستند. تعدادی از اعضای این تیم قبلاً در توسعه پرازنده‌های TPU گوگل مشارکت داشته‌اند. در این تصویر هزینه استفاده از زیرساخت‌های مشابه و سرعت هر کدام مقایسه شده است. همانطور که مشخص است Groq ضمن داشتن هزینه کمتر با سرعت حدود ۴۰۰ الی ۴۵۰ توکن در ثانیه از تمامی زیرساخت‌های موجود بهتر است.

#groq
#lpu

@dumannewsletter
معرفی مدل‌های اپن‌سورس Gemma توسط Google DeepMind

گوگل DeepMind مجموعه‌از مدل‌های سبک را با نام Gemma به صورت اپن‌سورس منتشر کرد. طبق گفته DeepMind این مدل با استفاده از تکنولوژی و نتایج تحقیقاتی جمینای (Gemini) توسعه داده شده است. در حال حاضر دو نسخه از این مدل زبانی کوچک (SLM) با سایزهای 2B و 7B منتشر شده است. هر سایز نیز در نسخه‌های Instruction Tuned (IT) و (PT) Pre Trained موجود است. طبق نتایج منتشر شده نسخه 7B در بنچ‌مارک‌های مختلف عملکرد بهتری از نسخه‌های 7B و 13B مدل Llama2 داشته است. مدل‌های Gemma را می‌توان در کامپیوتر شخصی به صورت لوکال اجرا کرده و مشکلی بابت منابع پردازشی نداشت.

👈 برای مطالعه ادامه مطلب اینجا را بخوانید.

#google
#deepmind
#gemma

@dumannewsletter
نسخه ۳ Stable Diffusion منتشر شد.

مدل‌های Stable Diffusion توسط استارتاپ Stability AI توسعه داده شده است. این مدل‌ها از معماری Diffusion برای تولید تصویر از متن استفاده می‌کنند. در حال حاضر نسخه ۳ آن به صورت عمومی در دسترس قرار نگرفته ولی می‌توانید از اینجا در لیست انتظار ثبت‌نام کنید. مدل‌های این نسخه در سایزهای‌ مختلف از ۸۰۰ میلیون تا ۸ میلیارد پارامتر دارند. بهبود کیفیت تصویر و spelling درست متن در تصویر از جمله تغییرات این نسخه نسبت به نسخه قبلی است (منبع).
پرامپت استفاده شده برای تصویر جادوگر:

Prompt: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy

#stability_ai
#stable_diffusion

@dumannewsletter
گوگل امکان تولید تصویر انسان در جمینای را برای مدتی غیر فعال کرد.
براساس تصاویر منتشر شده در شبکه‌های اجتماعی مدل Imagen گوگل که برای تولید تصاویر در جمینای مورد استفاده قرار می‌گرفته بیش از اندازه به diversity اهمیت داده و این موضوع باعث تولید تصاویر اشتباه از انسان در کشورها، برهه‌های زمانی و موقعیت‌های مختلف شده است. یکی از چالش‌های مدل‌های هوش‌مصنوعی بایاس بودن آن به موضوعاتی نظیر جنسیت و نژاد است به‌همین جهت برای جلوگیری از این بایاس‌ها تغییراتی در مدل داده می‌شود. اما همان‌طور که در تصاویر مشخص شده، در مورد گوگل این تغییرات بیش از اندازه بوده است. طبق اعلام گوگل، بعد از اصلاح این مشکل دوباره امکان تولید تصویر انسان در جمینای در دسترس قرار خواهد گرفت.

#google
#gemini

@dumannewsletter