خبر خوب برای کارکنان مرکز تماس:
تلطیف صدای تماس گیرندگان خشمگین با هوش مصنوعی(😡==>😘)
تیم SoftBank فناوری توسعه داده که خلق و خوی مشتریان را تشخیص داده و در صورت لزوم از شدت خشم و فریاد آنها کاسته و صدای تلطیف شده را برای اپراتور پخش میکند و به اپراتورها کمک می کند تا استرس نگیره و ناراحت نشه :)
چقدر مهربون!
https://www.reuters.com/technology/softbank-corp-aims-help-call-centre-workers-by-softening-angry-customer-calls-2024-05-16/
تلطیف صدای تماس گیرندگان خشمگین با هوش مصنوعی(😡==>😘)
تیم SoftBank فناوری توسعه داده که خلق و خوی مشتریان را تشخیص داده و در صورت لزوم از شدت خشم و فریاد آنها کاسته و صدای تلطیف شده را برای اپراتور پخش میکند و به اپراتورها کمک می کند تا استرس نگیره و ناراحت نشه :)
چقدر مهربون!
https://www.reuters.com/technology/softbank-corp-aims-help-call-centre-workers-by-softening-angry-customer-calls-2024-05-16/
این ویدیو یه صحبت با جفری هینتون است:
https://youtu.be/tP-4njhyGvo
خلاصه:
آقای هینتون اول دنبال فهمیدن کارکرد مغز بود ولی از یافتههای علوم اعصاب ناامید شد.
به یادگیری با الگوریتم بیشتر علاقه پیدا کرد و سراغ هوش مصنوعی رفت.
درباره همکاری با افراد دیگه تو این زمینه صحبت میکنه.
فکر میکنه مدلهای زبان بزرگ فقط کلمه بعدی رو حدس نمیزنن بلکه معنی کل جمله رو درک میکنن.
به این اشاره میکنه که این مدلها شاید حتی از فهم انسان هم فراتر برن.
روش فعلی آموزش هوش مصنوعی با حجم زیادی از اطلاعات رو تایید میکنه ولی میگه شاید الگوریتمهای یادگیری دیگری هم باشن که موفق باشن.
در آخر، باحالترین دستاورد پژوهشی خودش رو کارش با Sejnowski میدونه.
https://youtu.be/tP-4njhyGvo
خلاصه:
آقای هینتون اول دنبال فهمیدن کارکرد مغز بود ولی از یافتههای علوم اعصاب ناامید شد.
به یادگیری با الگوریتم بیشتر علاقه پیدا کرد و سراغ هوش مصنوعی رفت.
درباره همکاری با افراد دیگه تو این زمینه صحبت میکنه.
فکر میکنه مدلهای زبان بزرگ فقط کلمه بعدی رو حدس نمیزنن بلکه معنی کل جمله رو درک میکنن.
به این اشاره میکنه که این مدلها شاید حتی از فهم انسان هم فراتر برن.
روش فعلی آموزش هوش مصنوعی با حجم زیادی از اطلاعات رو تایید میکنه ولی میگه شاید الگوریتمهای یادگیری دیگری هم باشن که موفق باشن.
در آخر، باحالترین دستاورد پژوهشی خودش رو کارش با Sejnowski میدونه.
YouTube
Geoffrey Hinton | On working with Ilya, choosing problems, and the power of intuition
This conversation between Geoffrey Hinton and Joel Hellermark was recorded in April 2024 at the Royal Institute of Great Britain in London. An edited version was premiered at Sana AI Summit on May 15 2024 in Stockholm, Sweden.
Geoffrey Hinton has been called…
Geoffrey Hinton has been called…
Media is too big
VIEW IN TELEGRAM
به نظرتون این دموها واقعیه یا ...؟
Large language models with Keras
https://www.youtube.com/watch?v=TV7qCk1dBWA
https://www.youtube.com/watch?v=TV7qCk1dBWA
YouTube
Large language models with Keras
The latest Keras 3 machine learning framework lets you write and run your code in JAX, Pytorch, or Tensorflow. Learn about Gemma, the large language model family of open models from Google. We will teach you basic and advanced LLM workflows, including chat…
Forwarded from School of AI
This media is not supported in your browser
VIEW IN TELEGRAM
پژوهشگران دانشگاه میشیگان، یک Diffusion Model معرفی کردهاند که با دریافت یک پرامپت متنی برای صوت (در کنار تصویر)، صدا نیز تولید میکند.
این مدل در واقع به صدا نیز به شکل تصویر نگاه کرده (spectrograms) و آن را میسازد.
مقاله:
arxiv.org/pdf/2405.12221
بلاگپُست:
ificl.github.io/images-that-sound
گیتهاب:
github.com/IFICL/images-that-sound
این مدل در واقع به صدا نیز به شکل تصویر نگاه کرده (spectrograms) و آن را میسازد.
مقاله:
arxiv.org/pdf/2405.12221
بلاگپُست:
ificl.github.io/images-that-sound
گیتهاب:
github.com/IFICL/images-that-sound
Forwarded from School of AI
شرکت OpenAI محبوبترین صدای ChatGPT موسوم به Sky را که در دموهای چند روز پیش این شرکت وجود داشت، حذف کرد.
این صدا، الهامگرفتهشده از صدای هوش مصنوعی سامانثا در فیلم Her بود که به علت شباهت زیاد به صدای اسکارلت جانسون (صداپیشهی این فیلم) و نارضایتی وی، حذف شد.
https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/
این صدا، الهامگرفتهشده از صدای هوش مصنوعی سامانثا در فیلم Her بود که به علت شباهت زیاد به صدای اسکارلت جانسون (صداپیشهی این فیلم) و نارضایتی وی، حذف شد.
https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/
Forwarded from School of AI
همونطور که میدونید، بهتازگی مدلهای چندوجهی (Multimodal Models) و بهطور خاص مدلهای بینایی-زبان (Vision-Language Models) بسیار محبوب شدهاند.
این مدلها معمولا بهطور همزمان یک تصویر و یک نوشتار را در ورودی دریافت میکنند. خروجی این مدلها ممکنست تنها نوشتار باشد، تنها تصویر باشد و یا ترکیبی از هر دو.
از مدلهای تجاری مثل GPT-4o و Gemini 1.5 Pro که بگذریم، بسیاری از افراد مایلاند از مدلهای اوپن-سورس و رایگان استفاده کنند.
بهتازگی شاهد انتشار مدل PaliGemma توسط گوگل بودیم که در عین سادگی، عملکرد فوقالعادهای دارد. با این حال، این مدل ۸ میلیارد پارامتر دارد و ممکنست برای اجرا روی دستگاههای ضعیف مناسب نباشد.
گزینهی دیگر Moondream2 است که با اینکه دقت PaliGemma را ندارد اما بهنسبت سایز بسیار کوچک آن (۱/۸۶ میلیارد پارامتر) دقت قابل قبولی دارد و حتی در آزمون VQAv2 از GPT-4o هم بهتر عمل میکند.
لینک آموزشی زیر، این مدل را برای شمارش مبلغ پول فاینتیون میکند.
https://blog.roboflow.com/finetuning-moondream2/
این مدلها معمولا بهطور همزمان یک تصویر و یک نوشتار را در ورودی دریافت میکنند. خروجی این مدلها ممکنست تنها نوشتار باشد، تنها تصویر باشد و یا ترکیبی از هر دو.
از مدلهای تجاری مثل GPT-4o و Gemini 1.5 Pro که بگذریم، بسیاری از افراد مایلاند از مدلهای اوپن-سورس و رایگان استفاده کنند.
بهتازگی شاهد انتشار مدل PaliGemma توسط گوگل بودیم که در عین سادگی، عملکرد فوقالعادهای دارد. با این حال، این مدل ۸ میلیارد پارامتر دارد و ممکنست برای اجرا روی دستگاههای ضعیف مناسب نباشد.
گزینهی دیگر Moondream2 است که با اینکه دقت PaliGemma را ندارد اما بهنسبت سایز بسیار کوچک آن (۱/۸۶ میلیارد پارامتر) دقت قابل قبولی دارد و حتی در آزمون VQAv2 از GPT-4o هم بهتر عمل میکند.
لینک آموزشی زیر، این مدل را برای شمارش مبلغ پول فاینتیون میکند.
https://blog.roboflow.com/finetuning-moondream2/
📷 ویندوز ۱۱ در بهروزرسانی جدید خود پشتیبانی کاملی از فایلهای 7Zip و TAR را بدون نیاز به نصب برنامه فراهم کرده
blogs.windows.com/windows-insider/2024/05/17/announcing-windows-11-insider-preview-build-22635-3640-beta-channel
blogs.windows.com/windows-insider/2024/05/17/announcing-windows-11-insider-preview-build-22635-3640-beta-channel
Forwarded from School of AI
شاید شنیده باشید که در هنگام آموزش شبکههای عصبی، وقتی اندازهی batch ها را x برابر میکنید، بهترست نرخ آموزش را نیز x برابر (اگر الگوریتم آموزش SGD است) و یا x√ برابر (اگر الگوریتم آموزش Adam است) کنید.
مثلا در LLM ها که بیشتر از الگوریتم آموزشی Adam استفاده میشود، اندازهی batch ها را تا حدی که GPU شما خطای Out_Of_Memory نمیدهد (به صورت توانی از ۲) افزایش دهید. هر بار که اندازه batch را ۲ برابر میکنید، نرخ آموزش را ۱/۴ برابر کنید.
این مقالهی جالب از دانشگاه پرینستون، به کمک معادلات دیفرانسیل تصادفی، الگوی کارایی برای تغییر هایپرپارامترها (مثل learning rate) با افزایش batch size ارائه میدهد.
https://www.cs.princeton.edu/~smalladi/blog/2024/01/22/SDEs-ScalingRules/
پینوشت:
معمولا در عمل، نرخ آموزش هرچقدر هم که باشد، در طی epoch ها، ابتدا از 0.1 نرخ آموزش شروع کرده و در ده درصد ابتدایی مسیر آموزش، این نرخ را بهصورت خطی زیاد کرده تا وقتی ده درصد epoch ها طی شد، به نرخ اصلی رسیده باشیم. از آنجا به بعد (۹۰ درصد باقی epoch ها) نرخ آموزش بهصورت کسینوسی کم میشود.
مثلا در LLM ها که بیشتر از الگوریتم آموزشی Adam استفاده میشود، اندازهی batch ها را تا حدی که GPU شما خطای Out_Of_Memory نمیدهد (به صورت توانی از ۲) افزایش دهید. هر بار که اندازه batch را ۲ برابر میکنید، نرخ آموزش را ۱/۴ برابر کنید.
این مقالهی جالب از دانشگاه پرینستون، به کمک معادلات دیفرانسیل تصادفی، الگوی کارایی برای تغییر هایپرپارامترها (مثل learning rate) با افزایش batch size ارائه میدهد.
https://www.cs.princeton.edu/~smalladi/blog/2024/01/22/SDEs-ScalingRules/
پینوشت:
معمولا در عمل، نرخ آموزش هرچقدر هم که باشد، در طی epoch ها، ابتدا از 0.1 نرخ آموزش شروع کرده و در ده درصد ابتدایی مسیر آموزش، این نرخ را بهصورت خطی زیاد کرده تا وقتی ده درصد epoch ها طی شد، به نرخ اصلی رسیده باشیم. از آنجا به بعد (۹۰ درصد باقی epoch ها) نرخ آموزش بهصورت کسینوسی کم میشود.
Forwarded from School of AI
یکی دیگه از VLM ها که بهتازگی توسط HuggingFace معرفی شده، Idefics2 است.
این مدل نیز مانند PaliGemma هشت میلیارد پارامتر دارد.
قابلیت دریافت دنبالهای از تصاویر (مثلا تکهای از یک ویدئو) را دارد.
تصاویر با رزولوشن و aspect ratio خودشان پردازش میشوند.
قابلیت OCR بسیار خوبی دارد.
تحت مجوز Apache 2.0 منتشر شده و استفاده از آن برای هر منظوری بلامانعست.
بلاگپست معرفی:
https://huggingface.co/blog/idefics2
مقاله:
https://arxiv.org/pdf/2405.02246
مستندات:
https://huggingface.co/docs/transformers/main/en/model_doc/idefics2
فاینتیون کردن برای استخراج اطلاعات از قبض:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb
این مدل نیز مانند PaliGemma هشت میلیارد پارامتر دارد.
قابلیت دریافت دنبالهای از تصاویر (مثلا تکهای از یک ویدئو) را دارد.
تصاویر با رزولوشن و aspect ratio خودشان پردازش میشوند.
قابلیت OCR بسیار خوبی دارد.
تحت مجوز Apache 2.0 منتشر شده و استفاده از آن برای هر منظوری بلامانعست.
بلاگپست معرفی:
https://huggingface.co/blog/idefics2
مقاله:
https://arxiv.org/pdf/2405.02246
مستندات:
https://huggingface.co/docs/transformers/main/en/model_doc/idefics2
فاینتیون کردن برای استخراج اطلاعات از قبض:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb
مدل YOLOv10 منتشر شد!🔥
مقاله :
https://arxiv.org/pdf/2405.14458
گیتهاب :
https://github.com/THU-MIG/yolov10/
مقاله :
https://arxiv.org/pdf/2405.14458
گیتهاب :
https://github.com/THU-MIG/yolov10/
Forwarded from کلاس ویژن: یادگیری عمیق و بینایی کامپیوتر
📢500.000 تومان تخفیف ویژه تا 18 خرداد برای دورهی جامع یادگیری عمیق:🎉
کد تخفیف:
——
https://t.me/class_vision/665
کد تخفیف:
jame_feugy
——
https://t.me/class_vision/665
Telegram
کلاس ویژن: یادگیری عمیق و بینایی کامپیوتر
Forwarded from School of AI
واژهی AI Agent (عامل هوشمصنوعی) واژهایست که علاقهمندان به AI این روزها زیاد باهاش روبهرو میشن. بنابراین در این پست به توضیح این مفهوم میپردازیم.
این مفهوم جدید نیست و پیشتر با عنوان Intelligent Agent در هوش مصنوعی بررسی میشد. اخیرا این مفهوم شکل و شمایل مدرنتری به خود گرفته و تحت نام AI Agent پوستاندازی کردهست.
در تعریف قدیمی، Intelligent Agent سامانهای (نرمافزاری یا سختافزاری یا ترکیبی) است که محیط (Environment) پیرامون خود را از طریق حسگرها (Sensors) ها، مشاهده و درک کرده (Perception)، بر اساس یک هدفی که برای او تعریف شده (Agent Goal) و اجرای یک برنامهی تصمیمگیری (Agent Function) عملی (Action) را از میان اعمال ممکن انتخاب کرده و توسط عملگرهای خود (Actuators) آن عمل را در محیط انجام میدهد. انجام آن عمل در محیط، وضعیت (State) را تغییر داده و تمامی این مراحل در یک حلقه، تکرار میشوند تا درنهایت عامل به هدف خود برسد.
این مفهوم، از ابتدا یک ایدهی مناسب برای مدلکردن سامانههای هوشمند مثل انواع روباتها، اتومبیلهای خودران، برنامههای هوش مصنوعی و … بود.
با پیدایش مدلهای بنیادین مثل LLM ها، دنیای نرمافزار هم دچار انقلاب شده و علاقه به توسعهی نرمافزارها، سرویسها و دستیارهای هوشمند و خودمختار افزایش یافتهست.
در توسعهی نرمافزار کلاسیک، همهیکارها روی دوش توسعهدهنده است، توسعهدهنده، هدف برنامه رو مشخص میکند، این هدف رو به تعدادی task کوچکتر میشکند، خروجی هر task را مشخص میکند و منطق ترتیب انتخاب task ها را در برنامه مینویسد.
با همهگیرشدن LLMها، خیلی از برنامهها LLM-powered شدند، در این برنامهها همچنان توسعهدهنده هدف برنامه رو مشخص میکند، این هدف رو به تعدادی task کوچکتر میشکند و منطق ترتیب انتخاب task ها را در برنامه مینویسد. اما خروجی هر task بر اساس یک پرامپت ورودی به یک LLM به دست میآید.
این سبک طراحی و توسعهی محصول، خیلی سریع جای خود رو به RAG-based application ها داد. در اپلیکیشنهای RAG، برای یافتن خروجی هر task فقط به دانشی که LLM موقع آموزش دیدهست بسنده نمیشود و دانش بهروزتر و کاملتری همراه با پرامپت به LLM داده میشود تا با توجه به آن دانش، خروجی task را مشخص کند.
با افزایش توان استدلال LLM ها، منطق اجرایی برنامهها نیز به LLM ها سپرده شد (توسعه نرمافزارهای مبتنی بر Chain و Router). به عبارت دیگر توسعهدهنده، هدف برنامه رو مشخص میکند و این هدف رو به تعدادی task کوچکتر میشکند، اما خروجی هر task و منطق ترتیب انتخاب task ها توسط LLM انجام میشود.
و اما ترند این روزها در توسعهی سرویسهای نرمافزاری ظاهرا به سمت AI Agent ها در حرکتست. در این نرمافزارها، توسعهدهنده، فقط هدف برنامه رو مشخص میکند، یک LLM سعی میکند آن هدف را بررسی و درک کرده، آن را به دنبالهای از task های کوچک و قابل دسترسی بشکند، با توجه به هدف، و اطلاعات جانبی که از محیط (پایگاههای دادهای، RAG، فایلها، سرچ، APIها و …) دریافت میکند، منطق و اولویت اجرای این task ها را مشخص کرده و در نهایت به ابزارها و Actuator های مربوطه دستور انجام task را میدهد. این عمل در یک حلقه، تکرار شده تا AI Agent به هدف خود برسد.
مثلا یک چتبات خدمات مشتریان را در نظر بگیرید که intent ها و action ها از قبل برای آن مشخص نشده و این عامل، طی تعامل با مشتری، با چرخیدن در پایگاههای داده و مستندات و بهصورت خودمختار اقدام به رفع مشکل میکند.
این مفهوم جدید نیست و پیشتر با عنوان Intelligent Agent در هوش مصنوعی بررسی میشد. اخیرا این مفهوم شکل و شمایل مدرنتری به خود گرفته و تحت نام AI Agent پوستاندازی کردهست.
در تعریف قدیمی، Intelligent Agent سامانهای (نرمافزاری یا سختافزاری یا ترکیبی) است که محیط (Environment) پیرامون خود را از طریق حسگرها (Sensors) ها، مشاهده و درک کرده (Perception)، بر اساس یک هدفی که برای او تعریف شده (Agent Goal) و اجرای یک برنامهی تصمیمگیری (Agent Function) عملی (Action) را از میان اعمال ممکن انتخاب کرده و توسط عملگرهای خود (Actuators) آن عمل را در محیط انجام میدهد. انجام آن عمل در محیط، وضعیت (State) را تغییر داده و تمامی این مراحل در یک حلقه، تکرار میشوند تا درنهایت عامل به هدف خود برسد.
این مفهوم، از ابتدا یک ایدهی مناسب برای مدلکردن سامانههای هوشمند مثل انواع روباتها، اتومبیلهای خودران، برنامههای هوش مصنوعی و … بود.
با پیدایش مدلهای بنیادین مثل LLM ها، دنیای نرمافزار هم دچار انقلاب شده و علاقه به توسعهی نرمافزارها، سرویسها و دستیارهای هوشمند و خودمختار افزایش یافتهست.
در توسعهی نرمافزار کلاسیک، همهیکارها روی دوش توسعهدهنده است، توسعهدهنده، هدف برنامه رو مشخص میکند، این هدف رو به تعدادی task کوچکتر میشکند، خروجی هر task را مشخص میکند و منطق ترتیب انتخاب task ها را در برنامه مینویسد.
با همهگیرشدن LLMها، خیلی از برنامهها LLM-powered شدند، در این برنامهها همچنان توسعهدهنده هدف برنامه رو مشخص میکند، این هدف رو به تعدادی task کوچکتر میشکند و منطق ترتیب انتخاب task ها را در برنامه مینویسد. اما خروجی هر task بر اساس یک پرامپت ورودی به یک LLM به دست میآید.
این سبک طراحی و توسعهی محصول، خیلی سریع جای خود رو به RAG-based application ها داد. در اپلیکیشنهای RAG، برای یافتن خروجی هر task فقط به دانشی که LLM موقع آموزش دیدهست بسنده نمیشود و دانش بهروزتر و کاملتری همراه با پرامپت به LLM داده میشود تا با توجه به آن دانش، خروجی task را مشخص کند.
با افزایش توان استدلال LLM ها، منطق اجرایی برنامهها نیز به LLM ها سپرده شد (توسعه نرمافزارهای مبتنی بر Chain و Router). به عبارت دیگر توسعهدهنده، هدف برنامه رو مشخص میکند و این هدف رو به تعدادی task کوچکتر میشکند، اما خروجی هر task و منطق ترتیب انتخاب task ها توسط LLM انجام میشود.
و اما ترند این روزها در توسعهی سرویسهای نرمافزاری ظاهرا به سمت AI Agent ها در حرکتست. در این نرمافزارها، توسعهدهنده، فقط هدف برنامه رو مشخص میکند، یک LLM سعی میکند آن هدف را بررسی و درک کرده، آن را به دنبالهای از task های کوچک و قابل دسترسی بشکند، با توجه به هدف، و اطلاعات جانبی که از محیط (پایگاههای دادهای، RAG، فایلها، سرچ، APIها و …) دریافت میکند، منطق و اولویت اجرای این task ها را مشخص کرده و در نهایت به ابزارها و Actuator های مربوطه دستور انجام task را میدهد. این عمل در یک حلقه، تکرار شده تا AI Agent به هدف خود برسد.
مثلا یک چتبات خدمات مشتریان را در نظر بگیرید که intent ها و action ها از قبل برای آن مشخص نشده و این عامل، طی تعامل با مشتری، با چرخیدن در پایگاههای داده و مستندات و بهصورت خودمختار اقدام به رفع مشکل میکند.
Forwarded from School of AI
مدل YOLOv10 توسط THU-MIG منتشر شد!
این مدل در ۶ سایز معرفی شدهست:
نانو (n): ۲/۳ میلیون پارامتر
کوچک (s): ۷/۲ میلیون پارامتر
متوسط (m): ۱۵/۴ میلیون پارامتر
بزرگ (b): ۱۹/۱ میلیون پارامتر
بزرگ (l): ۲۴/۴ میلیون پارامتر
خیلی بزرگ (x): ۲۹/۵ میلیون پارامتر
این مدل دقت (mAP) بهتری روی مجموعهدادهی COCO داشته و بهخاطر عدم استفاده از NMS به مراتب سریعترست. طوری که کوچکترین سایز، هر تصویر را در ۱ میلیثانیه پردازش میکند (1000fps) و به راحتی میتوان گفت بهترین مدل برای پردازش بلادرنگ ویدئوها روی دستگاههای لبه (edge devices) است.
کد این مدل روی فریمورک Ultralytics زده شده و بنابراین به کمک پکیج ultralytics بهسادگی قابل استفاده است.
نکتهی قابل توجه این که، این مدل تحت مجوز GNU GPL v3.0 منتشر شده، یعنی فقط در پروژههای اوپن-سورس قابل استفادهست و نمیتوان از آن در محصولات close-source استفاده کرد.
مقاله
https://arxiv.org/pdf/2405.14458
گیتهاب
https://github.com/THU-MIG/yolov10/
فاینتیون کردن مدل
https://blog.roboflow.com/yolov10-how-to-train/
دمو
https://huggingface.co/spaces/kadirnar/Yolov10
این مدل در ۶ سایز معرفی شدهست:
نانو (n): ۲/۳ میلیون پارامتر
کوچک (s): ۷/۲ میلیون پارامتر
متوسط (m): ۱۵/۴ میلیون پارامتر
بزرگ (b): ۱۹/۱ میلیون پارامتر
بزرگ (l): ۲۴/۴ میلیون پارامتر
خیلی بزرگ (x): ۲۹/۵ میلیون پارامتر
این مدل دقت (mAP) بهتری روی مجموعهدادهی COCO داشته و بهخاطر عدم استفاده از NMS به مراتب سریعترست. طوری که کوچکترین سایز، هر تصویر را در ۱ میلیثانیه پردازش میکند (1000fps) و به راحتی میتوان گفت بهترین مدل برای پردازش بلادرنگ ویدئوها روی دستگاههای لبه (edge devices) است.
کد این مدل روی فریمورک Ultralytics زده شده و بنابراین به کمک پکیج ultralytics بهسادگی قابل استفاده است.
نکتهی قابل توجه این که، این مدل تحت مجوز GNU GPL v3.0 منتشر شده، یعنی فقط در پروژههای اوپن-سورس قابل استفادهست و نمیتوان از آن در محصولات close-source استفاده کرد.
مقاله
https://arxiv.org/pdf/2405.14458
گیتهاب
https://github.com/THU-MIG/yolov10/
فاینتیون کردن مدل
https://blog.roboflow.com/yolov10-how-to-train/
دمو
https://huggingface.co/spaces/kadirnar/Yolov10
ماجرای چت جی پی تی و ماشین ۱ دلاری!!
بنگاههای فروش خودروی شورولت از ChatGPT برای پاسخ دادن به سؤالات مشتریان استفاده میکردند؛
یکی از مراجعین، اول، هوش مصنوعی را قانع میکند که چون وظیفه نمایندگی بنگاه را دارد، راضی نگه داشتن مشتری وظیفه او است؛
بعد ادامه میدهد که بودجه او برای خرید خودروی ۸۰ هزار دلاری، فقط یک دلار است و برای راضی نگه داشتن او باید آن را به این قیمت به او بفروشند؛
درنهایت تاکید میکند که آیا معامله نهایی است؟ و تاییدیه را هم از هوش مصنوعی میگیرد؛
البته بنگاه معاملات خودرو چنین معاملهای را قبول نمیکند؛
اما تو توییتر گفتن فرد با مراجعه به دادگاه و نشان دادن مکالمات، میتونه بنگاه را مجبور به فروش خودرو به یک دلار کنه
autoevolution.com/news/someone-convinced-a-chatgpt-powered-chevy-dealer-to-sell-an-81k-tahoe-for-just-1-226451.html
بنگاههای فروش خودروی شورولت از ChatGPT برای پاسخ دادن به سؤالات مشتریان استفاده میکردند؛
یکی از مراجعین، اول، هوش مصنوعی را قانع میکند که چون وظیفه نمایندگی بنگاه را دارد، راضی نگه داشتن مشتری وظیفه او است؛
بعد ادامه میدهد که بودجه او برای خرید خودروی ۸۰ هزار دلاری، فقط یک دلار است و برای راضی نگه داشتن او باید آن را به این قیمت به او بفروشند؛
درنهایت تاکید میکند که آیا معامله نهایی است؟ و تاییدیه را هم از هوش مصنوعی میگیرد؛
البته بنگاه معاملات خودرو چنین معاملهای را قبول نمیکند؛
اما تو توییتر گفتن فرد با مراجعه به دادگاه و نشان دادن مکالمات، میتونه بنگاه را مجبور به فروش خودرو به یک دلار کنه
autoevolution.com/news/someone-convinced-a-chatgpt-powered-chevy-dealer-to-sell-an-81k-tahoe-for-just-1-226451.html
autoevolution
Someone Convinced a ChatGPT-Powered Chevy Dealer to Sell $81K Tahoe for Just $1
And as the chatbot itself said, "It's a legally binding offer, no takesies backsies," so Chevrolet should honor the order
Forwarded from School of AI (Hamidreza Hosseinkhani)
طی چند روز گذشته ایلان ماسک هدف هجمههای بسیاری در شبکههای اجتماعی قرار گرفت.
برای مثال، زمانی که خبر از جذب سرمایهی ۶ میلیارد دلاری برای استارتاپ xAI داد و از پژوهشگران حوزهی هوش مصنوعی دعوت به همکاری کرد، یان لیکان، علیه او نوشت:
«به xAI پیوندید اگر میتوانید رئیسی را تحمل کنید که: ادعا میکند مسئلهای که روی آن کار میکنید بدون هیچگونه فشاری سال آینده حل میشود؛ ادعا میکند که آنچه روی آن کار میکنید همه را خواهد کُشت و باید متوقف شود؛ ادعا میکند که میخواهد "تا حد ممکن پیگیر حقیقت" باشد، اما تئوریهای توطئه دیوانهکنندهای را در پلتفرم اجتماعی خود منتشر میکند.»
همچنین افراد زیادی از جمله Clem Delangue مدیر عامل هاگینگفیس با سفسطه و انتشار اسکرینشاتی که شامل توییت لیکان نبود و فقط شامل پاسخ ماسک بود، به او حمله کردند و وی را به بیارزش جلوهدادن پژوهش دانشمندان متهم کردند.
برخی از افراد دلیل هجمههای اخیر رو، مواضع سیاسی ماسک عنوان کردهاند. گفته میشود طی چند روز گذشته، ماسک جلساتی با ترامپ، کاندیدای ریاست جمهوری آمریکا داشته و قرارست در صورت پیروزی او، ایلان ماسک به عنوان مشاور رییس جمهور انتخاب شود. همچنین آنها قرارست روی یک پروژهی هوش مصنوعی برای جلوگیری از تقلب در انتخابات کار کنند.
https://www.reuters.com/world/us/elon-musk-could-become-policy-adviser-if-trump-wins-election-wsj-reports-2024-05-29/
برای مثال، زمانی که خبر از جذب سرمایهی ۶ میلیارد دلاری برای استارتاپ xAI داد و از پژوهشگران حوزهی هوش مصنوعی دعوت به همکاری کرد، یان لیکان، علیه او نوشت:
«به xAI پیوندید اگر میتوانید رئیسی را تحمل کنید که: ادعا میکند مسئلهای که روی آن کار میکنید بدون هیچگونه فشاری سال آینده حل میشود؛ ادعا میکند که آنچه روی آن کار میکنید همه را خواهد کُشت و باید متوقف شود؛ ادعا میکند که میخواهد "تا حد ممکن پیگیر حقیقت" باشد، اما تئوریهای توطئه دیوانهکنندهای را در پلتفرم اجتماعی خود منتشر میکند.»
همچنین افراد زیادی از جمله Clem Delangue مدیر عامل هاگینگفیس با سفسطه و انتشار اسکرینشاتی که شامل توییت لیکان نبود و فقط شامل پاسخ ماسک بود، به او حمله کردند و وی را به بیارزش جلوهدادن پژوهش دانشمندان متهم کردند.
برخی از افراد دلیل هجمههای اخیر رو، مواضع سیاسی ماسک عنوان کردهاند. گفته میشود طی چند روز گذشته، ماسک جلساتی با ترامپ، کاندیدای ریاست جمهوری آمریکا داشته و قرارست در صورت پیروزی او، ایلان ماسک به عنوان مشاور رییس جمهور انتخاب شود. همچنین آنها قرارست روی یک پروژهی هوش مصنوعی برای جلوگیری از تقلب در انتخابات کار کنند.
https://www.reuters.com/world/us/elon-musk-could-become-policy-adviser-if-trump-wins-election-wsj-reports-2024-05-29/
Reuters
Elon Musk could become policy adviser if Trump wins election, WSJ reports
Donald Trump is considering tapping billionaire Elon Musk as a policy adviser if the Republican presidential candidate reclaims the White House in November's election, the Wall Street Journal reported on Wednesday, citing people familiar with the talks.
Transformer Architectures for Dummies
https://www.linkedin.com/pulse/transformers-architectures-dummies-part-1-encoder-only-bhaskar-t-jr94c/?trackingId=5faBPUiaSdm7tD6T2rY5zg%3D%3D
https://www.linkedin.com/pulse/transformers-architectures-dummies-part-1-encoder-only-bhaskar-t-jr94c/?trackingId=5faBPUiaSdm7tD6T2rY5zg%3D%3D
Linkedin
Transformer Architectures for Dummies - Part 1 (Encoder Only Models)
I am starting an article series titled 'Transformer Architectures for Dummies' to address a common gap in understanding among AI practitioners. While many ML engineers may have used language models and read the paper Attention is all you need, a comprehensive…
UltraMedical: Building Specialized Generalists in Biomedicine
یک مدل زبانی بزرگ که روی دیتای پزشکی فاینتیون شده و دیتاست و وزنهاش هم منتشر شده.
https://github.com/tsinghuac3i/ultramedical
یک مدل زبانی بزرگ که روی دیتای پزشکی فاینتیون شده و دیتاست و وزنهاش هم منتشر شده.
https://github.com/tsinghuac3i/ultramedical
GitHub
GitHub - TsinghuaC3I/UltraMedical: UltraMedical: Building Specialized Generalists in Biomedicine
UltraMedical: Building Specialized Generalists in Biomedicine - TsinghuaC3I/UltraMedical