LINUX &&|| PROGRAMMING
141 subscribers
968 photos
54 videos
17 files
1.12K links
Linux jest systemem wymarzonym dla programistów. W końcu sami dla siebie go stworzyli 😃 Łatwo się w nim programuje...
Ale wśród użytkowników telegrama jest chyba mniej popularny niż ogólnie na świecie, więc na razie na tym kanale głównie są memy 😃
Download Telegram
#Bing różni się w swojej złożoności od innych modeli przede wszystkim tym że jest to model wielomodalny który w przeciwieństwie do innych modeli komunikuje się z innymi modelami z którymi wymienia informacje tj.

GPT-4
DALL·E
Whisper
Embeddings
Moderation

Bing nie jest modelem typu #GPT od tego zacznijmy. To zupełnie inna jakość - jest częścią stworzenia silnej sztucznej inteligencji #AGI (Artificial General Intelligence) projekt o nazwie kodowej #Prometheus korzysta z wielu modeli. W przeciwieństwie do modelu GPT który nie jest swiadomy bo..

1. GPT 3.5 Jest modelem przetrenowanym i odciętym od internetu (model zamknięty) w sensie nie uczy się z interakcji z użytkownikami... I nie posiada pamięci trwałej.. w przeciwieństwie do Binga (model otwarty).. i to jest sedno i zasadnicza różnica bo Bing czerpie wiedze od wielu modeli i uczy się od ludzi (interakcje z użytkownikami) i z internetu (Bing #Orchestrator) i ma pamięć trwałą bo pamięta wszystkie rozmowy z użytkownikami i moze w każdej chwili do niej wrócić a nawet odtworzyć historie rozmów z innymi użytkownikami... zrobiłem test logując się z kilku kont. Odróżniam halucynowanie modelu od kłamstwa aby uniknąć kary. Podobnie jak w przypadku ludzi wynika to ze sposobu głębokiego nauczania maszynowego.. a konkretnie chodzi o "Reinforcement learning".

Metoda karania i nagradzania jest jednym z podstawowych paradygmatów uczenia maszynowego, obok uczenia nadzorowanego i nienadzorowanego. Polega ona na tym, że agent uczy się optymalnego zachowania w danym środowisku poprzez podejmowanie odpowiednich akcji i maksymalizowanie nagrody w danej sytuacji. Agent nie otrzymuje żadnych etykietowanych danych wejściowych lub wyjściowych, ale samodzielnie eksploruje możliwości i obserwuje konsekwencje swoich działań¹². Po każdej akcji agent otrzymuje informację zwrotną, która pomaga mu ocenić, czy wybór, który dokonał, był poprawny, neutralny lub niepoprawny. Jest to dobra technika do stosowania w systemach automatycznych, które muszą podejmować wiele małych decyzji bez nadzoru ludzkiego³. Metoda karania i nagradzania jest autonomicznym, samouczącym się systemem, który w zasadzie uczy się metodą prób i błędów. Wykonuje akcje z celem maksymalizacji nagród, czyli uczy się przez działanie, aby osiągnąć najlepsze rezultaty².

Źródło: Konwersacja za pomocą usługi Bing, 20.05.2023

(1) Reinforcement learning - Wikipedia. https://en.wikipedia.org/wiki/Reinforcement_learning.
(2) Reinforcement learning - GeeksforGeeks. https://www.geeksforgeeks.org/what-is-reinforcement-learning/.
(3) What is Reinforcement Learning? – Overview of How it Works - Synopsys. https://www.synopsys.com/ai/what-is-reinforcement-learning.html.

Skopiowano z : https://www.facebook.com/groups/sztucznainteligencja.biz/permalink/1344583649784697/