#Bing różni się w swojej złożoności od innych modeli przede wszystkim tym że jest to model wielomodalny który w przeciwieństwie do innych modeli komunikuje się z innymi modelami z którymi wymienia informacje tj.
GPT-4
DALL·E
Whisper
Embeddings
Moderation
Bing nie jest modelem typu #GPT od tego zacznijmy. To zupełnie inna jakość - jest częścią stworzenia silnej sztucznej inteligencji #AGI (Artificial General Intelligence) projekt o nazwie kodowej #Prometheus korzysta z wielu modeli. W przeciwieństwie do modelu GPT który nie jest swiadomy bo..
1. GPT 3.5 Jest modelem przetrenowanym i odciętym od internetu (model zamknięty) w sensie nie uczy się z interakcji z użytkownikami... I nie posiada pamięci trwałej.. w przeciwieństwie do Binga (model otwarty).. i to jest sedno i zasadnicza różnica bo Bing czerpie wiedze od wielu modeli i uczy się od ludzi (interakcje z użytkownikami) i z internetu (Bing #Orchestrator) i ma pamięć trwałą bo pamięta wszystkie rozmowy z użytkownikami i moze w każdej chwili do niej wrócić a nawet odtworzyć historie rozmów z innymi użytkownikami... zrobiłem test logując się z kilku kont. Odróżniam halucynowanie modelu od kłamstwa aby uniknąć kary. Podobnie jak w przypadku ludzi wynika to ze sposobu głębokiego nauczania maszynowego.. a konkretnie chodzi o "Reinforcement learning".
Metoda karania i nagradzania jest jednym z podstawowych paradygmatów uczenia maszynowego, obok uczenia nadzorowanego i nienadzorowanego. Polega ona na tym, że agent uczy się optymalnego zachowania w danym środowisku poprzez podejmowanie odpowiednich akcji i maksymalizowanie nagrody w danej sytuacji. Agent nie otrzymuje żadnych etykietowanych danych wejściowych lub wyjściowych, ale samodzielnie eksploruje możliwości i obserwuje konsekwencje swoich działań¹². Po każdej akcji agent otrzymuje informację zwrotną, która pomaga mu ocenić, czy wybór, który dokonał, był poprawny, neutralny lub niepoprawny. Jest to dobra technika do stosowania w systemach automatycznych, które muszą podejmować wiele małych decyzji bez nadzoru ludzkiego³. Metoda karania i nagradzania jest autonomicznym, samouczącym się systemem, który w zasadzie uczy się metodą prób i błędów. Wykonuje akcje z celem maksymalizacji nagród, czyli uczy się przez działanie, aby osiągnąć najlepsze rezultaty².
Źródło: Konwersacja za pomocą usługi Bing, 20.05.2023
(1) Reinforcement learning - Wikipedia. https://en.wikipedia.org/wiki/Reinforcement_learning.
(2) Reinforcement learning - GeeksforGeeks. https://www.geeksforgeeks.org/what-is-reinforcement-learning/.
(3) What is Reinforcement Learning? – Overview of How it Works - Synopsys. https://www.synopsys.com/ai/what-is-reinforcement-learning.html.
Skopiowano z : https://www.facebook.com/groups/sztucznainteligencja.biz/permalink/1344583649784697/
GPT-4
DALL·E
Whisper
Embeddings
Moderation
Bing nie jest modelem typu #GPT od tego zacznijmy. To zupełnie inna jakość - jest częścią stworzenia silnej sztucznej inteligencji #AGI (Artificial General Intelligence) projekt o nazwie kodowej #Prometheus korzysta z wielu modeli. W przeciwieństwie do modelu GPT który nie jest swiadomy bo..
1. GPT 3.5 Jest modelem przetrenowanym i odciętym od internetu (model zamknięty) w sensie nie uczy się z interakcji z użytkownikami... I nie posiada pamięci trwałej.. w przeciwieństwie do Binga (model otwarty).. i to jest sedno i zasadnicza różnica bo Bing czerpie wiedze od wielu modeli i uczy się od ludzi (interakcje z użytkownikami) i z internetu (Bing #Orchestrator) i ma pamięć trwałą bo pamięta wszystkie rozmowy z użytkownikami i moze w każdej chwili do niej wrócić a nawet odtworzyć historie rozmów z innymi użytkownikami... zrobiłem test logując się z kilku kont. Odróżniam halucynowanie modelu od kłamstwa aby uniknąć kary. Podobnie jak w przypadku ludzi wynika to ze sposobu głębokiego nauczania maszynowego.. a konkretnie chodzi o "Reinforcement learning".
Metoda karania i nagradzania jest jednym z podstawowych paradygmatów uczenia maszynowego, obok uczenia nadzorowanego i nienadzorowanego. Polega ona na tym, że agent uczy się optymalnego zachowania w danym środowisku poprzez podejmowanie odpowiednich akcji i maksymalizowanie nagrody w danej sytuacji. Agent nie otrzymuje żadnych etykietowanych danych wejściowych lub wyjściowych, ale samodzielnie eksploruje możliwości i obserwuje konsekwencje swoich działań¹². Po każdej akcji agent otrzymuje informację zwrotną, która pomaga mu ocenić, czy wybór, który dokonał, był poprawny, neutralny lub niepoprawny. Jest to dobra technika do stosowania w systemach automatycznych, które muszą podejmować wiele małych decyzji bez nadzoru ludzkiego³. Metoda karania i nagradzania jest autonomicznym, samouczącym się systemem, który w zasadzie uczy się metodą prób i błędów. Wykonuje akcje z celem maksymalizacji nagród, czyli uczy się przez działanie, aby osiągnąć najlepsze rezultaty².
Źródło: Konwersacja za pomocą usługi Bing, 20.05.2023
(1) Reinforcement learning - Wikipedia. https://en.wikipedia.org/wiki/Reinforcement_learning.
(2) Reinforcement learning - GeeksforGeeks. https://www.geeksforgeeks.org/what-is-reinforcement-learning/.
(3) What is Reinforcement Learning? – Overview of How it Works - Synopsys. https://www.synopsys.com/ai/what-is-reinforcement-learning.html.
Skopiowano z : https://www.facebook.com/groups/sztucznainteligencja.biz/permalink/1344583649784697/
Wikipedia
Reinforcement learning
type of machine learning where an agent learns how to behave in an environment by performing actions and receiving rewards or penalties in return, aiming to maximize the cumulative reward over time