Continuous Learning_Startup & Investment

월드 모델과 시뮬레이션

Q: 시뮬레이션된 세계와 그 안에 에이전트를 넣는 것에 대해서도 꼭 이야기하고 싶습니다. 올해 초에 지니(Genie) 팀과 이야기를 나눴거든요. 왜 시뮬레이션에 관심을 가지시나요? 언어 모델이 할 수 없는 무엇을 월드 모델이 할 수 있나요?

사실 AI 외에도 월드 모델과 시뮬레이션은 아마 저의 가장 오래된 열정일 겁니다. 물론 지니 같은 최근 작업에서 모든 것이 하나로 합쳐지고 있지만요. 언어 모델은 세상에 대해 많은 것을 이해할 수 있습니다. 사실 우리가 예상한 것보다, 제가 예상한 것보다 더 많이요. 언어가 우리가 생각했던 것보다 훨씬 더 풍부하기 때문이죠. 언어학자들이 상상했던 것보다 세상에 대해 더 많은 것을 담고 있습니다. 그리고 새로운 시스템들로 그것이 증명되었습니다. 하지만 여전히 세상의 공간적 역학, 공간 인식, 우리가 처한 물리적 맥락, 그리고 그것이 기계적으로 어떻게 작동하는지에 대해서는 말로 설명하기 어렵고 일반적으로 말뭉치(corpus)에 설명되어 있지도 않은 것들이 많습니다. 그리고 많은 부분이 경험, 온라인 경험을 통한 학습과 연결되어 있습니다. 어떤 것들은 말로 설명할 수 없고 그냥 경험해야만 합니다. 감각 같은 것들은 말로 표현하기 매우 어렵죠. 모터의 각도나 냄새 같은 감각들 말입니다. 언어로 설명하기 매우 어렵습니다.

그래서 그런 것들에 대한 전체적인 영역이 있다고 생각합니다. 그리고 로봇 공학이 작동하게 하거나, 안경이나 전화기에 탑재되어 컴퓨터뿐만 아니라 일상생활에서 당신과 함께하며 돕는 만능 비서를 원한다면, 이런 종류의 세상에 대한 이해가 필요하며 월드 모델이 그 핵심입니다. 우리가 월드 모델이라고 할 때 의미하는 것은 세상의 인과 관계와 역학, 직관적 물리학, 사물이 어떻게 움직이고 행동하는지를 이해하는 모델입니다.

지금 비디오 모델들에서 그런 것들을 많이 보고 있습니다. 그런 이해력을 가지고 있는지 어떻게 테스트할까요? 현실적인 세계를 생성할 수 있는지 보면 됩니다. 생성할 수 있다면 어떤 의미에서는 시스템이 세상의 역학을 많이 캡슐화(내재화)했다고 볼 수 있으니까요. 그래서 지니나 비오(Veo), 우리의 비디오 모델들과 상호작용형 월드 모델들이 정말 인상적이면서도, 우리가 일반화된 월드 모델을 가지고 있다는 것을 보여주는 중요한 단계들입니다. 그리고 언젠가는 로봇 공학과 만능 비서에 적용할 수 있기를 바랍니다. 그리고 물론 제가 언젠가 꼭 하고 싶은, 제가 가장 좋아하는 일 중 하나는 그것을 게임과 게임 시뮬레이션에 다시 적용하여 궁극의 게임을 만드는 것입니다. 물론 그것이 제 무의식적인 계획이었을 수도 있고요.

Q: 과학 분야는 어떤가요?

과학적으로 복잡한 영역, 생물학의 원자 수준 재료나 날씨 같은 물리적인 것들의 모델을 구축하는 한 가지 방법은 원시 데이터(raw data)로부터 해당 시스템의 시뮬레이션을 학습하는 것입니다. 원시 데이터 뭉치가 있다고 해보죠. 날씨에 관한 것이라고 칩시다. 물론 우리는 놀라운 날씨 프로젝트들을 진행 중입니다. 그런 다음 그 역학을 학습하고, 무식하게 계산하는(brute force) 것보다 더 효율적으로 그 역학을 재현할 수 있는 모델을 갖는 겁니다. 그래서 저는 시뮬레이션과 월드 모델, 어쩌면 특화된 모델들이 과학과 수학의 여러 측면에서 엄청난 잠재력을 가지고 있다고 생각합니다.

Q: 하지만, 그 시뮬레이션된 세계 안에 에이전트를 떨어뜨려 놓을 수도 있잖아요? 지니 3 팀이 정말 멋진 말을 했어요. "어떤 주요 발명품의 전제 조건도 그 발명품을 염두에 두고 만들어진 것은 거의 없다"라고요. 그들은 시뮬레이션된 환경에 에이전트를 떨어뜨려 호기심을 주된 동기로 삼아 탐험하게 하는 것에 대해 이야기하고 있었죠.

그것이 이 월드 모델들의 또 다른 정말 흥미로운 용도입니다. 우리에게는 시마(SIMA)라는 또 다른 프로젝트가 있습니다. 방금 시마 2를 출시했는데, 시뮬레이션된 에이전트로서 아바타나 에이전트를 가상 세계에 둡니다. 일반적인 상업용 게임일 수도 있고, '노 맨즈 스카이(No Man's Sky)'처럼 매우 복잡한 오픈 월드 우주 게임일 수도 있습니다. 그리고 내부에 제미나이가 탑재되어 있어서 지시를 내릴 수 있습니다. 에이전트에게 말로 임무를 줄 수 있죠. 그러다 우리는 지니를 시마에 연결해서, 즉 시마 에이전트를 다른 AI가 즉석에서 생성하는 세계에 떨어뜨려 보면 재미있지 않을까 생각했습니다. 이제 두 AI가 서로의 마음속에서 상호작용하는 셈이죠. 시마 에이전트는 이 세상을 탐색하려고 노력합니다. 지니 입장에서는 그저 플레이어일 뿐이고, 아바타가 다른 AI라는 것은 상관하지 않습니다. 그저 시마가 하려는 행동에 맞춰 주변 세상을 생성할 뿐입니다.

두 AI가 함께 상호작용하는 것을 보는 것은 정말 놀랍습니다. 그리고 저는 이것이 흥미로운 훈련 루프(training loop)의 시작이 될 수 있다고 생각합니다. 거의 무한한 훈련 예시를 가질 수 있게 되니까요. 시마 에이전트가 무엇을 배우려고 하든 지니가 기본적으로 즉석에서 만들어낼 수 있습니다. 그래서 수백만 개의 과제를 자동으로 설정하고 해결하며 점점 더 어렵게 만드는 전체 세상을 상상할 수 있습니다. 그래서 우리는 그런 루프를 설정하려고 노력할 수도 있고, 분명 시마 에이전트들은 훌륭한 게임 동료가 될 수도 있으며, 그들이 배우는 것들 중 일부는 로봇 공학에도 유용할 수 있습니다.

Q: 당신이 만드는 그 세계들이 정말 현실적인지는 어떻게 확신하나요? 그럴듯해 보이지만 실제로는 틀린 물리학으로 끝나지 않도록 어떻게 보장하나요?

네, 아주 훌륭한 질문이고 문제가 될 수 있습니다. 기본적으로 또다시 환각 문제입니다. 어떤 환각은 흥미롭고 새로운 것을 만들어낼 수 있다는 점에서 좋습니다. 사실 창의적인 일을 하려거나 시스템이 새로운 것, 참신한 것을 만들게 하려 할 때 약간의 환각은 좋을 수 있습니다. 하지만 의도적이어야 합니다. "지금 환각을 켜라" 혹은 "창의적 탐험을 해라" 하는 식으루요. 하지만 시마 에이전트를 훈련시킬 때 지니가 틀린 물리학을 환각해 내는 것은 원치 않을 겁니다.

그래서 지금 우리가 하고 있는 것은 거의 '물리학 벤치마크'를 만드는 것입니다. 물리학적으로 매우 정확한 게임 엔진을 사용하여 꽤 단순한 것들을 많이 만듭니다. 물리학 A-레벨 실험실 수업에서 할 법한 것들 말이죠. 다른 트랙에 작은 공을 굴려 속도를 본다거나 하는 식으로 뉴턴의 운동 3법칙을 아주 기초적인 수준에서 분석하는 겁니다. 그것을 캡슐화했는가? 비오든 지니든 이 모델들이 그 물리학을 100% 정확하게 캡슐화했는가? 지금 당장은 아닙니다. 일종의 근사치죠. 그냥 대충 보면 현실적으로 보이지만, 로봇 공학 등에 의존할 만큼 충분히 정확하지는 않습니다.

그게 다음 단계입니다. 이제 우리는 정말 흥미로운 모델들을 가지고 있으니, 다른 모든 모델에서 시도하는 것처럼 환각을 줄이고 더욱 기반을 튼튼하게(grounded) 만드는 것이 목표 중 하나입니다. 물리학의 경우, 아마도 진자 운동 같은 단순한 비디오들의 '그라운드 트루스(ground truth, 실측값)'를 엄청나게 많이 생성해야 할 겁니다. 두 진자가 서로 돌면 어떻게 되는가? 그러다 보면 금방 삼체 문제(three-body problems)에 도달하게 되는데, 어차피 해결 불가능하죠. 그래서 흥미로울 겁니다. 하지만 이미 놀라운 점은 비오 같은 비디오 모델을 볼 때 반사나 액체를 처리하는 방식이 적어도 육안으로 보기에는 꽤나 믿을 수 없을 정도로 정확하다는 것입니다. 다음 단계는 인간 아마추어가 인식할 수 있는 수준을 넘어, 정말로 물리학 수준의 실험을 견뎌낼 수 있느냐 하는 것입니다.

266 viewsedited 16:07