https://youtu.be/XJsHIoIDhPY
1) ๋ฅ๋ฌ๋์ ํจ์จ์ ๋ฐฉ์๊ณผ โํ์ฅ(์ค์ผ์ผ์ ) + ํต๊ณโ ์ ๊ทผ
(1) ๋ฅ๋ฌ๋์ ํจ์จ์ ๋ฐฉ์์ด๋?
์ ํต์ ์ธ โ๊ธฐํธ์ AIโ๋ โ๊ท์น ๊ธฐ๋ฐ(If-Then)โ ์ ๊ทผ์, ์ฌ๋์ด ์ง์ ๊ท์น์ ๋ง๋ค์ด์ค์ผ ํ์.
๋ฐ๋ฉด ๋ฅ๋ฌ๋์ ๋ชจ๋ธ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ๋ฃ๊ณ , ๋ชจ๋ธ์ด ํ๋ผ๋ฏธํฐ(๊ฐ์ค์น)๋ฅผ ์ค์ค๋ก ํ์ตํ์ฌ ๊ท์น์ โ์ถ๋ก โํ๋ค.
์ด ๊ณผ์ ์์ ํ์ํ ๊ฒ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ, ๋๊ท๋ชจ ๊ณ์ฐ(์ปดํจํ ), ํจ์จ์ ์ธ ๋ชจ๋ธ ๊ตฌ์กฐ(์: ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง, ํธ๋์คํฌ๋จธ ๋ฑ).
(2) ์ค์ผ์ผ ์ (scaling)์ด ์ค์ํ ์ด์
์ค์ผ์ผ ์ ์ด๋ ๋ชจ๋ธ์ ํฌ๊ธฐ(ํ๋ผ๋ฏธํฐ ์), ํ์ต ๋ฐ์ดํฐ ์, ํ์ต์ ์ธ ์ปดํจํ ์์ ๋ฑ์ ๋จ์ํ ๋๋ฆฌ๋ ๊ฒ์ ์๋ฏธ.
2012๋ ๋ฌด๋ ต๋ถํฐ GPU์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ด ๊ฒฐํฉ๋๋ฉด์, ๋ฅ๋ฌ๋์ด ๊ธฐ์กด ์ ๊ทผ(๊ธฐํธ์ AI ๋ฑ)์ ์๋ํ๋ ์ฑ๋ฅ์ ๋ด๊ธฐ ์์.
์ค์ ํฌ์ธํธ: โ๊ท๋ชจ๋ฅผ ๋๋ฆฌ๋ฉด(dB)์์๋ก ์ฑ๋ฅ์ด ๊ฐ์ ๋ ์ฌ์งโ๊ฐ ํฌ๋ค๋ ์ฌ์ค. ์์ปจ๋ ํธ๋์คํฌ๋จธ ๊ณ์ด ๋ชจ๋ธ(GPT, Claude ๋ฑ)์ ํ๋ผ๋ฏธํฐยท๋ฐ์ดํฐ๋ฅผ ํ์ฅํ ์๋ก, ์ธ์ด ์ดํดยท์์ฑ ๋ฅ๋ ฅ์ด ๊ธ์์นํด ์๋ค.
์ค์ผ์ผ๋ง์ด ์๋ฏธ ์๋ ์ด์ ๋, โ์ค๊ณ์๊ฐ ์ผ์ผ์ด ์๋์ง ์์๋โ, ๋จ์ํ ๋ชจ๋ธ ์ฉ๋๊ณผ ๋ฐ์ดํฐ๋ง ๋๋ฆฌ๋ฉด ์ฑ๋ฅ์ด ๊พธ์คํ ํฅ์๋๋ โ์ค์ผ์ผ๋ง ๋ฒ์น(scaling law)โ์ด ๊ด์ฐฐ๋์๊ธฐ ๋๋ฌธ.
(3) โ๋ฌผ๋ฆฌํ์ ํต๊ณ์ญํ์ ๊ด์ โ๊ณผ์ ์ฐ๊ฒฐ
Dan์ด ๋งํ๋ โํต๊ณ์ญํ์ ๊ด์ โ์, ๋ฏธ์์ ์์๋ค์ด ๋ฌด์ํ ๋ง์ ๋, ๊ฑฐ์์ ์ผ๋ก ๋จ์ํ ๋ฒ์น์ด ๋๋ฌ๋๋ค๋ ๋ฌผ๋ฆฌํ ๋ฒ์น(์: ์ด์๊ธฐ์ฒด๋ฒ์น ๋ฑ)์ ์ผ์ปซ๋๋ค.
๋ฅ๋ฌ๋๋ ๋ง์ฐฌ๊ฐ์ง๋ก, ์๋ง์ ํ๋ผ๋ฏธํฐ(๊ฐ์ค์น)์ ๋ด๋ฐ์ด ๋ฏธ์์ ์ผ๋ก ๋ณต์กํ๊ฒ ์ฝํ ์์ง๋ง, ๋๊ท๋ชจ๋ก ์ค์ผ์ผ์ ํ์ ๋ ์ด๋ค ๊ฐ๋จํ ํต๊ณ์ ๊ฑฐ๋(์: ์ผ์ ํ ์์ค ํ๋ฝ ์ถ์ธ, ์ฑ๋ฅ ๊ณก์ )์ด ๋ํ๋๋ค.
๋ฌผ๋ฆฌํ์๋ ์ด๋ฌํ โํฐ ๊ท๋ชจ์์์ ๋จ์ํจโ์ ์ดํดํ๊ณ ๋ชจ๋ธ๋งํ๋ ๋ฐ ์ต์ํ๋ฏ๋ก, ๋๊ท๋ชจ ์ ๊ฒฝ๋ง(๋ฅ๋ฌ๋)์๋ ๋๊ฐ์ ์ฌ๊ณ ๋ฅผ ์ ์ฉํ ์ ์๋ค๋ ๊ฒ.
2) ๋จ์ผ ๋๊ท๋ชจ ๋ชจ๋ธ vs. ์ ๋ฌธ ๋ถ์ผ๋ณ ๋ชจ๋ธ
(1) ํ์ฌ ํธ๋ ๋: โํ๋์ ๋ฒ์ฉ ์ด๋๊ท๋ชจ ๋ชจ๋ธโ
๊ตฌ๊ธ, OpenAI, Meta ๋ฑ ๋น ํ ํฌ๋ค์ โํ๋์ ๊ฑฐ๋ํ ์ธ์ด๋ชจ๋ธ(GPT, PaLM, Llama ๋ฑ)โ์ด ๋ชจ๋ ์ธ์ด ์ ๋ฌด๋ฅผ ์ ์ฒ๋ฆฌํ ์ ์๋ค๋ ๋ฏฟ์/์คํ์ ๊ณ์ํด ์๋ค.
์ฅ์ :
์ฌ๋ฌ ๋ถ์ผ๋ณ ๋ชจ๋ธ์ ๊ฐ๊ฐ ๋ง๋๋ ๊ฒ๋ณด๋ค, ํ๋์ ๋ฒ์ฉ ๋ชจ๋ธ์ ์ ํค์๋์ผ๋ฉด ๋ค์ํ ํ์คํฌ์ ์กฐ๊ธ์ฉ ํ๋ํด์ ์ธ ์ ์์.
๋ฐ์ดํฐ ๊ณต์ ๋ ํ์ต ์ธํ๋ผ ์ธก๋ฉด์์ โ๊ท๋ชจ์ ๊ฒฝ์ โ ๋ฐ์.
(2) ํ์ง๋ง ์์ยท๊ฒฝ์ ์ฑ ํ๊ณ ๊ฐ๋ฅ
ํฌ๊ธฐ๊ฐ ์ปค์ง์๋ก ํ๋ จ ๋น์ฉ, ์ถ๋ก ๋น์ฉ, ์ ๋ ฅ ์๋ชจ๊ฐ ํญ๋ฐ์ ์ผ๋ก ์ฆ๊ฐ.
โ๋ฌด์์ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๋ค๊ฐ, ๊ฒฝ์ ์ ์ผ๋ก/๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ฐ๋น ์ ๋๋ ์ง์ โ์ด ์จ๋ค๋ ์ฐ๋ ค๊ฐ ์กด์ฌ.
์๋ฅผ ๋ค์ด, GPT-4๋ณด๋ค ํจ์ฌ ํฐ ๋ชจ๋ธ์ ๋ง๋ค๋ ค๋ฉด ์ฒ๋ฌธํ์ ์ธ GPU ํด๋ฌ์คํฐ, ์ ๋ ฅ, ์๊ฐ ๋ฑ์ด ํ์ํด์ง ์ ์์.
(3) ์์ ํ ๋๋ฉ์ธ๋ณ ๋ชจ๋ธ๋ก ์ชผ๊ฐ์ง๋ ๊ฒ์ ๋ณด์ฅ๋์ง ์์
โ์ด๋ํ ๋ฒ์ฉ ๋ชจ๋ธโ๊ณผ ๋ฐ๋๋ก, ๊ฐ ๋๋ฉ์ธ(์ํ, ๋ฒ๋ฅ , ๊ธ์ต ๋ฑ)์ ์ต์ ํ๋ โ์ ๋ฌธ ๋ชจ๋ธโ์ ๋ง๋ค์๋ ์๊ฐ๋ ์์.
๊ทธ๋ฌ๋ ์ ๋ฌธ ๋ชจ๋ธ๋ง ๋ง๋ค ๊ฒฝ์ฐ, ๋งค ๋๋ฉ์ธ๋ง๋ค ๋ฐ์ดํฐ, ํ๋, ์ ์ง๋ณด์๊ฐ ๋ถ์ฐ๋์ด ๋นํจ์จ์ด ์ปค์ง ์ ์์.
์ค์ ๋ก๋ ๋ ์ ๊ทผ์ด ์ด๋ป๊ฒ ์ตํฉ๋ ์ง ์์ง ๋ถ๋ช ํ.
์) ํ๋์ ํฐ ๋ฒ์ฉ ๋ชจ๋ธ+ํ์ ์ ๋๋ฉ์ธ๋ณ ์ถ๊ฐ ๋ชจ๋(ํน์ ํ์ ๋ชจ๋ธ)์ ํผํฉํ๋ โMixture of Expertsโ ๊ตฌ์, ํน์ API๋ก ์๋ก ํ์ ํ๋ ๊ตฌ์กฐ ๋ฑ๋ฑ.
3) AI ๋ฏธ๋ ์ ๋ง (๋จ๊ธฐ ~ ์ฅ๊ธฐ)
Dan์ ์ ์ฅ์์, AI๊ฐ ์ด๋ค ๊ฒฝ๋ก๋ฅผ ๊ฐ์ง ํ์คํ์ง ์์ง๋ง, ๋ค์๊ณผ ๊ฐ์ ์๋๋ฆฌ์ค๋ฅผ ์ธ๊ธ:
(1) ๋จ๊ธฐ (์ฝ 5๊ฐ์ ์ ๋)
GPT-n ์ฐจ์ธ๋ ๋ชจ๋ธ: ์์ปจ๋ GPT-5, GPT-4.5 ํน์ ๋ค๋ฅธ ํ์ฌ ๋ชจ๋ธ์ด ๋์ฌ ๊ฐ๋ฅ์ฑ.
์ด ๋ **โ์ค์ผ์ผ๋ง์ ๋ ๋ฐ์ด๋ถ์ผ ๊ฒฝ์ฐ, ์ด๋ ์ ๋ ์ฑ๋ฅ ํฅ์โ**์ด ๋ฐ์ํ๋์ง ์ฒด๊ฐํ๊ฒ ๋ ๊ฒ.
๋ง์ฝ ์ด์ GPT์์ ๋ค์ GPT๋ก ์ฑ๋ฅ์ด ํฌ๊ฒ ๋ฌ๋ผ์ง๋ค๋ฉด, โ์ค์ผ์ผ๋ง ์์ง ์ฌ๋ ฅ ์๋คโ๋ ๊ฒฐ๋ก ์ด ๊ฐ๋ฅ.
๋ฐ๋ฉด ํฅ์์ด ๋ฏธ๋ฏธํ๋ค๋ฉด, โ์ค์ผ์ผ๋ง ํ๊ณ๊ฐ ์ด๋ฏธ ๋๋ํ๋?โ๋ผ๋ ์ง๋ฌธ ๋ฐ์.
(2) ์ค๊ธฐ (์ฝ 5๋ )
์ค์ผ์ผ ์ ์ ๊ฒฝ์ ์ /๋ฌผ๋ฆฌ์ ํ๊ณ๊ฐ ์ฐพ์์ฌ ์๋.
โ๋๋ฌด ๋น์ฉ์ด ์ปค์ ๋ชป ํค์ด๋คโ โ AI ์ํฐ(ํฌ์ยท์ด๊ธฐ ์๋ ํ์) ๊ฐ๋ฅ์ฑ.
๋ฐ๋๋ก, ์๋ก์ด ์์ด๋์ด(์: ์๋ก์ด ํ์ต ํจ๋ฌ๋ค์, ์ํคํ ์ฒ, ๋ฉ๋ชจ๋ฆฌยท์ถ๋ก ๋ฐฉ์ ๋ฑ)๊ฐ ๋ฑ์ฅํด โ๋ ๋ค๋ฅธ ๋์ฝโ์ ์ด๋ฃฐ ์๋.
๊ฒฐ๊ตญ ์ด ์๊ธฐ์๋ โ์ค์ผ์ผ๋ง ์ง์ vs. ์ ์์ด๋์ดยท๊ธฐ์ ์ ํโ ๊ฐ๋ฆผ๊ธธ์ด ๊ด๊ฑด.
(3) ์ฅ๊ธฐ (์์ญ ๋ )
์ฌ๋ฌ ๊ฐ์ง ๊ฐ๋ฅ์ฑ์ด ๊ณต์กด:
AI๊ฐ ๋ชจ๋ ๊ฒ์ ๋ฐ๊พธ๋ ์๋๋ฆฌ์ค: ์ธ๊ฐ ๋ ธ๋ ๋์ฒด, ์ง์ ๋ฐ๊ฒฌ ๊ฐ์, ๊ฒฝ์ ์ฒด๊ณ ์ฌํธ ๋ฑ.
์๋ก์ด ํจ๋ฌ๋ค์ ๋ฑ์ฅ: โAI๋ ํ๊ณ์ ๋ถ๋ชํ๊ณ ์์ ํ ๋ค๋ฅธ ์ปดํจํ /๋ชจ๋ธ ๋ฐฉ์โ์ด ๋๋๋ ์๋.
โ์ ํํ ์ด๋ค ๋ฐฉํฅ์ผ๋ก ๊ฐ์ง๋ ๋งค์ฐ ์์ธกํ๊ธฐ ์ด๋ ต๋คโ๋ฉฐ Dan ๋ณธ์ธ๋ ์ ์คํ ํ๋๋ฅผ ์ ์ง.
1) ๋ฅ๋ฌ๋์ ํจ์จ์ ๋ฐฉ์๊ณผ โํ์ฅ(์ค์ผ์ผ์ ) + ํต๊ณโ ์ ๊ทผ
(1) ๋ฅ๋ฌ๋์ ํจ์จ์ ๋ฐฉ์์ด๋?
์ ํต์ ์ธ โ๊ธฐํธ์ AIโ๋ โ๊ท์น ๊ธฐ๋ฐ(If-Then)โ ์ ๊ทผ์, ์ฌ๋์ด ์ง์ ๊ท์น์ ๋ง๋ค์ด์ค์ผ ํ์.
๋ฐ๋ฉด ๋ฅ๋ฌ๋์ ๋ชจ๋ธ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ๋ฃ๊ณ , ๋ชจ๋ธ์ด ํ๋ผ๋ฏธํฐ(๊ฐ์ค์น)๋ฅผ ์ค์ค๋ก ํ์ตํ์ฌ ๊ท์น์ โ์ถ๋ก โํ๋ค.
์ด ๊ณผ์ ์์ ํ์ํ ๊ฒ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ, ๋๊ท๋ชจ ๊ณ์ฐ(์ปดํจํ ), ํจ์จ์ ์ธ ๋ชจ๋ธ ๊ตฌ์กฐ(์: ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง, ํธ๋์คํฌ๋จธ ๋ฑ).
(2) ์ค์ผ์ผ ์ (scaling)์ด ์ค์ํ ์ด์
์ค์ผ์ผ ์ ์ด๋ ๋ชจ๋ธ์ ํฌ๊ธฐ(ํ๋ผ๋ฏธํฐ ์), ํ์ต ๋ฐ์ดํฐ ์, ํ์ต์ ์ธ ์ปดํจํ ์์ ๋ฑ์ ๋จ์ํ ๋๋ฆฌ๋ ๊ฒ์ ์๋ฏธ.
2012๋ ๋ฌด๋ ต๋ถํฐ GPU์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ด ๊ฒฐํฉ๋๋ฉด์, ๋ฅ๋ฌ๋์ด ๊ธฐ์กด ์ ๊ทผ(๊ธฐํธ์ AI ๋ฑ)์ ์๋ํ๋ ์ฑ๋ฅ์ ๋ด๊ธฐ ์์.
์ค์ ํฌ์ธํธ: โ๊ท๋ชจ๋ฅผ ๋๋ฆฌ๋ฉด(dB)์์๋ก ์ฑ๋ฅ์ด ๊ฐ์ ๋ ์ฌ์งโ๊ฐ ํฌ๋ค๋ ์ฌ์ค. ์์ปจ๋ ํธ๋์คํฌ๋จธ ๊ณ์ด ๋ชจ๋ธ(GPT, Claude ๋ฑ)์ ํ๋ผ๋ฏธํฐยท๋ฐ์ดํฐ๋ฅผ ํ์ฅํ ์๋ก, ์ธ์ด ์ดํดยท์์ฑ ๋ฅ๋ ฅ์ด ๊ธ์์นํด ์๋ค.
์ค์ผ์ผ๋ง์ด ์๋ฏธ ์๋ ์ด์ ๋, โ์ค๊ณ์๊ฐ ์ผ์ผ์ด ์๋์ง ์์๋โ, ๋จ์ํ ๋ชจ๋ธ ์ฉ๋๊ณผ ๋ฐ์ดํฐ๋ง ๋๋ฆฌ๋ฉด ์ฑ๋ฅ์ด ๊พธ์คํ ํฅ์๋๋ โ์ค์ผ์ผ๋ง ๋ฒ์น(scaling law)โ์ด ๊ด์ฐฐ๋์๊ธฐ ๋๋ฌธ.
(3) โ๋ฌผ๋ฆฌํ์ ํต๊ณ์ญํ์ ๊ด์ โ๊ณผ์ ์ฐ๊ฒฐ
Dan์ด ๋งํ๋ โํต๊ณ์ญํ์ ๊ด์ โ์, ๋ฏธ์์ ์์๋ค์ด ๋ฌด์ํ ๋ง์ ๋, ๊ฑฐ์์ ์ผ๋ก ๋จ์ํ ๋ฒ์น์ด ๋๋ฌ๋๋ค๋ ๋ฌผ๋ฆฌํ ๋ฒ์น(์: ์ด์๊ธฐ์ฒด๋ฒ์น ๋ฑ)์ ์ผ์ปซ๋๋ค.
๋ฅ๋ฌ๋๋ ๋ง์ฐฌ๊ฐ์ง๋ก, ์๋ง์ ํ๋ผ๋ฏธํฐ(๊ฐ์ค์น)์ ๋ด๋ฐ์ด ๋ฏธ์์ ์ผ๋ก ๋ณต์กํ๊ฒ ์ฝํ ์์ง๋ง, ๋๊ท๋ชจ๋ก ์ค์ผ์ผ์ ํ์ ๋ ์ด๋ค ๊ฐ๋จํ ํต๊ณ์ ๊ฑฐ๋(์: ์ผ์ ํ ์์ค ํ๋ฝ ์ถ์ธ, ์ฑ๋ฅ ๊ณก์ )์ด ๋ํ๋๋ค.
๋ฌผ๋ฆฌํ์๋ ์ด๋ฌํ โํฐ ๊ท๋ชจ์์์ ๋จ์ํจโ์ ์ดํดํ๊ณ ๋ชจ๋ธ๋งํ๋ ๋ฐ ์ต์ํ๋ฏ๋ก, ๋๊ท๋ชจ ์ ๊ฒฝ๋ง(๋ฅ๋ฌ๋)์๋ ๋๊ฐ์ ์ฌ๊ณ ๋ฅผ ์ ์ฉํ ์ ์๋ค๋ ๊ฒ.
2) ๋จ์ผ ๋๊ท๋ชจ ๋ชจ๋ธ vs. ์ ๋ฌธ ๋ถ์ผ๋ณ ๋ชจ๋ธ
(1) ํ์ฌ ํธ๋ ๋: โํ๋์ ๋ฒ์ฉ ์ด๋๊ท๋ชจ ๋ชจ๋ธโ
๊ตฌ๊ธ, OpenAI, Meta ๋ฑ ๋น ํ ํฌ๋ค์ โํ๋์ ๊ฑฐ๋ํ ์ธ์ด๋ชจ๋ธ(GPT, PaLM, Llama ๋ฑ)โ์ด ๋ชจ๋ ์ธ์ด ์ ๋ฌด๋ฅผ ์ ์ฒ๋ฆฌํ ์ ์๋ค๋ ๋ฏฟ์/์คํ์ ๊ณ์ํด ์๋ค.
์ฅ์ :
์ฌ๋ฌ ๋ถ์ผ๋ณ ๋ชจ๋ธ์ ๊ฐ๊ฐ ๋ง๋๋ ๊ฒ๋ณด๋ค, ํ๋์ ๋ฒ์ฉ ๋ชจ๋ธ์ ์ ํค์๋์ผ๋ฉด ๋ค์ํ ํ์คํฌ์ ์กฐ๊ธ์ฉ ํ๋ํด์ ์ธ ์ ์์.
๋ฐ์ดํฐ ๊ณต์ ๋ ํ์ต ์ธํ๋ผ ์ธก๋ฉด์์ โ๊ท๋ชจ์ ๊ฒฝ์ โ ๋ฐ์.
(2) ํ์ง๋ง ์์ยท๊ฒฝ์ ์ฑ ํ๊ณ ๊ฐ๋ฅ
ํฌ๊ธฐ๊ฐ ์ปค์ง์๋ก ํ๋ จ ๋น์ฉ, ์ถ๋ก ๋น์ฉ, ์ ๋ ฅ ์๋ชจ๊ฐ ํญ๋ฐ์ ์ผ๋ก ์ฆ๊ฐ.
โ๋ฌด์์ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๋ค๊ฐ, ๊ฒฝ์ ์ ์ผ๋ก/๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ฐ๋น ์ ๋๋ ์ง์ โ์ด ์จ๋ค๋ ์ฐ๋ ค๊ฐ ์กด์ฌ.
์๋ฅผ ๋ค์ด, GPT-4๋ณด๋ค ํจ์ฌ ํฐ ๋ชจ๋ธ์ ๋ง๋ค๋ ค๋ฉด ์ฒ๋ฌธํ์ ์ธ GPU ํด๋ฌ์คํฐ, ์ ๋ ฅ, ์๊ฐ ๋ฑ์ด ํ์ํด์ง ์ ์์.
(3) ์์ ํ ๋๋ฉ์ธ๋ณ ๋ชจ๋ธ๋ก ์ชผ๊ฐ์ง๋ ๊ฒ์ ๋ณด์ฅ๋์ง ์์
โ์ด๋ํ ๋ฒ์ฉ ๋ชจ๋ธโ๊ณผ ๋ฐ๋๋ก, ๊ฐ ๋๋ฉ์ธ(์ํ, ๋ฒ๋ฅ , ๊ธ์ต ๋ฑ)์ ์ต์ ํ๋ โ์ ๋ฌธ ๋ชจ๋ธโ์ ๋ง๋ค์๋ ์๊ฐ๋ ์์.
๊ทธ๋ฌ๋ ์ ๋ฌธ ๋ชจ๋ธ๋ง ๋ง๋ค ๊ฒฝ์ฐ, ๋งค ๋๋ฉ์ธ๋ง๋ค ๋ฐ์ดํฐ, ํ๋, ์ ์ง๋ณด์๊ฐ ๋ถ์ฐ๋์ด ๋นํจ์จ์ด ์ปค์ง ์ ์์.
์ค์ ๋ก๋ ๋ ์ ๊ทผ์ด ์ด๋ป๊ฒ ์ตํฉ๋ ์ง ์์ง ๋ถ๋ช ํ.
์) ํ๋์ ํฐ ๋ฒ์ฉ ๋ชจ๋ธ+ํ์ ์ ๋๋ฉ์ธ๋ณ ์ถ๊ฐ ๋ชจ๋(ํน์ ํ์ ๋ชจ๋ธ)์ ํผํฉํ๋ โMixture of Expertsโ ๊ตฌ์, ํน์ API๋ก ์๋ก ํ์ ํ๋ ๊ตฌ์กฐ ๋ฑ๋ฑ.
3) AI ๋ฏธ๋ ์ ๋ง (๋จ๊ธฐ ~ ์ฅ๊ธฐ)
Dan์ ์ ์ฅ์์, AI๊ฐ ์ด๋ค ๊ฒฝ๋ก๋ฅผ ๊ฐ์ง ํ์คํ์ง ์์ง๋ง, ๋ค์๊ณผ ๊ฐ์ ์๋๋ฆฌ์ค๋ฅผ ์ธ๊ธ:
(1) ๋จ๊ธฐ (์ฝ 5๊ฐ์ ์ ๋)
GPT-n ์ฐจ์ธ๋ ๋ชจ๋ธ: ์์ปจ๋ GPT-5, GPT-4.5 ํน์ ๋ค๋ฅธ ํ์ฌ ๋ชจ๋ธ์ด ๋์ฌ ๊ฐ๋ฅ์ฑ.
์ด ๋ **โ์ค์ผ์ผ๋ง์ ๋ ๋ฐ์ด๋ถ์ผ ๊ฒฝ์ฐ, ์ด๋ ์ ๋ ์ฑ๋ฅ ํฅ์โ**์ด ๋ฐ์ํ๋์ง ์ฒด๊ฐํ๊ฒ ๋ ๊ฒ.
๋ง์ฝ ์ด์ GPT์์ ๋ค์ GPT๋ก ์ฑ๋ฅ์ด ํฌ๊ฒ ๋ฌ๋ผ์ง๋ค๋ฉด, โ์ค์ผ์ผ๋ง ์์ง ์ฌ๋ ฅ ์๋คโ๋ ๊ฒฐ๋ก ์ด ๊ฐ๋ฅ.
๋ฐ๋ฉด ํฅ์์ด ๋ฏธ๋ฏธํ๋ค๋ฉด, โ์ค์ผ์ผ๋ง ํ๊ณ๊ฐ ์ด๋ฏธ ๋๋ํ๋?โ๋ผ๋ ์ง๋ฌธ ๋ฐ์.
(2) ์ค๊ธฐ (์ฝ 5๋ )
์ค์ผ์ผ ์ ์ ๊ฒฝ์ ์ /๋ฌผ๋ฆฌ์ ํ๊ณ๊ฐ ์ฐพ์์ฌ ์๋.
โ๋๋ฌด ๋น์ฉ์ด ์ปค์ ๋ชป ํค์ด๋คโ โ AI ์ํฐ(ํฌ์ยท์ด๊ธฐ ์๋ ํ์) ๊ฐ๋ฅ์ฑ.
๋ฐ๋๋ก, ์๋ก์ด ์์ด๋์ด(์: ์๋ก์ด ํ์ต ํจ๋ฌ๋ค์, ์ํคํ ์ฒ, ๋ฉ๋ชจ๋ฆฌยท์ถ๋ก ๋ฐฉ์ ๋ฑ)๊ฐ ๋ฑ์ฅํด โ๋ ๋ค๋ฅธ ๋์ฝโ์ ์ด๋ฃฐ ์๋.
๊ฒฐ๊ตญ ์ด ์๊ธฐ์๋ โ์ค์ผ์ผ๋ง ์ง์ vs. ์ ์์ด๋์ดยท๊ธฐ์ ์ ํโ ๊ฐ๋ฆผ๊ธธ์ด ๊ด๊ฑด.
(3) ์ฅ๊ธฐ (์์ญ ๋ )
์ฌ๋ฌ ๊ฐ์ง ๊ฐ๋ฅ์ฑ์ด ๊ณต์กด:
AI๊ฐ ๋ชจ๋ ๊ฒ์ ๋ฐ๊พธ๋ ์๋๋ฆฌ์ค: ์ธ๊ฐ ๋ ธ๋ ๋์ฒด, ์ง์ ๋ฐ๊ฒฌ ๊ฐ์, ๊ฒฝ์ ์ฒด๊ณ ์ฌํธ ๋ฑ.
์๋ก์ด ํจ๋ฌ๋ค์ ๋ฑ์ฅ: โAI๋ ํ๊ณ์ ๋ถ๋ชํ๊ณ ์์ ํ ๋ค๋ฅธ ์ปดํจํ /๋ชจ๋ธ ๋ฐฉ์โ์ด ๋๋๋ ์๋.
โ์ ํํ ์ด๋ค ๋ฐฉํฅ์ผ๋ก ๊ฐ์ง๋ ๋งค์ฐ ์์ธกํ๊ธฐ ์ด๋ ต๋คโ๋ฉฐ Dan ๋ณธ์ธ๋ ์ ์คํ ํ๋๋ฅผ ์ ์ง.
๐2
๋ฉํ์ ์์ฑ AI ์กฐ์ง์ด ํจ๋ ์ํ์ ๋น ์ก์ต๋๋ค.
๋ชจ๋ ๊ฒ์ deepseek v3์์ ์์๋์์ต๋๋ค.
์ด ๋ชจ๋ธ์ด Llama 4๋ฅผ ์ด๋ฏธ ๋ฒค์น๋งํฌ์์ ๋ค์ฒ์ง๊ฒ ๋ง๋ค์์ฃ .
์ค์๊ฐ์์ผ๋ก โ5~5๋ฐฑ๋ง ๋ฌ๋ฌ์ ์์ฐ์ผ๋ก ํ๋ จํ ์ ์ฒด๋ถ๋ช ์ ์ค๊ตญ ํ์ฌโ๊ฐ ๋ํ๋ฌ์ต๋๋ค.
์์ง๋์ด๋ค์ deepseek์ ํ์ฌ์ ์ผ๋ก ๋ถ์ํ๋ฉฐ ๊ฑฐ๊ธฐ์ ๋ฐฐ์ธ ์ ์๋ ๋ชจ๋ ๊ฒ์ ๋ฒ ๊ปด ์ค๋ ค๊ณ ํ๊ณ ์์ต๋๋ค. ์ ๋ง ๊ณผ์ฅ์ด ์๋๋๋ค.
๊ฒฝ์์ง์ ์์ฑ AI ์กฐ์ง์ ๋ง๋ํ ๋น์ฉ์ ์ด๋ป๊ฒ ์ ๋นํํ ์ ์์์ง ์ฐ๋ คํ๊ณ ์์ต๋๋ค. ์กฐ์ง ๋ด โ๋ฆฌ๋โ ํ ๋ช ์ด deepseek v3์ ์ ์ฒด ํ๋ จ ๋น์ฉ๋ณด๋ค ๋ ๋ง์ ์ฐ๋ด์ ๋ฐ๊ณ ์๊ณ , ๊ทธ๋ฐ โ๋ฆฌ๋โ๊ฐ ์ฌ๋ฌ ๋ช ์ด๋ ๋๋ ๋ง์ ๋๋ค.
deepseek r1์ ์ํฉ์ ๋์ฑ ์ ํ์์ผฐ์ต๋๋ค. ๊ธฐ๋ฐ ์ ๋ณด๋ผ ์์ธํ ๋ฐํ ์๋ ์์ง๋ง ๊ณง ๊ณต๊ฐ๋ ๊ฒ์ ๋๋ค.
์ฌ์ค ์ด ์กฐ์ง์ ์๊ท๋ชจ์ ์์ง๋์ด๋ง ์ค์ฌ ์กฐ์ง์ด ๋์์ด์ผ ํ์ต๋๋ค. ๊ทธ๋ฌ๋ ์ฌ๋ฌ ์ฌ๋๋ค์ด ์ํฅ๋ ฅ์ ์ป๊ธฐ ์ํด ์กฐ์ง์ผ๋ก ๋ชฐ๋ ค๋ค๊ณ , ์ธ๋ ฅ์ ์ธ์์ ์ผ๋ก ๋ถํ๋ฆฐ ๊ฒฐ๊ณผ ๋ชจ๋์๊ฒ ํด๊ฐ ๋๊ณ ๋ง์์ต๋๋ค.
๋ชจ๋ ๊ฒ์ deepseek v3์์ ์์๋์์ต๋๋ค.
์ด ๋ชจ๋ธ์ด Llama 4๋ฅผ ์ด๋ฏธ ๋ฒค์น๋งํฌ์์ ๋ค์ฒ์ง๊ฒ ๋ง๋ค์์ฃ .
์ค์๊ฐ์์ผ๋ก โ5~5๋ฐฑ๋ง ๋ฌ๋ฌ์ ์์ฐ์ผ๋ก ํ๋ จํ ์ ์ฒด๋ถ๋ช ์ ์ค๊ตญ ํ์ฌโ๊ฐ ๋ํ๋ฌ์ต๋๋ค.
์์ง๋์ด๋ค์ deepseek์ ํ์ฌ์ ์ผ๋ก ๋ถ์ํ๋ฉฐ ๊ฑฐ๊ธฐ์ ๋ฐฐ์ธ ์ ์๋ ๋ชจ๋ ๊ฒ์ ๋ฒ ๊ปด ์ค๋ ค๊ณ ํ๊ณ ์์ต๋๋ค. ์ ๋ง ๊ณผ์ฅ์ด ์๋๋๋ค.
๊ฒฝ์์ง์ ์์ฑ AI ์กฐ์ง์ ๋ง๋ํ ๋น์ฉ์ ์ด๋ป๊ฒ ์ ๋นํํ ์ ์์์ง ์ฐ๋ คํ๊ณ ์์ต๋๋ค. ์กฐ์ง ๋ด โ๋ฆฌ๋โ ํ ๋ช ์ด deepseek v3์ ์ ์ฒด ํ๋ จ ๋น์ฉ๋ณด๋ค ๋ ๋ง์ ์ฐ๋ด์ ๋ฐ๊ณ ์๊ณ , ๊ทธ๋ฐ โ๋ฆฌ๋โ๊ฐ ์ฌ๋ฌ ๋ช ์ด๋ ๋๋ ๋ง์ ๋๋ค.
deepseek r1์ ์ํฉ์ ๋์ฑ ์ ํ์์ผฐ์ต๋๋ค. ๊ธฐ๋ฐ ์ ๋ณด๋ผ ์์ธํ ๋ฐํ ์๋ ์์ง๋ง ๊ณง ๊ณต๊ฐ๋ ๊ฒ์ ๋๋ค.
์ฌ์ค ์ด ์กฐ์ง์ ์๊ท๋ชจ์ ์์ง๋์ด๋ง ์ค์ฌ ์กฐ์ง์ด ๋์์ด์ผ ํ์ต๋๋ค. ๊ทธ๋ฌ๋ ์ฌ๋ฌ ์ฌ๋๋ค์ด ์ํฅ๋ ฅ์ ์ป๊ธฐ ์ํด ์กฐ์ง์ผ๋ก ๋ชฐ๋ ค๋ค๊ณ , ์ธ๋ ฅ์ ์ธ์์ ์ผ๋ก ๋ถํ๋ฆฐ ๊ฒฐ๊ณผ ๋ชจ๋์๊ฒ ํด๊ฐ ๋๊ณ ๋ง์์ต๋๋ค.
โ์ํ์ด ๊ณง ์ถ๋ก โ์ด๋ผ๋ ๋ฏฟ์
์ํ์ ์ง์ ๊ฐ๋ฅด์ณ์ผ ํ๋ ์ด์
๋๊ท๋ชจ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ(LLM)๋ค์ด ์ธํฐ๋ท ํ ์คํธ ์ ๋ฐ(์ฝ๋, ์์ฐ์ด, ๋ ผ๋ฌธ ๋ฑ)์ ํ์ตํด โ์์ฐ์ค๋ฝ๊ฒโ ์ํ ๋ฅ๋ ฅ์ ์ตํ ์ ์๋ค๊ณ ๊ธฐ๋ํ์ง๋ง, ์ค์ ๋ก๋ ๋ฏธํกํจ.
โ์ํ์ ๊ฐ๊ด์ ์ด๊ณ ์๊ฒฉํ ๋ ผ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉฐโ, ์ด๋ฅผ AI์ ์ง์ ํ์ต์์ผ์ผ ์ง์ ํ โ์ถ๋ก ๋ฅ๋ ฅโ์ด ์๊ธด๋ค๊ณ ๋ด.
์ธ๊ฐ ์ฌ๋ก: ์ด๋ฆด ๋ ์ํ(ํนํ ์ด๋ ต๊ณ ์ถ์์ ์ธ ๋ฌธ์ )์ ํ๋ จํ ์ฌ๋๋ค์ด ๋ค๋ฅธ ๊ณผํยท๊ณตํยท๋ ผ๋ฆฌ์ ์์ ์ ๋ฐ์ด๋ ์ญ๋์ ๋ฐํํ๋ฏ, AI๋ ๋ง์ฐฌ๊ฐ์ง ํจํด์ ๋ณด์ผ ๊ฒ์ผ๋ก ์์.
์ํ์ ์ํ๋ฉด ๋ค๋ฅธ ๋ถ์ผ๋ ์ํ ์ ์๋๊ฐ?
์ฝ๋ ์์: ์ด๋ฏธ ์ ๊ณ์์ โ์ฝ๋ ๋ฐ์ดํฐ๋ก ํ์ตํ๋ฉด ๋ ผ๋ฆฌยท์ถ๋ก ๋ฒค์น๋งํฌ ์ ์๊ฐ ํฌ๊ฒ ์ฌ๋ผ๊ฐ๋คโ๋ ์ฌ์ค์ด ์๋ ค์ ธ ์์. ์ํ์ ๊ทธ๋ณด๋ค ๋ ํ์ฅ๋ ๋ฒ์์ ๋ ผ๋ฆฌ ํ๋ จ์ ์ ๊ณต.
๋ธ๋ผ๋ ํ ๋ค๋ธ ๋ณธ์ธ์ ๊ฒฝํ: ๋ํ ์์ ์ํ์ ๋ชฐ๋ํ์ผ๋, ์ดํ ํ๋ก๊ทธ๋๋ฐยท๊ธฐ์ ๊ฒฝ์ยท๊ณ์ฝ์ ๋ถ์ ๋ฑ ๋ค์ํ ๋ถ์ผ๋ฅผ ๋น ๋ฅด๊ฒ ์ตํ ์ ์์๋ค๊ณ ์ธ๊ธ.
AI๊ฐ ๋ฆฌ๋ง ๊ฐ์ค(Riemann Hypothesis) ๋ฑ์ ํ ์ ์์๊น?
์ํ๊ณ์ ์๊ฐ
์ ์ ์ํ์๋ค์ Lean, ์๋์ฆ๋ช , AI ์ฐ๊ตฌ์ ๋น๊ต์ ๊ฐ๋ฐฉ์ ยท๊ธ์ ์ ์ธ ๋ฐ๋ฉด, ์ ํต์ ์ธ ํ๊ณ ์๋ก๋ค์ ์์ง ๋ค์ ํ์์ .
๊ทธ๋ฌ๋ ์ ์ฐจ โAI ๋ณด์กฐ ์ํ ์ฐ๊ตฌ(Human+AI ํ๋ ฅ)โ๊ฐ ๋ณดํธํ๋ ๊ฒ์ด๋ผ๋ ๋ฐ์๋ ๊ณต๊ฐ๋๊ฐ ํ์ฑ๋๊ณ ์์.
๋ฆฌ๋ง ๊ฐ์ค ๋ฑ ๋ฐ๋ ๋์ ๋์
๋ฉํํ๋ฌ์ค(Metaculus) ์์ธก: โ๋ค์ ๋ฐ๋ ๋์ ํ๋ผ์ด์ฆ๋ฅผ AI ํน์ AI ๋ณด์กฐ๋ก ํด๊ฒฐํ ํ๋ฅ ์ด 43%โ๋ผ๋ ์ง๊ณ๊ฐ ์์ผ๋, ๋ธ๋ผ๋๋ ์ด๋ฅผ โ๊ณผ์ํ๊ฐโ๋ผ๊ณ ๋ด.
์กฐ๋ง๊ฐ(๊ฐ๋ น 2020๋ ๋ ๋ง~2030๋ ๋ ์ด)์ AI๊ฐ ์ธ๊ฐ ํ์ ๋๋ ๋จ๋ ์ผ๋ก ์ฃผ์ ๋์ ๋ฅผ ํด๊ฒฐํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค๊ณ ์ ๋ง.
์ธ๊ฐ์ด ํด์ผ ํ ์ญํ
AI๊ฐ ์ ์ฐจ ์ํ ๋ฌธ์ ํด๊ฒฐ๋ ฅ์ ๋์ด๋๋ผ๋, โ์ด๋ค ๋ฌธ์ ์ compute ์์์ ํฌ์ ํ ์ง ๊ฒฐ์ โํ๋ ๊ฒ์ ์ธ๊ฐ์ ๋ชซ.
๋ํ โ์๋ก์ด ๋ฌธ์ ๋ฅผ ์ด๋ป๊ฒ ์ ์ํ๊ณ , ์ฆ๋ช ๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ป๊ฒ ํด์ํ ์งโ ๋ฑ์ ๊ณผ์ ์์ ์ธ๊ฐ ์ํ์๋ค์ ๊ณ์ ์ค์ํ ์ญํ ์ ํ ๊ฒ.
Lean(๊ณต์ ์ฆ๋ช ์์คํ ) ํ์ฉ๊ณผ ์๊ธฐ๊ฐํ(Self-play)
Lean์ด๋?
๋ง์ดํฌ๋ก์ํํธ ์ฐ๊ตฌ์(ํ์ฌ๋ AWS ์์) ๋ ์ค ๋ ๋ชจ๋ผ(Leo de Moura)๊ฐ ๊ฐ๋ฐํ ํ์ ๋ ผ๋ฆฌ(Proof Assistant) ๊ธฐ๋ฐ ์ธ์ด.
์๋๋ โ์ํํธ์จ์ด ๊ฒ์ฆโ์ ๋ชฉํ๋ก ํ์ง๋ง, ์ํ๊ณ์์ ํญ๋ฐ์ ์ผ๋ก ํ์ฐ๋์ด ์์ฒ ๋ช ์ด์์ ์ํ์๋ค์ด Mathlib ์คํ์์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๊ตฌ์ถ ์ค.
๋ชจ๋ ์ ๋ฆฌ๋ Lean์ ํ์ ์์คํ ์์ โํจ์(signature)โ ํํ๋ก ํํ๋๋ฏ๋ก, ์ฆ๋ช ๋ง ํต๊ณผํ๋ฉด 100% ์ณ์ ๊ฒ์ผ๋ก ๊ฐ์ฃผ ๊ฐ๋ฅ.
์ ์ํ AI์ Lean์ด ํ์์ธ๊ฐ?
์ผ๋ฐ ํ ์คํธ ๊ธฐ๋ฐ์ โ์ ๋ต ์ฌ๋ถโ ํ๋จ์ ๋ชจํธํ๊ฑฐ๋ ์ก์์ด ๋ง๋ค.
Lean ์์์๋ โ์ฆ๋ช ์ด ์ปดํ์ผ๋๋ฉด ์ณ์์ด ํ์ โ๋๋ฏ๋ก, ๊ฐํํ์ต(RL)๊ณผ ์๊ธฐ๊ฒ์ฆ(self-play)์ ์ด์์ .
์ฒด์ค๋ ๋ฐ๋์ฒ๋ผ ํด๊ฐ ์ ํํ ๊ฒ์๊ณผ ๋ฌ๋ฆฌ, ์ํ ๋ฌธ์ ๋ ๋ฌดํํ ๋ค์์ฑ๊ณผ ๋์ด๋๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฏ๋ก AI๊ฐ ๋์์์ด ๋ ๋์ ๊ฒฝ์ง๋ก ์ฌ๋ผ๊ฐ ์ ์์(โAlphaZeroโ ๋ฐฉ์).
ํฉ์ฑ ๋ฐ์ดํฐ(synthetic data)
ํ๋ชจ๋์ ๊ธฐ์กด์ ์กด์ฌํ๋ Mathlibยท๋ ผ๋ฌธยท์ธํฐ๋ท ์ํ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ๋ถ์กฑํ๋ค๊ณ ํ๋จ.
๊ฒฐ๊ตญ AI๊ฐ ์์ฒด์ ์ผ๋ก ์๋ง์ ๋ฌธ์ ๋ฅผ ๋ง๋ค์ด(์๊ธฐ ์ถ์ ) ํ๊ณ (์๊ธฐ ํด๊ฒฐ), ๊ฒ์ฆํ๋ ๋ฃจํ๋ฅผ ํตํด ๋ฐ์ดํฐ๋ฅผ ์์ฑํด์ผ ํจ.
์ด๋ ๊ฒ โ์ฆ๋ช ๋์ด๋โ๋ ์ ์ฐจ ๋์ด๋ ๋ฐฉ์์ผ๋ก ์ ์ง์ ์๊ธฐํ์ต์ ๊ตฌํ.
๋ชฉํ: ์ธ๊ฐ ์ง์์ ๊ฒฝ๊ณ๋ฅผ ํ์ฅ
๋น์ฅ์๋ โAI ์ํ ์ฐ๊ตฌ์โ๊ฐ ๋์ด, ๋ํ ๋์ ๋ฅผ ํธ๋ ๋ฐ ๊ธฐ์ฌ. (์: ๋ฐ๋ ๋์ ๋ฌธ์ , ๋ฆฌ๋ง ๊ฐ์ค, ๋๋ธ-์คํก์ค ๋ฑ)
๊ทธ ๊ณผ์ ์์ ํ์ฑ๋๋ โ์๋ฆฌ ์ถ๋ก ๋ฅ๋ ฅโ์ด ๊ฒฐ๊ตญ ๋ฌผ๋ฆฌํ, ์ด๋ก ๊ณผํ, ์ํํธ์จ์ด ๊ฒ์ฆ ๋ฑ์ผ๋ก ํ์ฅ๋ ๊ฒ.
์ถํ์๋ โ์ํํธ์จ์ด๋ฅผ ์๋์ผ๋ก ์๋ฒฝ ๊ฒ์ฆโํ๋ ์๋๊ฐ ๋๋ํ ๊ฐ๋ฅ์ฑ์ด ๋์.
์ํํธ์จ์ด ์์ง๋์ด๋ง ํจ๋ฌ๋ค์ ์ ํ
์ธ๊ฐ์ด ์ง์ ์ฝ๋๋ฅผ ์์ฑํ๊ณ ๊ฒํ ํ๋ ๋ฐฉ์์์, ์์ผ๋ก๋ โ์ฌ์(์คํ)โ ์์ฃผ๋ก ํ์ ํ๊ณ , ์ค์ ์ฝ๋ ๊ตฌํ๊ณผ ๊ฒ์ฆ์ ๊ฑฐ์ AI๊ฐ ์ํ.
๋น์ฉ์ด ๋น์ธ๊ณ ๋ณต์กํ๋ โํฌ๋ฉ ๊ฒ์ฆ(formal verification)โ๋ AI ๋๋ถ์ ์ ๋น์ฉยท์๋ํ๋ก ์ ํ๋ ์ ์์.
๊ธฐ์ ์ ์ผ๋ก ๋จ์ ๊ณผ์
์์ง Lean๊ณผ Mathlib์ด ์ผ๋ถ ๋ถ์ผ(์: ๊ธฐํํ, ๋ฌผ๋ฆฌ ๋ฑ)์์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์ ํ์ .
โAI๊ฐ ์๋์ผ๋ก ์๋ก์ด ์ด๋ก ยท๊ณต๋ฆฌ๋ฅผ ์ ์ํ๊ณ , ์ด๋ฅผ ๋ค์ Lean์ ํฌ์ญโํ๋ ์์ ์ด ์์ ํ ์๋ํ๋๋ ค๋ฉด ์ฐ๊ตฌ๊ฐ ๋ ํ์.
๊ทธ๋ฌ๋ 1~2๋ ์ด๋ด์ โIMO ์์ค(๊ตญ์ ์ํ์ฌ๋ฆผํผ์๋ ์ฐ์น ์์ค)โ์ ๋ฌ์ฑํ ์ ์๊ณ , ๊ทธ ํ ๋งค์ฐ ๋น ๋ฅธ ์๋๋ก ์ฑ์ฅํ ๊ฒ์ด๋ผ๋ ์ ๋ง.
https://youtu.be/NvAxuCIBb-c
์ํ์ ์ง์ ๊ฐ๋ฅด์ณ์ผ ํ๋ ์ด์
๋๊ท๋ชจ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ(LLM)๋ค์ด ์ธํฐ๋ท ํ ์คํธ ์ ๋ฐ(์ฝ๋, ์์ฐ์ด, ๋ ผ๋ฌธ ๋ฑ)์ ํ์ตํด โ์์ฐ์ค๋ฝ๊ฒโ ์ํ ๋ฅ๋ ฅ์ ์ตํ ์ ์๋ค๊ณ ๊ธฐ๋ํ์ง๋ง, ์ค์ ๋ก๋ ๋ฏธํกํจ.
โ์ํ์ ๊ฐ๊ด์ ์ด๊ณ ์๊ฒฉํ ๋ ผ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉฐโ, ์ด๋ฅผ AI์ ์ง์ ํ์ต์์ผ์ผ ์ง์ ํ โ์ถ๋ก ๋ฅ๋ ฅโ์ด ์๊ธด๋ค๊ณ ๋ด.
์ธ๊ฐ ์ฌ๋ก: ์ด๋ฆด ๋ ์ํ(ํนํ ์ด๋ ต๊ณ ์ถ์์ ์ธ ๋ฌธ์ )์ ํ๋ จํ ์ฌ๋๋ค์ด ๋ค๋ฅธ ๊ณผํยท๊ณตํยท๋ ผ๋ฆฌ์ ์์ ์ ๋ฐ์ด๋ ์ญ๋์ ๋ฐํํ๋ฏ, AI๋ ๋ง์ฐฌ๊ฐ์ง ํจํด์ ๋ณด์ผ ๊ฒ์ผ๋ก ์์.
์ํ์ ์ํ๋ฉด ๋ค๋ฅธ ๋ถ์ผ๋ ์ํ ์ ์๋๊ฐ?
์ฝ๋ ์์: ์ด๋ฏธ ์ ๊ณ์์ โ์ฝ๋ ๋ฐ์ดํฐ๋ก ํ์ตํ๋ฉด ๋ ผ๋ฆฌยท์ถ๋ก ๋ฒค์น๋งํฌ ์ ์๊ฐ ํฌ๊ฒ ์ฌ๋ผ๊ฐ๋คโ๋ ์ฌ์ค์ด ์๋ ค์ ธ ์์. ์ํ์ ๊ทธ๋ณด๋ค ๋ ํ์ฅ๋ ๋ฒ์์ ๋ ผ๋ฆฌ ํ๋ จ์ ์ ๊ณต.
๋ธ๋ผ๋ ํ ๋ค๋ธ ๋ณธ์ธ์ ๊ฒฝํ: ๋ํ ์์ ์ํ์ ๋ชฐ๋ํ์ผ๋, ์ดํ ํ๋ก๊ทธ๋๋ฐยท๊ธฐ์ ๊ฒฝ์ยท๊ณ์ฝ์ ๋ถ์ ๋ฑ ๋ค์ํ ๋ถ์ผ๋ฅผ ๋น ๋ฅด๊ฒ ์ตํ ์ ์์๋ค๊ณ ์ธ๊ธ.
AI๊ฐ ๋ฆฌ๋ง ๊ฐ์ค(Riemann Hypothesis) ๋ฑ์ ํ ์ ์์๊น?
์ํ๊ณ์ ์๊ฐ
์ ์ ์ํ์๋ค์ Lean, ์๋์ฆ๋ช , AI ์ฐ๊ตฌ์ ๋น๊ต์ ๊ฐ๋ฐฉ์ ยท๊ธ์ ์ ์ธ ๋ฐ๋ฉด, ์ ํต์ ์ธ ํ๊ณ ์๋ก๋ค์ ์์ง ๋ค์ ํ์์ .
๊ทธ๋ฌ๋ ์ ์ฐจ โAI ๋ณด์กฐ ์ํ ์ฐ๊ตฌ(Human+AI ํ๋ ฅ)โ๊ฐ ๋ณดํธํ๋ ๊ฒ์ด๋ผ๋ ๋ฐ์๋ ๊ณต๊ฐ๋๊ฐ ํ์ฑ๋๊ณ ์์.
๋ฆฌ๋ง ๊ฐ์ค ๋ฑ ๋ฐ๋ ๋์ ๋์
๋ฉํํ๋ฌ์ค(Metaculus) ์์ธก: โ๋ค์ ๋ฐ๋ ๋์ ํ๋ผ์ด์ฆ๋ฅผ AI ํน์ AI ๋ณด์กฐ๋ก ํด๊ฒฐํ ํ๋ฅ ์ด 43%โ๋ผ๋ ์ง๊ณ๊ฐ ์์ผ๋, ๋ธ๋ผ๋๋ ์ด๋ฅผ โ๊ณผ์ํ๊ฐโ๋ผ๊ณ ๋ด.
์กฐ๋ง๊ฐ(๊ฐ๋ น 2020๋ ๋ ๋ง~2030๋ ๋ ์ด)์ AI๊ฐ ์ธ๊ฐ ํ์ ๋๋ ๋จ๋ ์ผ๋ก ์ฃผ์ ๋์ ๋ฅผ ํด๊ฒฐํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค๊ณ ์ ๋ง.
์ธ๊ฐ์ด ํด์ผ ํ ์ญํ
AI๊ฐ ์ ์ฐจ ์ํ ๋ฌธ์ ํด๊ฒฐ๋ ฅ์ ๋์ด๋๋ผ๋, โ์ด๋ค ๋ฌธ์ ์ compute ์์์ ํฌ์ ํ ์ง ๊ฒฐ์ โํ๋ ๊ฒ์ ์ธ๊ฐ์ ๋ชซ.
๋ํ โ์๋ก์ด ๋ฌธ์ ๋ฅผ ์ด๋ป๊ฒ ์ ์ํ๊ณ , ์ฆ๋ช ๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ป๊ฒ ํด์ํ ์งโ ๋ฑ์ ๊ณผ์ ์์ ์ธ๊ฐ ์ํ์๋ค์ ๊ณ์ ์ค์ํ ์ญํ ์ ํ ๊ฒ.
Lean(๊ณต์ ์ฆ๋ช ์์คํ ) ํ์ฉ๊ณผ ์๊ธฐ๊ฐํ(Self-play)
Lean์ด๋?
๋ง์ดํฌ๋ก์ํํธ ์ฐ๊ตฌ์(ํ์ฌ๋ AWS ์์) ๋ ์ค ๋ ๋ชจ๋ผ(Leo de Moura)๊ฐ ๊ฐ๋ฐํ ํ์ ๋ ผ๋ฆฌ(Proof Assistant) ๊ธฐ๋ฐ ์ธ์ด.
์๋๋ โ์ํํธ์จ์ด ๊ฒ์ฆโ์ ๋ชฉํ๋ก ํ์ง๋ง, ์ํ๊ณ์์ ํญ๋ฐ์ ์ผ๋ก ํ์ฐ๋์ด ์์ฒ ๋ช ์ด์์ ์ํ์๋ค์ด Mathlib ์คํ์์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๊ตฌ์ถ ์ค.
๋ชจ๋ ์ ๋ฆฌ๋ Lean์ ํ์ ์์คํ ์์ โํจ์(signature)โ ํํ๋ก ํํ๋๋ฏ๋ก, ์ฆ๋ช ๋ง ํต๊ณผํ๋ฉด 100% ์ณ์ ๊ฒ์ผ๋ก ๊ฐ์ฃผ ๊ฐ๋ฅ.
์ ์ํ AI์ Lean์ด ํ์์ธ๊ฐ?
์ผ๋ฐ ํ ์คํธ ๊ธฐ๋ฐ์ โ์ ๋ต ์ฌ๋ถโ ํ๋จ์ ๋ชจํธํ๊ฑฐ๋ ์ก์์ด ๋ง๋ค.
Lean ์์์๋ โ์ฆ๋ช ์ด ์ปดํ์ผ๋๋ฉด ์ณ์์ด ํ์ โ๋๋ฏ๋ก, ๊ฐํํ์ต(RL)๊ณผ ์๊ธฐ๊ฒ์ฆ(self-play)์ ์ด์์ .
์ฒด์ค๋ ๋ฐ๋์ฒ๋ผ ํด๊ฐ ์ ํํ ๊ฒ์๊ณผ ๋ฌ๋ฆฌ, ์ํ ๋ฌธ์ ๋ ๋ฌดํํ ๋ค์์ฑ๊ณผ ๋์ด๋๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฏ๋ก AI๊ฐ ๋์์์ด ๋ ๋์ ๊ฒฝ์ง๋ก ์ฌ๋ผ๊ฐ ์ ์์(โAlphaZeroโ ๋ฐฉ์).
ํฉ์ฑ ๋ฐ์ดํฐ(synthetic data)
ํ๋ชจ๋์ ๊ธฐ์กด์ ์กด์ฌํ๋ Mathlibยท๋ ผ๋ฌธยท์ธํฐ๋ท ์ํ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ๋ถ์กฑํ๋ค๊ณ ํ๋จ.
๊ฒฐ๊ตญ AI๊ฐ ์์ฒด์ ์ผ๋ก ์๋ง์ ๋ฌธ์ ๋ฅผ ๋ง๋ค์ด(์๊ธฐ ์ถ์ ) ํ๊ณ (์๊ธฐ ํด๊ฒฐ), ๊ฒ์ฆํ๋ ๋ฃจํ๋ฅผ ํตํด ๋ฐ์ดํฐ๋ฅผ ์์ฑํด์ผ ํจ.
์ด๋ ๊ฒ โ์ฆ๋ช ๋์ด๋โ๋ ์ ์ฐจ ๋์ด๋ ๋ฐฉ์์ผ๋ก ์ ์ง์ ์๊ธฐํ์ต์ ๊ตฌํ.
๋ชฉํ: ์ธ๊ฐ ์ง์์ ๊ฒฝ๊ณ๋ฅผ ํ์ฅ
๋น์ฅ์๋ โAI ์ํ ์ฐ๊ตฌ์โ๊ฐ ๋์ด, ๋ํ ๋์ ๋ฅผ ํธ๋ ๋ฐ ๊ธฐ์ฌ. (์: ๋ฐ๋ ๋์ ๋ฌธ์ , ๋ฆฌ๋ง ๊ฐ์ค, ๋๋ธ-์คํก์ค ๋ฑ)
๊ทธ ๊ณผ์ ์์ ํ์ฑ๋๋ โ์๋ฆฌ ์ถ๋ก ๋ฅ๋ ฅโ์ด ๊ฒฐ๊ตญ ๋ฌผ๋ฆฌํ, ์ด๋ก ๊ณผํ, ์ํํธ์จ์ด ๊ฒ์ฆ ๋ฑ์ผ๋ก ํ์ฅ๋ ๊ฒ.
์ถํ์๋ โ์ํํธ์จ์ด๋ฅผ ์๋์ผ๋ก ์๋ฒฝ ๊ฒ์ฆโํ๋ ์๋๊ฐ ๋๋ํ ๊ฐ๋ฅ์ฑ์ด ๋์.
์ํํธ์จ์ด ์์ง๋์ด๋ง ํจ๋ฌ๋ค์ ์ ํ
์ธ๊ฐ์ด ์ง์ ์ฝ๋๋ฅผ ์์ฑํ๊ณ ๊ฒํ ํ๋ ๋ฐฉ์์์, ์์ผ๋ก๋ โ์ฌ์(์คํ)โ ์์ฃผ๋ก ํ์ ํ๊ณ , ์ค์ ์ฝ๋ ๊ตฌํ๊ณผ ๊ฒ์ฆ์ ๊ฑฐ์ AI๊ฐ ์ํ.
๋น์ฉ์ด ๋น์ธ๊ณ ๋ณต์กํ๋ โํฌ๋ฉ ๊ฒ์ฆ(formal verification)โ๋ AI ๋๋ถ์ ์ ๋น์ฉยท์๋ํ๋ก ์ ํ๋ ์ ์์.
๊ธฐ์ ์ ์ผ๋ก ๋จ์ ๊ณผ์
์์ง Lean๊ณผ Mathlib์ด ์ผ๋ถ ๋ถ์ผ(์: ๊ธฐํํ, ๋ฌผ๋ฆฌ ๋ฑ)์์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์ ํ์ .
โAI๊ฐ ์๋์ผ๋ก ์๋ก์ด ์ด๋ก ยท๊ณต๋ฆฌ๋ฅผ ์ ์ํ๊ณ , ์ด๋ฅผ ๋ค์ Lean์ ํฌ์ญโํ๋ ์์ ์ด ์์ ํ ์๋ํ๋๋ ค๋ฉด ์ฐ๊ตฌ๊ฐ ๋ ํ์.
๊ทธ๋ฌ๋ 1~2๋ ์ด๋ด์ โIMO ์์ค(๊ตญ์ ์ํ์ฌ๋ฆผํผ์๋ ์ฐ์น ์์ค)โ์ ๋ฌ์ฑํ ์ ์๊ณ , ๊ทธ ํ ๋งค์ฐ ๋น ๋ฅธ ์๋๋ก ์ฑ์ฅํ ๊ฒ์ด๋ผ๋ ์ ๋ง.
https://youtu.be/NvAxuCIBb-c
https://youtu.be/KYzYOPkxLis
๊ธ๋ก๋ฒ AI ์ธํ๋ผ & ๋ํ ํฌ์ ๊ฒฝ์
GPU ์์ ํญ์ฆ๊ณผ ์บํ(Capacity) ํ๊ณ:
x.ai(Elon Musk)๋ Anthropic(์๋ง์กด ํ์), Google(DeepMind), Meta ๋ฑ ์ด๊ฑฐ๋ ๋ชจ๋ธ๋ค์ด ๋ชจ๋ GPU ์ฆ์ค ๊ฒฝ์.
์ ์กฐ์ฌ(Nvidia ๋ฑ)์ ์ฐ๊ฐ GPU ์์ฐ๋ฅ๋ ฅ์ ๊ฐ์ํ ๋, ๋๊ท๋ชจ ์ ๊ท ํ๋ก์ ํธ(Stargate ๋ฑ)๋ ๊ฒฐ๊ตญ GPUยท์ ๋ ฅยท๋ฉ๋ชจ๋ฆฌยท์์ง๋์ด๋ง์ด ๋ณ๋ชฉ์ด ๋ ๊ฒ์ผ๋ก ๋ณด์.
์ด ๊ณผ์ ์์ Nvidia์ ์์๊ฐ ๋์ฑ ์ฆ๊ฐ, ๊ธฐ์ ๋งค์ถ ๊ธฐ๋์น ์์น.
Innovation vs. Commoditization:
์ผ๋ถ ์ ๋ฌธ๊ฐ๋ ๊ท๋ชจ์ ๊ฒฝ์ ์ ๋ญ์นซ๋์ด ๋ชจ์ด๋ฉด, ๊ณง AI ๋ชจ๋ธ๋ค์ โ์ ์ฌ Commoditizationโ์ด ์ฌ ์ ์๋ค๊ณ ์ง์ .
๊ทธ๋ฌ๋ Sam Altman(์คํAI), Elon Musk(x.ai)์ฒ๋ผ โ๋ง๋ํ ์๋ณธ+๋ ๋ณด์ ๋ชจ๋ธ๋งยท๋ฐ์ดํฐโ ์กฐํฉ์ด ๊ฒฐ๊ตญ ์น์๋ก ๊ท๊ฒฐ๋ ๊ฒ์ด๋ผ๋ ์ ๋ง๋ ๊ณต์กด.
๊ตญ๊ฐ ๊ฒฝ์๊ตฌ๋:
๋ฏธ๊ตญ์ด ๋๊ท๋ชจ AI compute ์ผํฐ ๊ฑด์ค์ ๋ฐ์ฐจ๋ฅผ ๊ฐํ๋ฉด, MetaยทGoogleยทMicrosoft ๋ฑ ์๊ตญ ํ ํฌ ๊ธฐ์ ๋ ๋์ Capex ์ฆ์ค์ด ๋ถ๊ฐํผ.
์ค๊ตญ์ ์ด์ฉ ์ ์์ด โ์ ํ๋ ์นฉ ํ๊ฒฝโ์์ ํ์ (์์ถ ๋ชจ๋ธยท์ฆ๋ฅ ๋ชจ๋ธ ๋ฑ)์ ๊ฐ์ํ ์ค. DeepSeek ์ฌ๋ก๊ฐ ๋ํ์ .
๋๋ด์๋ค์ ํํ ์์ถ ์ ํ์ด ์คํ๋ ค ์ค๊ตญ ์ธก์ ์ฐฝ์์ ์๋ฃจ์ ์ ์ ๋ํ ์ ์๋ค๊ณ ์ง์ .
์ ๋ ฅ ์์๊ฐ ๊ธฐ๊ฐ์ํธ(GW) ๊ธ:
10๋ง GPU ์์ค์ โAI ํฉํ ๋ฆฌโ๋ 100MW ์ด์์ ์ ๋ ฅ์ด ์์๋๋ค๊ณ ์๋ ค์ ธ ์์ต๋๋ค.
๊ทธ ์ด์์ ๊ท๋ชจ๊ฐ ๋๋ฉด ์ต๋ 1GW์ ์ด๋ฅด๋ ์ ๋ ฅ ์ธํ๋ผ๋ ํ์ํฉ๋๋ค(์ฐธ๊ณ ๋ก, 1GW๋ ์ฝ 100๋ง ๊ฐ๊ตฌ๊ฐ ์ฌ์ฉํ๋ ์ ๋ ฅ๋์ ํด๋น).
์ GW ๊ท๋ชจ์ ๋ถ์งยท์ ๋ ฅยท๋๊ฐ ์ธํ๋ผ๋ฅผ ๊ฑด์คํ ์ ์์ด์ผ โ๋งค์ฐ ํฌ๋คโ๊ณ ํ๊ฐํ๊ฒ ๋ฉ๋๋ค.
์๋ฐฑ์ต~์์ฒ์ต ๋ฌ๋ฌ๊ธ ํฌ์ ๊ท๋ชจ:
์๋น๋์ H100 GPU 1์ฅ๋ง ํด๋ ์ฝ 2~3๋ง ๋ฌ๋ฌ, ์๋ฒยท๋๊ฐยท๋คํธ์ํนยท๋ถ์ง ๋ฑ์ ์ข ํฉํ๋ฉด GPU 1์ฅ๋น 4~5๋ง ๋ฌ๋ฌ์ Total System Cost๊ฐ ๋ ๋ค๋ ์ถ์ ์ด ์์ต๋๋ค.
์์ปจ๋ 10๋ง ์ฅ๋ง ํด๋, ํ๋์จ์ดยท์ธํ๋ผ ๋น์ฉ์ด 50์ต ๋ฌ๋ฌ์ ๋ฌํ๊ณ , ์ค์ ๋ก๋ ์ ๋ ฅ ์ค๋น/์๊ณต ๋น์ฉ ๋ฑ์ด ๋ํด์ ธ ๊ทธ 2~3๋ฐฐ๋ก ๋ธ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค.
SoftBank(Arm)์ OpenAI์ ํ์ ์ด ๊ตฌ์ฒดํ๋ ๊ฒฝ์ฐ, ์์ญ๋ง ์ฅ GPU ์ฌ์ฉ, ์๋ฐฑ์ต ๋ฌ๋ฌ๊ธ Capex๊ฐ ๋ค์ด๊ฐ ์ ์์ด โ์ด๋ํโ์ด๋ผ ํ๊ฐ๋๋ ๊ฒ์ ๋๋ค.
AI Helm vs. Micro-model ํ์
๋ฅ์จํฌ(DeepSeek) ๋ฑ์ ์ ํ๋ GPU๋ก๋ ๊ณ ์ฑ๋ฅ ๋ชจ๋ธ ๋ฌ์ฑ(๋ชจ๋ธ ์์ถยท์ฆ๋ฅ ๊ธฐ๋ฒ) โ ๊ท์ ๊ฐ ์ญ์ค์ ์ผ๋ก ํ์ .
์ค์ ์คํ ๊ณผ์
์ ๋ ฅ ํ๋ณด(7GW~10GW ์ด์), GPU ์์ฐํ ํน ์บํ(3nm ๊ณต์ ), ๋๊ท๋ชจ HBM ๊ณต๊ธ, ๋๊ฐยท์ผ์ด๋ธ ์ธํ๋ผ ๋ฑ ์ข ํฉ์ ์ฐจ์์ ํ์ ํ์.
๋ฏธ๊ตญ ๋ํ ํ ํฌ ๊ธฐ์ (๊ตฌ๊ธ, ๋ฉํ, ์๋ง์กด, x.ai)๋ ํน๋ ํ Capex ๊ฒฝ์ ์์.
๋ฐ๋์ฒด ์์ฐ ์บํ(Capacity) ์์ฒด ํ์ถฉ:
GPUยทAI์ฉ ASIC ๋ฑ ์์ฐ์ ๋ด๋นํ๋ ํ์ด๋๋ฆฌ(์ฃผ๋ก TSMC)๋ ์ธํ ยท์ผ์ฑ์ ์๊ฐ 3nmยท2nm ๊ณต์ ์ผ๋ก ๋๋ ์์ฐํ ์ ์๋๋ก ๊ณต์ฅ๋ผ์ธยท์ฅ๋น(ASML ๋ ธ๊ด์ฅ๋น ๋ฑ)๋ฅผ ์ฆ์คํด์ผ ํจ.
CPU ์์ฐ์ ๊ฒฝ์ฐ๋ Arm ์ํคํ ์ฒ ๊ธฐ๋ฐ SoC๋ฅผ ๋๊ท๋ชจ๋ก ๋ง๋ค๋ ค๋ฉด, ํ์ด๋๋ฆฌ์์ ํ์ ยทํฌ์ ํ์.
HBM(๊ณ ๋์ญํญ ๋ฉ๋ชจ๋ฆฌ) ๋ฑ ๋ณด์กฐ ๋ถํ์ ์์ ์ ์กฐ๋ฌ๋ง ๊ตฌ์ถ:
AI ์๋ฒ์๋ GPU๋ฟ ์๋๋ผ ๋์ฉ๋ HBM ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์์ธ๋ฐ, HBM ์ ์กฐ(์ผ์ฑยทํ์ด๋์ค ๋ฑ)๋ ์บํ๊ฐ ์ ํ์ ์.
์ค์ ๋ก 2023๋ ~2024๋ ์ ์ธ๊ณ HBM์ด ๊ณต๊ธ ๋ถ์กฑ์ด ๋ ์ ์๋ค๋ ์ฐ๋ ค๊ฐ ๊พธ์คํ ์ ๊ธฐ๋์์ต๋๋ค.
๋ฐ๋ผ์ AI ๊ธฐ์ ๋ค์ โCPU/GPU์นฉ+HBM+Advanced Packagingโ ๋ฑ ์ ์ฒด ๋ฐ๋์ฒด ๊ณต๊ธ๋ง์ ์ฅ๊ธฐ ๊ณ์ฝยท์ง์ ํฌ์ ๋ฑ์ผ๋ก ํ๋ณดํด์ผ ํ๋ฉฐ, ์ด๊ฒ์ โ๋ฐ๋์ฒด ํ์ดํ๋ผ์ธ ํ์ถฉโ์ด๋ผ ๋ถ๋ฆ ๋๋ค.
๊ธ๋ก๋ฒ AI ์ธํ๋ผ & ๋ํ ํฌ์ ๊ฒฝ์
GPU ์์ ํญ์ฆ๊ณผ ์บํ(Capacity) ํ๊ณ:
x.ai(Elon Musk)๋ Anthropic(์๋ง์กด ํ์), Google(DeepMind), Meta ๋ฑ ์ด๊ฑฐ๋ ๋ชจ๋ธ๋ค์ด ๋ชจ๋ GPU ์ฆ์ค ๊ฒฝ์.
์ ์กฐ์ฌ(Nvidia ๋ฑ)์ ์ฐ๊ฐ GPU ์์ฐ๋ฅ๋ ฅ์ ๊ฐ์ํ ๋, ๋๊ท๋ชจ ์ ๊ท ํ๋ก์ ํธ(Stargate ๋ฑ)๋ ๊ฒฐ๊ตญ GPUยท์ ๋ ฅยท๋ฉ๋ชจ๋ฆฌยท์์ง๋์ด๋ง์ด ๋ณ๋ชฉ์ด ๋ ๊ฒ์ผ๋ก ๋ณด์.
์ด ๊ณผ์ ์์ Nvidia์ ์์๊ฐ ๋์ฑ ์ฆ๊ฐ, ๊ธฐ์ ๋งค์ถ ๊ธฐ๋์น ์์น.
Innovation vs. Commoditization:
์ผ๋ถ ์ ๋ฌธ๊ฐ๋ ๊ท๋ชจ์ ๊ฒฝ์ ์ ๋ญ์นซ๋์ด ๋ชจ์ด๋ฉด, ๊ณง AI ๋ชจ๋ธ๋ค์ โ์ ์ฌ Commoditizationโ์ด ์ฌ ์ ์๋ค๊ณ ์ง์ .
๊ทธ๋ฌ๋ Sam Altman(์คํAI), Elon Musk(x.ai)์ฒ๋ผ โ๋ง๋ํ ์๋ณธ+๋ ๋ณด์ ๋ชจ๋ธ๋งยท๋ฐ์ดํฐโ ์กฐํฉ์ด ๊ฒฐ๊ตญ ์น์๋ก ๊ท๊ฒฐ๋ ๊ฒ์ด๋ผ๋ ์ ๋ง๋ ๊ณต์กด.
๊ตญ๊ฐ ๊ฒฝ์๊ตฌ๋:
๋ฏธ๊ตญ์ด ๋๊ท๋ชจ AI compute ์ผํฐ ๊ฑด์ค์ ๋ฐ์ฐจ๋ฅผ ๊ฐํ๋ฉด, MetaยทGoogleยทMicrosoft ๋ฑ ์๊ตญ ํ ํฌ ๊ธฐ์ ๋ ๋์ Capex ์ฆ์ค์ด ๋ถ๊ฐํผ.
์ค๊ตญ์ ์ด์ฉ ์ ์์ด โ์ ํ๋ ์นฉ ํ๊ฒฝโ์์ ํ์ (์์ถ ๋ชจ๋ธยท์ฆ๋ฅ ๋ชจ๋ธ ๋ฑ)์ ๊ฐ์ํ ์ค. DeepSeek ์ฌ๋ก๊ฐ ๋ํ์ .
๋๋ด์๋ค์ ํํ ์์ถ ์ ํ์ด ์คํ๋ ค ์ค๊ตญ ์ธก์ ์ฐฝ์์ ์๋ฃจ์ ์ ์ ๋ํ ์ ์๋ค๊ณ ์ง์ .
์ ๋ ฅ ์์๊ฐ ๊ธฐ๊ฐ์ํธ(GW) ๊ธ:
10๋ง GPU ์์ค์ โAI ํฉํ ๋ฆฌโ๋ 100MW ์ด์์ ์ ๋ ฅ์ด ์์๋๋ค๊ณ ์๋ ค์ ธ ์์ต๋๋ค.
๊ทธ ์ด์์ ๊ท๋ชจ๊ฐ ๋๋ฉด ์ต๋ 1GW์ ์ด๋ฅด๋ ์ ๋ ฅ ์ธํ๋ผ๋ ํ์ํฉ๋๋ค(์ฐธ๊ณ ๋ก, 1GW๋ ์ฝ 100๋ง ๊ฐ๊ตฌ๊ฐ ์ฌ์ฉํ๋ ์ ๋ ฅ๋์ ํด๋น).
์ GW ๊ท๋ชจ์ ๋ถ์งยท์ ๋ ฅยท๋๊ฐ ์ธํ๋ผ๋ฅผ ๊ฑด์คํ ์ ์์ด์ผ โ๋งค์ฐ ํฌ๋คโ๊ณ ํ๊ฐํ๊ฒ ๋ฉ๋๋ค.
์๋ฐฑ์ต~์์ฒ์ต ๋ฌ๋ฌ๊ธ ํฌ์ ๊ท๋ชจ:
์๋น๋์ H100 GPU 1์ฅ๋ง ํด๋ ์ฝ 2~3๋ง ๋ฌ๋ฌ, ์๋ฒยท๋๊ฐยท๋คํธ์ํนยท๋ถ์ง ๋ฑ์ ์ข ํฉํ๋ฉด GPU 1์ฅ๋น 4~5๋ง ๋ฌ๋ฌ์ Total System Cost๊ฐ ๋ ๋ค๋ ์ถ์ ์ด ์์ต๋๋ค.
์์ปจ๋ 10๋ง ์ฅ๋ง ํด๋, ํ๋์จ์ดยท์ธํ๋ผ ๋น์ฉ์ด 50์ต ๋ฌ๋ฌ์ ๋ฌํ๊ณ , ์ค์ ๋ก๋ ์ ๋ ฅ ์ค๋น/์๊ณต ๋น์ฉ ๋ฑ์ด ๋ํด์ ธ ๊ทธ 2~3๋ฐฐ๋ก ๋ธ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค.
SoftBank(Arm)์ OpenAI์ ํ์ ์ด ๊ตฌ์ฒดํ๋ ๊ฒฝ์ฐ, ์์ญ๋ง ์ฅ GPU ์ฌ์ฉ, ์๋ฐฑ์ต ๋ฌ๋ฌ๊ธ Capex๊ฐ ๋ค์ด๊ฐ ์ ์์ด โ์ด๋ํโ์ด๋ผ ํ๊ฐ๋๋ ๊ฒ์ ๋๋ค.
AI Helm vs. Micro-model ํ์
๋ฅ์จํฌ(DeepSeek) ๋ฑ์ ์ ํ๋ GPU๋ก๋ ๊ณ ์ฑ๋ฅ ๋ชจ๋ธ ๋ฌ์ฑ(๋ชจ๋ธ ์์ถยท์ฆ๋ฅ ๊ธฐ๋ฒ) โ ๊ท์ ๊ฐ ์ญ์ค์ ์ผ๋ก ํ์ .
์ค์ ์คํ ๊ณผ์
์ ๋ ฅ ํ๋ณด(7GW~10GW ์ด์), GPU ์์ฐํ ํน ์บํ(3nm ๊ณต์ ), ๋๊ท๋ชจ HBM ๊ณต๊ธ, ๋๊ฐยท์ผ์ด๋ธ ์ธํ๋ผ ๋ฑ ์ข ํฉ์ ์ฐจ์์ ํ์ ํ์.
๋ฏธ๊ตญ ๋ํ ํ ํฌ ๊ธฐ์ (๊ตฌ๊ธ, ๋ฉํ, ์๋ง์กด, x.ai)๋ ํน๋ ํ Capex ๊ฒฝ์ ์์.
๋ฐ๋์ฒด ์์ฐ ์บํ(Capacity) ์์ฒด ํ์ถฉ:
GPUยทAI์ฉ ASIC ๋ฑ ์์ฐ์ ๋ด๋นํ๋ ํ์ด๋๋ฆฌ(์ฃผ๋ก TSMC)๋ ์ธํ ยท์ผ์ฑ์ ์๊ฐ 3nmยท2nm ๊ณต์ ์ผ๋ก ๋๋ ์์ฐํ ์ ์๋๋ก ๊ณต์ฅ๋ผ์ธยท์ฅ๋น(ASML ๋ ธ๊ด์ฅ๋น ๋ฑ)๋ฅผ ์ฆ์คํด์ผ ํจ.
CPU ์์ฐ์ ๊ฒฝ์ฐ๋ Arm ์ํคํ ์ฒ ๊ธฐ๋ฐ SoC๋ฅผ ๋๊ท๋ชจ๋ก ๋ง๋ค๋ ค๋ฉด, ํ์ด๋๋ฆฌ์์ ํ์ ยทํฌ์ ํ์.
HBM(๊ณ ๋์ญํญ ๋ฉ๋ชจ๋ฆฌ) ๋ฑ ๋ณด์กฐ ๋ถํ์ ์์ ์ ์กฐ๋ฌ๋ง ๊ตฌ์ถ:
AI ์๋ฒ์๋ GPU๋ฟ ์๋๋ผ ๋์ฉ๋ HBM ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์์ธ๋ฐ, HBM ์ ์กฐ(์ผ์ฑยทํ์ด๋์ค ๋ฑ)๋ ์บํ๊ฐ ์ ํ์ ์.
์ค์ ๋ก 2023๋ ~2024๋ ์ ์ธ๊ณ HBM์ด ๊ณต๊ธ ๋ถ์กฑ์ด ๋ ์ ์๋ค๋ ์ฐ๋ ค๊ฐ ๊พธ์คํ ์ ๊ธฐ๋์์ต๋๋ค.
๋ฐ๋ผ์ AI ๊ธฐ์ ๋ค์ โCPU/GPU์นฉ+HBM+Advanced Packagingโ ๋ฑ ์ ์ฒด ๋ฐ๋์ฒด ๊ณต๊ธ๋ง์ ์ฅ๊ธฐ ๊ณ์ฝยท์ง์ ํฌ์ ๋ฑ์ผ๋ก ํ๋ณดํด์ผ ํ๋ฉฐ, ์ด๊ฒ์ โ๋ฐ๋์ฒด ํ์ดํ๋ผ์ธ ํ์ถฉโ์ด๋ผ ๋ถ๋ฆ ๋๋ค.
YouTube
Stargate, Executive Orders, TikTok, DOGE, Public Valuations | BG2 w/ Bill Gurley & Brad Gerstner
Open Source bi-weekly convo w/ Bill Gurley and Brad Gerstner on all things tech, markets, investing & capitalism. This week they are joined by a surprise guest, and discuss Stargate, executive orders, TikTok, DOGE, Public Valuations & more. Enjoy anotherโฆ
๐1
https://youtu.be/7EH0VjM3dTk
1. AI Diffusion Rule (๋ฏธ๊ตญ ์๋ฌด๋ถ ๊ท์ ) ๊ฐ์
๋ฐฐ๊ฒฝ:
2022๋ 10์ ๋ฐํ๋ ๋ฏธ๊ตญ์ ๋(ๅฐ)์ค๊ตญ ๋ฐ๋์ฒด ์์ถ ๊ท์ (โOctober 2022 rulesโ)๊ฐ ์์์.
์ง๊ธ๊น์ง ์ฌ๋ฌ ์ฐจ๋ก ๊ฐ์ ยท๋ณด์๋๋ฉด์, 2023๋ ๋ง โAI Diffusion Ruleโ์ด ์ถ๊ฐ๋ผ ์ค๊ตญยท์ 3๊ตญ ๋ฑ์์์ ์ด๊ฑฐ๋ ๋ชจ๋ธ(Frontier Model) ๊ฐ๋ฐยท์ํ์ด ํฌ๊ฒ ์ ํ๋จ.
๋๋ฐ ํํ ์ โ์ด๋ฒ ๊ท์ ๊ฐ ๊ณผ๊ฑฐ ์ด๋ค ๊ท์ ๋ณด๋ค ๋ ๊ด๋ฒ์ํ๊ณ ๊ฐ๋ ๋๋คโ๋ฉฐ, ๋ฏธ๊ตญ์ด AI ํค๊ฒ๋ชจ๋๋ฅผ ๊ณต๊ณ ํ ํ๋ ค๋ ์๋๋ผ๊ณ ์ง์ .
ํต์ฌ ๋ด์ฉ ๋ฐ ์ํฅ:
ํด๋ผ์ฐ๋ ์ ๊ณต์(ํนํ ๋ฏธ๊ตญ ๊ธฐ์ )๋ โ๋น์ฐ๋ฐฉ๊ตญโ์์ GPU๋ฅผ 5๋ง ๊ฐ ์ด์ ๊ตฌ๋งคยทํ์ฉํ์ง ๋ชปํ๋๋ก ๊ท์ .
๋ฏธ๊ตญ ์ธ ๊ตญ๊ฐ(์: ๋ง๋ ์ด์์)์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ๊ตฌ์ถํ๋ ๊ฒ๋, ๊ท์ ์ค์(๊ฐ์ยท์ ๊ณ ์๋ฌด ๋ฑ)๊ฐ ๊ฐํ๋์ด ์ ์ฐจ ์ด๋ ค์์ง.
๋๋ฐ์ ์ด ๊ท์ ๊ฐ ๋ฏธ๊ตญ ๋น ํ ํฌยทํ์ดํผ์ค์ผ์ผ๋ฌ(์: Microsoft, Google, Meta, Amazon)๋ ์ฝ์ด์๋ธ(CoreWeave) ๋ฑ ์์ ํด๋ผ์ฐ๋์ ์คํ๋ ค ์ ๋ฆฌํ๊ฒ ์์ฉํ๋ค๊ณ ์ค๋ช .
์์ ํด๋ผ์ฐ๋๋ ๊ท์ ์ค์ ๋ฐ GPU ์กฐ๋ฌ์ด ๋งค์ฐ ์ด๋ ค์์ ธ ๊ฒฝ์๋ ฅ์ด ์ฝํ.
์ฅ๊ธฐ์ ์ผ๋ก ์ค๊ตญ์ ์์ฒด ๋ฐ๋์ฒดยทํด๋ผ์ฐ๋ ์ธํ๋ผ๋ฅผ ๊ฐ์ ์ก์ฑํ ๊ฐ๋ฅ์ฑ์ด ์์.
Goldilocks ์ ๊ทผ:
๋๋ฐ์ ๊ท์ ์ ๊ณจ๋๋ฝ์ค(hardํ๋ ๋๋ฌด ์ง๋์น์ง๋ ์์) ์ง์ ์ด ์ค์ํ๋ค๊ณ ๋ด.
์ง๋์น๊ฒ ๊ฐํ๋ฉด ์ค๊ตญ์ด ๋ ๊ฐ๋ ฅํ๊ฒ ๋ ์ ๋ฐ๋์ฒดยทํด๋ผ์ฐ๋ ๊ธฐ์ ์ ์ก์ฑํ ์ ์๊ณ , ๋ฐ๋๊ธ๋ถ๋ก ๋ฏธ๊ตญ ๋ด ํ์ ๋ ์ ํด๋ ๊ฐ๋ฅ์ฑ์ด ์กด์ฌ.
2. ๋๊ท๋ชจ ๋ฐ์ดํฐ์ผํฐ(โAI ํฉํ ๋ฆฌโ)ยทํด๋ฌ์คํฐ ๊ตฌ์ถ ๋ํฅ
GPU ํด๋ฌ์คํฐ ๊ท๋ชจ:
GPT-4(2022๋ ๋ง)๋ ์ฝ 20k~30k A100 GPU๋ก ํ๋ จ๋์๋ค๊ณ ์ถ์ (์ด ์ ๋ ฅ 20MW ์์ค).
ํ์ฌ๋ 100k GPU(์ฃผ๋ก Nvidia h100) ๊ท๋ชจ ํด๋ฌ์คํฐ๊ฐ ์คํAI, Meta, x.ai ๋ฑ์์ ํ์ฉ๋๋ฉฐ, ์ ๋ ฅ 150MW ๋๊ฒ ์์.
2026~2027๋ ์๋ ๊ธฐ๊ฐ์ํธ(GW) ๋จ์ ์ ๋ ฅ์ ๊ฐ์ถ ์ด๊ฑฐ๋ โAI ํฉํ ๋ฆฌโ๊ฐ ์์ ๋ฑ์ฅํ ์ ๋ง(์: ๋ฉํ๋ 2GW, ์์ฌ์ด x.ai๋ 1GW ๋ชฉํ).
Elon Musk์ x.ai ์ฌ๋ก (๋ฉคํผ์ค ๊ณต์ฅ):
์์ฌ์ด๋ ๊ธฐ์กด ๊ฐ์ ๊ณต์ฅ์ ๋งค์ ํด ๋๊ท๋ชจ AI ๋ฐ์ดํฐ์ผํฐ๋ก ๊ธด๊ธ ์ ํ, ์์ฒด ๋ฐ์ ์์ค(NG๋ฐ์ ๊ธฐ+ํ ์ฌ๋ผ ๋ฐฐํฐ๋ฆฌ) ๊ตฌ์ถ, ์๋ยท๋๊ฐ ๋ฌธ์ ๋ฑ ํด๊ฒฐ.
์ ๋ ฅยท์ค๋นยท๋๊ฐ ๋ฑ ๋์ ๊ฐ ์์ง๋ง, โํ๊ฒฝ ๊ท์ ๋ณด๋จ ์๋โ๋ผ๋ ๊ด์ ์ผ๋ก ์ด๊ณ ์ ๊ตฌ์ถ์ ์ถ์ง.
์ฌ์ง์ด ํด๋ฌ์คํฐ๋ฅผ ์ด์ฉ ์ค ์ ๋ ฅ ์์๊ฐ ๊ธ๋ฝโ๊ธ๋ฑํ ๋๋ฅผ ๋๋นํด, โ๊ฐ์ง ์ฐ์ฐโ์ ๋ฃ์ด ์ ๋ ฅ ์์ ํ๋ฅผ ์ ์งํ๋ค๋ ์ผํ๊ฐ ์๊ฐ๋จ.
๊ฐ์ฅ ํฐ ๋ณ๋ชฉ: ์ ๋ ฅ๋งยท๋ถ์ง ํ๊ฐ(๊ท์ )ยท๋ฐ๋์ฒด ์ ์กฐยท๋๊ฐยท๋คํธ์ํน ๋ฑ ์ข ํฉ์ ๊ด์ .
๋๋ฐ์ โ๋ฏธ๊ตญ ๋ด ์ ๋ ฅ๋งยท์ธํ๋ผ ๊ท์ ์ํ๊ฐ ์๊ธํ๋ฉฐ, ๋น ๋ฅธ ๋ฐ์ดํฐ์ผํฐ ์ฆ์ค์ด ํ์ํ๋คโ๊ณ ๊ฐ์กฐ.
3. ์ค๊ตญ AI ๋ฐ๋์ฒดยท๋ชจ๋ธ์ ํฅ๋ฐฉ
๊ท์ ๊ฐ ์ ์ฉ๋ ์ค๊ตญ:
๊ตฌ์ฒด์ ์ผ๋ก ์ค๊ตญ ๊ธฐ์ ์ ์ต์ฒจ๋จ GPU ๊ตฌ๋งค ํ๋๊ฐ ์ฐ 5๋ง ๊ฐ๋ก ์ ํ ๋ฑ.
์ด๋ฅผ ์ฐํํ๊ธฐ ์ํด ์ ธ ์ปดํผ๋(1,700๊ฐ ์ดํ ์นฉ ๊ตฌ๋งค) ๋ฑ์ ํตํ ํธ๋ฒ ์กฐ๋ฌ ๊ฐ๋ฅ์ฑ์ ์กด์ฌํด๋, ์ ์ ์ด๋ ค์์ง๋ ์ถ์ธ.
๋๋ฐ์ DeepSeek, Alibaba ๋ฑ ์ค๊ตญ AI ๋ฉ์ด โ๋ฐ์ด๋ ์ํคํ ์ฒยท์์ง๋์ด๋งโ์ผ๋ก ์ ํ๋ ์ปดํจํ ์์ ํจ์จ์ ๊ทน๋ํํ ๊ฒ์ด์ง๋ง, ๊ฒฐ๊ตญ ๋ฏธ๊ตญ ๋๋น ์์ญ~์๋ฐฑ์ต ๋ฌ๋ฌ ๊ท๋ชจ์ Capex ์ฐจ์ด๊ฐ ์ปค์ง๋ ๋ฌธ์ .
๋ง๋ ์ด์์๋ ์ค๋ฆฝ๊ตญ์ ๋ฐ์ดํฐ์ผํฐ ๊ฑด์ค:
๊ท์ ๊ฐํ๋ก ์ธํด ๋ง๋ ์ด์์์์ ๊ฑด์ค ์ค์ด๋ ๋๊ท๋ชจ AI ๋ฐ์ดํฐ์ผํฐ ๋ฑ์ด ๋ถํ์คํด์ง.
๋ฏธ๊ตญ์ โ๋๋งน๊ตญ ์ค์ฌโ์ ํด๋ผ์ฐ๋๋ง ํ์ฉํ๊ฒ ๋ค๋ ๊ธฐ์กฐ์ด๋ฉฐ, ๊ทธ ์ธ ๊ตญ๊ฐ(์1, ์2 ๊ตฌ๋ถ)์ ๋ํด์ ๋ณต์กํ ๊ท์ ๊ณผ ํ ๋น๋์ ์ ์ฉ.
4. AI ๋ชจ๋ธ ์งํ: ํ ์คํธ ํ์ ์ปดํจํธ(Test-time Compute) / Reasoning
์๋ก์ด ํจ๋ฌ๋ค์:
์ ํต์ ์ผ๋ก โ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ฅผ ๋๋ฆฌ๋ ์ ํต์ ์ค์ผ์ผ๋งโ ๋์ , ์ฌํํ๋ จ(post-training)๊ณผ Test-time Compute(์ฆ ์ฒด์ด๋๋ ์ถ๋ก ยทReasoning) ์ค์์ฑ์ด ๋ถ์.
์ด๋ ๋ชจ๋ธ ์ถ๋ก (Inference)์์๋ ์์ฒญ๋ ์ฐ์ฐ(โ์ถ๋ก ๋น์ฉโ)์ด ํ์ํด, ์๋ฐฑ์ต ๋ฌ๋ฌ ๊ท๋ชจ GPU ์ธํ๋ผ๊ฐ ํ์.
๋ฐ์ดํฐ ์ฆ๋ฅ(Synthetic Data Generation) ์ญํ :
๋๊ท๋ชจ ๋ชจ๋ธ๋ค์ GPT-4 ๋ฑ์ ํ์ฉํด ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค๊ณ , ๊ทธ์ค ์ ํํ ์ํ๋ง ๋ค์ ํ๋ จ์ ํ์ฉ(โReasoning ์ฌํํ๋ จโ).
์ด๋ ์ค๊ตญ ๋ฑ๋ ์ ๊ทน ์๋ํ๋๋ฐ, ๊ท์ ํ์์ ์ผ๋ง๋ ๊ท๋ชจ ์๊ฒ ํ์ฅํ ์ง๋ ๋ฏธ์ง์.
โOpen Sourceโ vs. โClosedโ
๋ฉํ๊ฐ llama๋ฅผ ๊ณต๊ฐํ์ผ๋, ์ค์ ์ต๊ณ ์ฑ๋ฅ(์: llama4)๊น์ง ์คํ์์คํ ์ง๋ ๋ถํฌ๋ช .
Reasoning ๋ฅ๋ ฅ์ ๋์ธ ์ฒจ๋จ ๋ชจ๋ธ(์: GPT-5, Claude Next, OO ์๋ฆฌ์ฆ ๋ฑ)์ ์ถ๋ก ๋น์ฉ์ด ๋งค์ฐ ๋น์ธ์ ธ, ์๋ณธ์ง์ฝ์ ํฌ์๋ง์ด ๊ฐ๋ฅํด์ง๋ ๊ตฌ์กฐ.
5. ๊ธฐ์ /ํ์ดํผ์ค์ผ์ผ๋ฌ๋ณ ๋์ ์ ๋ต
Anthropic์ ํธ๋ ์ด๋(Trainium) ์ฌ๋ก:
โ์๋ง์กด ๋ฒ ์ด์(๊ธฐ๋ณธํ)โ TPU๋ผ๋ ๋ณ์นญ์ธ ํธ๋ ์ด๋์ ํ์ฉํ๋ ์คํธ๋กํฝ.
๋น์ฉ ์ ๊ฐ์ ์ํด GPU ๋์ ํธ๋ ์ด๋(์ฑ๋ฅ์ ์๋์ ์ด์ธ์ด์ง๋ง AWS์ ์ ํดยทํฌ์์ ์น)์ ํํจ.
์ด๋ฌํ ์ ๋ต์ด ์ฅ๊ธฐ์ ์ผ๋ก ํฉ๋ฆฌ์ ์ธ์ง ๋ถํ์คํ๋, ๋น์ฅ์ โ๊ฐ๋ ฅ ์๋ณธ + ํ ์ธ๋ ์ธํ๋ผโ๊ฐ ๋งค๋ ฅ ์์ธ.
OpenAI์ ์์ฒด์นฉ ์ค๊ณ ๊ฐ๋ฅ์ฑ:
ํ์ฌ Nvidia ๋ ์ฃผ์ฒด์ ์ง๋ง, OpenAI๊ฐ ๋ ๊ท๋ชจ๊ฐ ์ปค์ง๋ค๋ฉด(๋งค์ถ ์๋ฐฑ์ต ๋ฌ๋ฌ ๋จ์) ์์ฒด ์นฉ ์ค๊ณ๋ฅผ ๋ณธ๊ฒฉํํ ์ ์์.
์ฌํ ํ์ดํผ์ค์ผ์ผ๋ฌ(์๋ง์กด, ๊ตฌ๊ธ, ๋ฉํ ๋ฑ)์ฒ๋ผ, โ์นฉ ํโ์ ์กด์ฌ ์์ฒด๊ฐ ํ์๋ ฅ ์์นํจ๊ณผ๋ฅผ ๋ ธ๋ฆฌ๋ ๋ฉด๋ ์์.
CoreWeave ์ฑ์ฅ ๋น๊ฒฐ:
์๋น๋์์ โGPU ๋ฌผ๋ ํ ๋น+์์ก ํฌ์โ๋ฅผ ํตํด ์ด๊ธฐ ๋ฌผ๋์ ํ๋ณด.
๋ฏผ์ฒฉํ ์ค๊ณ(์: ๋ฐ์ดํฐ์ผํฐ ๊ตฌ์ถ ์๋, ํด๋ผ์ฐ๋ ์ํํธ์จ์ด ์ต์ ํ)๋ก ๊ธฐ์กด ๋น ํด๋ผ์ฐ๋๋ฅผ ๋ฅ๊ฐํ๋ ํน์ ์ญ๋ ๋ณด์ .
ESG๋ณด๋ค๋ โ๊ณ ์ ๊ตฌ์ถโ์ ๊ฐ์ ์ผ๋ก ๋ด์ธ์ ํ์ด์ค๋ฅผ ๋์.
6. ๋ฏธ๋ ์ ๋ง ๋ฐ ๊ฒฐ๋ก
1. ๊ท์ + ์ธํ๋ผ + ์ฐ๊ตฌ ํจ๋ฌ๋ค์:
๋ฏธ๊ตญ ๋ด AI ๋ฐ์ดํฐ์ผํฐ ์ธํ๋ผ ํฌ์๊ฐ ํญ๋ฐ์ ์ฆ๊ฐ(์์ฒ์ต ๋ฌ๋ฌ ๊ท๋ชจ). ๊ท์ ๋ก ์ธํด ๊ธ๋ก๋ฒ ํด๋ผ์ฐ๋ ์์ฅ์ ์์ ๋ฏธ๊ตญ ๊ธฐ์ ์ด ๋ ์ ๊ฐํํ ์๋ ์์.
์คยท์ฅ๊ธฐ์ ์ผ๋ก ์ค๊ตญ์ ์์ฒด ๊ธฐ์ ์งํ(๋ค๋ฅธ ๊ฒฝ๋ก์ ํ์ )๋ก ์ถ๊ฒฉ ๊ฐ๋ฅ์ฑ๋ ์ด๋ ค ์์.
2. ๋ถ์ฐ ํ๋ จ, ํ ์คํธํ์ ์ปดํจํธ, ์๋์ง ๊ณต๊ธ:
๋ชจ๋ธ ์์ฒด๊ฐ โReasoning ์ฒด์ธโ ๋ฐฉ์์ ์ฑํํด ์ถ๋ก ๋น์ฉ ๊ธ์ฆ โ ๋๊ท๋ชจ ์ ๋ ฅยท๋๊ฐยท๋คํธ์ํน ๋ณ๋ชฉ ๋ฐ์.
๋ฏธ๊ตญ ๋ด ์ ๋ ฅ ์ธํ๋ผ ํ์ถฉ, ๊ท์ ์ํ, ์น(่ฆช) ๋ฐ์ดํฐ์ผํฐ ์ ์ฑ ์ด ์ค์ํ๋ค๋ ์๊ฒฌ.
3. ํ๋์จ์ด ์คํํธ์ ยท์ํํธ์จ์ด ์ธํ๋ผ ๊ธฐํ:
์๋ก์ด AI ๋ฐ๋์ฒด(์์น๋, ๋ง๋ฑ์ค, ๋ฑ) ๋ฐ ๋ถ์ฐ ํ๋ จ ์คํํธ์ ์ด ๋ฑ์ฅ ์ค์ด์ง๋ง, Nvidia ๋ฑ ๊ธฐ์กด ๊ฐ์ ๋๋น โ์ฌ์ฉ ๋ชจ๋ธ ์ํ๊ณโ ์ด์ ์ด ๋ถ์กฑ.
Infra ๋ ์ด์ด(ํจ์จ์ ์ธ AI serving, ๋ถ์ฐ ํ๋ จ, ๋ ์ดํด์ยท์ค๊ฐ ์บ์ฑ ๊ธฐ์ ๋ฑ)์ ํฐ ํฌ์ยทํ์ ์ฌ์ง๊ฐ ์๋ค๊ณ ๋ด.
๊ฑฐ์ ์์ฌ์ :
๋ฏธ๊ตญ์ โ์ค์ค๋ก ๋ ๋นจ๋ฆฌ (infrastructure๋ฅผ) ์ง๊ณ ์๋์ง๋ฅผ ํ๋ํ์ฌ ์น๋ฆฌโํ๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ผ ํ๋ค๊ณ ๋๋ฐ์ ์ฃผ์ฅ.
์ค๊ตญ, ์ค๋, ๋๋จ์ ๋ฑ ๋ค์ํ AI ํ๋ธ ์๋๊ฐ ์์์ง๋ง, ์ด๋ฒ ๊ด๋ฒ์ ๊ท์ ๋ก ์๋น ๋ถ๋ถ ์ ์ฝ.
1. AI Diffusion Rule (๋ฏธ๊ตญ ์๋ฌด๋ถ ๊ท์ ) ๊ฐ์
๋ฐฐ๊ฒฝ:
2022๋ 10์ ๋ฐํ๋ ๋ฏธ๊ตญ์ ๋(ๅฐ)์ค๊ตญ ๋ฐ๋์ฒด ์์ถ ๊ท์ (โOctober 2022 rulesโ)๊ฐ ์์์.
์ง๊ธ๊น์ง ์ฌ๋ฌ ์ฐจ๋ก ๊ฐ์ ยท๋ณด์๋๋ฉด์, 2023๋ ๋ง โAI Diffusion Ruleโ์ด ์ถ๊ฐ๋ผ ์ค๊ตญยท์ 3๊ตญ ๋ฑ์์์ ์ด๊ฑฐ๋ ๋ชจ๋ธ(Frontier Model) ๊ฐ๋ฐยท์ํ์ด ํฌ๊ฒ ์ ํ๋จ.
๋๋ฐ ํํ ์ โ์ด๋ฒ ๊ท์ ๊ฐ ๊ณผ๊ฑฐ ์ด๋ค ๊ท์ ๋ณด๋ค ๋ ๊ด๋ฒ์ํ๊ณ ๊ฐ๋ ๋๋คโ๋ฉฐ, ๋ฏธ๊ตญ์ด AI ํค๊ฒ๋ชจ๋๋ฅผ ๊ณต๊ณ ํ ํ๋ ค๋ ์๋๋ผ๊ณ ์ง์ .
ํต์ฌ ๋ด์ฉ ๋ฐ ์ํฅ:
ํด๋ผ์ฐ๋ ์ ๊ณต์(ํนํ ๋ฏธ๊ตญ ๊ธฐ์ )๋ โ๋น์ฐ๋ฐฉ๊ตญโ์์ GPU๋ฅผ 5๋ง ๊ฐ ์ด์ ๊ตฌ๋งคยทํ์ฉํ์ง ๋ชปํ๋๋ก ๊ท์ .
๋ฏธ๊ตญ ์ธ ๊ตญ๊ฐ(์: ๋ง๋ ์ด์์)์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ๊ตฌ์ถํ๋ ๊ฒ๋, ๊ท์ ์ค์(๊ฐ์ยท์ ๊ณ ์๋ฌด ๋ฑ)๊ฐ ๊ฐํ๋์ด ์ ์ฐจ ์ด๋ ค์์ง.
๋๋ฐ์ ์ด ๊ท์ ๊ฐ ๋ฏธ๊ตญ ๋น ํ ํฌยทํ์ดํผ์ค์ผ์ผ๋ฌ(์: Microsoft, Google, Meta, Amazon)๋ ์ฝ์ด์๋ธ(CoreWeave) ๋ฑ ์์ ํด๋ผ์ฐ๋์ ์คํ๋ ค ์ ๋ฆฌํ๊ฒ ์์ฉํ๋ค๊ณ ์ค๋ช .
์์ ํด๋ผ์ฐ๋๋ ๊ท์ ์ค์ ๋ฐ GPU ์กฐ๋ฌ์ด ๋งค์ฐ ์ด๋ ค์์ ธ ๊ฒฝ์๋ ฅ์ด ์ฝํ.
์ฅ๊ธฐ์ ์ผ๋ก ์ค๊ตญ์ ์์ฒด ๋ฐ๋์ฒดยทํด๋ผ์ฐ๋ ์ธํ๋ผ๋ฅผ ๊ฐ์ ์ก์ฑํ ๊ฐ๋ฅ์ฑ์ด ์์.
Goldilocks ์ ๊ทผ:
๋๋ฐ์ ๊ท์ ์ ๊ณจ๋๋ฝ์ค(hardํ๋ ๋๋ฌด ์ง๋์น์ง๋ ์์) ์ง์ ์ด ์ค์ํ๋ค๊ณ ๋ด.
์ง๋์น๊ฒ ๊ฐํ๋ฉด ์ค๊ตญ์ด ๋ ๊ฐ๋ ฅํ๊ฒ ๋ ์ ๋ฐ๋์ฒดยทํด๋ผ์ฐ๋ ๊ธฐ์ ์ ์ก์ฑํ ์ ์๊ณ , ๋ฐ๋๊ธ๋ถ๋ก ๋ฏธ๊ตญ ๋ด ํ์ ๋ ์ ํด๋ ๊ฐ๋ฅ์ฑ์ด ์กด์ฌ.
2. ๋๊ท๋ชจ ๋ฐ์ดํฐ์ผํฐ(โAI ํฉํ ๋ฆฌโ)ยทํด๋ฌ์คํฐ ๊ตฌ์ถ ๋ํฅ
GPU ํด๋ฌ์คํฐ ๊ท๋ชจ:
GPT-4(2022๋ ๋ง)๋ ์ฝ 20k~30k A100 GPU๋ก ํ๋ จ๋์๋ค๊ณ ์ถ์ (์ด ์ ๋ ฅ 20MW ์์ค).
ํ์ฌ๋ 100k GPU(์ฃผ๋ก Nvidia h100) ๊ท๋ชจ ํด๋ฌ์คํฐ๊ฐ ์คํAI, Meta, x.ai ๋ฑ์์ ํ์ฉ๋๋ฉฐ, ์ ๋ ฅ 150MW ๋๊ฒ ์์.
2026~2027๋ ์๋ ๊ธฐ๊ฐ์ํธ(GW) ๋จ์ ์ ๋ ฅ์ ๊ฐ์ถ ์ด๊ฑฐ๋ โAI ํฉํ ๋ฆฌโ๊ฐ ์์ ๋ฑ์ฅํ ์ ๋ง(์: ๋ฉํ๋ 2GW, ์์ฌ์ด x.ai๋ 1GW ๋ชฉํ).
Elon Musk์ x.ai ์ฌ๋ก (๋ฉคํผ์ค ๊ณต์ฅ):
์์ฌ์ด๋ ๊ธฐ์กด ๊ฐ์ ๊ณต์ฅ์ ๋งค์ ํด ๋๊ท๋ชจ AI ๋ฐ์ดํฐ์ผํฐ๋ก ๊ธด๊ธ ์ ํ, ์์ฒด ๋ฐ์ ์์ค(NG๋ฐ์ ๊ธฐ+ํ ์ฌ๋ผ ๋ฐฐํฐ๋ฆฌ) ๊ตฌ์ถ, ์๋ยท๋๊ฐ ๋ฌธ์ ๋ฑ ํด๊ฒฐ.
์ ๋ ฅยท์ค๋นยท๋๊ฐ ๋ฑ ๋์ ๊ฐ ์์ง๋ง, โํ๊ฒฝ ๊ท์ ๋ณด๋จ ์๋โ๋ผ๋ ๊ด์ ์ผ๋ก ์ด๊ณ ์ ๊ตฌ์ถ์ ์ถ์ง.
์ฌ์ง์ด ํด๋ฌ์คํฐ๋ฅผ ์ด์ฉ ์ค ์ ๋ ฅ ์์๊ฐ ๊ธ๋ฝโ๊ธ๋ฑํ ๋๋ฅผ ๋๋นํด, โ๊ฐ์ง ์ฐ์ฐโ์ ๋ฃ์ด ์ ๋ ฅ ์์ ํ๋ฅผ ์ ์งํ๋ค๋ ์ผํ๊ฐ ์๊ฐ๋จ.
๊ฐ์ฅ ํฐ ๋ณ๋ชฉ: ์ ๋ ฅ๋งยท๋ถ์ง ํ๊ฐ(๊ท์ )ยท๋ฐ๋์ฒด ์ ์กฐยท๋๊ฐยท๋คํธ์ํน ๋ฑ ์ข ํฉ์ ๊ด์ .
๋๋ฐ์ โ๋ฏธ๊ตญ ๋ด ์ ๋ ฅ๋งยท์ธํ๋ผ ๊ท์ ์ํ๊ฐ ์๊ธํ๋ฉฐ, ๋น ๋ฅธ ๋ฐ์ดํฐ์ผํฐ ์ฆ์ค์ด ํ์ํ๋คโ๊ณ ๊ฐ์กฐ.
3. ์ค๊ตญ AI ๋ฐ๋์ฒดยท๋ชจ๋ธ์ ํฅ๋ฐฉ
๊ท์ ๊ฐ ์ ์ฉ๋ ์ค๊ตญ:
๊ตฌ์ฒด์ ์ผ๋ก ์ค๊ตญ ๊ธฐ์ ์ ์ต์ฒจ๋จ GPU ๊ตฌ๋งค ํ๋๊ฐ ์ฐ 5๋ง ๊ฐ๋ก ์ ํ ๋ฑ.
์ด๋ฅผ ์ฐํํ๊ธฐ ์ํด ์ ธ ์ปดํผ๋(1,700๊ฐ ์ดํ ์นฉ ๊ตฌ๋งค) ๋ฑ์ ํตํ ํธ๋ฒ ์กฐ๋ฌ ๊ฐ๋ฅ์ฑ์ ์กด์ฌํด๋, ์ ์ ์ด๋ ค์์ง๋ ์ถ์ธ.
๋๋ฐ์ DeepSeek, Alibaba ๋ฑ ์ค๊ตญ AI ๋ฉ์ด โ๋ฐ์ด๋ ์ํคํ ์ฒยท์์ง๋์ด๋งโ์ผ๋ก ์ ํ๋ ์ปดํจํ ์์ ํจ์จ์ ๊ทน๋ํํ ๊ฒ์ด์ง๋ง, ๊ฒฐ๊ตญ ๋ฏธ๊ตญ ๋๋น ์์ญ~์๋ฐฑ์ต ๋ฌ๋ฌ ๊ท๋ชจ์ Capex ์ฐจ์ด๊ฐ ์ปค์ง๋ ๋ฌธ์ .
๋ง๋ ์ด์์๋ ์ค๋ฆฝ๊ตญ์ ๋ฐ์ดํฐ์ผํฐ ๊ฑด์ค:
๊ท์ ๊ฐํ๋ก ์ธํด ๋ง๋ ์ด์์์์ ๊ฑด์ค ์ค์ด๋ ๋๊ท๋ชจ AI ๋ฐ์ดํฐ์ผํฐ ๋ฑ์ด ๋ถํ์คํด์ง.
๋ฏธ๊ตญ์ โ๋๋งน๊ตญ ์ค์ฌโ์ ํด๋ผ์ฐ๋๋ง ํ์ฉํ๊ฒ ๋ค๋ ๊ธฐ์กฐ์ด๋ฉฐ, ๊ทธ ์ธ ๊ตญ๊ฐ(์1, ์2 ๊ตฌ๋ถ)์ ๋ํด์ ๋ณต์กํ ๊ท์ ๊ณผ ํ ๋น๋์ ์ ์ฉ.
4. AI ๋ชจ๋ธ ์งํ: ํ ์คํธ ํ์ ์ปดํจํธ(Test-time Compute) / Reasoning
์๋ก์ด ํจ๋ฌ๋ค์:
์ ํต์ ์ผ๋ก โ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ฅผ ๋๋ฆฌ๋ ์ ํต์ ์ค์ผ์ผ๋งโ ๋์ , ์ฌํํ๋ จ(post-training)๊ณผ Test-time Compute(์ฆ ์ฒด์ด๋๋ ์ถ๋ก ยทReasoning) ์ค์์ฑ์ด ๋ถ์.
์ด๋ ๋ชจ๋ธ ์ถ๋ก (Inference)์์๋ ์์ฒญ๋ ์ฐ์ฐ(โ์ถ๋ก ๋น์ฉโ)์ด ํ์ํด, ์๋ฐฑ์ต ๋ฌ๋ฌ ๊ท๋ชจ GPU ์ธํ๋ผ๊ฐ ํ์.
๋ฐ์ดํฐ ์ฆ๋ฅ(Synthetic Data Generation) ์ญํ :
๋๊ท๋ชจ ๋ชจ๋ธ๋ค์ GPT-4 ๋ฑ์ ํ์ฉํด ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค๊ณ , ๊ทธ์ค ์ ํํ ์ํ๋ง ๋ค์ ํ๋ จ์ ํ์ฉ(โReasoning ์ฌํํ๋ จโ).
์ด๋ ์ค๊ตญ ๋ฑ๋ ์ ๊ทน ์๋ํ๋๋ฐ, ๊ท์ ํ์์ ์ผ๋ง๋ ๊ท๋ชจ ์๊ฒ ํ์ฅํ ์ง๋ ๋ฏธ์ง์.
โOpen Sourceโ vs. โClosedโ
๋ฉํ๊ฐ llama๋ฅผ ๊ณต๊ฐํ์ผ๋, ์ค์ ์ต๊ณ ์ฑ๋ฅ(์: llama4)๊น์ง ์คํ์์คํ ์ง๋ ๋ถํฌ๋ช .
Reasoning ๋ฅ๋ ฅ์ ๋์ธ ์ฒจ๋จ ๋ชจ๋ธ(์: GPT-5, Claude Next, OO ์๋ฆฌ์ฆ ๋ฑ)์ ์ถ๋ก ๋น์ฉ์ด ๋งค์ฐ ๋น์ธ์ ธ, ์๋ณธ์ง์ฝ์ ํฌ์๋ง์ด ๊ฐ๋ฅํด์ง๋ ๊ตฌ์กฐ.
5. ๊ธฐ์ /ํ์ดํผ์ค์ผ์ผ๋ฌ๋ณ ๋์ ์ ๋ต
Anthropic์ ํธ๋ ์ด๋(Trainium) ์ฌ๋ก:
โ์๋ง์กด ๋ฒ ์ด์(๊ธฐ๋ณธํ)โ TPU๋ผ๋ ๋ณ์นญ์ธ ํธ๋ ์ด๋์ ํ์ฉํ๋ ์คํธ๋กํฝ.
๋น์ฉ ์ ๊ฐ์ ์ํด GPU ๋์ ํธ๋ ์ด๋(์ฑ๋ฅ์ ์๋์ ์ด์ธ์ด์ง๋ง AWS์ ์ ํดยทํฌ์์ ์น)์ ํํจ.
์ด๋ฌํ ์ ๋ต์ด ์ฅ๊ธฐ์ ์ผ๋ก ํฉ๋ฆฌ์ ์ธ์ง ๋ถํ์คํ๋, ๋น์ฅ์ โ๊ฐ๋ ฅ ์๋ณธ + ํ ์ธ๋ ์ธํ๋ผโ๊ฐ ๋งค๋ ฅ ์์ธ.
OpenAI์ ์์ฒด์นฉ ์ค๊ณ ๊ฐ๋ฅ์ฑ:
ํ์ฌ Nvidia ๋ ์ฃผ์ฒด์ ์ง๋ง, OpenAI๊ฐ ๋ ๊ท๋ชจ๊ฐ ์ปค์ง๋ค๋ฉด(๋งค์ถ ์๋ฐฑ์ต ๋ฌ๋ฌ ๋จ์) ์์ฒด ์นฉ ์ค๊ณ๋ฅผ ๋ณธ๊ฒฉํํ ์ ์์.
์ฌํ ํ์ดํผ์ค์ผ์ผ๋ฌ(์๋ง์กด, ๊ตฌ๊ธ, ๋ฉํ ๋ฑ)์ฒ๋ผ, โ์นฉ ํโ์ ์กด์ฌ ์์ฒด๊ฐ ํ์๋ ฅ ์์นํจ๊ณผ๋ฅผ ๋ ธ๋ฆฌ๋ ๋ฉด๋ ์์.
CoreWeave ์ฑ์ฅ ๋น๊ฒฐ:
์๋น๋์์ โGPU ๋ฌผ๋ ํ ๋น+์์ก ํฌ์โ๋ฅผ ํตํด ์ด๊ธฐ ๋ฌผ๋์ ํ๋ณด.
๋ฏผ์ฒฉํ ์ค๊ณ(์: ๋ฐ์ดํฐ์ผํฐ ๊ตฌ์ถ ์๋, ํด๋ผ์ฐ๋ ์ํํธ์จ์ด ์ต์ ํ)๋ก ๊ธฐ์กด ๋น ํด๋ผ์ฐ๋๋ฅผ ๋ฅ๊ฐํ๋ ํน์ ์ญ๋ ๋ณด์ .
ESG๋ณด๋ค๋ โ๊ณ ์ ๊ตฌ์ถโ์ ๊ฐ์ ์ผ๋ก ๋ด์ธ์ ํ์ด์ค๋ฅผ ๋์.
6. ๋ฏธ๋ ์ ๋ง ๋ฐ ๊ฒฐ๋ก
1. ๊ท์ + ์ธํ๋ผ + ์ฐ๊ตฌ ํจ๋ฌ๋ค์:
๋ฏธ๊ตญ ๋ด AI ๋ฐ์ดํฐ์ผํฐ ์ธํ๋ผ ํฌ์๊ฐ ํญ๋ฐ์ ์ฆ๊ฐ(์์ฒ์ต ๋ฌ๋ฌ ๊ท๋ชจ). ๊ท์ ๋ก ์ธํด ๊ธ๋ก๋ฒ ํด๋ผ์ฐ๋ ์์ฅ์ ์์ ๋ฏธ๊ตญ ๊ธฐ์ ์ด ๋ ์ ๊ฐํํ ์๋ ์์.
์คยท์ฅ๊ธฐ์ ์ผ๋ก ์ค๊ตญ์ ์์ฒด ๊ธฐ์ ์งํ(๋ค๋ฅธ ๊ฒฝ๋ก์ ํ์ )๋ก ์ถ๊ฒฉ ๊ฐ๋ฅ์ฑ๋ ์ด๋ ค ์์.
2. ๋ถ์ฐ ํ๋ จ, ํ ์คํธํ์ ์ปดํจํธ, ์๋์ง ๊ณต๊ธ:
๋ชจ๋ธ ์์ฒด๊ฐ โReasoning ์ฒด์ธโ ๋ฐฉ์์ ์ฑํํด ์ถ๋ก ๋น์ฉ ๊ธ์ฆ โ ๋๊ท๋ชจ ์ ๋ ฅยท๋๊ฐยท๋คํธ์ํน ๋ณ๋ชฉ ๋ฐ์.
๋ฏธ๊ตญ ๋ด ์ ๋ ฅ ์ธํ๋ผ ํ์ถฉ, ๊ท์ ์ํ, ์น(่ฆช) ๋ฐ์ดํฐ์ผํฐ ์ ์ฑ ์ด ์ค์ํ๋ค๋ ์๊ฒฌ.
3. ํ๋์จ์ด ์คํํธ์ ยท์ํํธ์จ์ด ์ธํ๋ผ ๊ธฐํ:
์๋ก์ด AI ๋ฐ๋์ฒด(์์น๋, ๋ง๋ฑ์ค, ๋ฑ) ๋ฐ ๋ถ์ฐ ํ๋ จ ์คํํธ์ ์ด ๋ฑ์ฅ ์ค์ด์ง๋ง, Nvidia ๋ฑ ๊ธฐ์กด ๊ฐ์ ๋๋น โ์ฌ์ฉ ๋ชจ๋ธ ์ํ๊ณโ ์ด์ ์ด ๋ถ์กฑ.
Infra ๋ ์ด์ด(ํจ์จ์ ์ธ AI serving, ๋ถ์ฐ ํ๋ จ, ๋ ์ดํด์ยท์ค๊ฐ ์บ์ฑ ๊ธฐ์ ๋ฑ)์ ํฐ ํฌ์ยทํ์ ์ฌ์ง๊ฐ ์๋ค๊ณ ๋ด.
๊ฑฐ์ ์์ฌ์ :
๋ฏธ๊ตญ์ โ์ค์ค๋ก ๋ ๋นจ๋ฆฌ (infrastructure๋ฅผ) ์ง๊ณ ์๋์ง๋ฅผ ํ๋ํ์ฌ ์น๋ฆฌโํ๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ผ ํ๋ค๊ณ ๋๋ฐ์ ์ฃผ์ฅ.
์ค๊ตญ, ์ค๋, ๋๋จ์ ๋ฑ ๋ค์ํ AI ํ๋ธ ์๋๊ฐ ์์์ง๋ง, ์ด๋ฒ ๊ด๋ฒ์ ๊ท์ ๋ก ์๋น ๋ถ๋ถ ์ ์ฝ.
YouTube
SemiAnalysis Founder Dylan Patel on New AI Regulations, Chinese AI & xAI's Surge to Hyperscale
In this episode of Unsupervised Learning, we sit down with Dylan Patel, Chief Analyst at SemiAnalysis, to break down what these sweeping changes really mean. From how they consolidate power among Big Tech to China's narrowing options for AI dominance, weโฆ
https://youtu.be/pE3KKUKXcTM
2. โ์์งํ์ด AGI์ ์ฌ์ธํ๋ค๋ฉด?โ (์ค๊ตญ์ AIยท๋ฐ๋์ฒด ์ญ๋)
์ง๋ฌธ: โ์์งํ์ด ์ค์ผ์ผ์ ์ง์ฐฉ(โscaling-pilledโ)ํด, AI์ ์ ํญ ํฌ์ํ๋ ค ํ๋ค๋ฉด ์ด๋ป๊ฒ ํ ๊น?โ
Dylan: ํต์ฌ์ ํ๋์จ์ดยท์ํํธ์จ์ดยท๋ฐ์ดํฐ ๋ชจ๋ ๋ ์ด์ด์์ โ์ง์คโ(centralization)ํ ์ ์๋ ๋ฅ๋ ฅ.
์ค๊ตญ์ ์ด๋ฏธ ์ ๋ ฅยท๊ณต๊ธ๋งยท์ธํ๋ผ๋ฅผ ๋น ๋ฅด๊ฒ ํ์ฅํด ๋๊ท๋ชจ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ์ง์ ์ ์์(์: 10GW๊ธ ๊ท๋ชจ๋ ๊ฐ๋ฅ).
๋ฌธ์ : ์์ง ์ค๊ตญ ๋ด AI ๊ธฐ์ ๋ค์ด ๋๊ท๋ชจ ๋จ์ผ ํด๋ฌ์คํฐ(10๋ง~30๋ง GPU๊ธ)๋ฅผ ํ๊ณณ์ ๋ชจ์ ํ๋ จํ๋ ์ฌ๋ก๋ ์์์.
๋ง์ฝ ๋น๊ตญ์ด GPU ์กฐ๋ฌ์ ํตํฉยท๊ด๋ฆฌํ๋ค๋ฉด(์์ +๋ด์ ๋ฐ๋์ฒด), ๋ฏธ๊ตญ ๋น ํ ํฌ ์ด์์ โ์ด๊ฑฐ๋ ํด๋ฌ์คํฐโ๋ฅผ ๊ฑด์ค ๊ฐ๋ฅ.
์ค๊ตญ ๋ฐ๋์ฒด ์ฐ์
SMIC ๋ฑ์ด 7nm ~ 5nm๊ธ์ ๊ณต์ ์ ์ด๋ ค์(์ด์ : EUV ๋ฑ)์ด ์์ผ๋, ์ค๊ตญ ํน์ ์ โ์ง์ํจโยทโ๊ฐ๋ถ๊ธ ์์ โ ๋ฌธํ๋ก ๋น ๋ฅธ ์ถ๊ฒฉ.
โํ์จ์ด(HiSilicon)๋ ํ์กด ๊ธฐ์ ์ค ๊ฐ์ฅ โํฌ๋โ๋ ์ญ๋์ ์ง๋.โ (ํต์ฌ ๊ธฐ์ ์์ด๋ 5G ๋ฑ์์ ์ธ๊ณ ์ต๊ณ ์ฑ๊ณผ)
๋ถํยท์ฅ๋นยท์ ์กฐ ์ ์์ญ์์ ์ฐ์ ์คํ์ด+๊ตญ๊ฐ ์ง์์ผ๋ก ๋ฐ์ , โ๋ฌด์ํ๋ฉด ์ ๋๋ค.โ
์์ถํต์ ์ ํจ๊ณผ
Dylan: โ์ ๋๋ก ๋ง์ผ๋ ค๋ฉด โ์ฅ๋นยทํ๋ก์ธ์ค ์ ๋ฉด์ฐจ๋จโํด์ผ ํ๋๋ฐ, ํ์ค์ ์ค๊ตญ์ ๊ธฐ์ ๊ฐ๋ฐ ์์ง๋ง ๋ ๋ถ์ถ๊น.โ
์ฌ์ ํ SMIC ๋ฑ์ 7nm ๊ณต์ ์ฅ๋น๋ฅผ ํด์ธ์์ ์กฐ๋ฌํ๊ณ , ์ธ์ฌ ์์ ์ผ๋ก ๊ธฐ์ด์ด ๋ง๋ค๊ณ ์์.
3. ์ ์ธ๊ณ ๋ฐ๋์ฒดยทAI ์นฉ ์์ฐ๊ณผ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ผํฐ ์ ๋ง
๋ฏธ๊ตญยท์ ๋ฝ vs. ์ค๊ตญ: ๋๊ฐ ๋ ๋จผ์ โ1GW~10GW๊ธ AI ๋ฐ์ดํฐ์ผํฐโ๋ฅผ ์ธ์ธ๊น?
๋ฏธ๊ตญ์ ์ํฐํ๋ผ์ด์ฆยท๋น ํ ํฌ(MS, ๊ตฌ๊ธ, ๋ฉํ ๋ฑ)๊ฐ โ๋ถ์ฐโ ํํ๋ก ๊ฐ์ ๋ํ ํด๋ฌ์คํฐ๋ฅผ ์ด์.
์ค๊ตญ์ ๊ตญ๊ฐ ์ฃผ๋๋ก โ์ง์คโ ํฌ์๊ฐ ๊ฐ๋ฅ. ๋ค๋ง, ์์ง์ ์ค์ ๋ก ๋๊ท๋ชจ ๋จ์ผ ํด๋ฌ์คํฐ๊ฐ ๋์จ ์ ์์.
Dylan: โ์ค๊ตญ์ด ์ง์ง ๋ง์๋จน๊ณ ์ถ์งํ๋ฉด, ์ ๋ ฅ ์ธํ๋ผยท๊ณต์ฌ ์๋ยทGPU ์ง์ค ์ธก๋ฉด์์ ๋ฏธ๊ตญ์ ์์ค ์๋ ์๋ค.โ
ํด๋ฌ์คํฐ ๊ท๋ชจ ์ถ์ด
2023๋ : OpenAI, xAI ๋ฑ ๋๋ต 10๋ง GPU๊ธ(์: H100) ํด๋ฌ์คํฐ โ 20242025๋ ์ 3050๋ง GPU ๊ท๋ชจ(๋๋ ๋ ํผ).
NVIDIA๋ ์ฐ๊ฐ ์๋ฐฑ๋ง ๊ฐ GPU ์์ฐ. ๊ทนํ ์ผ๋ถ(์์ญ~์๋ฐฑ๋ง)๊ฐ ๋ํ AI ํด๋ฌ์คํฐ์ ํฌ์ ๋ ์ ๋ง.
2026๋ ์ดํ: ๋ฏธ๊ตญ ๋ด 1GW, 2~3GW ๋ฑ ์ด๊ฑฐ๋ AI ๋ฐ์ดํฐ์ผํฐ ์ฌ๋ฟ ๋ฑ์ฅํ ๊ฐ๋ฅ์ฑ.
โ20282029๋ ์ด๋ฉด ๋จ์ผ ๋ชจ๋ธ ํ๋ จ ์ด FLOPs๊ฐ GPT-4 ๋๋น ์์ฒ์๋ง ๋ฐฐ(1e30 ์์ค)๋ก ๊ฐ ์ ์๋ค.โ (Dylan ์ถ์ )
TSMC/์ผ์ฑ ํ์ด๋๋ฆฌ์ ์ญํ
์ฐจ์ธ๋ ๊ณต์ (5โ3โ2nm)์ ๋น์ฉ ๊ธ์ฆ๊ณผ ๊ธฐ์ ํ๊ณ ๋๋ฌธ์ โ๊ฒฝ์ ์ฑ์ด ์ฌ๋ผ์ก๋คโ๊ณ ๋ณด๋ ์ด๋ค๋ ์์.
๊ทธ๋ฌ๋ AIยทGPU ์์ ํญ์ฆ์ด ๊ฒฐ๊ตญ 2nm ๋ฑ ์ด๋ฏธ์ธ ๊ณต์ ์ ๋๊ท๋ชจ ์ฆ์ค์ ์ ๋น์ฑ์ ๋ถ์ฌํ ๊ฒ.
โ๊ฒฐ๊ตญ TSMC๋ AI ์นฉ ์์๋ฅผ ์ํด์ 2nm ๋ผ์ธ ํ์ฅํ ๋ฏ. (์ ํ ๋จ์ผ ๊ณ ๊ฐ๋ง์ผ๋ก๋ ๊ฐ๋น ์ด๋ ค์ด ๊ท๋ชจ)โ
4. ๋ฐ๋์ฒด ์ ์กฐ ์ฐ์ ์ ๊ทน๋จ์ ๋ณต์ก์ฑ
๋ถํ๋ ๊ณต๊ธ๋ง: ์จ์ดํผ, ๋ ธ๊ด(๋ฆฌ์๊ทธ๋ํผ), ์์นญ, ์์ฌ(ํฌํ ๋ ์ง์คํธ, Cu interconnect ๋ฑ), ํจํค์ง ๋ฑ ์์ฒ ๋จ๊ณ.
์ด ๋ถ์ผ์ ์ง์ ๊ฒฉ์ฐจ:
โAI๋ ๊ฐ์ธ์ด ๋ ผ๋ฌธยท์ฝ๋๋ก ๋น ๋ฅด๊ฒ ์์ต ๊ฐ๋ฅํ์ง๋ง, ๋ฐ๋์ฒด๋ ๋ฐฉ๋ํ ๊ธฐ์ ๋ด๋ถ ๋ ธํ์ฐ+ํนํ+์ฅ๋น ๋งค๋ด์ผ๋ก ์ธ๋ถ ์ ๊ทผ ์ด๋ ค์.โ
๋ํ ์ฅ๋น(ASML EUV ๋ฑ) ํ๋ํ๋์ ์์ญ ๋ ์ถ์ ๋ ์ฅ์ธยทํ์ยท์์ง๋์ด์ โ๋ง์คํฐ-๊ฒฌ์ตโ ์ฒด๊ณ๊ฐ ์กด์ฌ.
R&D์ ์ ์กฐ ํ์ฅ์ โ์ฅ์ธ ๋ฌธํโ
์: TSMC ์ธ๋ ฅ ๋๋ค์ ๊ณ ํ๋ ฅ(์๋ฐ์ฌ) + ๋ฐ์๊ตฌ์ ์ผ๊ทผยท์ค๋น ์คํ.
์ด๋ ํ ์ฌ๋๋ง์ด ์ ์ฒด ๊ณต์ ์ ์๋ ๊ฒ์ด ์๋๋ผ, ๊ฐ ๋จ๊ณ ์ ๋ฌธํ์ด ํ์ ํด ์ ์ฒด ํ๋ก์ธ์ค ์์ฑ.
5. AI ์ฐ์ ๊ณผ ๋ฐ๋์ฒด์ ์ํธ์์ฉ
GPU ์ํคํ ์ฒ โ ๋ชจ๋ธ ๊ตฌ์กฐ
โGPU์ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ด ์ ํ์ ์ด๋ฉด, ์ค๊ตญ ์ชฝ ๋ชจ๋ธ์ ๋ ์์ถยทํนํ๋ ๊ตฌ์กฐ๋ฅผ ์ฑํํ ์๋ ์์.โ
๊ตฌ๊ธ TPU vs. NVIDIA GPU vs. ํ์จ์ด Ascend ๋ฑ ๊ฐ์ ํ๋์จ์ด ํน์ฑ์ ๋ง์ถฐ ๋ชจ๋ธ ์ค๊ณ๊ฐ ๋ฌ๋ผ์ง.
์ํคํ ์ฒ ํ์ ์ ์ ์ฌ๋ ฅ
โํ GPU/TPU๋ ์ ๋ ฅ์ ๋๋ถ๋ถ์ด ๋ฐ์ดํฐ ์ด๋์ ์ฐ์. ๊ทผ๋ณธ์ ๊ตฌ์กฐ ๊ฐ์ (Compute-In-Memory ๋ฑ) ๊ฐ๋ฅ.โ
๋ฐ๋์ฒด ์ค๊ณ ์๋ํ(EDA)์ AI ๊ฒฐํฉ โ 100๋ฐฐ ์ด์ ์ฑ๋ฅยท์ ๋ ฅ ํจ์จ ๋์ด์ฌ๋ฆด ๊ธฐํ ์กด์ฌ.
๋ฏธ๋ ์ ๋ง
๊ฑฐ๋ ๋ชจ๋ธ์ ํ๋ จยท์์นยทํฉ์ฑ๋ฐ์ดํฐ ์์ฑ ๋ฑ โ์ถ๊ฐ FLOPsโ ์์๋ก ์ธํด, ๊ณต์ ๋ฏธ์ธํ์ ์นฉ ์ค๊ณ ํ์ ์ง์ ๊ฐ์.
โ๋ฉ๋ชจ๋ฆฌ ํ์ (์ฐจ์ธ๋ HBM ๋ฑ), ์ํคํ ์ฒ ๊ฐํธ, ์ฒจ๋จ ํจํค์ง์ด ๋ชจ๋ ๋ณํ๋ผ์ผ ํ๋ค.โ
6. โ๋ฒ๋ธ์ธ๊ฐ, ์ง์ง ๊ธฐํ์ธ๊ฐ?โ
**Pascal's Wager(ํ์ค์นผ ๋ด๊ธฐ)**๋ฅผ ๋น๋ ์ค๋ช
โAI ํฌ์ ์ ํ๋ค๊ฐ ๋ค์ฒ์ง๋ฉด ๋งํ์ง๋ง, ํฌ์ํ๋ค ์คํจํด๋ ๊ทธ๋๋ง ๋ ๋งํ๋ค.โ
๋ํ ๋น ํ ํฌยทํฌ์๊ธฐ๊ด ๋ชจ๋ AI์ โ์ฌ์ธโ ์ค (Satya Nadella, Sundar Pichai, Mark Zuckerberg ๋ฑ).
1990๋ ๋ ๋ท์ปด๋ฒ๋ธ์ฒ๋ผ ๊ณผ์ํฌ์์ผ ์๋ ์์ง๋ง, โ์ธํ๋ผ๊ฐ ๊น๋ฆฌ๋ฉด ํ๋ฐ ํ์ ์ ๊ณ์ ๋ํ๋๋ค.โ
์์ต์ฑ vs. ํ์ฅ ์๋
๋จ๊ธฐ์ ์ผ๋ก๋ GPUยท๋ฐ์ดํฐ์ผํฐ ๋น์ฉ > AI ๋งค์ถ, ๊ทธ๋ฌ๋ ํ ๋ฒ ๋ํ ๋ชจ๋ธ ์ฑ๊ณต ์ ์ฒ๋ฌธํ์ ROI ๊ธฐ๋.
โGPT-4 ํ๋ จ๋น์ฉ ์ฝ 5์ต ๋ฌ๋ฌ, ์ถ์ ๋งค์ถ ์์ญ~์๋ฐฑ์ต ๋ฌ๋ฌ ์์โ โ ํฌ์์ ์น๋ก ๋ ๋ค์ ๋ชจ๋ธ ํ๋ จ ๊ฐ๋ฅ.
2. โ์์งํ์ด AGI์ ์ฌ์ธํ๋ค๋ฉด?โ (์ค๊ตญ์ AIยท๋ฐ๋์ฒด ์ญ๋)
์ง๋ฌธ: โ์์งํ์ด ์ค์ผ์ผ์ ์ง์ฐฉ(โscaling-pilledโ)ํด, AI์ ์ ํญ ํฌ์ํ๋ ค ํ๋ค๋ฉด ์ด๋ป๊ฒ ํ ๊น?โ
Dylan: ํต์ฌ์ ํ๋์จ์ดยท์ํํธ์จ์ดยท๋ฐ์ดํฐ ๋ชจ๋ ๋ ์ด์ด์์ โ์ง์คโ(centralization)ํ ์ ์๋ ๋ฅ๋ ฅ.
์ค๊ตญ์ ์ด๋ฏธ ์ ๋ ฅยท๊ณต๊ธ๋งยท์ธํ๋ผ๋ฅผ ๋น ๋ฅด๊ฒ ํ์ฅํด ๋๊ท๋ชจ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ์ง์ ์ ์์(์: 10GW๊ธ ๊ท๋ชจ๋ ๊ฐ๋ฅ).
๋ฌธ์ : ์์ง ์ค๊ตญ ๋ด AI ๊ธฐ์ ๋ค์ด ๋๊ท๋ชจ ๋จ์ผ ํด๋ฌ์คํฐ(10๋ง~30๋ง GPU๊ธ)๋ฅผ ํ๊ณณ์ ๋ชจ์ ํ๋ จํ๋ ์ฌ๋ก๋ ์์์.
๋ง์ฝ ๋น๊ตญ์ด GPU ์กฐ๋ฌ์ ํตํฉยท๊ด๋ฆฌํ๋ค๋ฉด(์์ +๋ด์ ๋ฐ๋์ฒด), ๋ฏธ๊ตญ ๋น ํ ํฌ ์ด์์ โ์ด๊ฑฐ๋ ํด๋ฌ์คํฐโ๋ฅผ ๊ฑด์ค ๊ฐ๋ฅ.
์ค๊ตญ ๋ฐ๋์ฒด ์ฐ์
SMIC ๋ฑ์ด 7nm ~ 5nm๊ธ์ ๊ณต์ ์ ์ด๋ ค์(์ด์ : EUV ๋ฑ)์ด ์์ผ๋, ์ค๊ตญ ํน์ ์ โ์ง์ํจโยทโ๊ฐ๋ถ๊ธ ์์ โ ๋ฌธํ๋ก ๋น ๋ฅธ ์ถ๊ฒฉ.
โํ์จ์ด(HiSilicon)๋ ํ์กด ๊ธฐ์ ์ค ๊ฐ์ฅ โํฌ๋โ๋ ์ญ๋์ ์ง๋.โ (ํต์ฌ ๊ธฐ์ ์์ด๋ 5G ๋ฑ์์ ์ธ๊ณ ์ต๊ณ ์ฑ๊ณผ)
๋ถํยท์ฅ๋นยท์ ์กฐ ์ ์์ญ์์ ์ฐ์ ์คํ์ด+๊ตญ๊ฐ ์ง์์ผ๋ก ๋ฐ์ , โ๋ฌด์ํ๋ฉด ์ ๋๋ค.โ
์์ถํต์ ์ ํจ๊ณผ
Dylan: โ์ ๋๋ก ๋ง์ผ๋ ค๋ฉด โ์ฅ๋นยทํ๋ก์ธ์ค ์ ๋ฉด์ฐจ๋จโํด์ผ ํ๋๋ฐ, ํ์ค์ ์ค๊ตญ์ ๊ธฐ์ ๊ฐ๋ฐ ์์ง๋ง ๋ ๋ถ์ถ๊น.โ
์ฌ์ ํ SMIC ๋ฑ์ 7nm ๊ณต์ ์ฅ๋น๋ฅผ ํด์ธ์์ ์กฐ๋ฌํ๊ณ , ์ธ์ฌ ์์ ์ผ๋ก ๊ธฐ์ด์ด ๋ง๋ค๊ณ ์์.
3. ์ ์ธ๊ณ ๋ฐ๋์ฒดยทAI ์นฉ ์์ฐ๊ณผ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ผํฐ ์ ๋ง
๋ฏธ๊ตญยท์ ๋ฝ vs. ์ค๊ตญ: ๋๊ฐ ๋ ๋จผ์ โ1GW~10GW๊ธ AI ๋ฐ์ดํฐ์ผํฐโ๋ฅผ ์ธ์ธ๊น?
๋ฏธ๊ตญ์ ์ํฐํ๋ผ์ด์ฆยท๋น ํ ํฌ(MS, ๊ตฌ๊ธ, ๋ฉํ ๋ฑ)๊ฐ โ๋ถ์ฐโ ํํ๋ก ๊ฐ์ ๋ํ ํด๋ฌ์คํฐ๋ฅผ ์ด์.
์ค๊ตญ์ ๊ตญ๊ฐ ์ฃผ๋๋ก โ์ง์คโ ํฌ์๊ฐ ๊ฐ๋ฅ. ๋ค๋ง, ์์ง์ ์ค์ ๋ก ๋๊ท๋ชจ ๋จ์ผ ํด๋ฌ์คํฐ๊ฐ ๋์จ ์ ์์.
Dylan: โ์ค๊ตญ์ด ์ง์ง ๋ง์๋จน๊ณ ์ถ์งํ๋ฉด, ์ ๋ ฅ ์ธํ๋ผยท๊ณต์ฌ ์๋ยทGPU ์ง์ค ์ธก๋ฉด์์ ๋ฏธ๊ตญ์ ์์ค ์๋ ์๋ค.โ
ํด๋ฌ์คํฐ ๊ท๋ชจ ์ถ์ด
2023๋ : OpenAI, xAI ๋ฑ ๋๋ต 10๋ง GPU๊ธ(์: H100) ํด๋ฌ์คํฐ โ 20242025๋ ์ 3050๋ง GPU ๊ท๋ชจ(๋๋ ๋ ํผ).
NVIDIA๋ ์ฐ๊ฐ ์๋ฐฑ๋ง ๊ฐ GPU ์์ฐ. ๊ทนํ ์ผ๋ถ(์์ญ~์๋ฐฑ๋ง)๊ฐ ๋ํ AI ํด๋ฌ์คํฐ์ ํฌ์ ๋ ์ ๋ง.
2026๋ ์ดํ: ๋ฏธ๊ตญ ๋ด 1GW, 2~3GW ๋ฑ ์ด๊ฑฐ๋ AI ๋ฐ์ดํฐ์ผํฐ ์ฌ๋ฟ ๋ฑ์ฅํ ๊ฐ๋ฅ์ฑ.
โ20282029๋ ์ด๋ฉด ๋จ์ผ ๋ชจ๋ธ ํ๋ จ ์ด FLOPs๊ฐ GPT-4 ๋๋น ์์ฒ์๋ง ๋ฐฐ(1e30 ์์ค)๋ก ๊ฐ ์ ์๋ค.โ (Dylan ์ถ์ )
TSMC/์ผ์ฑ ํ์ด๋๋ฆฌ์ ์ญํ
์ฐจ์ธ๋ ๊ณต์ (5โ3โ2nm)์ ๋น์ฉ ๊ธ์ฆ๊ณผ ๊ธฐ์ ํ๊ณ ๋๋ฌธ์ โ๊ฒฝ์ ์ฑ์ด ์ฌ๋ผ์ก๋คโ๊ณ ๋ณด๋ ์ด๋ค๋ ์์.
๊ทธ๋ฌ๋ AIยทGPU ์์ ํญ์ฆ์ด ๊ฒฐ๊ตญ 2nm ๋ฑ ์ด๋ฏธ์ธ ๊ณต์ ์ ๋๊ท๋ชจ ์ฆ์ค์ ์ ๋น์ฑ์ ๋ถ์ฌํ ๊ฒ.
โ๊ฒฐ๊ตญ TSMC๋ AI ์นฉ ์์๋ฅผ ์ํด์ 2nm ๋ผ์ธ ํ์ฅํ ๋ฏ. (์ ํ ๋จ์ผ ๊ณ ๊ฐ๋ง์ผ๋ก๋ ๊ฐ๋น ์ด๋ ค์ด ๊ท๋ชจ)โ
4. ๋ฐ๋์ฒด ์ ์กฐ ์ฐ์ ์ ๊ทน๋จ์ ๋ณต์ก์ฑ
๋ถํ๋ ๊ณต๊ธ๋ง: ์จ์ดํผ, ๋ ธ๊ด(๋ฆฌ์๊ทธ๋ํผ), ์์นญ, ์์ฌ(ํฌํ ๋ ์ง์คํธ, Cu interconnect ๋ฑ), ํจํค์ง ๋ฑ ์์ฒ ๋จ๊ณ.
์ด ๋ถ์ผ์ ์ง์ ๊ฒฉ์ฐจ:
โAI๋ ๊ฐ์ธ์ด ๋ ผ๋ฌธยท์ฝ๋๋ก ๋น ๋ฅด๊ฒ ์์ต ๊ฐ๋ฅํ์ง๋ง, ๋ฐ๋์ฒด๋ ๋ฐฉ๋ํ ๊ธฐ์ ๋ด๋ถ ๋ ธํ์ฐ+ํนํ+์ฅ๋น ๋งค๋ด์ผ๋ก ์ธ๋ถ ์ ๊ทผ ์ด๋ ค์.โ
๋ํ ์ฅ๋น(ASML EUV ๋ฑ) ํ๋ํ๋์ ์์ญ ๋ ์ถ์ ๋ ์ฅ์ธยทํ์ยท์์ง๋์ด์ โ๋ง์คํฐ-๊ฒฌ์ตโ ์ฒด๊ณ๊ฐ ์กด์ฌ.
R&D์ ์ ์กฐ ํ์ฅ์ โ์ฅ์ธ ๋ฌธํโ
์: TSMC ์ธ๋ ฅ ๋๋ค์ ๊ณ ํ๋ ฅ(์๋ฐ์ฌ) + ๋ฐ์๊ตฌ์ ์ผ๊ทผยท์ค๋น ์คํ.
์ด๋ ํ ์ฌ๋๋ง์ด ์ ์ฒด ๊ณต์ ์ ์๋ ๊ฒ์ด ์๋๋ผ, ๊ฐ ๋จ๊ณ ์ ๋ฌธํ์ด ํ์ ํด ์ ์ฒด ํ๋ก์ธ์ค ์์ฑ.
5. AI ์ฐ์ ๊ณผ ๋ฐ๋์ฒด์ ์ํธ์์ฉ
GPU ์ํคํ ์ฒ โ ๋ชจ๋ธ ๊ตฌ์กฐ
โGPU์ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ด ์ ํ์ ์ด๋ฉด, ์ค๊ตญ ์ชฝ ๋ชจ๋ธ์ ๋ ์์ถยทํนํ๋ ๊ตฌ์กฐ๋ฅผ ์ฑํํ ์๋ ์์.โ
๊ตฌ๊ธ TPU vs. NVIDIA GPU vs. ํ์จ์ด Ascend ๋ฑ ๊ฐ์ ํ๋์จ์ด ํน์ฑ์ ๋ง์ถฐ ๋ชจ๋ธ ์ค๊ณ๊ฐ ๋ฌ๋ผ์ง.
์ํคํ ์ฒ ํ์ ์ ์ ์ฌ๋ ฅ
โํ GPU/TPU๋ ์ ๋ ฅ์ ๋๋ถ๋ถ์ด ๋ฐ์ดํฐ ์ด๋์ ์ฐ์. ๊ทผ๋ณธ์ ๊ตฌ์กฐ ๊ฐ์ (Compute-In-Memory ๋ฑ) ๊ฐ๋ฅ.โ
๋ฐ๋์ฒด ์ค๊ณ ์๋ํ(EDA)์ AI ๊ฒฐํฉ โ 100๋ฐฐ ์ด์ ์ฑ๋ฅยท์ ๋ ฅ ํจ์จ ๋์ด์ฌ๋ฆด ๊ธฐํ ์กด์ฌ.
๋ฏธ๋ ์ ๋ง
๊ฑฐ๋ ๋ชจ๋ธ์ ํ๋ จยท์์นยทํฉ์ฑ๋ฐ์ดํฐ ์์ฑ ๋ฑ โ์ถ๊ฐ FLOPsโ ์์๋ก ์ธํด, ๊ณต์ ๋ฏธ์ธํ์ ์นฉ ์ค๊ณ ํ์ ์ง์ ๊ฐ์.
โ๋ฉ๋ชจ๋ฆฌ ํ์ (์ฐจ์ธ๋ HBM ๋ฑ), ์ํคํ ์ฒ ๊ฐํธ, ์ฒจ๋จ ํจํค์ง์ด ๋ชจ๋ ๋ณํ๋ผ์ผ ํ๋ค.โ
6. โ๋ฒ๋ธ์ธ๊ฐ, ์ง์ง ๊ธฐํ์ธ๊ฐ?โ
**Pascal's Wager(ํ์ค์นผ ๋ด๊ธฐ)**๋ฅผ ๋น๋ ์ค๋ช
โAI ํฌ์ ์ ํ๋ค๊ฐ ๋ค์ฒ์ง๋ฉด ๋งํ์ง๋ง, ํฌ์ํ๋ค ์คํจํด๋ ๊ทธ๋๋ง ๋ ๋งํ๋ค.โ
๋ํ ๋น ํ ํฌยทํฌ์๊ธฐ๊ด ๋ชจ๋ AI์ โ์ฌ์ธโ ์ค (Satya Nadella, Sundar Pichai, Mark Zuckerberg ๋ฑ).
1990๋ ๋ ๋ท์ปด๋ฒ๋ธ์ฒ๋ผ ๊ณผ์ํฌ์์ผ ์๋ ์์ง๋ง, โ์ธํ๋ผ๊ฐ ๊น๋ฆฌ๋ฉด ํ๋ฐ ํ์ ์ ๊ณ์ ๋ํ๋๋ค.โ
์์ต์ฑ vs. ํ์ฅ ์๋
๋จ๊ธฐ์ ์ผ๋ก๋ GPUยท๋ฐ์ดํฐ์ผํฐ ๋น์ฉ > AI ๋งค์ถ, ๊ทธ๋ฌ๋ ํ ๋ฒ ๋ํ ๋ชจ๋ธ ์ฑ๊ณต ์ ์ฒ๋ฌธํ์ ROI ๊ธฐ๋.
โGPT-4 ํ๋ จ๋น์ฉ ์ฝ 5์ต ๋ฌ๋ฌ, ์ถ์ ๋งค์ถ ์์ญ~์๋ฐฑ์ต ๋ฌ๋ฌ ์์โ โ ํฌ์์ ์น๋ก ๋ ๋ค์ ๋ชจ๋ธ ํ๋ จ ๊ฐ๋ฅ.
YouTube
@Asianometry & Dylan Patel โ How the semiconductor industry actually works
Dylan Patel runs Semianalysis, the leading publication and research firm on AI hardware: https://www.semianalysis.com/. Jon Y runs @Asianometry, the worldโs best YouTube channel on semiconductors and business history.
๐๐๐๐๐๐๐ ๐๐๐๐๐
* Transcript: https:/โฆ
๐๐๐๐๐๐๐ ๐๐๐๐๐
* Transcript: https:/โฆ
โค1
https://youtu.be/hobvps-H38o
AI ๋ฉ๊ฐ ํด๋ฌ์คํฐ(Mega Clusters)์ ํํฉ
2.1 ๋ง์ดํฌ๋ก์ํํธ & OpenAI์ ์์
1. ์ ๋ฆฌ์กฐ๋ ๋ฐ์ดํฐ์ผํฐ
โข ๊ฑด๋ฌผ(โ๋ฐ์ดํฐ ํโ) ํ๋๋น ์ ๋ ฅ ์ฝ 48MW, ๋ด๋ถ์ 3.2๋ง ๊ฐ GPU(์ด 32k GPU) ํ์ฌ ๊ฐ๋ฅ.
โข ์ฌ๋ฌ ๊ฑด๋ฌผ์ ๋ฌถ์ด 10๋ง ๊ฐ GPU ๊ท๋ชจ๋ ๊ตฌ์ฑ.
โข ๋น ๋ชจ๋ธ(GPT-4/5 ๋ฑ) ํ์ต์ ์ํด ์ค๊ณ๋ ์ ํ์ ๊ตฌ์กฐ.
2. ํฅํ ํ์ฅ
โข ๊ณผ๊ฑฐ ๋จ์ผ ๊ฑด๋ฌผ(50MW ์ ํ)์ ๋์ด, 300MW~1.5GW๊ธ ๋จ์ผ ๋ถ์ง ๊ท๋ชจ๋ฅผ ๋ชฉํ.
โข 1.5GW๊ธ์ด๋ฉด ์ฝ 100๋ง(1e6) ๊ฐ GPU๋ฅผ ์์ฉ ๊ฐ๋ฅ โ GPT-4๋ณด๋ค ํจ์ฌ ํฐ ๊ท๋ชจ์ ๋ชจ๋ธ.
3. ๋คํธ์ํน ๋ฐ ํ ํด๋ก์ง
โข ๋ค์ธต ์ค์์น(rail-optimized vs. fat-tree) ๊ตฌ์กฐ๋ก ๊ณ ๊ฐ์ฉ์ฑ/๊ณ ๋์ญํญ ๊ตฌํ.
โข Synchronous GD(๋๊ธฐ ๋ฐฉ์)์์ ๋ฒ์ด๋, Multi-datacenter๋ฅผ ๋ฌถ์ ์ ์๋ Asynchronous/ํ๋ผ๋ฏธํฐ ์๋ฒ/๊ณ์ธต์ SGD ๊ธฐ๋ฒ์ ๋ํ ์ฐ๊ตฌ ํ๋ฐ.
โข ์ง์ฐ(latency)๋ณด๋ค๋ ๋์ญํญ ๋ถ์กฑ์ด ์ฌ๋ฌ ๋ฐ์ดํฐ์ผํฐ ์ฐ๊ฒฐ ์ ํฐ ๋ฌธ์ .
2.2 ๊ตฌ๊ธ TPU ํด๋ฌ์คํฐ
1. ๊ณ ์ง์ ยท์๋ญ(๋ฌผ๋๊ฐ) ์ค๊ณ
โข TPU๋ ์ ๋ ฅ ๋ฐ๋๊ฐ ํฌ๋ฏ๋ก ์ผ์ฐ๋ถํฐ ๋ฌผ๋๊ฐ, ๋์ ๋ฐ๋ ์ค๊ณ๋ฅผ ๋์ .
โข ์ง์ญ๋ณ(์คํ์ด์ค, ์์ด์ค์ ๋ฑ) ์ฌ๋ฌ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ๊ดํต์ ์ผ๋ก ์ฐ๊ฒฐ, ๋๊ท๋ชจ ํ์ต ์ ํ๋์ ๋ถ์ฐ ํด๋ฌ์คํฐ์ฒ๋ผ ์ฌ์ฉ ๊ณํ.
2. ๋๊ธฐ์์์ ๋น๋๊ธฐ์์ผ๋ก
โข ๋๊ธฐ์ ํ์ต ์ ๋ช ๋ง~๋ช ์ญ ๋ง GPU(๋๋ TPU) ๊ฐ ๋๊ธฐํ ๋ฌธ์ ๋ฐ์.
โข ๊ตฌ๊ธ ๋ฑ์ โ์ฌ๋ฌ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ์ฐ๊ฒฐํด ๋จ์ผ ๊ฑฐ๋ ํด๋ฌ์คํฐโ ๊ตฌ์ฑ์ ์๋ํ๋, ์์ง์ ์ฌ๋ฌ ์ฐ๊ตฌ ๊ณผ์ ๊ฐ ๋จ์ ์์.
2.3 xAI(Elon Musk) ์ฌ๋ก
1. ๋ฉคํผ์ค ๊ณต์ฅ ํ์ฉ
โข ํด๋ฉด ์ํ์ ์ธํ๊ธฐ ๊ณต์ฅ ๋ถ์ง๋ฅผ ๋งค์ ํด ๋จ๊ธฐ๊ฐ์ AI ๋ฐ์ดํฐ์ผํฐ๋ก ๊ฐ์กฐ.
โข ์ธ์ ์ฒ์ฐ๊ฐ์ค๊ด๊ณผ ์ด๋ํ ๋ฐ์ ๊ธฐ(๋์ ค/๊ฐ์ค)ยท์ด๋ํ ๋๊ฐ ์ฅ์น๋ฅผ ์ค์น โ ์ ๋ ฅยท๋๊ฐ ์ธํ๋ผ๋ฅผ ๋น ๋ฅด๊ฒ ํ๋ณด.
โข ๋ณดํต ๋ํ ํด๋ผ์ฐ๋ ๊ธฐ์ ๋ค์ ์ด๋ฏธ์งยทํํ ๋๋ฌธ์ ์ง์ ์ด๋ฐ ์์ผ๋ก ํ์ง ์์(โ๋ น์ ์๋์งโ ๋ช ๋ถ ๋๋ฌธ).
โข xAI๋ ์ผ๋จ ์๋๋ฅผ ์ฐ์ ์ โ 10๋ง+ GPU ๋น ๋ฅธ ๋ฐฐ์น.
2. ์ฐจ๋ณ์
โข ์ต์ด๋ก NVIDIA GPU(GB200 ๋ฑ) ์ง์๋ ๋ชจ๋ธ์ ๋๊ท๋ชจ๋ก ๋์ ์์ . (์ผ๋ฐ์ ์ผ๋ก air-cooled ๋๋ ๋ค๋ฅธ ๊ตฌ์กฐ)
โข ๋คํธ์ํฌ๋ ์ด๋๋ท ๊ธฐ๋ฐ ๋ฑ, ๋น์ ํ์ ๋ฐฉ์ ํ์ฉ.
2.4 ๊ทธ ์ธ ํด๋ผ์ฐ๋/์ฝ๋ก์ผ์ด์ ์ ์ฒด
โข ์๋ง์กด(AWS): ์ ์ธ๊ณ ๋ง์ ๋ถ์ง์์ ๋์๋ค๋ฐ์ ํ์ฅ, CPUโGPU ์ ํ.
โข ์ค๋ผํด(Oracle): OpenAI์ ํ๋ ฅํด 200MW๊ธ ๋ฐ์ดํฐ์ผํฐ, ์ฅ๊ธฐ์ ์ผ๋ก 1GW ํ์ฅ.
โข ๋ฉํ(Meta): ๊ตฌํ โH ํํโ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ํ์ ํ, ๊ณ ๋ฐ๋ ์๋ญ ๋ฐ์ดํฐ์ผํฐ๋ก ์ฌ๊ฑด์ถ.
โข ๋ค๋ฅธ ์์ญ~์๋ฐฑ ๊ฐ ์ค์/์ฃผ๊ถ(โ์๋ฒ๋ฆฐโ) ํด๋ผ์ฐ๋๋ ์ ์ฌํ๊ฒ GPU ํธ์คํ ์ฐ์ ์ฐธ์ฌ ์ค.
3. ์ถ๋ก (Inference) ํ ํฐ ์ฒ๋ฆฌ(tokenomics)์ ์ต์ ํ
3.1 ์ถ๋ก ์ ๊ณต์(โํ ํฐ ํฉํ ๋ฆฌโ) ๊ด์
โข ๋ํ ๋ชจ๋ธ์ API ํธ์ถ๋ก โํ ํฐโ ๋จ์ ๊ณผ๊ธ โ ์๋ฒ GPUยท๋ฉ๋ชจ๋ฆฌยท๋คํธ์ํฌ๋ฅผ ์ผ์ ๋ฐฉ์์ผ๋ก ํ ๋น.
โข ์ถ๋ก ์ฑ๋ฅ(throughput)์ ๋ฐฐ์นญ(batch size), ์์ํ(quantization), KV์บ์ ๊ด๋ฆฌ, ๋ณ๋ ฌํ ๋ฑ ์ต์ ํ๋ก ํฌ๊ฒ ์ข์ฐ.
3.2 KV ์บ์(KV Cache)์ ์ํฅ
1. ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ vs. KV์บ์
โข ํ ํฐ์ ์์ฑํ ๋๋ง๋ค, โ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ(์ ์ )โ + โKV์บ์(๋์ ยท์ ์ ๋ณ)โ ๋ชจ๋ ๋ฉ๋ชจ๋ฆฌ์์ ์ฝ์ด์ด.
โข ๋ฐฐ์น๊ฐ ์ปค์ง์๋ก(๋์ ์ ์ โ) KV์บ์ ์กฐํ๋ ๋ง์์ ธ, ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ ๋ณ๋ชฉ ๋ฐ์.
2. ์ํ์ค ๊ธธ์ด(Context Length) ์ฆ๊ฐ
โข ๋ชจ๋ธ์ด ๋ง์ reasoning(๋ด๋ถ ํ ํฐ ์์ฑ์ ์จ๊ธด๋ค ํด๋) โ ๋ด๋ถ์ ์ผ๋ก KV์บ์๊ฐ ์ปค์ง.
โข ์ํ์ค ๊ธธ์ด๊ฐ ๊ธธ์ด์ง์๋ก, ๋ฐฐ์น ๊ฐ๋ฅ ํฌ๊ธฐ๊ฐ ์ค๊ณ , ํ ํฐ๋น ์ฒ๋ฆฌ ์ง์ฐ์ด ์ปค์ ธ ์ฌ์ฉ์ ๊ฒฝํ ์ ํ.
3. GQA(Grouped Query Attention) ๋ฑ ๊ธฐ๋ฒ
โข llama ์๋ฆฌ์ฆ ๋ฑ์์ GQA/MQA๋ฅผ ์ ์ฉํ๋ฉด KV์บ์ ํฌ๊ธฐ๋ฅผ ์ค์ด๊ณ , ๋ณ๋ชฉ์ ์ํ.
โข ์) 40~70B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์์ GQA ์ ์ฉ ์, ๊ฐ์ ํ๋์จ์ด๋ก ๋ฐฐ์น ํฌ๊ธฐ(๋์ ์ ์ ์) ํฌ๊ฒ ์ฆ๊ฐ โ ์ถ๋ก ๋น์ฉ ์ ๊ฐ.
3.3 OpenAI โ0.1/01โ ๋ชจ๋ธ๊ณผ ๋น์ฉ
โข Zero One(01) ๋ชจ๋ธ: โ์ค์๊ฐ ๋ด๋ถ reasoningโ์ผ๋ก ํฐ ์ํ์ค ๊ธธ์ด.
โข ๊ธฐ์กด ์งง์ ์ํ์ค(๋ช K tokens)๋ณด๋ค 10~40K ์ด์์ ์ํ์ค โ ๋ฐฐ์น ํจ์จ ๊ธ๊ฐ, ์ถ๋ก ๋น์ฉ ์ฆ๊ฐ.
โข ์ค์ API ๊ฐ๊ฒฉ๋ GPT-4 ๋๋น 3~4๋ฐฐ ๋น์ผ ์ด์ ์ค ํ๋๊ฐ ์ด KV์บ์/๋ฐฐ์น ๋นํจ์จ ๋ฌธ์ .
4. Inference & Training ์๋ฎฌ๋ ์ดํฐ / TCO ๋ชจ๋ธ
โข ๋ฐํ์๋ ์์ฌ(SemiAnalysis)์์ ์ถ๋ก ยทํ๋ จ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ๊ฐ๋ฐ, โ๋ฉ๋ชจ๋ฆฌ BW vs. ๋ชจ๋ธ ํฌ๊ธฐ vs. ๋ฐฐ์น vs. ์ํ์ค ๊ธธ์ดโ ๋ฑ์ ๋ชจ์์คํ.
โข ์๋ฒ ์๊ฐ ๋น์ฉ(์: h100 8-GPU ์๋ฒ)
โข ๊ตฌ์ ๋น ๊ฐ๊ฐ์๊ฐ + ๊ธ์ต๋น์ฉ + ์ด์๋น(์ ๋ ฅ+์ฟจ๋ง+๋ฐ์ดํฐ์ผํฐ ๋ ํ ๋ฑ).
โข ๋๋ถ๋ถ์ ๋น์ฉ(70~80% ์ด์)์ด โGPU ๊ตฌ์ โ์ด๋ฏ๋ก, ์ ๋ ฅ ์ฌ์ฉ ์ฌ๋ถ(๊ฐ๋๋ฅ )์ ๋ฐ๋ฅธ ์ถ๊ฐ ๋ณ๋๋น๋ ์๋์ ์ผ๋ก ์์.
โข ๋ฐ๋ผ์ โGPU๋ฅผ 100% ํ์ฉโํ๋ ๊ณ ๋ฐฐ์น/๊ณ ํจ์จ์ด ์์ต์ฑ์ ํต์ฌ.
5. ๋ฐ์ดํฐ์ผํฐ ์ค๊ณยท์ ๋ ฅ ์ด์ ์ข ํฉ
1. ์ ๊ฐ์ฌ ์ค๊ณ๊ฐ ๋ค๋ฅธ๊ฐ?
โข ์ญ์ฌ์ ์ ์ฐ, ๋ด๋ถ ์ธํ๋ผ, ๋๊ฐ(์๋ญ/๊ณต๋ญ) ๋ฐฉ์, GPU/TPU ์ํคํ ์ฒ ์ฐจ์ด ๋ฑ์ผ๋ก ๋ชจ๋ ์์ด.
โข ๋ฉํ๋ H์ํ ๊ตฌํ ์ค๊ณ ํ๊ธฐ ํ, ์ ํ์ผ๋ก ๊ต์ฒด. ๊ตฌ๊ธ์ TPU ๊ณ ๋ฐ๋ ์๋ญ์ ์ผ์ฐ ์์. xAI๋ ๊ธ์กฐ(๊ณต์ฅ+์ด๋์ ๋ฐ์ ๊ธฐ).
โข ์ต์ ์ค๊ณ๋ ์กด์ฌํ์ง ์์ผ๋ฉฐ, ๋๋ค์๊ฐ โ์๊ฐ ์๋ฐ/์ ์ฐ์ฑ/PR(ํ๊ฒฝ)โ ๋ฑ์ ์ ์ถฉ.
2. ๋ชจ๋ โ์ฒ์ฐ๊ฐ์คยท์ํโ ์์กด?
โข ์ค์ ์ ๋ ฅ์ ํ์์ฐ๋ฃ ๊ธฐ๋ฐ์ด ๋๋ถ๋ถ. ESG ๋ช ๋ถ์ผ๋ก ํ์๊ด ๋ฑ ๊ตฌ๋งค(PPA)๋ ํ๋ ์ค์ ๋ฌผ๋ฆฌ์ ๊ณต๊ธ ์ ๋ ฅ์ ๋๋ถ๋ถ ๊ฐ์ค.
โข ๋๊ท๋ชจ ๋ฐ์ ์(์ต๋์ GW)์ ๋ถ์ง ์ฐ๊ฒฐ์ด ๊ด๊ฑด. ์๊ตฌ ๊ตญ๊ฐ๋ค์ ์ ๋ ฅ๋ง ์ฆ์ค์ด ๋๋ ค, 3~4๋ ์ฉ ๋๊ธฐ๊ฐ ๋ฐ์.
3. ๋ง์ดํฌ๋ก๊ทธ๋ฆฌ๋/์์ /ํด์ ๋ฐ์ดํฐ์ผํฐ ๋ฑ
โข ์๋ก ์ฒ๋ผ ์์ฒด ๋ฐ์ ๊ธฐ ์ฌ์ฉ โ๋ง์ดํฌ๋ก๊ทธ๋ฆฌ๋โ ์๋๋ ์์ง๋ง ๊ท์ ยท์ค๋ฌด ์ ์ด๋ ค์ ํผ.
โข ํด์/์ฐ์ฃผ ๋ฑ์ GPU ์์ ์ฑยท์ ์ง๋ณด์ ์ธก๋ฉด์์ ๋นํ์ค์ .
โข ์์ ์ง์ ์ฐ๊ณ๋ ๊ท์ ยท๋ฏผ์์ผ๋ก ์คํ์ ๊ฑฐ์ ์๊ณ , ๋๋ถ๋ถ โ๊ทธ๋ฆฐ์์ฑโ ๊ณ์ฝ์ ๊ทธ์นจ.
6. ์ง์์๋ต ์์ฝ
1. FPGA/ASIC/๋ด๋ก๋ชจํฝ
โข GPU(๋๋ TPU) ๋ง๊ณ ๋ค๋ฅธ ๋ณ๋ ฌ ์นฉ ์์ด๋์ด ๋ง์ผ๋, GPU/TPU ์ํ๊ณ๊ฐ ์ด๋ฏธ ์๋์ (์ํํธ์จ์ดยท์ธํ๋ผยท์ธ์ฌ ๋ฑ).
โข ๋ด๋ก๋ชจํฝ ๋ฑ์ ์ ์ฌ์ ํจ์จ์ด ํจ์ฌ ๋์ ์ ์์ผ๋, ์ ๋๋ก ๋ ์ฐ๊ตฌยท์ํ๊ณยทํฌ์ ๋ถ์กฑ. ๋น๋ถ๊ฐ GPT๋ฅ ์์ ์ GPU/TPU๊ฐ
์ฃผ๋.
2. ๊ท๋ชจ ํ์ฅ ์ง์ ๊ฐ๋ฅ์ฑ
โข โ๋ฒ๋ธ์ด๋?โ๋ผ๋ ์ง๋ฌธ. ๊ธฐ์ (์คํAIยท๊ตฌ๊ธยท๋ฉํ ๋ฑ)์ด AGI ๊ฐ๋ฅ์ฑยท์์ต์ฑ์ ๋ฒ ํ , CapEx ํญ์ฆ.
โข ํฅํ ์ ๋ ฅยทํ๊ฒฝ ๋ฌธ์ ์ ์ถฉ๋ํ๋, ๋จ๊ธฐ์ ์ผ๋ก๋ โPascalโs Wagerโ(์ ํ๋ ๊ฒ๋ณด๋ค ํด์ ์คํจํ๋ ๊ฒ ๋ซ๋ค)๋ก ๊ณ์ ํฌ์.
3. ํน์ ํ์ฌ์ ๋ฐ์ดํฐ์ผํฐ๋ง์ด โ์ ๋ตโ?
โข ์๋ค๊ณ ๋ด. ๋ฉํ/๊ตฌ๊ธ/MS/xAI ๋ชจ๋ ๋ค๋ฆ. ์นฉ(์ธํ๋ผ), ๋๊ฐ, ๋คํธ์ํน ๋ฑ์ ๋ฐ๋ผ ์์ด.
โข AI/HPC ์๊ตฌ์ฌํญ์ด ์ปค์, ์์ ํ ์ ๊ฑด๋ฌผ์ ์ง์ ๋๋ง๋ค ์ค๊ณ๊ฐ ๋ฌ๋ผ์ง๊ณ , ์ค์๊ฐ์ผ๋ก ๊ฐ์ ์ค.
4. ๋ฏธ๋ ๋ชจ๋ธ ์ํคํ ์ฒ (Transformer vs. ๋ค๋ฅธ ๊ตฌ์กฐ)
โข ๋น์ฅ์ Transformer๊ฐ ์ฐ์ ยท์ฐ๊ตฌ ๋ชจ๋ ํ์ค, ๋๊ท๋ชจ ์ต์ ํ ํดยท์์ง๋์ดยท์ํ๊ณ๊ฐ ์ด๋ฏธ ์ ์ฐฉ.
โข ๋ค๋ฅธ ์ํคํ ์ฒ(์: state-space, rnn ๋ณํ, etc.)๊ฐ ๋์๋ GPU๋ก ์ถฉ๋ถํ ์ฌํ์ฉ ๊ฐ๋ฅ โ ๊ณง๋ฐ๋ก ๋์ฒด ์ฝ์ง ์์.
7. ๊ฒฐ๋ก ๋ฐ ์ฃผ์ ์์ฌ์
1. ๋ฐ์ดํฐ์ผํฐ ์ ๋ ฅยท๊ตฌ์กฐ
โข AI ์์ ํญ์ฆ์ผ๋ก ๊ธฐ์กด โCPU+์คํ ๋ฆฌ์งโ ์ค์ฌ์์ โGPU ๋๋ฐ๋ + ์๋ญ + ์ด๊ณ ์ ๋คํธ์ํฌโ๋ก ๊ธ๋ณ.
โข ๊ฑด๋ฌผ ๋จ์๊ฐ ์๋๋ผ 10~100๋ง GPU๊ธ โ์บ ํผ์ค/์ง์ญ ๋จ์โ ํด๋ฌ์คํฐ๋ฅผ ๋ฌถ๋ ์ค.
โข ์ ๋ ฅ๋ง/๋ณ์๊ธฐ/๋๊ฐ ๋ฑ์ ์ ํ์ด ๋ณ๋ชฉ์ด๋ฉฐ, xAI์ฒ๋ผ ๊ธฐ๋ฐํ์ง๋ง ์์๋ฐฉํธ์ ๋ฐฉ๋ฒ(์ด๋์ ๋ฐ์ ๊ธฐ ๋ฑ)๋ ๋ฑ์ฅ.
2. ์ถ๋ก ๋น์ฉ(ํ ํฐ๋น) ๊ธ์ฆ ์ฐ๋ ค
AI ๋ฉ๊ฐ ํด๋ฌ์คํฐ(Mega Clusters)์ ํํฉ
2.1 ๋ง์ดํฌ๋ก์ํํธ & OpenAI์ ์์
1. ์ ๋ฆฌ์กฐ๋ ๋ฐ์ดํฐ์ผํฐ
โข ๊ฑด๋ฌผ(โ๋ฐ์ดํฐ ํโ) ํ๋๋น ์ ๋ ฅ ์ฝ 48MW, ๋ด๋ถ์ 3.2๋ง ๊ฐ GPU(์ด 32k GPU) ํ์ฌ ๊ฐ๋ฅ.
โข ์ฌ๋ฌ ๊ฑด๋ฌผ์ ๋ฌถ์ด 10๋ง ๊ฐ GPU ๊ท๋ชจ๋ ๊ตฌ์ฑ.
โข ๋น ๋ชจ๋ธ(GPT-4/5 ๋ฑ) ํ์ต์ ์ํด ์ค๊ณ๋ ์ ํ์ ๊ตฌ์กฐ.
2. ํฅํ ํ์ฅ
โข ๊ณผ๊ฑฐ ๋จ์ผ ๊ฑด๋ฌผ(50MW ์ ํ)์ ๋์ด, 300MW~1.5GW๊ธ ๋จ์ผ ๋ถ์ง ๊ท๋ชจ๋ฅผ ๋ชฉํ.
โข 1.5GW๊ธ์ด๋ฉด ์ฝ 100๋ง(1e6) ๊ฐ GPU๋ฅผ ์์ฉ ๊ฐ๋ฅ โ GPT-4๋ณด๋ค ํจ์ฌ ํฐ ๊ท๋ชจ์ ๋ชจ๋ธ.
3. ๋คํธ์ํน ๋ฐ ํ ํด๋ก์ง
โข ๋ค์ธต ์ค์์น(rail-optimized vs. fat-tree) ๊ตฌ์กฐ๋ก ๊ณ ๊ฐ์ฉ์ฑ/๊ณ ๋์ญํญ ๊ตฌํ.
โข Synchronous GD(๋๊ธฐ ๋ฐฉ์)์์ ๋ฒ์ด๋, Multi-datacenter๋ฅผ ๋ฌถ์ ์ ์๋ Asynchronous/ํ๋ผ๋ฏธํฐ ์๋ฒ/๊ณ์ธต์ SGD ๊ธฐ๋ฒ์ ๋ํ ์ฐ๊ตฌ ํ๋ฐ.
โข ์ง์ฐ(latency)๋ณด๋ค๋ ๋์ญํญ ๋ถ์กฑ์ด ์ฌ๋ฌ ๋ฐ์ดํฐ์ผํฐ ์ฐ๊ฒฐ ์ ํฐ ๋ฌธ์ .
2.2 ๊ตฌ๊ธ TPU ํด๋ฌ์คํฐ
1. ๊ณ ์ง์ ยท์๋ญ(๋ฌผ๋๊ฐ) ์ค๊ณ
โข TPU๋ ์ ๋ ฅ ๋ฐ๋๊ฐ ํฌ๋ฏ๋ก ์ผ์ฐ๋ถํฐ ๋ฌผ๋๊ฐ, ๋์ ๋ฐ๋ ์ค๊ณ๋ฅผ ๋์ .
โข ์ง์ญ๋ณ(์คํ์ด์ค, ์์ด์ค์ ๋ฑ) ์ฌ๋ฌ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ๊ดํต์ ์ผ๋ก ์ฐ๊ฒฐ, ๋๊ท๋ชจ ํ์ต ์ ํ๋์ ๋ถ์ฐ ํด๋ฌ์คํฐ์ฒ๋ผ ์ฌ์ฉ ๊ณํ.
2. ๋๊ธฐ์์์ ๋น๋๊ธฐ์์ผ๋ก
โข ๋๊ธฐ์ ํ์ต ์ ๋ช ๋ง~๋ช ์ญ ๋ง GPU(๋๋ TPU) ๊ฐ ๋๊ธฐํ ๋ฌธ์ ๋ฐ์.
โข ๊ตฌ๊ธ ๋ฑ์ โ์ฌ๋ฌ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ์ฐ๊ฒฐํด ๋จ์ผ ๊ฑฐ๋ ํด๋ฌ์คํฐโ ๊ตฌ์ฑ์ ์๋ํ๋, ์์ง์ ์ฌ๋ฌ ์ฐ๊ตฌ ๊ณผ์ ๊ฐ ๋จ์ ์์.
2.3 xAI(Elon Musk) ์ฌ๋ก
1. ๋ฉคํผ์ค ๊ณต์ฅ ํ์ฉ
โข ํด๋ฉด ์ํ์ ์ธํ๊ธฐ ๊ณต์ฅ ๋ถ์ง๋ฅผ ๋งค์ ํด ๋จ๊ธฐ๊ฐ์ AI ๋ฐ์ดํฐ์ผํฐ๋ก ๊ฐ์กฐ.
โข ์ธ์ ์ฒ์ฐ๊ฐ์ค๊ด๊ณผ ์ด๋ํ ๋ฐ์ ๊ธฐ(๋์ ค/๊ฐ์ค)ยท์ด๋ํ ๋๊ฐ ์ฅ์น๋ฅผ ์ค์น โ ์ ๋ ฅยท๋๊ฐ ์ธํ๋ผ๋ฅผ ๋น ๋ฅด๊ฒ ํ๋ณด.
โข ๋ณดํต ๋ํ ํด๋ผ์ฐ๋ ๊ธฐ์ ๋ค์ ์ด๋ฏธ์งยทํํ ๋๋ฌธ์ ์ง์ ์ด๋ฐ ์์ผ๋ก ํ์ง ์์(โ๋ น์ ์๋์งโ ๋ช ๋ถ ๋๋ฌธ).
โข xAI๋ ์ผ๋จ ์๋๋ฅผ ์ฐ์ ์ โ 10๋ง+ GPU ๋น ๋ฅธ ๋ฐฐ์น.
2. ์ฐจ๋ณ์
โข ์ต์ด๋ก NVIDIA GPU(GB200 ๋ฑ) ์ง์๋ ๋ชจ๋ธ์ ๋๊ท๋ชจ๋ก ๋์ ์์ . (์ผ๋ฐ์ ์ผ๋ก air-cooled ๋๋ ๋ค๋ฅธ ๊ตฌ์กฐ)
โข ๋คํธ์ํฌ๋ ์ด๋๋ท ๊ธฐ๋ฐ ๋ฑ, ๋น์ ํ์ ๋ฐฉ์ ํ์ฉ.
2.4 ๊ทธ ์ธ ํด๋ผ์ฐ๋/์ฝ๋ก์ผ์ด์ ์ ์ฒด
โข ์๋ง์กด(AWS): ์ ์ธ๊ณ ๋ง์ ๋ถ์ง์์ ๋์๋ค๋ฐ์ ํ์ฅ, CPUโGPU ์ ํ.
โข ์ค๋ผํด(Oracle): OpenAI์ ํ๋ ฅํด 200MW๊ธ ๋ฐ์ดํฐ์ผํฐ, ์ฅ๊ธฐ์ ์ผ๋ก 1GW ํ์ฅ.
โข ๋ฉํ(Meta): ๊ตฌํ โH ํํโ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ํ์ ํ, ๊ณ ๋ฐ๋ ์๋ญ ๋ฐ์ดํฐ์ผํฐ๋ก ์ฌ๊ฑด์ถ.
โข ๋ค๋ฅธ ์์ญ~์๋ฐฑ ๊ฐ ์ค์/์ฃผ๊ถ(โ์๋ฒ๋ฆฐโ) ํด๋ผ์ฐ๋๋ ์ ์ฌํ๊ฒ GPU ํธ์คํ ์ฐ์ ์ฐธ์ฌ ์ค.
3. ์ถ๋ก (Inference) ํ ํฐ ์ฒ๋ฆฌ(tokenomics)์ ์ต์ ํ
3.1 ์ถ๋ก ์ ๊ณต์(โํ ํฐ ํฉํ ๋ฆฌโ) ๊ด์
โข ๋ํ ๋ชจ๋ธ์ API ํธ์ถ๋ก โํ ํฐโ ๋จ์ ๊ณผ๊ธ โ ์๋ฒ GPUยท๋ฉ๋ชจ๋ฆฌยท๋คํธ์ํฌ๋ฅผ ์ผ์ ๋ฐฉ์์ผ๋ก ํ ๋น.
โข ์ถ๋ก ์ฑ๋ฅ(throughput)์ ๋ฐฐ์นญ(batch size), ์์ํ(quantization), KV์บ์ ๊ด๋ฆฌ, ๋ณ๋ ฌํ ๋ฑ ์ต์ ํ๋ก ํฌ๊ฒ ์ข์ฐ.
3.2 KV ์บ์(KV Cache)์ ์ํฅ
1. ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ vs. KV์บ์
โข ํ ํฐ์ ์์ฑํ ๋๋ง๋ค, โ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ(์ ์ )โ + โKV์บ์(๋์ ยท์ ์ ๋ณ)โ ๋ชจ๋ ๋ฉ๋ชจ๋ฆฌ์์ ์ฝ์ด์ด.
โข ๋ฐฐ์น๊ฐ ์ปค์ง์๋ก(๋์ ์ ์ โ) KV์บ์ ์กฐํ๋ ๋ง์์ ธ, ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ ๋ณ๋ชฉ ๋ฐ์.
2. ์ํ์ค ๊ธธ์ด(Context Length) ์ฆ๊ฐ
โข ๋ชจ๋ธ์ด ๋ง์ reasoning(๋ด๋ถ ํ ํฐ ์์ฑ์ ์จ๊ธด๋ค ํด๋) โ ๋ด๋ถ์ ์ผ๋ก KV์บ์๊ฐ ์ปค์ง.
โข ์ํ์ค ๊ธธ์ด๊ฐ ๊ธธ์ด์ง์๋ก, ๋ฐฐ์น ๊ฐ๋ฅ ํฌ๊ธฐ๊ฐ ์ค๊ณ , ํ ํฐ๋น ์ฒ๋ฆฌ ์ง์ฐ์ด ์ปค์ ธ ์ฌ์ฉ์ ๊ฒฝํ ์ ํ.
3. GQA(Grouped Query Attention) ๋ฑ ๊ธฐ๋ฒ
โข llama ์๋ฆฌ์ฆ ๋ฑ์์ GQA/MQA๋ฅผ ์ ์ฉํ๋ฉด KV์บ์ ํฌ๊ธฐ๋ฅผ ์ค์ด๊ณ , ๋ณ๋ชฉ์ ์ํ.
โข ์) 40~70B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์์ GQA ์ ์ฉ ์, ๊ฐ์ ํ๋์จ์ด๋ก ๋ฐฐ์น ํฌ๊ธฐ(๋์ ์ ์ ์) ํฌ๊ฒ ์ฆ๊ฐ โ ์ถ๋ก ๋น์ฉ ์ ๊ฐ.
3.3 OpenAI โ0.1/01โ ๋ชจ๋ธ๊ณผ ๋น์ฉ
โข Zero One(01) ๋ชจ๋ธ: โ์ค์๊ฐ ๋ด๋ถ reasoningโ์ผ๋ก ํฐ ์ํ์ค ๊ธธ์ด.
โข ๊ธฐ์กด ์งง์ ์ํ์ค(๋ช K tokens)๋ณด๋ค 10~40K ์ด์์ ์ํ์ค โ ๋ฐฐ์น ํจ์จ ๊ธ๊ฐ, ์ถ๋ก ๋น์ฉ ์ฆ๊ฐ.
โข ์ค์ API ๊ฐ๊ฒฉ๋ GPT-4 ๋๋น 3~4๋ฐฐ ๋น์ผ ์ด์ ์ค ํ๋๊ฐ ์ด KV์บ์/๋ฐฐ์น ๋นํจ์จ ๋ฌธ์ .
4. Inference & Training ์๋ฎฌ๋ ์ดํฐ / TCO ๋ชจ๋ธ
โข ๋ฐํ์๋ ์์ฌ(SemiAnalysis)์์ ์ถ๋ก ยทํ๋ จ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ๊ฐ๋ฐ, โ๋ฉ๋ชจ๋ฆฌ BW vs. ๋ชจ๋ธ ํฌ๊ธฐ vs. ๋ฐฐ์น vs. ์ํ์ค ๊ธธ์ดโ ๋ฑ์ ๋ชจ์์คํ.
โข ์๋ฒ ์๊ฐ ๋น์ฉ(์: h100 8-GPU ์๋ฒ)
โข ๊ตฌ์ ๋น ๊ฐ๊ฐ์๊ฐ + ๊ธ์ต๋น์ฉ + ์ด์๋น(์ ๋ ฅ+์ฟจ๋ง+๋ฐ์ดํฐ์ผํฐ ๋ ํ ๋ฑ).
โข ๋๋ถ๋ถ์ ๋น์ฉ(70~80% ์ด์)์ด โGPU ๊ตฌ์ โ์ด๋ฏ๋ก, ์ ๋ ฅ ์ฌ์ฉ ์ฌ๋ถ(๊ฐ๋๋ฅ )์ ๋ฐ๋ฅธ ์ถ๊ฐ ๋ณ๋๋น๋ ์๋์ ์ผ๋ก ์์.
โข ๋ฐ๋ผ์ โGPU๋ฅผ 100% ํ์ฉโํ๋ ๊ณ ๋ฐฐ์น/๊ณ ํจ์จ์ด ์์ต์ฑ์ ํต์ฌ.
5. ๋ฐ์ดํฐ์ผํฐ ์ค๊ณยท์ ๋ ฅ ์ด์ ์ข ํฉ
1. ์ ๊ฐ์ฌ ์ค๊ณ๊ฐ ๋ค๋ฅธ๊ฐ?
โข ์ญ์ฌ์ ์ ์ฐ, ๋ด๋ถ ์ธํ๋ผ, ๋๊ฐ(์๋ญ/๊ณต๋ญ) ๋ฐฉ์, GPU/TPU ์ํคํ ์ฒ ์ฐจ์ด ๋ฑ์ผ๋ก ๋ชจ๋ ์์ด.
โข ๋ฉํ๋ H์ํ ๊ตฌํ ์ค๊ณ ํ๊ธฐ ํ, ์ ํ์ผ๋ก ๊ต์ฒด. ๊ตฌ๊ธ์ TPU ๊ณ ๋ฐ๋ ์๋ญ์ ์ผ์ฐ ์์. xAI๋ ๊ธ์กฐ(๊ณต์ฅ+์ด๋์ ๋ฐ์ ๊ธฐ).
โข ์ต์ ์ค๊ณ๋ ์กด์ฌํ์ง ์์ผ๋ฉฐ, ๋๋ค์๊ฐ โ์๊ฐ ์๋ฐ/์ ์ฐ์ฑ/PR(ํ๊ฒฝ)โ ๋ฑ์ ์ ์ถฉ.
2. ๋ชจ๋ โ์ฒ์ฐ๊ฐ์คยท์ํโ ์์กด?
โข ์ค์ ์ ๋ ฅ์ ํ์์ฐ๋ฃ ๊ธฐ๋ฐ์ด ๋๋ถ๋ถ. ESG ๋ช ๋ถ์ผ๋ก ํ์๊ด ๋ฑ ๊ตฌ๋งค(PPA)๋ ํ๋ ์ค์ ๋ฌผ๋ฆฌ์ ๊ณต๊ธ ์ ๋ ฅ์ ๋๋ถ๋ถ ๊ฐ์ค.
โข ๋๊ท๋ชจ ๋ฐ์ ์(์ต๋์ GW)์ ๋ถ์ง ์ฐ๊ฒฐ์ด ๊ด๊ฑด. ์๊ตฌ ๊ตญ๊ฐ๋ค์ ์ ๋ ฅ๋ง ์ฆ์ค์ด ๋๋ ค, 3~4๋ ์ฉ ๋๊ธฐ๊ฐ ๋ฐ์.
3. ๋ง์ดํฌ๋ก๊ทธ๋ฆฌ๋/์์ /ํด์ ๋ฐ์ดํฐ์ผํฐ ๋ฑ
โข ์๋ก ์ฒ๋ผ ์์ฒด ๋ฐ์ ๊ธฐ ์ฌ์ฉ โ๋ง์ดํฌ๋ก๊ทธ๋ฆฌ๋โ ์๋๋ ์์ง๋ง ๊ท์ ยท์ค๋ฌด ์ ์ด๋ ค์ ํผ.
โข ํด์/์ฐ์ฃผ ๋ฑ์ GPU ์์ ์ฑยท์ ์ง๋ณด์ ์ธก๋ฉด์์ ๋นํ์ค์ .
โข ์์ ์ง์ ์ฐ๊ณ๋ ๊ท์ ยท๋ฏผ์์ผ๋ก ์คํ์ ๊ฑฐ์ ์๊ณ , ๋๋ถ๋ถ โ๊ทธ๋ฆฐ์์ฑโ ๊ณ์ฝ์ ๊ทธ์นจ.
6. ์ง์์๋ต ์์ฝ
1. FPGA/ASIC/๋ด๋ก๋ชจํฝ
โข GPU(๋๋ TPU) ๋ง๊ณ ๋ค๋ฅธ ๋ณ๋ ฌ ์นฉ ์์ด๋์ด ๋ง์ผ๋, GPU/TPU ์ํ๊ณ๊ฐ ์ด๋ฏธ ์๋์ (์ํํธ์จ์ดยท์ธํ๋ผยท์ธ์ฌ ๋ฑ).
โข ๋ด๋ก๋ชจํฝ ๋ฑ์ ์ ์ฌ์ ํจ์จ์ด ํจ์ฌ ๋์ ์ ์์ผ๋, ์ ๋๋ก ๋ ์ฐ๊ตฌยท์ํ๊ณยทํฌ์ ๋ถ์กฑ. ๋น๋ถ๊ฐ GPT๋ฅ ์์ ์ GPU/TPU๊ฐ
์ฃผ๋.
2. ๊ท๋ชจ ํ์ฅ ์ง์ ๊ฐ๋ฅ์ฑ
โข โ๋ฒ๋ธ์ด๋?โ๋ผ๋ ์ง๋ฌธ. ๊ธฐ์ (์คํAIยท๊ตฌ๊ธยท๋ฉํ ๋ฑ)์ด AGI ๊ฐ๋ฅ์ฑยท์์ต์ฑ์ ๋ฒ ํ , CapEx ํญ์ฆ.
โข ํฅํ ์ ๋ ฅยทํ๊ฒฝ ๋ฌธ์ ์ ์ถฉ๋ํ๋, ๋จ๊ธฐ์ ์ผ๋ก๋ โPascalโs Wagerโ(์ ํ๋ ๊ฒ๋ณด๋ค ํด์ ์คํจํ๋ ๊ฒ ๋ซ๋ค)๋ก ๊ณ์ ํฌ์.
3. ํน์ ํ์ฌ์ ๋ฐ์ดํฐ์ผํฐ๋ง์ด โ์ ๋ตโ?
โข ์๋ค๊ณ ๋ด. ๋ฉํ/๊ตฌ๊ธ/MS/xAI ๋ชจ๋ ๋ค๋ฆ. ์นฉ(์ธํ๋ผ), ๋๊ฐ, ๋คํธ์ํน ๋ฑ์ ๋ฐ๋ผ ์์ด.
โข AI/HPC ์๊ตฌ์ฌํญ์ด ์ปค์, ์์ ํ ์ ๊ฑด๋ฌผ์ ์ง์ ๋๋ง๋ค ์ค๊ณ๊ฐ ๋ฌ๋ผ์ง๊ณ , ์ค์๊ฐ์ผ๋ก ๊ฐ์ ์ค.
4. ๋ฏธ๋ ๋ชจ๋ธ ์ํคํ ์ฒ (Transformer vs. ๋ค๋ฅธ ๊ตฌ์กฐ)
โข ๋น์ฅ์ Transformer๊ฐ ์ฐ์ ยท์ฐ๊ตฌ ๋ชจ๋ ํ์ค, ๋๊ท๋ชจ ์ต์ ํ ํดยท์์ง๋์ดยท์ํ๊ณ๊ฐ ์ด๋ฏธ ์ ์ฐฉ.
โข ๋ค๋ฅธ ์ํคํ ์ฒ(์: state-space, rnn ๋ณํ, etc.)๊ฐ ๋์๋ GPU๋ก ์ถฉ๋ถํ ์ฌํ์ฉ ๊ฐ๋ฅ โ ๊ณง๋ฐ๋ก ๋์ฒด ์ฝ์ง ์์.
7. ๊ฒฐ๋ก ๋ฐ ์ฃผ์ ์์ฌ์
1. ๋ฐ์ดํฐ์ผํฐ ์ ๋ ฅยท๊ตฌ์กฐ
โข AI ์์ ํญ์ฆ์ผ๋ก ๊ธฐ์กด โCPU+์คํ ๋ฆฌ์งโ ์ค์ฌ์์ โGPU ๋๋ฐ๋ + ์๋ญ + ์ด๊ณ ์ ๋คํธ์ํฌโ๋ก ๊ธ๋ณ.
โข ๊ฑด๋ฌผ ๋จ์๊ฐ ์๋๋ผ 10~100๋ง GPU๊ธ โ์บ ํผ์ค/์ง์ญ ๋จ์โ ํด๋ฌ์คํฐ๋ฅผ ๋ฌถ๋ ์ค.
โข ์ ๋ ฅ๋ง/๋ณ์๊ธฐ/๋๊ฐ ๋ฑ์ ์ ํ์ด ๋ณ๋ชฉ์ด๋ฉฐ, xAI์ฒ๋ผ ๊ธฐ๋ฐํ์ง๋ง ์์๋ฐฉํธ์ ๋ฐฉ๋ฒ(์ด๋์ ๋ฐ์ ๊ธฐ ๋ฑ)๋ ๋ฑ์ฅ.
2. ์ถ๋ก ๋น์ฉ(ํ ํฐ๋น) ๊ธ์ฆ ์ฐ๋ ค
โข ๋ชจ๋ธ์ ์ํ์ค ๊ธธ์ด ์ฆ๊ฐ, KV์บ์ ๋ฉ๋ชจ๋ฆฌ ๋ฌธ์ ๊ฐ ๋ฐฐ์น ํจ์จ์ ๋จ์ด๋จ๋ฆผ.
โข OpenAI ๋ฑ์ โ์ฅ๋ฌธ ์ถ๋ก โ ๋ชจ๋ธ์ ๋ ๋์ API ๊ฐ๊ฒฉ ๋งค๊น. ๋ค์ํ ์ต์ ํ(GQA, quant, flash-attn ๋ฑ)๊ฐ ํ์.
3. AI ์ธํ๋ผ ํฌ์
โข GPU(๋๋ TPU) ์์ฒด ๊ฐ๊ฒฉ์ด ์๋ฑํ ๋น์ธ, ์ ๊ธฐยท์ฟจ๋ง ๋น์ฉ์ ์๋์ ์ผ๋ก ์์.
โข ๋ฐ๋ผ์ โ๋๊ท๋ชจ ๋ฐฐ์น๋ก GPU ํ ๊ฐ๋, ๋จ๊ฐ ์ ๊ฐโ ๋ฐฉ์์ด ํต์ฌ ๋น์ฆ๋์ค ๋ชจ๋ธ.
โข Sovereign ํ๋, ์ฌ๋ชจํ๋, ํด๋ผ์ฐ๋ ์คํํธ์ ๋ฑ ์ ๋ฐฉ์์์ ์ผ์ข ์ ์ธํ๋ผ ๊ธ์ต์ผ๋ก ํฌ์ ์ดํ.
4. ์ฐ๊ตฌ/๊ฐ๋ฐ ๊ณผ์
โข ๋ฉํฐ ๋ฐ์ดํฐ์ผํฐ ๋น๋๊ธฐ ํ๋ จ, ๋ ๊ธด ์ํ์คยทKV์บ์ ์ต์ ํ, ํฌ์์ฑยท์์ํ, ์๋ ๋ถ์ฐ ๊ด๋ฆฌ ๋ฑ ํด๊ฒฐํด์ผ ํ ๋ฌธ์ ์ฌ๋ฟ.
โข ์๋ณธ๊ณผ ์ธ๋ ฅ์ด ๋๊ท๋ชจ ํฌ์ ๋๋ฉด์ โ์ง์์ ์ธ ์ธํ๋ผ ํ์ +๋น์ฉ ์ ๊ฐโ์ด ์์๋๋, ์ ๋ ฅยทํ๊ฒฝ ๋ฌธ์ ๋ ๊ฐ๋ฑ ์์.
๊ฒฐ๊ตญ ๋ณธ ๋ฐํ์ ํต์ฌ ๋ฉ์์ง๋, AI ๋ํ ๋ชจ๋ธ์ ํ์ตยท์ถ๋ก ํ๊ธฐ ์ํด ์ ์ธ๊ณ๊ฐ ์ ๋ก ์์ด ๊ฑฐ๋ํ GPU ๊ธฐ๋ฐ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ๊ฑด์ค ์ค์ด๊ณ , ์ด ๊ณผ์ ์์ ํ ํฐ ๋ฐฐ์นยทKV ์บ์ยท์ํ์ค ๊ธธ์ด ๋ฑ ์์คํ ์ ๋ณ๋ชฉ๊ณผ ์์ฒญ๋ ์๋ณธ/์ ๋ ฅ ์๊ตฌ๊ฐ ๋๋ฌ๋๊ณ ์๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์ ๊ณ ์ ๋ฐ์ โAGI, AI ํญ๋ฐ์ ์ฑ์ฅโ์ ๊ธฐ๋ํ๋ฉฐ, ์ ์ด๋ ์๋ ๊ฐ์ ์ด๋ฌํ ์ด๋ํ ํ์ฅ ๊ธฐ์กฐ๊ฐ ์ด์ด์ง ์ ๋ง์์ ์์ฌํ๋ค.
โข OpenAI ๋ฑ์ โ์ฅ๋ฌธ ์ถ๋ก โ ๋ชจ๋ธ์ ๋ ๋์ API ๊ฐ๊ฒฉ ๋งค๊น. ๋ค์ํ ์ต์ ํ(GQA, quant, flash-attn ๋ฑ)๊ฐ ํ์.
3. AI ์ธํ๋ผ ํฌ์
โข GPU(๋๋ TPU) ์์ฒด ๊ฐ๊ฒฉ์ด ์๋ฑํ ๋น์ธ, ์ ๊ธฐยท์ฟจ๋ง ๋น์ฉ์ ์๋์ ์ผ๋ก ์์.
โข ๋ฐ๋ผ์ โ๋๊ท๋ชจ ๋ฐฐ์น๋ก GPU ํ ๊ฐ๋, ๋จ๊ฐ ์ ๊ฐโ ๋ฐฉ์์ด ํต์ฌ ๋น์ฆ๋์ค ๋ชจ๋ธ.
โข Sovereign ํ๋, ์ฌ๋ชจํ๋, ํด๋ผ์ฐ๋ ์คํํธ์ ๋ฑ ์ ๋ฐฉ์์์ ์ผ์ข ์ ์ธํ๋ผ ๊ธ์ต์ผ๋ก ํฌ์ ์ดํ.
4. ์ฐ๊ตฌ/๊ฐ๋ฐ ๊ณผ์
โข ๋ฉํฐ ๋ฐ์ดํฐ์ผํฐ ๋น๋๊ธฐ ํ๋ จ, ๋ ๊ธด ์ํ์คยทKV์บ์ ์ต์ ํ, ํฌ์์ฑยท์์ํ, ์๋ ๋ถ์ฐ ๊ด๋ฆฌ ๋ฑ ํด๊ฒฐํด์ผ ํ ๋ฌธ์ ์ฌ๋ฟ.
โข ์๋ณธ๊ณผ ์ธ๋ ฅ์ด ๋๊ท๋ชจ ํฌ์ ๋๋ฉด์ โ์ง์์ ์ธ ์ธํ๋ผ ํ์ +๋น์ฉ ์ ๊ฐโ์ด ์์๋๋, ์ ๋ ฅยทํ๊ฒฝ ๋ฌธ์ ๋ ๊ฐ๋ฑ ์์.
๊ฒฐ๊ตญ ๋ณธ ๋ฐํ์ ํต์ฌ ๋ฉ์์ง๋, AI ๋ํ ๋ชจ๋ธ์ ํ์ตยท์ถ๋ก ํ๊ธฐ ์ํด ์ ์ธ๊ณ๊ฐ ์ ๋ก ์์ด ๊ฑฐ๋ํ GPU ๊ธฐ๋ฐ ๋ฐ์ดํฐ์ผํฐ๋ฅผ ๊ฑด์ค ์ค์ด๊ณ , ์ด ๊ณผ์ ์์ ํ ํฐ ๋ฐฐ์นยทKV ์บ์ยท์ํ์ค ๊ธธ์ด ๋ฑ ์์คํ ์ ๋ณ๋ชฉ๊ณผ ์์ฒญ๋ ์๋ณธ/์ ๋ ฅ ์๊ตฌ๊ฐ ๋๋ฌ๋๊ณ ์๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์ ๊ณ ์ ๋ฐ์ โAGI, AI ํญ๋ฐ์ ์ฑ์ฅโ์ ๊ธฐ๋ํ๋ฉฐ, ์ ์ด๋ ์๋ ๊ฐ์ ์ด๋ฌํ ์ด๋ํ ํ์ฅ ๊ธฐ์กฐ๊ฐ ์ด์ด์ง ์ ๋ง์์ ์์ฌํ๋ค.
https://www.youtube.com/live/CSE77wAdDLg?si=lwBc_rySVhPbz-Qc
Open AI Operator
1) ์ด๋ฏธ ํธ์คํ ๋์ด ์๊ณ ๋ฐ๋ก ์ฌ์ฉํ ์ ์๋ค๋ ์ฌ์ค์ Claude์ โ์ปดํจํฐ ์ฌ์ฉโ ๊ธฐ๋ฅ๋ณด๋ค ๋ ๋๋ฆฌ ์ฌ์ฉ๋ ์ ์๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
2) ์ด์์๋ ์ด๋ค ์ด์ ๋ก๋ API๋ฅผ ์ฌ์ฉํ ์ ์๋ ์น์ฌ์ดํธ๋ API๊ฐ ์๋ ๊ฒ์ฒ๋ผ ์๋ํ๋๋ก ๋ง๋ค ์ ์์ต๋๋ค. ์ด์ ์๋ํํ ์ ์๊ฒ ๋ฉ๋๋ค.
3) ์คํผ๋ ์ดํฐ๋ LLM์ ๋๊ตฌ ํธ์ถ๊ณผ ๋น์ทํฉ๋๋ค. ๋ค๋ง ์ธํฐ๋ท ์ ์ฒด๋ฅผ '๋๊ตฌ'๋ก ์ฌ์ฉํ๋ค๋ ์ ๋ง ๋ค๋ฆ ๋๋ค(์ฌ์ดํธ์ API๊ฐ ์๋ ์๋ ).
4) ๋๋ฆฌ ์ฌ์ฉ๋๋ ํจ์์ ๋ํ ์บ์ฑ/์ฌ์ ์ปดํ์ผ์ ํํ๋ฅผ ๋ณผ ์ ์์ต๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ์ด์์๋ ์ผ๋ฐ์ ์ผ๋ก ํ์ํ ๊ธฐ๋ฅ์ ๋ํด *์์ฒด* API๋ฅผ ์์ฑํ ๋ค์, ์ด๋ฅผ ์ฌ์ฉํ์ฌ ํน์ ์์ ์ ์ํํ ์ ์์ต๋๋ค.
5) ์คํผ๋ ์ดํฐ๋ ๊ฐ์ ๋ธ๋ผ์ฐ์ ์ ์ฌ๋ฌ ์ธ์คํด์ค์ ๊ฑธ์ณ ๊ธด ์์ ๋ชฉ๋ก์ ๋ฐฐํฌํ๊ธฐ ์ํด ๋ฐฑ๊ทธ๋ผ์ด๋์์ ์์ฒด์ ์ผ๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค.
6) ์ด์์๋ ์์ ์ ๋ณ๋ ฌํํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ถ๋ก ํ ์ ์์ ๊ฒ์ ๋๋ค. ์์: ์์ ์๋ 50๊ฐ์ ์น ํ์ด์ง๋ก ๊ตฌ์ฑ๋ ๊ฒฐ๊ณผ๋ฅผ ํ์ด์งํ๋ ์์ ์ด ํฌํจ๋ฉ๋๋ค. ๋์ ๋ค์๊ณผ ๊ฐ์ด ๋งํ ์ ์์ต๋๋ค: ์ฐ์ฐ์ A๋ ์ฒซ ๋ฒ์งธ ํ์ด์ง์์ ์์ํ์ฌ ์์ผ๋ก ์ด๋ํฉ๋๋ค. ์ฐ์ฐ์ B๋ ๋ง์ง๋ง ํ์ด์ง์์ ์์ํ์ฌ ๋ค๋ก ์ด๋ํฉ๋๋ค. ๋ชจ๋ ํ์ด์ง๊ฐ ์๋ฃ๋๋ฉด โ์ค๊ฐ์์ ๋ง๋๊ฒโ ๋ฉ๋๋ค.
7) ํ์ฌ ์น์ฌ์ดํธ๋ (๋๋ถ๋ถ) ์ธ๊ฐ์ ์ํด ๋ง๋ค์ด์ก๊ณ API๋ (๋๋ถ๋ถ) ๊ฐ๋ฐ์(ํน์ํ ์ ํ์ ์ธ๊ฐ)๋ฅผ ์ํด ๋ง๋ค์ด์ก์ต๋๋ค. ๋ชจ๋ฐ์ผ ์ฌ์ดํธ๋ ๋ชจ๋ฐ์ผ ๊ธฐ๊ธฐ๋ฅผ ์ฌ์ฉํ๋ ์ฌ๋์ ์ํด ๋ง๋ค์ด์ก์ต๋๋ค. ์์ผ๋ก๋ ์์ด์ ํธ AI๊ฐ ์ฌ์ฉํ๊ธฐ ์ํด ํน๋ณํ ์ ์๋ ์น์ฌ์ดํธ๋ฅผ ๋ณด๊ฒ ๋ ์ง ๊ถ๊ธํฉ๋๋ค.
Open AI Operator
1) ์ด๋ฏธ ํธ์คํ ๋์ด ์๊ณ ๋ฐ๋ก ์ฌ์ฉํ ์ ์๋ค๋ ์ฌ์ค์ Claude์ โ์ปดํจํฐ ์ฌ์ฉโ ๊ธฐ๋ฅ๋ณด๋ค ๋ ๋๋ฆฌ ์ฌ์ฉ๋ ์ ์๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
2) ์ด์์๋ ์ด๋ค ์ด์ ๋ก๋ API๋ฅผ ์ฌ์ฉํ ์ ์๋ ์น์ฌ์ดํธ๋ API๊ฐ ์๋ ๊ฒ์ฒ๋ผ ์๋ํ๋๋ก ๋ง๋ค ์ ์์ต๋๋ค. ์ด์ ์๋ํํ ์ ์๊ฒ ๋ฉ๋๋ค.
3) ์คํผ๋ ์ดํฐ๋ LLM์ ๋๊ตฌ ํธ์ถ๊ณผ ๋น์ทํฉ๋๋ค. ๋ค๋ง ์ธํฐ๋ท ์ ์ฒด๋ฅผ '๋๊ตฌ'๋ก ์ฌ์ฉํ๋ค๋ ์ ๋ง ๋ค๋ฆ ๋๋ค(์ฌ์ดํธ์ API๊ฐ ์๋ ์๋ ).
4) ๋๋ฆฌ ์ฌ์ฉ๋๋ ํจ์์ ๋ํ ์บ์ฑ/์ฌ์ ์ปดํ์ผ์ ํํ๋ฅผ ๋ณผ ์ ์์ต๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ์ด์์๋ ์ผ๋ฐ์ ์ผ๋ก ํ์ํ ๊ธฐ๋ฅ์ ๋ํด *์์ฒด* API๋ฅผ ์์ฑํ ๋ค์, ์ด๋ฅผ ์ฌ์ฉํ์ฌ ํน์ ์์ ์ ์ํํ ์ ์์ต๋๋ค.
5) ์คํผ๋ ์ดํฐ๋ ๊ฐ์ ๋ธ๋ผ์ฐ์ ์ ์ฌ๋ฌ ์ธ์คํด์ค์ ๊ฑธ์ณ ๊ธด ์์ ๋ชฉ๋ก์ ๋ฐฐํฌํ๊ธฐ ์ํด ๋ฐฑ๊ทธ๋ผ์ด๋์์ ์์ฒด์ ์ผ๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค.
6) ์ด์์๋ ์์ ์ ๋ณ๋ ฌํํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ถ๋ก ํ ์ ์์ ๊ฒ์ ๋๋ค. ์์: ์์ ์๋ 50๊ฐ์ ์น ํ์ด์ง๋ก ๊ตฌ์ฑ๋ ๊ฒฐ๊ณผ๋ฅผ ํ์ด์งํ๋ ์์ ์ด ํฌํจ๋ฉ๋๋ค. ๋์ ๋ค์๊ณผ ๊ฐ์ด ๋งํ ์ ์์ต๋๋ค: ์ฐ์ฐ์ A๋ ์ฒซ ๋ฒ์งธ ํ์ด์ง์์ ์์ํ์ฌ ์์ผ๋ก ์ด๋ํฉ๋๋ค. ์ฐ์ฐ์ B๋ ๋ง์ง๋ง ํ์ด์ง์์ ์์ํ์ฌ ๋ค๋ก ์ด๋ํฉ๋๋ค. ๋ชจ๋ ํ์ด์ง๊ฐ ์๋ฃ๋๋ฉด โ์ค๊ฐ์์ ๋ง๋๊ฒโ ๋ฉ๋๋ค.
7) ํ์ฌ ์น์ฌ์ดํธ๋ (๋๋ถ๋ถ) ์ธ๊ฐ์ ์ํด ๋ง๋ค์ด์ก๊ณ API๋ (๋๋ถ๋ถ) ๊ฐ๋ฐ์(ํน์ํ ์ ํ์ ์ธ๊ฐ)๋ฅผ ์ํด ๋ง๋ค์ด์ก์ต๋๋ค. ๋ชจ๋ฐ์ผ ์ฌ์ดํธ๋ ๋ชจ๋ฐ์ผ ๊ธฐ๊ธฐ๋ฅผ ์ฌ์ฉํ๋ ์ฌ๋์ ์ํด ๋ง๋ค์ด์ก์ต๋๋ค. ์์ผ๋ก๋ ์์ด์ ํธ AI๊ฐ ์ฌ์ฉํ๊ธฐ ์ํด ํน๋ณํ ์ ์๋ ์น์ฌ์ดํธ๋ฅผ ๋ณด๊ฒ ๋ ์ง ๊ถ๊ธํฉ๋๋ค.
Introducing DeepSeek-V3
https://api-docs.deepseek.com/news/news1226
1. ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ Mixture-of-Experts(MoE)๋ฅผ ์ ์ฉํ๋๊ฐ?
1.1. LLM์ ๊ธฐ๋ณธ ์์ด๋์ด
**๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)**์ ๋ฐฉ๋ํ ์์ ํ ์คํธ๋ฅผ ํ์ตํ์ฌ ์์ฐ์ด ์ฒ๋ฆฌ๋ฅผ ์ํํ๋ ๋ชจ๋ธ์ ๋๋ค. Transformer ๊ตฌ์กฐ(Vaswani et al., 2017)๊ฐ ์ฃผ๋ฅ์ด๋ฉฐ, ์๊ฐํ๊ท(autoregressive) ๋ฐฉ์์ผ๋ก ๋ค์ ํ ํฐ์ ์์ธกํ๋ ํ๋ฅ ์ ์ธ์ด ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค.
์ด๊ธฐ์ ๋๊ท๋ชจ ๋ชจ๋ธ์ ์ ๋ถ Dense ๋ชจ๋ธ์ด์๋๋ฐ, ์ด๋ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๋งค ํ ํฐ๋ง๋ค ์ ๋ถ ํ์ฑํํ์ฌ ๊ณ์ฐํฉ๋๋ค. ์) GPT ์๋ฆฌ์ฆ, BERT ์๋ฆฌ์ฆ ๋ฑ.
1.2. Mixture-of-Experts(MoE)์ ํต์ฌ ๋๊ธฐ
**Mixture-of-Experts(์ดํ MoE)**๋ ๋งค ํ ํฐ๋ง๋ค โ์ ๋ถ๊ฐ ์๋ ์ผ๋ถ ์ ๋ฌธ๊ฐ(Expert)โ ํ๋ผ๋ฏธํฐ๋ง ์ฌ์ฉํด ์ถ๋ก ํ๋๋ก ํ๋ ์์ด๋์ด์ ๋๋ค.
์) 1,000์ต ๊ฐ ํ๋ผ๋ฏธํฐ ์ค์์ 50์ต ๊ฐ๋ง ํ์ฑํ, ๋๋จธ์ง๋ ๋นํ์ฑํ.
์ฅ์ :
๊ฒฝ์ ์ฑ: ๋๊ท๋ชจ ํ๋ผ๋ฏธํฐ ์ค ์ผ๋ถ๋ง ๊ณ์ฐํ๋ฏ๋ก, ๊ฐ์ ์์ค(๋๋ ๋ ๋์ ์์ค)์ ํํ๋ ฅ์ ๋ ์ ์ FLOPs(์ฐ์ฐ๋)๋ก ๋ฌ์ฑ.
์ ๋ฌธ์ฑ ๋ถํ: ํ ํฐ๋ณ๋ก ๊ฐ์ฅ ์ ๋ง๋ ์ ๋ฌธ๊ฐ(Expert)๊ฐ ํ์ฑํ๋๋ฉฐ, ํน์ ํ ํฐ(์: ์ํ, ํ๋ก๊ทธ๋๋ฐ, ์ํ ํ ์คํธ ๋ฑ)์ ํด๋น ๋ถ์ผ์ ํนํ๋ Expert๊ฐ ํ์ต๋์ด ์ฑ๋ฅ ํฅ์.
ํ์ง๋ง ๋ฌธ์ ์ ๋ ์กด์ฌํฉ๋๋ค:
Expert๋ค์ ๋ถํ ๋ถ๊ท ํ(Load Imbalance): ํน์ Expert์๋ง ํ ํฐ์ด ๊ณผ๋ํ๊ฒ ๋ชฐ๋ฆฌ๋ฉด ํ์ต/์ถ๋ก ์ด ๋นํจ์จ์ .
ํ์ต ์ Token dispatch/combination ๋จ์์ ํต์ (์ฌํฌ์ฌ(All-to-all) ํต์ )์ด ๋ง์์ ธ ์ค๋ฒํค๋๊ฐ ์ปค์ง ์ ์์.
DeepSeek-V3๋ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด DeepSeekMoE๋ผ๋ ๊ตฌ์กฐ์ ๋ณด์กฐ ๋ก์ค ์๋(Aux-loss-free) ๋ก๋ ๋ฐธ๋ฐ์ฑ ์ ๋ต์ ์ ์ฉํฉ๋๋ค.
2. DeepSeek-V3์ ์ค๊ณ ๊ฐ์
DeepSeek-V3๋ ์ฝ **6710์ต ๊ฐ(โ์ด ํ๋ผ๋ฏธํฐโ)**์ ๋ฌํ๋ ๊ฑฐ๋ ๋ชจ๋ธ์ด์ง๋ง, ๋งค ํ ํฐ๋ง๋ค ์ฝ 370์ต ๊ฐ ํ๋ผ๋ฏธํฐ๋ง ํ์ฑํํด์ ๊ณ์ฐํ๋๋ก ์ค๊ณ๋์์ต๋๋ค.
์ด๋ฐ ๊ฑฐ๋ ๋ชจํ์ ํจ์จ์ ์ผ๋ก ํ์ตยท์ถ๋ก ํ๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ํต์ฌ ์ค๊ณ๋ฅผ ์ฑํํ์ต๋๋ค.
Multi-head Latent Attention (MLA)
๊ธฐ์กด Transformer์ Self-Attention์์ Key-Value๋ฅผ ์ถ์(latent vector)ํ ๋ค, ํ์ํ ๋๋ง ๋ค์ ๋ณต์(up-projection)ํ๋ ๋ฐฉ๋ฒ์ผ๋ก, KV ์บ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ค์ฌ ๋๊ท๋ชจ ๋ชจ๋ธ์ด๋ผ๋ ๊ธด ๋ฌธ๋งฅ ์ฒ๋ฆฌ ์๋๋ฅผ ๋์.
DeepSeekMoE + Aux-loss-free balancing
FFN(Feed-Forward Network) ๋ถ๋ถ์ MoE ๊ตฌ์กฐ๋ก ๊ตฌ์ฑํ๋, Expert ๊ฐ ๋ถํ๋ฅผ ๋ง์ถ๊ธฐ ์ํด โ๋ณด์กฐ ๋ก์ค(auxiliary loss)โ๋ฅผ ๊ฐ์ ํ์ง ์๊ณ , ๋์ ๋ฐ์ด์ด์ค(bias)๋ฅผ ์กฐ์ ํด ๋ถ๊ท ํ์ ํด๊ฒฐ(โAux-loss-freeโ ๊ธฐ๋ฒ).
์ด๋ ๊ฒ ํจ์ผ๋ก์จ ๋ชจ๋ธ ์ฑ๋ฅ ์์ค ์์ด ๋ก๋ ๋ฐธ๋ฐ์ฑ์ ๋ฌ์ฑ.
Multi-Token Prediction (MTP)
ํ ์์น์์ ๋ค์ ํ ํฐ ํ๋๋ง ์์ธกํ๋ ๊ฒ์ด ์๋๋ผ, ํ ๋ฒ์ ์ฌ๋ฌ ํ ํฐ(์ฌ๊ธฐ์๋ 2๊ฐ)๊น์ง ์์ธกํ๋๋ก ํ์ต.
๋ฐ์ดํฐ ํจ์จ์ฑ๊ณผ ๋ชจ๋ธ ์ฑ๋ฅ ๋ชจ๋์ ๋์์ ์ฃผ๋ฉฐ, ์ถ๋ก ์์๋ Speculative Decoding ๊ธฐ๋ฒ์ผ๋ก TPS(์ด๋น ํ ํฐ ์ฒ๋ฆฌ๋)๋ฅผ ๋์ด๋ ๋ฐ ํ์ฉ ๊ฐ๋ฅ.
FP8 Training ๋ฐ ํจ์จ์ ๋ถ์ฐ ํ์ต
๋๋ถ๋ถ์ ๊ณ์ฐ์ FP8 ์ ๋ฐ๋๋ก ์ํํ์ฌ ํ์ต ๋น์ฉ๊ณผ GPU ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ํฌ๊ฒ ์ ๊ฐ.
์ด ๊ณผ์ ์์ ์ ๋ฐ๋ ์์ค์ ์ต์ํํ๊ธฐ ์ํด, ๋ฏธ์ธํ ์ค์ผ์ผ๋ง(granularity scaling)๊ณผ ๋์ ์ ๋ฐ๋์ ๋์ฐ(accumulation)์ ์ฌ์ฉ.
All-to-all ํต์ ์ ๋ถ์ฐ ํ์ดํ๋ผ์ธ๊ณผ ๊ฒน์ณ์(dual-pipe) ์ค๋ฒํค๋๋ฅผ ์ต๋ํ ์จ๊น.
3. ํต์ฌ ๊ตฌ์ฑ ์์๋ณ ์์ธ ์ค๋ช
3.1. Multi-head Latent Attention(MLA)
3.1.1. ์ MLA์ธ๊ฐ?
๋๊ท๋ชจ ๋ชจ๋ธ์ โKV ์บ์(Key-Value Cache)โ๊ฐ ๋งค์ฐ ์ปค์ง ์ ์์ต๋๋ค. ์์ปจ๋ 64๊ฐ ํค๋ ร ํ๋ ์ฐจ์ 128 ๋ฑ์ผ๋ก ์ปค์ง๋ฉด, ๊ธด ๋ฌธ๋งฅ ์ฒ๋ฆฌ ์ ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ๋์ด ๋ฌธ์ ๋จ.
MLA๋ Key/Value๋ฅผ ๋จผ์ ์ ์ฐจ์(latent)์ผ๋ก ์์ถํ๋ค๊ฐ, ์ค์ Attention ์ฐ์ฐ ์ง์ ์ ๋ค์ ๋ณต์(up-projection)ํด ์ฌ์ฉํฉ๋๋ค.
์ถ๋ก ์, โ์์ถ๋ ๋ฒกํฐ(c_KV_t ๋ฑ)โ๋ง ์บ์์ ์ ์ฅํ๋ฉด ๋๋ฏ๋ก, ์บ์ ๋ฉ๋ชจ๋ฆฌ๊ฐ ํฌ๊ฒ ์ค์ด๋ญ๋๋ค.
3.1.2. ๊ตฌ์กฐ
Attention์ ํ์ํ Query/Key/Value๋ฅผ ๋ค์์ฒ๋ผ ๊ตฌ๋ถ:
(1) ์์ถ(latent) ๋ฒกํฐ: h_t โ c_KV_t(์ฐจ์ d_c).
(2) ๋ณต์(up-projection) ํ๋ ฌ: c_KV_t โ (k_C, v_C).
(3) RoPE ๋กํ ๋ฆฌ ์๋ฒ ๋ฉ์ฉ decoupled query/key: ์ถ๊ฐ๋ก k_R, q_R๋ฅผ ์์ฑํ์ฌ ๋ฌธ๋งฅ ์์น ์ ๋ณด๋ฅผ ๋ฐ์.
๊ฒฐ๋ก ์ ์ผ๋ก MLA๋ Token ํ๋๊ฐ ์ง๋๊ฐ ๋ (์์ถ + ๋ณต์ + RoPE + ์ต์ข ์ดํ ์ ) ๊ณผ์ ์ ๊ฑฐ์นฉ๋๋ค.
์ด๋ฅผ ํตํด **โKV ์บ์ ํฌ๊ธฐ ๊ฐ์โ**์ **โ์ฑ๋ฅ ๋ณด์กดโ**์ด๋ผ๋ ๋ ๊ฐ์ง ์ด์ ์ ์ป์ต๋๋ค.
3.2. DeepSeekMoE (Mixture-of-Experts) & Auxiliary-loss-free Balancing
3.2.1. DeepSeekMoE ๊ธฐ๋ณธ ์์ด๋์ด
Transformer์ FFN ๋จ์ MoE Layer๋ก ๋ฐ๊พธ์ด,
์ผ๋ถ(๊ณต์ Expert, N_s๊ฐ)๋ ๋ชจ๋ ํ ํฐ์ด ๊ณตํต์ ์ผ๋ก ์ฐ๊ณ ,
๋๋จธ์ง(๋ผ์ฐํ Expert, N_r๊ฐ)๋ ํ ํฐ๋ณ๋ก top-Kr๊ฐ๋ง ์ ๋ณํ์ฌ ๊ณ์ฐ.
์: h'_t = h_t + ฮฃ(Shared Experts) + ฮฃ(Routed Experts).
๋ผ์ฐํ ์ ํ ํฐ๊ณผ Expert ๊ฐ์ ์ ์(affinity)๋ฅผ ๊ตฌํ์ฌ, ๊ฐ์ฅ ๋์ Expert ๋ช ๊ฐ๋ฅผ ํ์ฑํ.
3.2.2. Aux-loss-free ๋ก๋ ๋ฐธ๋ฐ์ฑ
๊ธฐ์กด MoE ์ฐ๊ตฌ๋ค์ Expert ๊ฐ ๋ถํ๋ฅผ ๊ท ๋ฑํ๊ฒ ๋ง๋ค๊ธฐ ์ํด **๋ณด์กฐ ๋ก์ค(auxiliary loss)**๋ฅผ ํจ๊ป ์ต์ํํ์ต๋๋ค.
ํ์ง๋ง ์ด ๋ก์ค๊ฐ ๋๋ฌด ํฌ๋ฉด ๋ชจ๋ธ ๋ณธ๋์ ์ต์ ํ๋ฅผ ํด์น ์ ์์ต๋๋ค.
DeepSeek-V3๋ ๋ณด์กฐ ๋ก์ค ์์ด๋ ๊ท ๋ฑ ๋ถํ๋ฅผ ๋ฌ์ฑํ๋๋ก, ๊ฐ Expert๋ง๋ค ๋์ ์ธ โbiasโ ๋ณ์๋ฅผ ๋๊ณ , ๋งค ์คํ ๋ง๋ค expert๊ฐ ๊ณผ๋ถํยท์ ๋ถํ์ธ์ง์ ๋ฐ๋ผ bias๋ฅผ ์กฐ์ ํฉ๋๋ค.
๊ทธ ๊ฒฐ๊ณผ, ๊ท ๋ฑ ๋ถํ๋ฅผ ์ ์งํ๋ฉด์๋ ๋ชจ๋ธ ์ฑ๋ฅ ์ํด๊ฐ ์ ๊ณ , ์ ๋ฌธ๊ฐ ๋ถํ๋ฅผ ๊ทน๋ํํฉ๋๋ค.
3.2.3. ์ถ๊ฐ๋ก ์ ์ฉ๋๋ ๊ธฐ๋ฒ๋ค
Sequence-wise auxiliary loss: ๊ทธ๋๋ ํน์ ์ํ์ค๊ฐ ์ผ๋ถ expert์๋ง ๋ชฐ๋ฆฌ๋ ๊ทน๋จ์ ๋ฐฉ์งํ๊ธฐ ์ํด, ๋งค์ฐ ์์ ๊ฐ์ค์น์ ์ํ์ค ์ฐจ์ ๋ณด์กฐ ๋ก์ค๋ฅผ ์ถ๊ฐ.
Node-limited routing: ํต์ ์ค๋ฒํค๋๋ฅผ ์ ํํ๊ธฐ ์ํด ํ ํ ํฐ์ด ์ต๋ M๊ฐ์ ๋ ธ๋๊น์ง๋ง ๋ถ์ฐ๋๋ ์ ํ์ ๋ (์: M=4).
Token-dropping ์์: ๋ก๋ ๋ฐธ๋ฐ์ค๊ฐ ์์ ์ ์ผ๋ก ์ ์ง๋๋ฏ๋ก, DeepSeek-V3๋ ํ ํฐ ๋๋กญ ์์ด ์งํ.
3.3. Multi-Token Prediction (MTP)
3.3.1. ํ ๋ฒ์ ์ฌ๋ฌ ํ ํฐ ์์ธกํ๊ธฐ
์ผ๋ฐ Transformer๋ ์์น t์์ โt+1๋ฒ์งธโ ํ ํฐ๋ง ์์ธก.
MTP๋ t์์ โt+1, t+2, โฆโ ๊ฐ์ด ์ฌ๋ฌ ๊ฐ๋ฅผ ์์ธกํ๋๋ก ์ถ๊ฐ ๋ชจ๋์ ๋ก๋๋ค.
DeepSeek-V3์์๋ depth=1(์ฆ, โ๋ค์ ํ ํฐ + ์ถ๊ฐ๋ก ๊ทธ ๋ค์ ํ ํฐโ)๋ง ์์ธกํ๋, ์ด๋ฅผ ํตํด ๋ฐ์ดํฐ ํจ์จ๊ณผ ์ฑ๋ฅ ํฅ์์ ์ป์์ต๋๋ค.
https://api-docs.deepseek.com/news/news1226
1. ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ Mixture-of-Experts(MoE)๋ฅผ ์ ์ฉํ๋๊ฐ?
1.1. LLM์ ๊ธฐ๋ณธ ์์ด๋์ด
**๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)**์ ๋ฐฉ๋ํ ์์ ํ ์คํธ๋ฅผ ํ์ตํ์ฌ ์์ฐ์ด ์ฒ๋ฆฌ๋ฅผ ์ํํ๋ ๋ชจ๋ธ์ ๋๋ค. Transformer ๊ตฌ์กฐ(Vaswani et al., 2017)๊ฐ ์ฃผ๋ฅ์ด๋ฉฐ, ์๊ฐํ๊ท(autoregressive) ๋ฐฉ์์ผ๋ก ๋ค์ ํ ํฐ์ ์์ธกํ๋ ํ๋ฅ ์ ์ธ์ด ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค.
์ด๊ธฐ์ ๋๊ท๋ชจ ๋ชจ๋ธ์ ์ ๋ถ Dense ๋ชจ๋ธ์ด์๋๋ฐ, ์ด๋ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๋งค ํ ํฐ๋ง๋ค ์ ๋ถ ํ์ฑํํ์ฌ ๊ณ์ฐํฉ๋๋ค. ์) GPT ์๋ฆฌ์ฆ, BERT ์๋ฆฌ์ฆ ๋ฑ.
1.2. Mixture-of-Experts(MoE)์ ํต์ฌ ๋๊ธฐ
**Mixture-of-Experts(์ดํ MoE)**๋ ๋งค ํ ํฐ๋ง๋ค โ์ ๋ถ๊ฐ ์๋ ์ผ๋ถ ์ ๋ฌธ๊ฐ(Expert)โ ํ๋ผ๋ฏธํฐ๋ง ์ฌ์ฉํด ์ถ๋ก ํ๋๋ก ํ๋ ์์ด๋์ด์ ๋๋ค.
์) 1,000์ต ๊ฐ ํ๋ผ๋ฏธํฐ ์ค์์ 50์ต ๊ฐ๋ง ํ์ฑํ, ๋๋จธ์ง๋ ๋นํ์ฑํ.
์ฅ์ :
๊ฒฝ์ ์ฑ: ๋๊ท๋ชจ ํ๋ผ๋ฏธํฐ ์ค ์ผ๋ถ๋ง ๊ณ์ฐํ๋ฏ๋ก, ๊ฐ์ ์์ค(๋๋ ๋ ๋์ ์์ค)์ ํํ๋ ฅ์ ๋ ์ ์ FLOPs(์ฐ์ฐ๋)๋ก ๋ฌ์ฑ.
์ ๋ฌธ์ฑ ๋ถํ: ํ ํฐ๋ณ๋ก ๊ฐ์ฅ ์ ๋ง๋ ์ ๋ฌธ๊ฐ(Expert)๊ฐ ํ์ฑํ๋๋ฉฐ, ํน์ ํ ํฐ(์: ์ํ, ํ๋ก๊ทธ๋๋ฐ, ์ํ ํ ์คํธ ๋ฑ)์ ํด๋น ๋ถ์ผ์ ํนํ๋ Expert๊ฐ ํ์ต๋์ด ์ฑ๋ฅ ํฅ์.
ํ์ง๋ง ๋ฌธ์ ์ ๋ ์กด์ฌํฉ๋๋ค:
Expert๋ค์ ๋ถํ ๋ถ๊ท ํ(Load Imbalance): ํน์ Expert์๋ง ํ ํฐ์ด ๊ณผ๋ํ๊ฒ ๋ชฐ๋ฆฌ๋ฉด ํ์ต/์ถ๋ก ์ด ๋นํจ์จ์ .
ํ์ต ์ Token dispatch/combination ๋จ์์ ํต์ (์ฌํฌ์ฌ(All-to-all) ํต์ )์ด ๋ง์์ ธ ์ค๋ฒํค๋๊ฐ ์ปค์ง ์ ์์.
DeepSeek-V3๋ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด DeepSeekMoE๋ผ๋ ๊ตฌ์กฐ์ ๋ณด์กฐ ๋ก์ค ์๋(Aux-loss-free) ๋ก๋ ๋ฐธ๋ฐ์ฑ ์ ๋ต์ ์ ์ฉํฉ๋๋ค.
2. DeepSeek-V3์ ์ค๊ณ ๊ฐ์
DeepSeek-V3๋ ์ฝ **6710์ต ๊ฐ(โ์ด ํ๋ผ๋ฏธํฐโ)**์ ๋ฌํ๋ ๊ฑฐ๋ ๋ชจ๋ธ์ด์ง๋ง, ๋งค ํ ํฐ๋ง๋ค ์ฝ 370์ต ๊ฐ ํ๋ผ๋ฏธํฐ๋ง ํ์ฑํํด์ ๊ณ์ฐํ๋๋ก ์ค๊ณ๋์์ต๋๋ค.
์ด๋ฐ ๊ฑฐ๋ ๋ชจํ์ ํจ์จ์ ์ผ๋ก ํ์ตยท์ถ๋ก ํ๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ํต์ฌ ์ค๊ณ๋ฅผ ์ฑํํ์ต๋๋ค.
Multi-head Latent Attention (MLA)
๊ธฐ์กด Transformer์ Self-Attention์์ Key-Value๋ฅผ ์ถ์(latent vector)ํ ๋ค, ํ์ํ ๋๋ง ๋ค์ ๋ณต์(up-projection)ํ๋ ๋ฐฉ๋ฒ์ผ๋ก, KV ์บ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ค์ฌ ๋๊ท๋ชจ ๋ชจ๋ธ์ด๋ผ๋ ๊ธด ๋ฌธ๋งฅ ์ฒ๋ฆฌ ์๋๋ฅผ ๋์.
DeepSeekMoE + Aux-loss-free balancing
FFN(Feed-Forward Network) ๋ถ๋ถ์ MoE ๊ตฌ์กฐ๋ก ๊ตฌ์ฑํ๋, Expert ๊ฐ ๋ถํ๋ฅผ ๋ง์ถ๊ธฐ ์ํด โ๋ณด์กฐ ๋ก์ค(auxiliary loss)โ๋ฅผ ๊ฐ์ ํ์ง ์๊ณ , ๋์ ๋ฐ์ด์ด์ค(bias)๋ฅผ ์กฐ์ ํด ๋ถ๊ท ํ์ ํด๊ฒฐ(โAux-loss-freeโ ๊ธฐ๋ฒ).
์ด๋ ๊ฒ ํจ์ผ๋ก์จ ๋ชจ๋ธ ์ฑ๋ฅ ์์ค ์์ด ๋ก๋ ๋ฐธ๋ฐ์ฑ์ ๋ฌ์ฑ.
Multi-Token Prediction (MTP)
ํ ์์น์์ ๋ค์ ํ ํฐ ํ๋๋ง ์์ธกํ๋ ๊ฒ์ด ์๋๋ผ, ํ ๋ฒ์ ์ฌ๋ฌ ํ ํฐ(์ฌ๊ธฐ์๋ 2๊ฐ)๊น์ง ์์ธกํ๋๋ก ํ์ต.
๋ฐ์ดํฐ ํจ์จ์ฑ๊ณผ ๋ชจ๋ธ ์ฑ๋ฅ ๋ชจ๋์ ๋์์ ์ฃผ๋ฉฐ, ์ถ๋ก ์์๋ Speculative Decoding ๊ธฐ๋ฒ์ผ๋ก TPS(์ด๋น ํ ํฐ ์ฒ๋ฆฌ๋)๋ฅผ ๋์ด๋ ๋ฐ ํ์ฉ ๊ฐ๋ฅ.
FP8 Training ๋ฐ ํจ์จ์ ๋ถ์ฐ ํ์ต
๋๋ถ๋ถ์ ๊ณ์ฐ์ FP8 ์ ๋ฐ๋๋ก ์ํํ์ฌ ํ์ต ๋น์ฉ๊ณผ GPU ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ํฌ๊ฒ ์ ๊ฐ.
์ด ๊ณผ์ ์์ ์ ๋ฐ๋ ์์ค์ ์ต์ํํ๊ธฐ ์ํด, ๋ฏธ์ธํ ์ค์ผ์ผ๋ง(granularity scaling)๊ณผ ๋์ ์ ๋ฐ๋์ ๋์ฐ(accumulation)์ ์ฌ์ฉ.
All-to-all ํต์ ์ ๋ถ์ฐ ํ์ดํ๋ผ์ธ๊ณผ ๊ฒน์ณ์(dual-pipe) ์ค๋ฒํค๋๋ฅผ ์ต๋ํ ์จ๊น.
3. ํต์ฌ ๊ตฌ์ฑ ์์๋ณ ์์ธ ์ค๋ช
3.1. Multi-head Latent Attention(MLA)
3.1.1. ์ MLA์ธ๊ฐ?
๋๊ท๋ชจ ๋ชจ๋ธ์ โKV ์บ์(Key-Value Cache)โ๊ฐ ๋งค์ฐ ์ปค์ง ์ ์์ต๋๋ค. ์์ปจ๋ 64๊ฐ ํค๋ ร ํ๋ ์ฐจ์ 128 ๋ฑ์ผ๋ก ์ปค์ง๋ฉด, ๊ธด ๋ฌธ๋งฅ ์ฒ๋ฆฌ ์ ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ๋์ด ๋ฌธ์ ๋จ.
MLA๋ Key/Value๋ฅผ ๋จผ์ ์ ์ฐจ์(latent)์ผ๋ก ์์ถํ๋ค๊ฐ, ์ค์ Attention ์ฐ์ฐ ์ง์ ์ ๋ค์ ๋ณต์(up-projection)ํด ์ฌ์ฉํฉ๋๋ค.
์ถ๋ก ์, โ์์ถ๋ ๋ฒกํฐ(c_KV_t ๋ฑ)โ๋ง ์บ์์ ์ ์ฅํ๋ฉด ๋๋ฏ๋ก, ์บ์ ๋ฉ๋ชจ๋ฆฌ๊ฐ ํฌ๊ฒ ์ค์ด๋ญ๋๋ค.
3.1.2. ๊ตฌ์กฐ
Attention์ ํ์ํ Query/Key/Value๋ฅผ ๋ค์์ฒ๋ผ ๊ตฌ๋ถ:
(1) ์์ถ(latent) ๋ฒกํฐ: h_t โ c_KV_t(์ฐจ์ d_c).
(2) ๋ณต์(up-projection) ํ๋ ฌ: c_KV_t โ (k_C, v_C).
(3) RoPE ๋กํ ๋ฆฌ ์๋ฒ ๋ฉ์ฉ decoupled query/key: ์ถ๊ฐ๋ก k_R, q_R๋ฅผ ์์ฑํ์ฌ ๋ฌธ๋งฅ ์์น ์ ๋ณด๋ฅผ ๋ฐ์.
๊ฒฐ๋ก ์ ์ผ๋ก MLA๋ Token ํ๋๊ฐ ์ง๋๊ฐ ๋ (์์ถ + ๋ณต์ + RoPE + ์ต์ข ์ดํ ์ ) ๊ณผ์ ์ ๊ฑฐ์นฉ๋๋ค.
์ด๋ฅผ ํตํด **โKV ์บ์ ํฌ๊ธฐ ๊ฐ์โ**์ **โ์ฑ๋ฅ ๋ณด์กดโ**์ด๋ผ๋ ๋ ๊ฐ์ง ์ด์ ์ ์ป์ต๋๋ค.
3.2. DeepSeekMoE (Mixture-of-Experts) & Auxiliary-loss-free Balancing
3.2.1. DeepSeekMoE ๊ธฐ๋ณธ ์์ด๋์ด
Transformer์ FFN ๋จ์ MoE Layer๋ก ๋ฐ๊พธ์ด,
์ผ๋ถ(๊ณต์ Expert, N_s๊ฐ)๋ ๋ชจ๋ ํ ํฐ์ด ๊ณตํต์ ์ผ๋ก ์ฐ๊ณ ,
๋๋จธ์ง(๋ผ์ฐํ Expert, N_r๊ฐ)๋ ํ ํฐ๋ณ๋ก top-Kr๊ฐ๋ง ์ ๋ณํ์ฌ ๊ณ์ฐ.
์: h'_t = h_t + ฮฃ(Shared Experts) + ฮฃ(Routed Experts).
๋ผ์ฐํ ์ ํ ํฐ๊ณผ Expert ๊ฐ์ ์ ์(affinity)๋ฅผ ๊ตฌํ์ฌ, ๊ฐ์ฅ ๋์ Expert ๋ช ๊ฐ๋ฅผ ํ์ฑํ.
3.2.2. Aux-loss-free ๋ก๋ ๋ฐธ๋ฐ์ฑ
๊ธฐ์กด MoE ์ฐ๊ตฌ๋ค์ Expert ๊ฐ ๋ถํ๋ฅผ ๊ท ๋ฑํ๊ฒ ๋ง๋ค๊ธฐ ์ํด **๋ณด์กฐ ๋ก์ค(auxiliary loss)**๋ฅผ ํจ๊ป ์ต์ํํ์ต๋๋ค.
ํ์ง๋ง ์ด ๋ก์ค๊ฐ ๋๋ฌด ํฌ๋ฉด ๋ชจ๋ธ ๋ณธ๋์ ์ต์ ํ๋ฅผ ํด์น ์ ์์ต๋๋ค.
DeepSeek-V3๋ ๋ณด์กฐ ๋ก์ค ์์ด๋ ๊ท ๋ฑ ๋ถํ๋ฅผ ๋ฌ์ฑํ๋๋ก, ๊ฐ Expert๋ง๋ค ๋์ ์ธ โbiasโ ๋ณ์๋ฅผ ๋๊ณ , ๋งค ์คํ ๋ง๋ค expert๊ฐ ๊ณผ๋ถํยท์ ๋ถํ์ธ์ง์ ๋ฐ๋ผ bias๋ฅผ ์กฐ์ ํฉ๋๋ค.
๊ทธ ๊ฒฐ๊ณผ, ๊ท ๋ฑ ๋ถํ๋ฅผ ์ ์งํ๋ฉด์๋ ๋ชจ๋ธ ์ฑ๋ฅ ์ํด๊ฐ ์ ๊ณ , ์ ๋ฌธ๊ฐ ๋ถํ๋ฅผ ๊ทน๋ํํฉ๋๋ค.
3.2.3. ์ถ๊ฐ๋ก ์ ์ฉ๋๋ ๊ธฐ๋ฒ๋ค
Sequence-wise auxiliary loss: ๊ทธ๋๋ ํน์ ์ํ์ค๊ฐ ์ผ๋ถ expert์๋ง ๋ชฐ๋ฆฌ๋ ๊ทน๋จ์ ๋ฐฉ์งํ๊ธฐ ์ํด, ๋งค์ฐ ์์ ๊ฐ์ค์น์ ์ํ์ค ์ฐจ์ ๋ณด์กฐ ๋ก์ค๋ฅผ ์ถ๊ฐ.
Node-limited routing: ํต์ ์ค๋ฒํค๋๋ฅผ ์ ํํ๊ธฐ ์ํด ํ ํ ํฐ์ด ์ต๋ M๊ฐ์ ๋ ธ๋๊น์ง๋ง ๋ถ์ฐ๋๋ ์ ํ์ ๋ (์: M=4).
Token-dropping ์์: ๋ก๋ ๋ฐธ๋ฐ์ค๊ฐ ์์ ์ ์ผ๋ก ์ ์ง๋๋ฏ๋ก, DeepSeek-V3๋ ํ ํฐ ๋๋กญ ์์ด ์งํ.
3.3. Multi-Token Prediction (MTP)
3.3.1. ํ ๋ฒ์ ์ฌ๋ฌ ํ ํฐ ์์ธกํ๊ธฐ
์ผ๋ฐ Transformer๋ ์์น t์์ โt+1๋ฒ์งธโ ํ ํฐ๋ง ์์ธก.
MTP๋ t์์ โt+1, t+2, โฆโ ๊ฐ์ด ์ฌ๋ฌ ๊ฐ๋ฅผ ์์ธกํ๋๋ก ์ถ๊ฐ ๋ชจ๋์ ๋ก๋๋ค.
DeepSeek-V3์์๋ depth=1(์ฆ, โ๋ค์ ํ ํฐ + ์ถ๊ฐ๋ก ๊ทธ ๋ค์ ํ ํฐโ)๋ง ์์ธกํ๋, ์ด๋ฅผ ํตํด ๋ฐ์ดํฐ ํจ์จ๊ณผ ์ฑ๋ฅ ํฅ์์ ์ป์์ต๋๋ค.
๐1
3.3.2. ํ์ต๊ณผ ์ถ๋ก ์ ํจ๊ณผ
ํ์ต ์ Cross-Entropy Loss๋ฅผ โ๊ธฐ์กด(Next Token) + MTP(Next2 Token)โ ํํ๋ก ํจ๊ป ์ต์ ํ.
์ถ๋ก ์์๋ MTP ๋ชจ๋์ ๋ฒ๋ฆฌ๊ฑฐ๋, ํน์ Speculative Decoding(๋์งธ ํ ํฐ๊น์ง ํ๊บผ๋ฒ์ ํ์ฉ)์ผ๋ก ์๋ ํฅ์์ ๊พํ ์ ์์ต๋๋ค.
ํต๊ณ์, DeepSeek-V3์์ ๋ ๋ฒ์งธ ํ ํฐ์ด ๋ง์ ํ๋ฅ ์ 85~90%๋ก ๋์, ์ฝ 1.8๋ฐฐ์ ํ ํฐ ์ฒ๋ฆฌ ์๋๋ฅผ ๊ตฌํํ๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค.
4. ํจ์จ์ ํ์ต(Training) ์ธํ๋ผ
4.1. FP8 Training
4.1.1. ๊ธฐ์กด BF16 ๋๋น FP8 ๋์ ๋ฐฐ๊ฒฝ
BF16(๋๋ FP16)์ ๋ถ๋์์์ ์์ exponent๋ฅผ ์ถฉ๋ถํ ๋ณด์ฅํ๋, ํฐ ๋ชจ๋ธ์์๋ ๋ ์ค์ผ ์ ์๋ ์ฌ์ง๊ฐ ์์.
FP8์ exponent ๋นํธ ์๊ฐ ์ค์ด ์ ๋ฐ๋ ๋ฌธ์ ๊ฐ ์์ง๋ง,
(1) ๋ฏธ์ธ ๊ตฌ๊ฐ ๋จ์์ ์ค์ผ์ผ๋ง(์: 1ร128, 128ร128)
(2) ๋์ ์ ๋ฐ๋์ ๋์ฐ(accumulation)
(3) ์จ๋ผ์ธ ํํ์ด์ ์ด์
๋ฑ์ ํตํด ์ ๋ฐ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ฐ์ฐ์๋๋ฅผ ํฌ๊ฒ ๋์.
4.1.2. ๊ตฌ์ฒด์ ์ ๋ต
Fine-grained Quantization:
Activation(ํนํ forward ์ ๋ ฅ ๋ฑ)์ โํ ํฐ๋ณ 128์ฑ๋ ๋จ์(1ร128)โ๋ก ์ค์ผ์ผ ์กฐ์ ,
Weight(๊ฐ์ค์น)๋ โ128ร128 ๋ธ๋ก ๋จ์โ๋ก ์ค์ผ์ผ ์กฐ์ .
๋์ ์ ๋ฐ๋ ๋์ฐ:
Tensor Core์์ FP8 ์ฐ์ฐ ์ ๋ด๋ถ์ 14๋นํธ ๋ฑ ์ ํ๋ ์ ๋ฐ๋๋ฅผ ์ฐ๋๋ฐ, ์ผ์ interval๋ง๋ค(์: 128๊ฐ์ฉ) CUDA Core์ FP32 ๋ ์ง์คํฐ๋ก ์น๊ฒฉํด ๋ ์ ํํ ์ถ์ .
Online Quantization:
์ต๋ ์ ๋๊ฐ์ ์ค์๊ฐ์ผ๋ก ๊ตฌํด, ํด๋น ๋ฏธ๋๊ทธ๋ฃน(ํ ํฐ/๋ธ๋ก ๋ฑ)์ ๋ง์ถฐ ์ค์ผ์ผ๋งํ์ฌ FP8๋ก ๋ณํ.
4.2. DualPipe ํ์ดํ๋ผ์ธ
4.2.1. ๋ฐฐ๊ฒฝ
DeepSeek-V3์ฒ๋ผ ๊ฑฐ๋ MoE ๋ชจ๋ธ์ ๊ฐ ๋ ์ด์ด(๋๋ ๊ตฌ๊ฐ)๋ฅผ GPU ์ฌ๋ฌ ๋์ ๊ฑธ์ณ ๋ถ์ฐ(Pipeline Parallel)์ํค๊ณ , MoE ํ ํฐ ์ ๋ฌ ๋ฑ All-to-all ํต์ ์ด ์ฆ์ต๋๋ค.
๋จ์ 1F1B(Forward 1๊ฐ, Backward 1๊ฐ)๋ ZeroBubble ๊ฐ์ ๊ธฐ์กด ๊ธฐ๋ฒ์ ํต์ ์๊ฐ์ด ๊ฒน์น์ง ์์ ์ ์ฒด ์๋ ์ ํ๊ฐ ํผ.
4.2.2. DualPipe ์๊ณ ๋ฆฌ์ฆ
์์ด๋์ด: Forward ์ฐ์ฐ ์ค์ Backward์ ํต์ , ๋๋ Backward์ ์ผ๋ถ ์ฐ์ฐ๊ณผ Forward์ ํต์ ์ ๋์์(Overlap) ์งํ.
์ธ๋ถ์ ์ผ๋ก Attention / MoE Dispatch / MLP / MoE Combine ๋ฑ์ ์๊ฒ ์ชผ๊ฐ์ด, ์ด๋ค ์ฌ์ด์ ํต์ ์ ํ์ดํ๋ผ์ธ ์ ์๋ก ๋ค๋ฅธ ๋ง์ดํฌ๋ก๋ฐฐ์น๋ผ๋ฆฌ ๊ฒน์น๊ฒ ๊ตฌ์ฑ.
๊ฒฐ๊ณผ์ ์ผ๋ก ํต์ ์ด ๊ฑฐ์ โ๊ณต์ง(fully hidden)โ์ฒ๋ผ ์ฒ๋ฆฌ๋์ด, ์ปค๋ค๋ GPU ํด๋ฌ์คํฐ์์๋ ํ์ฅ์ฑ์ด ์ข์์ง๋๋ค.
4.3. ์ถ๋ก (Inference) ๋ฐ ๋ฐฐํฌ ์ ๋ต
4.3.1. Prefilling
์ถ๋ก ์ โ์ฒ์ ๋ฌธ๋งฅ์ ๋๋์ผ๋ก ๋ฃ์ดโ ๋ชจ๋ธ ๋ด๋ถ ์ํ(KV ์บ์ ๋ฑ)๋ฅผ ์ฑ์ฐ๋ ๊ณผ์ .
DeepSeek-V3๋ ๋ ธ๋ ๊ฐ IB(InfiniBand) ํต์ ๊ณผ ๋ ธ๋ ๋ด NVLink ํต์ ์ ํผํฉํด ์ฌ์ฉ.
โ์ค๋ณต Expert(Redundant Expert)โ๋ฅผ ๋ฐฐ์นํด, ํน์ Expert๊ฐ ๊ณผ๋ถํ๊ฐ ๋์ง ์๋๋ก ๋์ ์ผ๋ก ํ ๋น.
์ด ๋ชจ๋ ๊ณผ์ ์ ํตํฉํ์ฌ ๋๊ท๋ชจ ์จยท์คํ๋ผ์ธ ์๋น์ค์ ๋์ ๊ฐ๋ฅํ ๊ตฌ์กฐ.
4.3.2. Decoding
Prefilling ํ, ์ค์ ํ ํ ํฐ์ฉ ๋์ฝ๋ฉํ๋ ๊ณผ์ .
์ค์๊ฐ ์์ฒญ์์๋ ๋ชจ๋ฉํ ์ด โAttention ์ฐ์ฐโ์ ๋ ์ง์ค๋จ.
๋ง์ฐฌ๊ฐ์ง๋ก โRedundant Expertโ + โNode๋ณ๋ก 1๊ฐ Expertโ ๋ฐฉ์์ผ๋ก ๊ตฌํํ์ฌ, ํ์ดํ๋ผ์ธ๊ณผ ํต์ ์ ๊ฒน์น๊ณ , ๊ธธ์ด๊ฐ ์งง์ ๋ง์ดํฌ๋ก๋ฐฐ์น๋ผ๋ ๋น ๋ฅธ ์๋ต์ด ๊ฐ๋ฅํ๋๋ก ํจ.
5. Pre-Training (์ฌ์ ํ์ต)
5.1. ๋ฐ์ดํฐ
์ด 14.8์กฐ(14.8T) ํ ํฐ ๊ท๋ชจ์ ๊ณ ํ์ง ๋ค๊ตญ์ด ๋ฐ์ดํฐ.
์ยท์ค์ฌ + ๊ธฐํ ์ธ์ด ํฌํจ.
์ํ, ์ฝ๋ฉ ๋น์ค์ ๋๋ฆฌ๊ณ , ๋ฐ์ดํฐ ์ค๋ณต ์ ๊ฑฐ์ ํ์ง ๊ด๋ฆฌ๋ฅผ ๊ฐํ.
Fill-in-Middle(FIM) ์ ๋ต ์ ์ฉ: 10% ์ ๋๋ ๋ฌธ์ฅ์ ๊ฐ์ด๋ฐ๋ฅผ ๋ง์ถ๋ ํํ๋ก ํ์ต(์ฝ๋ ์์ฑ ๋ฑ์์ ์ ์ฉ).
Byte-level BPE ๊ธฐ๋ฐ์ 12.8๋ง(128K) ํ ํฐ ์ฌ์ .
5.2. ํ์ต ์คํ
Transformer ๋ ์ด์ด์ 61, hidden dim=7168, ํค๋์=128 ๋ฑ.
๋ชจ๋ FFN(์ฒซ 3๊ฐ ์ ์ธ)์ MoE ์ ์ฉ. ๊ฐ ๋ ์ด์ด๋น ๊ณต์ Expert 1๊ฐ, ๋ผ์ฐํ Expert 256๊ฐ.
๋จ, ๋งค ํ ํฐ์๋ 8๊ฐ Expert ํ์ฑํ.
๋ฐฐ์น ์ฌ์ด์ฆ ์ค์ผ์ค๋ง, LR(learning rate) ์ค์ผ์ค๋ง(์ด๋ฐ ์๋ฐ์ โ ์ฝ์ฌ์ธ ๋์ผ์ด), ๋ฑ ๋ค์ํ ๊ธฐ๋ฒ ์ฌ์ฉ.
MTP: depth=1, ์ฒซ 10T ํ ํฐ ๋์ MTP ๊ฐ์ค์น ฮป=0.3, ์ดํ 0.1๋ก ์กฐ์ .
Aux-loss-free์ bias ์ ๋ฐ์ดํธ ์๋ ฮณ=0.001(์ฒ์ 14.3T ํ ํฐ๊น์ง), ๊ทธ ํ 0์ผ๋ก ์ค๋จ.
5.3. ๋กฑ์ปจํ ์คํธ ํ์ฅ (YaRN)
์ฌ์ ํ์ต ํ, 4K ๋ฌธ๋งฅ์์ ์์ํด 2๋จ๊ณ์ ๊ฑธ์ณ 32K, 128K๊น์ง ๋ฌธ๋งฅ์ ํ์ฅ.
YaRN(Peng et al., 2023) ๊ธฐ๋ฒ์ผ๋ก ๋กํ ๋ฆฌ ์๋ฒ ๋ฉ(RoPE)์ ํ์ฅํด, 128K ๊ธธ์ด๊น์ง ์์ ์ ์ผ๋ก ์ฒ๋ฆฌ.
5.4. ์ฑ๋ฅ ์์ฝ (Base ๋ชจ๋ธ)
English, Chinese, Multilingual ์ ๋ฐ์ ์์ฐ๋ฅด๋ ๋ฒค์น๋งํฌ์์ ๋๊ธ ๋๋น ์ต๊ณ ์์ค.
์) MMLU-Pro, GSM8K, MATH, HumanEval ๋ฑ ์ฝ๋ฉยท์ํ ๋ถ์ผ ์ต๊ณ ์์ค.
๋๋ฑ ๊ท๋ชจ ํน์ ๋ ํฐ Dense ๋ชจ๋ธ๊ณผ ๋น๊ต ์๋์์๋ ํ์ต ๋น์ฉ์ด๋ ์ถ๋ก ํจ์จ ๋ฉด์์ ๊ฐ์ .
6. Post-Training(์ถ๊ฐ ํ์ต, SFTยทRL)
6.1. Supervised Fine-Tuning (SFT)
์ฝ 150๋ง ๊ฑด์ ๊ณ ํ์ง ์ธ์คํธ๋ญ์ ํ๋ ๋ฐ์ดํฐ.
ํนํ ์ํยท์ฝ๋ ๋ฑ ๋ ผ๋ฆฌ์ ์ฌ๊ณ (Reasoning) ๋ถ์ผ ๋ฐ์ดํฐ์ ์ง์ค.
DeepSeek-R1 ๋ชจ๋ธ(๋ณ๋ โLong Chain-of-Thoughtโ์ ํนํ)์ ์ถ๋ ฅ์ ์ ์ ํ ์ ์ ํ์ฌ(๋๋ฌด ๊ธธ๊ฑฐ๋ ํฌ๋งท ์ํจ ๋ถ๋ถ ๋ณด์) final SFT ๋ฐ์ดํฐ๋ก ํ์ฉ โ ์ ํ๋ ๋ํญ ์์น.
6.2. RL (Reinforcement Learning)
Group Relative Policy Optimization (GRPO) ๊ธฐ๋ฒ ์ฌ์ฉ.
Rule-based RM(์ ๋ต ๊ฒ์ฆ ๊ฐ๋ฅ ๋ฌธ์ ) + Model-based RM(์ ๋ต์ด ํ๋๋ก ๊ฒฐ์ ์ด๋ ค์ด ๋ฌธํญ) ํผํฉ.
์๊ธฐ ์์ (DeepSeek-V3)์ด ๋ง๋ ํฌํ๊ฒฐ๊ณผ ๋ฑ์ ๋ค์ ๋ณด์์ผ๋ก ํ์ฉํ๋ โSelf-Rewarding(Constitutional AI)โ ๋ฐฉ์๋ ๋ณํ.
7. ๊ฒฐ๋ก ๋ฐ ํ๊ณ
DeepSeek-V3๋ (1) MLA, (2) DeepSeekMoE, (3) Aux-loss-free balancing, (4) MTP, (5) FP8 training ๋ฑ ๋ค์ํ ํ์ ์์๋ฅผ ๊ฒฐํฉํ **๊ฑฐ๋ ์คํ์ค ๋ชจ๋ธ(MoE)**์ ๋๋ค.
์ด ํ๋ผ๋ฏธํฐ 6710์ต์ด์ง๋ง, ๋งค ํ ํฐ๋ง๋ค 370์ต ํ๋ผ๋ฏธํฐ๋ง ํ์ฑํํ๊ณ ,
์ฌ์ ํ์ต 14.8T ํ ํฐ,
๋กฑ์ปจํ ์คํธ(์ต๋ 128K) ์ง์,
ํฌ์คํธ ํธ๋ ์ด๋(SFT+RL)์ผ๋ก ์ ๋ฐ๋์ ํ์ฉ๋(์ฝ๋ยท์ํ ๋ฑ) ๊ทน๋ํ๋ฅผ ์ด๋ฃน๋๋ค.
ํ์ต ๋น์ฉ ์ญ์ **H800 GPU ๊ธฐ์ค ์ฝ 278๋ง8์ฒ GPU-์(์ฝ 560๋ง ๋ฌ๋ฌ)**๋ก, ์ด ์ ๋ ๊ท๋ชจ์ ๋ชจ๋ธ ์ค์์ ๋งค์ฐ ๊ฒฝ์ ์ ์ผ๋ก ๋ฌ์ฑ.
7.1. ์ ํ์ฌํญ
๋๊ท๋ชจ ํด๋ฌ์คํฐ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณ๋์ด, ์ ์ GPU ๋ณด์ ํ์ด ์ง์ ์ถ๋ก /์๋น์คํ๊ธฐ๋ ์ด๋ ต๋ค.
์ถ๋ก ์๋๋ ๊ธฐ์กด Dense ๋ํ ๋ชจ๋ธ๋ณด๋ค ๋ซ์ง๋ง, ์์ Dense ๋ชจ๋ธ ๋๋น ์ฑ๋ฅ/์๋ ์ ์ถฉ์ ์ฌ์ฉ ์๋๋ฆฌ์ค์ ๋ฐ๋ผ ๊ณ ๋ฏผ์ด ํ์.
7.2. ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ
๋ฌดํ๋ ํน์ ๋ ํฐ ์ปจํ ์คํธ๋ฅผ ์ํ RoPE/AliBi ๋ฑ ํ์ฅ ๊ธฐ๋ฒ ์ฐ๊ตฌ.
MoE ์ด์์ผ๋ก ํจ์จ์ ์ธ ๊ตฌ์กฐ(์: ์คํ์คํ Attention, Retrieval-Augmented ๋ฑ)์์ ์กฐํฉ.
๋ค์ํ ๋ถ์ผ(๋น์ ยท๋ฉํฐ๋ชจ๋ฌ ๋ฑ)์ผ๋ก ํ์ฅ, ํ๋ จ ์ ํธ ๋ค์ํ.
**LLM ์์ฒด๋ฅผ ๋ณด์ ํจ์๋ก ํ์ฉ(Self-Rewarding)**ํ๋ ๊ธฐ๋ฒ์ ๋ ๊ณ ๋ํ.
ํ์ต ์ Cross-Entropy Loss๋ฅผ โ๊ธฐ์กด(Next Token) + MTP(Next2 Token)โ ํํ๋ก ํจ๊ป ์ต์ ํ.
์ถ๋ก ์์๋ MTP ๋ชจ๋์ ๋ฒ๋ฆฌ๊ฑฐ๋, ํน์ Speculative Decoding(๋์งธ ํ ํฐ๊น์ง ํ๊บผ๋ฒ์ ํ์ฉ)์ผ๋ก ์๋ ํฅ์์ ๊พํ ์ ์์ต๋๋ค.
ํต๊ณ์, DeepSeek-V3์์ ๋ ๋ฒ์งธ ํ ํฐ์ด ๋ง์ ํ๋ฅ ์ 85~90%๋ก ๋์, ์ฝ 1.8๋ฐฐ์ ํ ํฐ ์ฒ๋ฆฌ ์๋๋ฅผ ๊ตฌํํ๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค.
4. ํจ์จ์ ํ์ต(Training) ์ธํ๋ผ
4.1. FP8 Training
4.1.1. ๊ธฐ์กด BF16 ๋๋น FP8 ๋์ ๋ฐฐ๊ฒฝ
BF16(๋๋ FP16)์ ๋ถ๋์์์ ์์ exponent๋ฅผ ์ถฉ๋ถํ ๋ณด์ฅํ๋, ํฐ ๋ชจ๋ธ์์๋ ๋ ์ค์ผ ์ ์๋ ์ฌ์ง๊ฐ ์์.
FP8์ exponent ๋นํธ ์๊ฐ ์ค์ด ์ ๋ฐ๋ ๋ฌธ์ ๊ฐ ์์ง๋ง,
(1) ๋ฏธ์ธ ๊ตฌ๊ฐ ๋จ์์ ์ค์ผ์ผ๋ง(์: 1ร128, 128ร128)
(2) ๋์ ์ ๋ฐ๋์ ๋์ฐ(accumulation)
(3) ์จ๋ผ์ธ ํํ์ด์ ์ด์
๋ฑ์ ํตํด ์ ๋ฐ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ฐ์ฐ์๋๋ฅผ ํฌ๊ฒ ๋์.
4.1.2. ๊ตฌ์ฒด์ ์ ๋ต
Fine-grained Quantization:
Activation(ํนํ forward ์ ๋ ฅ ๋ฑ)์ โํ ํฐ๋ณ 128์ฑ๋ ๋จ์(1ร128)โ๋ก ์ค์ผ์ผ ์กฐ์ ,
Weight(๊ฐ์ค์น)๋ โ128ร128 ๋ธ๋ก ๋จ์โ๋ก ์ค์ผ์ผ ์กฐ์ .
๋์ ์ ๋ฐ๋ ๋์ฐ:
Tensor Core์์ FP8 ์ฐ์ฐ ์ ๋ด๋ถ์ 14๋นํธ ๋ฑ ์ ํ๋ ์ ๋ฐ๋๋ฅผ ์ฐ๋๋ฐ, ์ผ์ interval๋ง๋ค(์: 128๊ฐ์ฉ) CUDA Core์ FP32 ๋ ์ง์คํฐ๋ก ์น๊ฒฉํด ๋ ์ ํํ ์ถ์ .
Online Quantization:
์ต๋ ์ ๋๊ฐ์ ์ค์๊ฐ์ผ๋ก ๊ตฌํด, ํด๋น ๋ฏธ๋๊ทธ๋ฃน(ํ ํฐ/๋ธ๋ก ๋ฑ)์ ๋ง์ถฐ ์ค์ผ์ผ๋งํ์ฌ FP8๋ก ๋ณํ.
4.2. DualPipe ํ์ดํ๋ผ์ธ
4.2.1. ๋ฐฐ๊ฒฝ
DeepSeek-V3์ฒ๋ผ ๊ฑฐ๋ MoE ๋ชจ๋ธ์ ๊ฐ ๋ ์ด์ด(๋๋ ๊ตฌ๊ฐ)๋ฅผ GPU ์ฌ๋ฌ ๋์ ๊ฑธ์ณ ๋ถ์ฐ(Pipeline Parallel)์ํค๊ณ , MoE ํ ํฐ ์ ๋ฌ ๋ฑ All-to-all ํต์ ์ด ์ฆ์ต๋๋ค.
๋จ์ 1F1B(Forward 1๊ฐ, Backward 1๊ฐ)๋ ZeroBubble ๊ฐ์ ๊ธฐ์กด ๊ธฐ๋ฒ์ ํต์ ์๊ฐ์ด ๊ฒน์น์ง ์์ ์ ์ฒด ์๋ ์ ํ๊ฐ ํผ.
4.2.2. DualPipe ์๊ณ ๋ฆฌ์ฆ
์์ด๋์ด: Forward ์ฐ์ฐ ์ค์ Backward์ ํต์ , ๋๋ Backward์ ์ผ๋ถ ์ฐ์ฐ๊ณผ Forward์ ํต์ ์ ๋์์(Overlap) ์งํ.
์ธ๋ถ์ ์ผ๋ก Attention / MoE Dispatch / MLP / MoE Combine ๋ฑ์ ์๊ฒ ์ชผ๊ฐ์ด, ์ด๋ค ์ฌ์ด์ ํต์ ์ ํ์ดํ๋ผ์ธ ์ ์๋ก ๋ค๋ฅธ ๋ง์ดํฌ๋ก๋ฐฐ์น๋ผ๋ฆฌ ๊ฒน์น๊ฒ ๊ตฌ์ฑ.
๊ฒฐ๊ณผ์ ์ผ๋ก ํต์ ์ด ๊ฑฐ์ โ๊ณต์ง(fully hidden)โ์ฒ๋ผ ์ฒ๋ฆฌ๋์ด, ์ปค๋ค๋ GPU ํด๋ฌ์คํฐ์์๋ ํ์ฅ์ฑ์ด ์ข์์ง๋๋ค.
4.3. ์ถ๋ก (Inference) ๋ฐ ๋ฐฐํฌ ์ ๋ต
4.3.1. Prefilling
์ถ๋ก ์ โ์ฒ์ ๋ฌธ๋งฅ์ ๋๋์ผ๋ก ๋ฃ์ดโ ๋ชจ๋ธ ๋ด๋ถ ์ํ(KV ์บ์ ๋ฑ)๋ฅผ ์ฑ์ฐ๋ ๊ณผ์ .
DeepSeek-V3๋ ๋ ธ๋ ๊ฐ IB(InfiniBand) ํต์ ๊ณผ ๋ ธ๋ ๋ด NVLink ํต์ ์ ํผํฉํด ์ฌ์ฉ.
โ์ค๋ณต Expert(Redundant Expert)โ๋ฅผ ๋ฐฐ์นํด, ํน์ Expert๊ฐ ๊ณผ๋ถํ๊ฐ ๋์ง ์๋๋ก ๋์ ์ผ๋ก ํ ๋น.
์ด ๋ชจ๋ ๊ณผ์ ์ ํตํฉํ์ฌ ๋๊ท๋ชจ ์จยท์คํ๋ผ์ธ ์๋น์ค์ ๋์ ๊ฐ๋ฅํ ๊ตฌ์กฐ.
4.3.2. Decoding
Prefilling ํ, ์ค์ ํ ํ ํฐ์ฉ ๋์ฝ๋ฉํ๋ ๊ณผ์ .
์ค์๊ฐ ์์ฒญ์์๋ ๋ชจ๋ฉํ ์ด โAttention ์ฐ์ฐโ์ ๋ ์ง์ค๋จ.
๋ง์ฐฌ๊ฐ์ง๋ก โRedundant Expertโ + โNode๋ณ๋ก 1๊ฐ Expertโ ๋ฐฉ์์ผ๋ก ๊ตฌํํ์ฌ, ํ์ดํ๋ผ์ธ๊ณผ ํต์ ์ ๊ฒน์น๊ณ , ๊ธธ์ด๊ฐ ์งง์ ๋ง์ดํฌ๋ก๋ฐฐ์น๋ผ๋ ๋น ๋ฅธ ์๋ต์ด ๊ฐ๋ฅํ๋๋ก ํจ.
5. Pre-Training (์ฌ์ ํ์ต)
5.1. ๋ฐ์ดํฐ
์ด 14.8์กฐ(14.8T) ํ ํฐ ๊ท๋ชจ์ ๊ณ ํ์ง ๋ค๊ตญ์ด ๋ฐ์ดํฐ.
์ยท์ค์ฌ + ๊ธฐํ ์ธ์ด ํฌํจ.
์ํ, ์ฝ๋ฉ ๋น์ค์ ๋๋ฆฌ๊ณ , ๋ฐ์ดํฐ ์ค๋ณต ์ ๊ฑฐ์ ํ์ง ๊ด๋ฆฌ๋ฅผ ๊ฐํ.
Fill-in-Middle(FIM) ์ ๋ต ์ ์ฉ: 10% ์ ๋๋ ๋ฌธ์ฅ์ ๊ฐ์ด๋ฐ๋ฅผ ๋ง์ถ๋ ํํ๋ก ํ์ต(์ฝ๋ ์์ฑ ๋ฑ์์ ์ ์ฉ).
Byte-level BPE ๊ธฐ๋ฐ์ 12.8๋ง(128K) ํ ํฐ ์ฌ์ .
5.2. ํ์ต ์คํ
Transformer ๋ ์ด์ด์ 61, hidden dim=7168, ํค๋์=128 ๋ฑ.
๋ชจ๋ FFN(์ฒซ 3๊ฐ ์ ์ธ)์ MoE ์ ์ฉ. ๊ฐ ๋ ์ด์ด๋น ๊ณต์ Expert 1๊ฐ, ๋ผ์ฐํ Expert 256๊ฐ.
๋จ, ๋งค ํ ํฐ์๋ 8๊ฐ Expert ํ์ฑํ.
๋ฐฐ์น ์ฌ์ด์ฆ ์ค์ผ์ค๋ง, LR(learning rate) ์ค์ผ์ค๋ง(์ด๋ฐ ์๋ฐ์ โ ์ฝ์ฌ์ธ ๋์ผ์ด), ๋ฑ ๋ค์ํ ๊ธฐ๋ฒ ์ฌ์ฉ.
MTP: depth=1, ์ฒซ 10T ํ ํฐ ๋์ MTP ๊ฐ์ค์น ฮป=0.3, ์ดํ 0.1๋ก ์กฐ์ .
Aux-loss-free์ bias ์ ๋ฐ์ดํธ ์๋ ฮณ=0.001(์ฒ์ 14.3T ํ ํฐ๊น์ง), ๊ทธ ํ 0์ผ๋ก ์ค๋จ.
5.3. ๋กฑ์ปจํ ์คํธ ํ์ฅ (YaRN)
์ฌ์ ํ์ต ํ, 4K ๋ฌธ๋งฅ์์ ์์ํด 2๋จ๊ณ์ ๊ฑธ์ณ 32K, 128K๊น์ง ๋ฌธ๋งฅ์ ํ์ฅ.
YaRN(Peng et al., 2023) ๊ธฐ๋ฒ์ผ๋ก ๋กํ ๋ฆฌ ์๋ฒ ๋ฉ(RoPE)์ ํ์ฅํด, 128K ๊ธธ์ด๊น์ง ์์ ์ ์ผ๋ก ์ฒ๋ฆฌ.
5.4. ์ฑ๋ฅ ์์ฝ (Base ๋ชจ๋ธ)
English, Chinese, Multilingual ์ ๋ฐ์ ์์ฐ๋ฅด๋ ๋ฒค์น๋งํฌ์์ ๋๊ธ ๋๋น ์ต๊ณ ์์ค.
์) MMLU-Pro, GSM8K, MATH, HumanEval ๋ฑ ์ฝ๋ฉยท์ํ ๋ถ์ผ ์ต๊ณ ์์ค.
๋๋ฑ ๊ท๋ชจ ํน์ ๋ ํฐ Dense ๋ชจ๋ธ๊ณผ ๋น๊ต ์๋์์๋ ํ์ต ๋น์ฉ์ด๋ ์ถ๋ก ํจ์จ ๋ฉด์์ ๊ฐ์ .
6. Post-Training(์ถ๊ฐ ํ์ต, SFTยทRL)
6.1. Supervised Fine-Tuning (SFT)
์ฝ 150๋ง ๊ฑด์ ๊ณ ํ์ง ์ธ์คํธ๋ญ์ ํ๋ ๋ฐ์ดํฐ.
ํนํ ์ํยท์ฝ๋ ๋ฑ ๋ ผ๋ฆฌ์ ์ฌ๊ณ (Reasoning) ๋ถ์ผ ๋ฐ์ดํฐ์ ์ง์ค.
DeepSeek-R1 ๋ชจ๋ธ(๋ณ๋ โLong Chain-of-Thoughtโ์ ํนํ)์ ์ถ๋ ฅ์ ์ ์ ํ ์ ์ ํ์ฌ(๋๋ฌด ๊ธธ๊ฑฐ๋ ํฌ๋งท ์ํจ ๋ถ๋ถ ๋ณด์) final SFT ๋ฐ์ดํฐ๋ก ํ์ฉ โ ์ ํ๋ ๋ํญ ์์น.
6.2. RL (Reinforcement Learning)
Group Relative Policy Optimization (GRPO) ๊ธฐ๋ฒ ์ฌ์ฉ.
Rule-based RM(์ ๋ต ๊ฒ์ฆ ๊ฐ๋ฅ ๋ฌธ์ ) + Model-based RM(์ ๋ต์ด ํ๋๋ก ๊ฒฐ์ ์ด๋ ค์ด ๋ฌธํญ) ํผํฉ.
์๊ธฐ ์์ (DeepSeek-V3)์ด ๋ง๋ ํฌํ๊ฒฐ๊ณผ ๋ฑ์ ๋ค์ ๋ณด์์ผ๋ก ํ์ฉํ๋ โSelf-Rewarding(Constitutional AI)โ ๋ฐฉ์๋ ๋ณํ.
7. ๊ฒฐ๋ก ๋ฐ ํ๊ณ
DeepSeek-V3๋ (1) MLA, (2) DeepSeekMoE, (3) Aux-loss-free balancing, (4) MTP, (5) FP8 training ๋ฑ ๋ค์ํ ํ์ ์์๋ฅผ ๊ฒฐํฉํ **๊ฑฐ๋ ์คํ์ค ๋ชจ๋ธ(MoE)**์ ๋๋ค.
์ด ํ๋ผ๋ฏธํฐ 6710์ต์ด์ง๋ง, ๋งค ํ ํฐ๋ง๋ค 370์ต ํ๋ผ๋ฏธํฐ๋ง ํ์ฑํํ๊ณ ,
์ฌ์ ํ์ต 14.8T ํ ํฐ,
๋กฑ์ปจํ ์คํธ(์ต๋ 128K) ์ง์,
ํฌ์คํธ ํธ๋ ์ด๋(SFT+RL)์ผ๋ก ์ ๋ฐ๋์ ํ์ฉ๋(์ฝ๋ยท์ํ ๋ฑ) ๊ทน๋ํ๋ฅผ ์ด๋ฃน๋๋ค.
ํ์ต ๋น์ฉ ์ญ์ **H800 GPU ๊ธฐ์ค ์ฝ 278๋ง8์ฒ GPU-์(์ฝ 560๋ง ๋ฌ๋ฌ)**๋ก, ์ด ์ ๋ ๊ท๋ชจ์ ๋ชจ๋ธ ์ค์์ ๋งค์ฐ ๊ฒฝ์ ์ ์ผ๋ก ๋ฌ์ฑ.
7.1. ์ ํ์ฌํญ
๋๊ท๋ชจ ํด๋ฌ์คํฐ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณ๋์ด, ์ ์ GPU ๋ณด์ ํ์ด ์ง์ ์ถ๋ก /์๋น์คํ๊ธฐ๋ ์ด๋ ต๋ค.
์ถ๋ก ์๋๋ ๊ธฐ์กด Dense ๋ํ ๋ชจ๋ธ๋ณด๋ค ๋ซ์ง๋ง, ์์ Dense ๋ชจ๋ธ ๋๋น ์ฑ๋ฅ/์๋ ์ ์ถฉ์ ์ฌ์ฉ ์๋๋ฆฌ์ค์ ๋ฐ๋ผ ๊ณ ๋ฏผ์ด ํ์.
7.2. ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ
๋ฌดํ๋ ํน์ ๋ ํฐ ์ปจํ ์คํธ๋ฅผ ์ํ RoPE/AliBi ๋ฑ ํ์ฅ ๊ธฐ๋ฒ ์ฐ๊ตฌ.
MoE ์ด์์ผ๋ก ํจ์จ์ ์ธ ๊ตฌ์กฐ(์: ์คํ์คํ Attention, Retrieval-Augmented ๋ฑ)์์ ์กฐํฉ.
๋ค์ํ ๋ถ์ผ(๋น์ ยท๋ฉํฐ๋ชจ๋ฌ ๋ฑ)์ผ๋ก ํ์ฅ, ํ๋ จ ์ ํธ ๋ค์ํ.
**LLM ์์ฒด๋ฅผ ๋ณด์ ํจ์๋ก ํ์ฉ(Self-Rewarding)**ํ๋ ๊ธฐ๋ฒ์ ๋ ๊ณ ๋ํ.
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
๋จ์ง RL(๊ฐํํ์ต)๋ง์ผ๋ก Instruct Model์ Reasoning Model๋ก ๋ณํ
๊ธฐ์กด DeepSeek-V3 Base๋ฅผ ๋์์ผ๋ก ์ ํ SFT ์์ด RL๋ง์ ์ ์ฉํ์ฌ, โDeepSeek-R1-Zeroโ๋ผ๋ ์์ํ ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ง๋ค์๋ค.
โ์ด ๋ชจ๋ธ์ด ๊ณผ์ฐ, ์ธ๊ฐ์ด ์ฃผ์ ํด์ค ์ ๊ตํ ์ง๋ ๋ฐ์ดํฐ ์์ด๋ ๊น์ด ์๋ Reasoning์ ์ต๋ํ ์ ์๋๊ฐ?โ๋ผ๋ ์๋ฌธ์์ ์ถ๋ฐํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก R1-Zero๋ ๋๋ ๋งํผ ๊ฐ๋ ฅํ Reasoning ๋ฅ๋ ฅ์ ๋ฐํํ๊ธฐ ์์ํ๋ค.
์๋๋ โ์ฌ๋์ด ๋จผ์ CoT ์์๋ฅผ ๋๊ท๋ชจ๋ก ๋ถ์ฌ ๋ชจ๋ธ์ ๊ต์ (SFT)ํด์ผ ํ๋คโ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด์๋ค.
ํ์ง๋ง DeepSeek-R1-Zero๋ โSFT ์๋ ๋๊ท๋ชจ RLโ๋ง์ผ๋ก๋ ๊ธด ์ฌ๊ณ ๊ณผ์ ์ ์ฌ์ฉํด ๋ฌธ์ ๋ฅผ ํ๊ณ ๊ฐ์ ํด๋๊ฐ๋ค. โAha Momentโ๋ผ ๋ถ๋ฆด ์ ๋๋ก ๋ชจ๋ธ์ด ์ค์ค๋ก ๋ ๊น์ ๊ณ ์ฐฐ์ ํ๊ฒ ๋ ๊ฒ์ด๋ค.
์ด R1-Zero๋ก๋ถํฐ ์์ฑ๋ Reasoning ๋ฐ์ดํฐ์ ์ ์ธ๊ฐ์ด ์ฝ๊ฐ ๋ณด์ ํ๊ณ , SFT+RL ๊ณผ์ ์ ์ถ๊ฐ
R1-Zero๊ฐ ๋ง๋ค์ด๋ธ ๊ธด Chain-of-Thought(CoT)๋ค ์ค ์ ์ฉํ ๊ฒ๋ง ๊ณจ๋ผ์ โCold Startโ๋ก ๋ถ๋ฆฌ๋ ์๊ท๋ชจ ๊ณ ํ์ง ๋ฐ์ดํฐ์ ์ ๋ง๋ จํ๋ค.
์ด๋ฅผ ์์์ ์ผ๋ก ๋ค์ ํ ๋ฒ RL๊ณผ SFT ๋จ๊ณ๋ฅผ ๊ฑฐ์น์, ์ ๋ฐ์ ์ผ๋ก ํจ์ฌ ๋ ์ธ๊ฐ ์นํ์ ์ด๊ณ ๊ฐ๋ ์ฑ๋ ๋ฐ์ด๋ ๋ชจ๋ธ์ธ โDeepSeek-R1โ์ด ํ์ํ๋ค.
์ฆ, ๋จ์ ๊ฐํํ์ต๋ง์ผ๋ก๋ ์์ฐ์ธ์ด ์ฌ์ฉ(๊ฐ๋ ์ฑ, ํผ์ฉ์ด ๋ฌธ์ ๋ฑ)์ ์ด๋ ค์์ด ์์์ผ๋, ์๋์ ์ ์ ๋ CoT ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ์ฃผ์ ํจ์ผ๋ก์จ ์์ ์ฑ๊ณผ ํ์ง์ ๊ทน์ ์ผ๋ก ๋์ด์ฌ๋ ธ๋ค.
์ต์ข ์ ์ผ๋ก ๋ง๋ค์ด์ง 80๋ง(800k) ๊ฑด์ Reasoning ๋ฐ์ดํฐ๋ก, ์์ ๋ชจ๋ธ๋ RL ์์ด SFT๋ง์ผ๋ก ํฐ ์ฑ๋ฅ ํฅ์
์ด๋ ๊ฒ ๊ตฌ์ถํ 800k ๊ท๋ชจ์ ๊ณ ํ์ง Reasoning ๋ฐ์ดํฐ์ ์ ํจ์ฌ ์์ ๊ท๋ชจ์ ๋ชจ๋ธ(Qwen, Llama ๋ฑ)์๋ ๋จ์ํ SFT๋ก๋ง ์ ์ฉํด๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๋ค.
๋ฐ๋ฉด, ์์ ๋ชจ๋ธ์์๋ ๋์ผํ RL ๊ณผ์ ์ ์๋ฌด๋ฆฌ ์ค๋ ํด๋ ์ฑ๋ฅ ์ด๋์ด ๋งค์ฐ ๋ฏธ๋ฏธํ๋ค.
๊ฒฐ๋ก ์, โ์์์ (๋ฒ ์ด์ค ๋ชจ๋ธ)์ ํ์ง์ด ์ถฉ๋ถํ ์ข์์ผ RL์ ํด๋ ๋น์ ๋ฐํ๋คโ๋ ๊ฒ์ด๋ค. ๋ฒ ์ด์ค ๋ชจ๋ธ์ด ์์์๋ก, ๋๊ท๋ชจ RL ์์ฒด๊ฐ ์ค์ต์ด ํฌ์ง ์์์ ํ์ธํ๋ค.
๋ณด์์ ๋ช ํ์ฑ์ด ๊ณง ์ฑ๋ฅ๊ณผ ํจ์จ์ ์ข์ฐํ๋ค
DeepSeek-R1 ์ฐ๊ตฌ์ง์ ํ๋ จ ํ์ดํ๋ผ์ธ์ ๋ถํ์ํ๊ฒ ๋ณต์กํ๊ฒ ๋ง๋ค์ง ์์๋ค. ์ฆ, โ์ค๋ต/์ ๋ต, ํฌ๋งท ์ค์ ์ฌ๋ถโ ๋ฑ ๋ช ํํ ํ๋จ ๊ฐ๋ฅํ ์งํ๋ง์ผ๋ก ๋ณด์์ ์ค๊ณํ๋ค.
๋ณต์กํ PPO or PRM(Process Reward Model)๋ณด๋ค๋, โ๋ฑ ๋ง๋ ์๋๋โ๋ก ๊ฒฐ์ ๋๋ ์ง์ ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ต์ ์์ฃผ๋ก RL์ ์ค์ํ๋ค.
์ด๋ ์ฅํฉํ ๋ณด์ ์ค๊ณ(MCTS+Value Model, ์ธ๋ฐํ ์ค๊ฐ ๋จ๊ณ ์ฑ์ ๋ฑ)๋ณด๋ค ๋ ํจ๊ณผ์ ์ด์๊ณ , โ์ด ๋ฌธ์ ๋ฅผ ๋งํ๋๊ฐ? / ์ง์ ๋ ํ์์ ์ง์ผฐ๋๊ฐ?โ๋ผ๋ ๋ช ํํ ๋ณด์๋ง์ผ๋ก๋ ์ค์ค๋ก Reasoning ๋ฅ๋ ฅ์ ๋ฐ์ ์์ผฐ๋ค.
Stage 1: (R1-Zero) Base ๋ชจ๋ธ + RL (SFT ์์ด)
DeepSeek-V3 Base๋ฅผ ๋ฐ๋ก RL ํ๋ จ์ ํฌ์ โ ์ ๋ต ์ฌ๋ถ, ํ์ ์ค์ ์ฌ๋ถ๋ก๋ง ํ๊ฐ(์ ํ๋๊ฐ ๊ณง ๋ณด์).
๋๊ท๋ชจ ์คํ ์ ๊ฑฐ์น๋ฉฐ Reasoning ๋ฅ๋ ฅ์ด ์ค์ค๋ก ์๊ฒจ๋จ(๊ทธ ์ธ ์ธ์ด ํ์ง ๋ฌธ์ ๋ ๊ณ ๋ ค X).
Stage 2: Cold Start ๋ฐ์ดํฐ ์์ฑ + SFT ํ RL (R1)
R1-Zero๋ก๋ถํฐ ์์ฑ๋ ๊ธด CoT ์ค โ์ฝ๊ธฐ ์ฌ์ด ํ์โ์ ์์๋ง ์์ฒ ๊ฑด ๋ชจ์์, ์ธ๊ฐ์ด ์กฐ๊ธ ๋ค๋ฌ์ด Cold Start ์ฉ SFT ์ํ.
์ด ์ด๊ธฐ ๋ชจ๋ธ๋ก ๋ค์ Reasoning ์ ์ฉ RL ์ํ โ ์ธ์ด ํ์ง ๋ฌธ์ (ํผ์ฉ์ดยท๊ฐ๋ ์ฑ) ์ผ๋ถ ํด๊ฒฐ & ์ฑ๋ฅ ํฅ์.
ํ์ํ๋ค๋ฉด, RL ๋ง์ง๋ง ๋จ๊ณ์์ Rejection Sampling์ผ๋ก ์ ํํ ์๋ต๋ง ๊ณจ๋ผ ์๋ก SFT ๋ฐ์ดํฐ์ ์ ๋ง๋ ๋ค, ์ ๋ฒ์ RL์ ์ฌ์คํ ํ๋ค.
Stage 3: Rejection Sampling์ผ๋ก ์ป์ ๋ฐ์ดํฐ + ์ถ๊ฐ ๋๋ฉ์ธ(SFT)
์ด์ RL ๊ฒฐ๊ณผ๋ฌผ์ ๋ฐํ์ผ๋ก ์ฝ 60๋ง ๊ฑด์ Reasoning ๋ฐ์ดํฐ + 20๋ง ๊ฑด์ ์ผ๋ฐ๋ฌธ์(์๋ฌธ, QA, ์๊ธฐ์๊ฐ ๋ฑ)๋ฅผ ๋ชจ์์, ์ต์ข SFT ์ํ.
์ด๋ก์จ โReasoningโ๊ณผ โ์ผ๋ฐ ์ง์์๋ต, ์์ฑ๋ฅ๋ ฅโ์ ๋ชจ๋ ์ด๋ ์ ๋ ์ปค๋ฒํ๋ ๋ชจ๋ธ ์์ฑ.
Stage 4: Distillation (์์ ๋ชจ๋ธ๋ก ์ ์ด)
์ ๊ณผ์ ์์ ํ์ํ R1์ Reasoning ๋ ธํ์ฐ๊ฐ ๋ด๊ธด 80๋ง ์ํ์, Qwen-32B, Llama-70B ๋ฑ์ ๋ค์ํ ๋ชจ๋ธ์ โ๋จ์ Fine-Tuningโ๋ง ์ ์ฉํด๋ ๋๋ผ์ด ์ฑ๋ฅ ํฅ์์ด ํ์ธ๋จ.
RL ์์ด๋ ์ํ ๋ชจ๋ธ๋ค์ด Reasoning์ ์๋นํ ์ต๋ํจ.
๋ฐ๋ฉด, ์ด ์ํ ๋ชจ๋ธ๋ค์ ์ง์ RL์ ์ ์ฉํ๋ฉด ๋์ ๊ณ์ฐ ๋น์ฉ ๋๋น ํจ์จ์ด ๋จ์ด์ง(์คํ์ ์ฑ๋ฅ ์์น์ด ๋ฏธ๋ฏธ).
1. ์์์ (๋ฒ ์ด์ค ๋ชจ๋ธ)์ด ๋งค์ฐ ์ค์ํ๋ค
ํฐ ๋ชจ๋ธ์๋ค RL์ ์ ์ฉํด์ผ โ์ค์ค๋ก CoT๋ฅผ ๋ง๋ค์ด๋ด๋โ ๋น์ฝ์ ๋ฐ์ ์ด ๋ํ๋๋ค. ์์ ๋ชจ๋ธ๋ก๋ ๊ฐ์ RL ํฌ์๋ฅผ ํด๋ ํจ๊ณผ๊ฐ ํจ์ฌ ๋จ์ด์ง๋ค.
๋ณด์์ ๊ฐ๋จํ๊ฒ, ๋ช ํํ๊ฒ ์ค์ ํ๋ผ
โ๋ต์ด ๋ง๋๊ฐ, ํ์์ด ๋ง๋๊ฐ?โ ์ ๋๋ก๋ ์ถฉ๋ถํ ์ง๋ํ์ต(ํน์ RL) ํจ๊ณผ๋ฅผ ๋ผ ์ ์๋ค.
๋ณต์กํ ์ค๊ฐ ๋จ๊ณ ๋ณด์(์: PRM, MCTS+Value Model)์ ๋ง์ ๋ฆฌ์์ค์ ๋ฆฌ์คํฌ(Reward Hacking)๋ฅผ ์ ๋ฐํ์ง๋ง ์ต์ข ์ ์ค์ต์ด ํฌ์ง ์์๋ค.
๋จ์ CoT ์์ฑ ๋ฅ๋ ฅ์ด ๋ชฐ๊ณ ์จ โ์๋ฐ์ ์๊ธฐ์ ์ (Reflection), Aha Momentโ
์ค์ค๋ก ์๊ฐ์ ์ฌํ๊ฐํ๊ณ (Reflection), ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ผ๋ก ๋ฌธ์ ํด๊ฒฐ์ ์๋ํ๋ฉฐ(Aha Moment) Reasoning ๋ฅ๋ ฅ์ ๊ธ๊ฒฉํ ํฅ์์ํค๋ ํ์์ด RL ์ค๊ฐ์์ ํฌ์ฐฉ๋์๋ค.
Future Works
Language Mixing ํด๊ฒฐ: ํ์ฌ๋ ์์ดยท์ค๊ตญ์ด์ ์ต์ ํ.
ํ๋ก์ ํธ ๊ท๋ชจ ํ์ฅ: ๋ ๋ฐฉ๋ํ ๋ฌธ์ ๋๋ฉ์ธ(์: SW ์์ง๋์ด๋ง, ๊ตฌ์กฐ์ ์ถ๋ ฅ, ๋ํํ ์์คํ ๋ฑ)์ ์ปค๋ฒํ๊ธฐ ์ํ RL/๋ฐ์ดํฐ์ ํ์ฅ์ด ๊ฐ๋ฅ.
Prompt Engineering ์ฐ๊ตฌ: R1 ๊ณ์ด์ few-shot prompt๋ณด๋ค zero-shot prompt์ ์ต์ ํ๋๋ ๊ฒฝํฅ. ์ถํ ์ด์ ๋ง์ถฐ ํ๋กฌํํธ ์ค๊ณ๋ฅผ ์ฌ๊ฒํ ํ ํ์๊ฐ ์๋ค.
๋จ์ง RL(๊ฐํํ์ต)๋ง์ผ๋ก Instruct Model์ Reasoning Model๋ก ๋ณํ
๊ธฐ์กด DeepSeek-V3 Base๋ฅผ ๋์์ผ๋ก ์ ํ SFT ์์ด RL๋ง์ ์ ์ฉํ์ฌ, โDeepSeek-R1-Zeroโ๋ผ๋ ์์ํ ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ง๋ค์๋ค.
โ์ด ๋ชจ๋ธ์ด ๊ณผ์ฐ, ์ธ๊ฐ์ด ์ฃผ์ ํด์ค ์ ๊ตํ ์ง๋ ๋ฐ์ดํฐ ์์ด๋ ๊น์ด ์๋ Reasoning์ ์ต๋ํ ์ ์๋๊ฐ?โ๋ผ๋ ์๋ฌธ์์ ์ถ๋ฐํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก R1-Zero๋ ๋๋ ๋งํผ ๊ฐ๋ ฅํ Reasoning ๋ฅ๋ ฅ์ ๋ฐํํ๊ธฐ ์์ํ๋ค.
์๋๋ โ์ฌ๋์ด ๋จผ์ CoT ์์๋ฅผ ๋๊ท๋ชจ๋ก ๋ถ์ฌ ๋ชจ๋ธ์ ๊ต์ (SFT)ํด์ผ ํ๋คโ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด์๋ค.
ํ์ง๋ง DeepSeek-R1-Zero๋ โSFT ์๋ ๋๊ท๋ชจ RLโ๋ง์ผ๋ก๋ ๊ธด ์ฌ๊ณ ๊ณผ์ ์ ์ฌ์ฉํด ๋ฌธ์ ๋ฅผ ํ๊ณ ๊ฐ์ ํด๋๊ฐ๋ค. โAha Momentโ๋ผ ๋ถ๋ฆด ์ ๋๋ก ๋ชจ๋ธ์ด ์ค์ค๋ก ๋ ๊น์ ๊ณ ์ฐฐ์ ํ๊ฒ ๋ ๊ฒ์ด๋ค.
์ด R1-Zero๋ก๋ถํฐ ์์ฑ๋ Reasoning ๋ฐ์ดํฐ์ ์ ์ธ๊ฐ์ด ์ฝ๊ฐ ๋ณด์ ํ๊ณ , SFT+RL ๊ณผ์ ์ ์ถ๊ฐ
R1-Zero๊ฐ ๋ง๋ค์ด๋ธ ๊ธด Chain-of-Thought(CoT)๋ค ์ค ์ ์ฉํ ๊ฒ๋ง ๊ณจ๋ผ์ โCold Startโ๋ก ๋ถ๋ฆฌ๋ ์๊ท๋ชจ ๊ณ ํ์ง ๋ฐ์ดํฐ์ ์ ๋ง๋ จํ๋ค.
์ด๋ฅผ ์์์ ์ผ๋ก ๋ค์ ํ ๋ฒ RL๊ณผ SFT ๋จ๊ณ๋ฅผ ๊ฑฐ์น์, ์ ๋ฐ์ ์ผ๋ก ํจ์ฌ ๋ ์ธ๊ฐ ์นํ์ ์ด๊ณ ๊ฐ๋ ์ฑ๋ ๋ฐ์ด๋ ๋ชจ๋ธ์ธ โDeepSeek-R1โ์ด ํ์ํ๋ค.
์ฆ, ๋จ์ ๊ฐํํ์ต๋ง์ผ๋ก๋ ์์ฐ์ธ์ด ์ฌ์ฉ(๊ฐ๋ ์ฑ, ํผ์ฉ์ด ๋ฌธ์ ๋ฑ)์ ์ด๋ ค์์ด ์์์ผ๋, ์๋์ ์ ์ ๋ CoT ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ์ฃผ์ ํจ์ผ๋ก์จ ์์ ์ฑ๊ณผ ํ์ง์ ๊ทน์ ์ผ๋ก ๋์ด์ฌ๋ ธ๋ค.
์ต์ข ์ ์ผ๋ก ๋ง๋ค์ด์ง 80๋ง(800k) ๊ฑด์ Reasoning ๋ฐ์ดํฐ๋ก, ์์ ๋ชจ๋ธ๋ RL ์์ด SFT๋ง์ผ๋ก ํฐ ์ฑ๋ฅ ํฅ์
์ด๋ ๊ฒ ๊ตฌ์ถํ 800k ๊ท๋ชจ์ ๊ณ ํ์ง Reasoning ๋ฐ์ดํฐ์ ์ ํจ์ฌ ์์ ๊ท๋ชจ์ ๋ชจ๋ธ(Qwen, Llama ๋ฑ)์๋ ๋จ์ํ SFT๋ก๋ง ์ ์ฉํด๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๋ค.
๋ฐ๋ฉด, ์์ ๋ชจ๋ธ์์๋ ๋์ผํ RL ๊ณผ์ ์ ์๋ฌด๋ฆฌ ์ค๋ ํด๋ ์ฑ๋ฅ ์ด๋์ด ๋งค์ฐ ๋ฏธ๋ฏธํ๋ค.
๊ฒฐ๋ก ์, โ์์์ (๋ฒ ์ด์ค ๋ชจ๋ธ)์ ํ์ง์ด ์ถฉ๋ถํ ์ข์์ผ RL์ ํด๋ ๋น์ ๋ฐํ๋คโ๋ ๊ฒ์ด๋ค. ๋ฒ ์ด์ค ๋ชจ๋ธ์ด ์์์๋ก, ๋๊ท๋ชจ RL ์์ฒด๊ฐ ์ค์ต์ด ํฌ์ง ์์์ ํ์ธํ๋ค.
๋ณด์์ ๋ช ํ์ฑ์ด ๊ณง ์ฑ๋ฅ๊ณผ ํจ์จ์ ์ข์ฐํ๋ค
DeepSeek-R1 ์ฐ๊ตฌ์ง์ ํ๋ จ ํ์ดํ๋ผ์ธ์ ๋ถํ์ํ๊ฒ ๋ณต์กํ๊ฒ ๋ง๋ค์ง ์์๋ค. ์ฆ, โ์ค๋ต/์ ๋ต, ํฌ๋งท ์ค์ ์ฌ๋ถโ ๋ฑ ๋ช ํํ ํ๋จ ๊ฐ๋ฅํ ์งํ๋ง์ผ๋ก ๋ณด์์ ์ค๊ณํ๋ค.
๋ณต์กํ PPO or PRM(Process Reward Model)๋ณด๋ค๋, โ๋ฑ ๋ง๋ ์๋๋โ๋ก ๊ฒฐ์ ๋๋ ์ง์ ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ต์ ์์ฃผ๋ก RL์ ์ค์ํ๋ค.
์ด๋ ์ฅํฉํ ๋ณด์ ์ค๊ณ(MCTS+Value Model, ์ธ๋ฐํ ์ค๊ฐ ๋จ๊ณ ์ฑ์ ๋ฑ)๋ณด๋ค ๋ ํจ๊ณผ์ ์ด์๊ณ , โ์ด ๋ฌธ์ ๋ฅผ ๋งํ๋๊ฐ? / ์ง์ ๋ ํ์์ ์ง์ผฐ๋๊ฐ?โ๋ผ๋ ๋ช ํํ ๋ณด์๋ง์ผ๋ก๋ ์ค์ค๋ก Reasoning ๋ฅ๋ ฅ์ ๋ฐ์ ์์ผฐ๋ค.
Stage 1: (R1-Zero) Base ๋ชจ๋ธ + RL (SFT ์์ด)
DeepSeek-V3 Base๋ฅผ ๋ฐ๋ก RL ํ๋ จ์ ํฌ์ โ ์ ๋ต ์ฌ๋ถ, ํ์ ์ค์ ์ฌ๋ถ๋ก๋ง ํ๊ฐ(์ ํ๋๊ฐ ๊ณง ๋ณด์).
๋๊ท๋ชจ ์คํ ์ ๊ฑฐ์น๋ฉฐ Reasoning ๋ฅ๋ ฅ์ด ์ค์ค๋ก ์๊ฒจ๋จ(๊ทธ ์ธ ์ธ์ด ํ์ง ๋ฌธ์ ๋ ๊ณ ๋ ค X).
Stage 2: Cold Start ๋ฐ์ดํฐ ์์ฑ + SFT ํ RL (R1)
R1-Zero๋ก๋ถํฐ ์์ฑ๋ ๊ธด CoT ์ค โ์ฝ๊ธฐ ์ฌ์ด ํ์โ์ ์์๋ง ์์ฒ ๊ฑด ๋ชจ์์, ์ธ๊ฐ์ด ์กฐ๊ธ ๋ค๋ฌ์ด Cold Start ์ฉ SFT ์ํ.
์ด ์ด๊ธฐ ๋ชจ๋ธ๋ก ๋ค์ Reasoning ์ ์ฉ RL ์ํ โ ์ธ์ด ํ์ง ๋ฌธ์ (ํผ์ฉ์ดยท๊ฐ๋ ์ฑ) ์ผ๋ถ ํด๊ฒฐ & ์ฑ๋ฅ ํฅ์.
ํ์ํ๋ค๋ฉด, RL ๋ง์ง๋ง ๋จ๊ณ์์ Rejection Sampling์ผ๋ก ์ ํํ ์๋ต๋ง ๊ณจ๋ผ ์๋ก SFT ๋ฐ์ดํฐ์ ์ ๋ง๋ ๋ค, ์ ๋ฒ์ RL์ ์ฌ์คํ ํ๋ค.
Stage 3: Rejection Sampling์ผ๋ก ์ป์ ๋ฐ์ดํฐ + ์ถ๊ฐ ๋๋ฉ์ธ(SFT)
์ด์ RL ๊ฒฐ๊ณผ๋ฌผ์ ๋ฐํ์ผ๋ก ์ฝ 60๋ง ๊ฑด์ Reasoning ๋ฐ์ดํฐ + 20๋ง ๊ฑด์ ์ผ๋ฐ๋ฌธ์(์๋ฌธ, QA, ์๊ธฐ์๊ฐ ๋ฑ)๋ฅผ ๋ชจ์์, ์ต์ข SFT ์ํ.
์ด๋ก์จ โReasoningโ๊ณผ โ์ผ๋ฐ ์ง์์๋ต, ์์ฑ๋ฅ๋ ฅโ์ ๋ชจ๋ ์ด๋ ์ ๋ ์ปค๋ฒํ๋ ๋ชจ๋ธ ์์ฑ.
Stage 4: Distillation (์์ ๋ชจ๋ธ๋ก ์ ์ด)
์ ๊ณผ์ ์์ ํ์ํ R1์ Reasoning ๋ ธํ์ฐ๊ฐ ๋ด๊ธด 80๋ง ์ํ์, Qwen-32B, Llama-70B ๋ฑ์ ๋ค์ํ ๋ชจ๋ธ์ โ๋จ์ Fine-Tuningโ๋ง ์ ์ฉํด๋ ๋๋ผ์ด ์ฑ๋ฅ ํฅ์์ด ํ์ธ๋จ.
RL ์์ด๋ ์ํ ๋ชจ๋ธ๋ค์ด Reasoning์ ์๋นํ ์ต๋ํจ.
๋ฐ๋ฉด, ์ด ์ํ ๋ชจ๋ธ๋ค์ ์ง์ RL์ ์ ์ฉํ๋ฉด ๋์ ๊ณ์ฐ ๋น์ฉ ๋๋น ํจ์จ์ด ๋จ์ด์ง(์คํ์ ์ฑ๋ฅ ์์น์ด ๋ฏธ๋ฏธ).
1. ์์์ (๋ฒ ์ด์ค ๋ชจ๋ธ)์ด ๋งค์ฐ ์ค์ํ๋ค
ํฐ ๋ชจ๋ธ์๋ค RL์ ์ ์ฉํด์ผ โ์ค์ค๋ก CoT๋ฅผ ๋ง๋ค์ด๋ด๋โ ๋น์ฝ์ ๋ฐ์ ์ด ๋ํ๋๋ค. ์์ ๋ชจ๋ธ๋ก๋ ๊ฐ์ RL ํฌ์๋ฅผ ํด๋ ํจ๊ณผ๊ฐ ํจ์ฌ ๋จ์ด์ง๋ค.
๋ณด์์ ๊ฐ๋จํ๊ฒ, ๋ช ํํ๊ฒ ์ค์ ํ๋ผ
โ๋ต์ด ๋ง๋๊ฐ, ํ์์ด ๋ง๋๊ฐ?โ ์ ๋๋ก๋ ์ถฉ๋ถํ ์ง๋ํ์ต(ํน์ RL) ํจ๊ณผ๋ฅผ ๋ผ ์ ์๋ค.
๋ณต์กํ ์ค๊ฐ ๋จ๊ณ ๋ณด์(์: PRM, MCTS+Value Model)์ ๋ง์ ๋ฆฌ์์ค์ ๋ฆฌ์คํฌ(Reward Hacking)๋ฅผ ์ ๋ฐํ์ง๋ง ์ต์ข ์ ์ค์ต์ด ํฌ์ง ์์๋ค.
๋จ์ CoT ์์ฑ ๋ฅ๋ ฅ์ด ๋ชฐ๊ณ ์จ โ์๋ฐ์ ์๊ธฐ์ ์ (Reflection), Aha Momentโ
์ค์ค๋ก ์๊ฐ์ ์ฌํ๊ฐํ๊ณ (Reflection), ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ผ๋ก ๋ฌธ์ ํด๊ฒฐ์ ์๋ํ๋ฉฐ(Aha Moment) Reasoning ๋ฅ๋ ฅ์ ๊ธ๊ฒฉํ ํฅ์์ํค๋ ํ์์ด RL ์ค๊ฐ์์ ํฌ์ฐฉ๋์๋ค.
Future Works
Language Mixing ํด๊ฒฐ: ํ์ฌ๋ ์์ดยท์ค๊ตญ์ด์ ์ต์ ํ.
ํ๋ก์ ํธ ๊ท๋ชจ ํ์ฅ: ๋ ๋ฐฉ๋ํ ๋ฌธ์ ๋๋ฉ์ธ(์: SW ์์ง๋์ด๋ง, ๊ตฌ์กฐ์ ์ถ๋ ฅ, ๋ํํ ์์คํ ๋ฑ)์ ์ปค๋ฒํ๊ธฐ ์ํ RL/๋ฐ์ดํฐ์ ํ์ฅ์ด ๊ฐ๋ฅ.
Prompt Engineering ์ฐ๊ตฌ: R1 ๊ณ์ด์ few-shot prompt๋ณด๋ค zero-shot prompt์ ์ต์ ํ๋๋ ๊ฒฝํฅ. ์ถํ ์ด์ ๋ง์ถฐ ํ๋กฌํํธ ์ค๊ณ๋ฅผ ์ฌ๊ฒํ ํ ํ์๊ฐ ์๋ค.
GitHub
DeepSeek-R1/DeepSeek_R1.pdf at main ยท deepseek-ai/DeepSeek-R1
Contribute to deepseek-ai/DeepSeek-R1 development by creating an account on GitHub.
โค1
Continuous Learning_Startup & Investment
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf ๋จ์ง RL(๊ฐํํ์ต)๋ง์ผ๋ก Instruct Model์ Reasoning Model๋ก ๋ณํ ๊ธฐ์กด DeepSeek-V3 Base๋ฅผ ๋์์ผ๋ก ์ ํ SFT ์์ด RL๋ง์ ์ ์ฉํ์ฌ, โDeepSeek-R1-Zeroโ๋ผ๋ ์์ํ ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ง๋ค์๋ค. โ์ด ๋ชจ๋ธ์ด ๊ณผ์ฐ, ์ธ๊ฐ์ด ์ฃผ์
ํด์ค ์ ๊ตํ ์ง๋ ๋ฐ์ดํฐ ์์ด๋ ๊น์ด ์๋ Reasoning์โฆ
Deepseek has over 50k Hopper GPUs to be clear.
Dylan Patel
https://x.com/dylan522p/status/1859302712803807696
50k H100 GPU: ํ๊ท 2000~4000๋ง์ ๊ธฐ์ค 1~2์กฐ
Dylan Patel
https://x.com/dylan522p/status/1859302712803807696
50k H100 GPU: ํ๊ท 2000~4000๋ง์ ๊ธฐ์ค 1~2์กฐ
X (formerly Twitter)
Dylan Patel (@dylan522p) on X
Deepseek has over 50k Hopper GPUs to be clear.
People need to stop acting like they only have that 10k A100 cluster.
They are omega cracked on ML research and infra management but they aren't doing it with that many fewer GPUs
People need to stop acting like they only have that 10k A100 cluster.
They are omega cracked on ML research and infra management but they aren't doing it with that many fewer GPUs
DeepSeek์์ ๋์จ ํ
ํฌ๋์ปฌ ๋ฆฌํฌํธ๋ค์ ๋ํ ๊ธ์ ์ด์ ์ ์ด ์ ์ด ์์๋ค. (https://rosinality.substack.com/p/deepseek-llm) ์ง๊ธ DeepSeek-V3๊ฐ ๋์จ ์์ ์์ ๋๋ ์๊ฐ์ด ์์ด ๊ทธ๊ฑธ ์จ๋ณผ๊น ํ๋ค.
์ข์ LLM์ ๋ง๋ค๊ธฐ ์ํด์๋ ๋ฌด์์ด ํ์ํ ๊น? ์ข์ ์ํคํ ์ฒ์ ํ์ต ๊ธฐ๋ฒ, ์ข์ ๋ฐ์ดํฐ, ์ข์ ์ธํ๋ผ์ผ ๊ฒ์ด๋ค.
์ข์ ์ํคํ ์ฒ๋ ๋ฌด์์ผ๊น? ์ผ๋จ ์ถ๋ก ์ ๋ ผ์ธ๋ก ํ๋ฉด ๊ฐ์ ์ฐ์ฐ๋์์ ๋ ๋์ ์ฑ๋ฅ์ ๋๋ฌํ๋ ๊ฒ์ด๋ค. ์ด ๋ฌธ์ ์์ ํธ๋์คํฌ๋จธ์์ ๊ฐ์ฅ ๊ฐ๋ฅ์ฑ ์๋ ๋ฐฉํฅ ์ค ํ๋๊ฐ MoE์ด๋ค. ๊ทธ๋์ MoE ์ฐ๊ตฌ๋ฅผ ํ๊ณ (https://arxiv.org/abs/2401.06066) MoE์ ์ด์ ์ค ํ๋์ธ ๋ก๋ ๋ฐธ๋ฐ์ฑ ๋ฌธ์ ์ ๋ํ ๊ฐ์ ์ ํ๋ค. (https://arxiv.org/abs/2408.15664) DeepSeekMoE์ Fine grained Expert์ ์ด์ ํ์ค์ ์ด๋ค.
์ถ๋ก ์์ ๊ฐ์ฅ ํฐ ๋ฌธ์ ๋ ๋ฌด์์ผ๊น? Key/Value ์บ์์ ํฌ๊ธฐ์ผ ๊ฒ์ด๋ค. ๊ทธ๋์ MLA๋ฅผ ๊ฐ๋ฐํ๋ค. (https://arxiv.org/abs/2405.04434)
์ด๋ฐ ํํ์ ์ํคํ ์ฒ ๊ฐ์ ์ ์ฌ์ฉํ๋ฉด ์ผ๋ฐ์ ์ธ Llama์๋ ํธํ๋์ง ์๊ฒ ๋๋ค. ๊ทธ๋ฌ๋ Llama ์ํคํ ์ฒ์์ ํธํ์ฑ์ ํตํด์ ์ป์ ์ ์๋ ๊ฒ์ (์ถ๋ก ์์ง์ฉ ์ฝ๋๋ฅผ ์์ฑํ๋ ๋ฑ) ์ง์ ํ๋ค๋ฉด ์ํคํ ์ฒ์ ๊ฐ์ ์ผ๋ก ์ป์ ์ ์๋ ์ด์ต์ ์ป์ ์ ์๋ค. ์ด๋ฅผ ๋ค์ง์ผ๋ฉด ์ฝ๋ ์์ฑ์ ํผํ๊ธฐ ์ํด์ ํธํ์ฑ์ ์ถ๊ตฌํ๋ ๊ฒ์ผ๋ก ์ํคํ ์ฒ์ ์ด์๋ฅผ ์ ํํ๊ณ ์์ ์ ์๋ค๋ ๊ฒ์ด๋ค.
ํ์ต ๊ธฐ๋ฒ์ ๋ํด์๋ GRPO ๊ฐ์ ์ ๋ ฌ๊ณผ ํ์ ๋ฐฉ๋ฒ๋ค. (https://arxiv.org/abs/2402.03300, https://arxiv.org/abs/2312.08935, https://arxiv.org/html/2408.08152), ๊ทธ๋ฆฌ๊ณ DeepSeek-V3์์์ Multi Token Prediction ๊ฐ์ ๋ฐฉ๋ฒ.
๊ทธ๋ฆฌ๊ณ ์์ฆ ๋ํ ์ธ๊ธฐ ์๋ ๋ฐฉ๋ฒ์ธ Scaling Law๋ฅผ ํตํ ํ์ดํผํ๋ผ๋ฏธํฐ ์ถ์ ๋ DeepSeek LLM์์ ๋ฑ์ฅํ๋ค.
์ข์ ๋ฐ์ดํฐ๋? DeepSeek LLM์์๋ถํฐ Common Crawl์ ์ง์ ์ฒ๋ฆฌํ๊ณ (https://arxiv.org/abs/2401.02954) DeepSeek-Coder์์๋ ์ฝ๋ ๋ฐ์ดํฐ๋ฅผ ์ง์ ์ฒ๋ฆฌํ๊ณ Dependency ๊ธฐ๋ฐ ์ ๋ ฌ์ ๋์ ํ์ผ๋ฉฐ (https://arxiv.org/abs/2401.14196) DeepSeekMath์์๋ ์ด์ ๊ฑฐ์ ํ์ค์ ์ธ ๋ฐฉ๋ฒ์ธ Common Crawl์์ ์ํ ๊ด๋ จ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐ ์์งํ๋ ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ๋ค. (https://arxiv.org/abs/2402.03300) ๊ทธ๋ฆฌ๊ณ DeepSeek-V2๋ฅผ ๊ฑฐ์น๋ฉด์ ๋ฐ์ดํฐ์ ๊ท๋ชจ๋ ๊ณ์ ์ฆ๊ฐํ๋ค.
ํ์ต ์ธํ๋ผ์ ๋ํด์๋? DeepSeek-V2์์ Zero-Bubble Pipeline Parallel์ ์ด๋ฏธ ๋์ ํ๊ณ (https://arxiv.org/abs/2401.10241) DeepSeek-V3์์๋ Pipeline Parallel ์ค์ผ์ค, MoE๋ฅผ ์ํ All-to-All ํต์ ์ ์ต์ ํ, FP8 ํ์ต์ ์ํ Quantization ๋ฐฉ๋ฒ์ ๊ฐ์ ๋ฑ์ด ํฌํจ๋์๋ค.
๊ทธ๋ฆฌ๊ณ ์ด๋ฐ ๊ณผ์ ๋ค์ ๊ฑฐ์ณ DeepSeek-V3๊ฐ ๋ฑ์ฅํ๋ค. ์ฌ์ค DeepSeek LLM์ ํ ํฌ๋์ปฌ ๋ฆฌํฌํธ์ ํ๋ฆฌํฐ์๋ ๋ณ๊ฐ๋ก ๊ทธ ์์ ์์ Mistral 7B ๊ฐ์ ๋ชจ๋ธ์ ๋นํด ๊ทธ๋ ๊ฒ ๊ณ ์ฑ๋ฅ์ธ ๋ชจ๋ธ์ ์๋์๋ค. Llama 1 ์ ๋์ ๋ชจ๋ธ์ด์๊ธฐ ๋๋ฌธ์.
๊น์ฑํ๋
์ข์ LLM์ ๋ง๋ค๊ธฐ ์ํด์๋ ๋ฌด์์ด ํ์ํ ๊น? ์ข์ ์ํคํ ์ฒ์ ํ์ต ๊ธฐ๋ฒ, ์ข์ ๋ฐ์ดํฐ, ์ข์ ์ธํ๋ผ์ผ ๊ฒ์ด๋ค.
์ข์ ์ํคํ ์ฒ๋ ๋ฌด์์ผ๊น? ์ผ๋จ ์ถ๋ก ์ ๋ ผ์ธ๋ก ํ๋ฉด ๊ฐ์ ์ฐ์ฐ๋์์ ๋ ๋์ ์ฑ๋ฅ์ ๋๋ฌํ๋ ๊ฒ์ด๋ค. ์ด ๋ฌธ์ ์์ ํธ๋์คํฌ๋จธ์์ ๊ฐ์ฅ ๊ฐ๋ฅ์ฑ ์๋ ๋ฐฉํฅ ์ค ํ๋๊ฐ MoE์ด๋ค. ๊ทธ๋์ MoE ์ฐ๊ตฌ๋ฅผ ํ๊ณ (https://arxiv.org/abs/2401.06066) MoE์ ์ด์ ์ค ํ๋์ธ ๋ก๋ ๋ฐธ๋ฐ์ฑ ๋ฌธ์ ์ ๋ํ ๊ฐ์ ์ ํ๋ค. (https://arxiv.org/abs/2408.15664) DeepSeekMoE์ Fine grained Expert์ ์ด์ ํ์ค์ ์ด๋ค.
์ถ๋ก ์์ ๊ฐ์ฅ ํฐ ๋ฌธ์ ๋ ๋ฌด์์ผ๊น? Key/Value ์บ์์ ํฌ๊ธฐ์ผ ๊ฒ์ด๋ค. ๊ทธ๋์ MLA๋ฅผ ๊ฐ๋ฐํ๋ค. (https://arxiv.org/abs/2405.04434)
์ด๋ฐ ํํ์ ์ํคํ ์ฒ ๊ฐ์ ์ ์ฌ์ฉํ๋ฉด ์ผ๋ฐ์ ์ธ Llama์๋ ํธํ๋์ง ์๊ฒ ๋๋ค. ๊ทธ๋ฌ๋ Llama ์ํคํ ์ฒ์์ ํธํ์ฑ์ ํตํด์ ์ป์ ์ ์๋ ๊ฒ์ (์ถ๋ก ์์ง์ฉ ์ฝ๋๋ฅผ ์์ฑํ๋ ๋ฑ) ์ง์ ํ๋ค๋ฉด ์ํคํ ์ฒ์ ๊ฐ์ ์ผ๋ก ์ป์ ์ ์๋ ์ด์ต์ ์ป์ ์ ์๋ค. ์ด๋ฅผ ๋ค์ง์ผ๋ฉด ์ฝ๋ ์์ฑ์ ํผํ๊ธฐ ์ํด์ ํธํ์ฑ์ ์ถ๊ตฌํ๋ ๊ฒ์ผ๋ก ์ํคํ ์ฒ์ ์ด์๋ฅผ ์ ํํ๊ณ ์์ ์ ์๋ค๋ ๊ฒ์ด๋ค.
ํ์ต ๊ธฐ๋ฒ์ ๋ํด์๋ GRPO ๊ฐ์ ์ ๋ ฌ๊ณผ ํ์ ๋ฐฉ๋ฒ๋ค. (https://arxiv.org/abs/2402.03300, https://arxiv.org/abs/2312.08935, https://arxiv.org/html/2408.08152), ๊ทธ๋ฆฌ๊ณ DeepSeek-V3์์์ Multi Token Prediction ๊ฐ์ ๋ฐฉ๋ฒ.
๊ทธ๋ฆฌ๊ณ ์์ฆ ๋ํ ์ธ๊ธฐ ์๋ ๋ฐฉ๋ฒ์ธ Scaling Law๋ฅผ ํตํ ํ์ดํผํ๋ผ๋ฏธํฐ ์ถ์ ๋ DeepSeek LLM์์ ๋ฑ์ฅํ๋ค.
์ข์ ๋ฐ์ดํฐ๋? DeepSeek LLM์์๋ถํฐ Common Crawl์ ์ง์ ์ฒ๋ฆฌํ๊ณ (https://arxiv.org/abs/2401.02954) DeepSeek-Coder์์๋ ์ฝ๋ ๋ฐ์ดํฐ๋ฅผ ์ง์ ์ฒ๋ฆฌํ๊ณ Dependency ๊ธฐ๋ฐ ์ ๋ ฌ์ ๋์ ํ์ผ๋ฉฐ (https://arxiv.org/abs/2401.14196) DeepSeekMath์์๋ ์ด์ ๊ฑฐ์ ํ์ค์ ์ธ ๋ฐฉ๋ฒ์ธ Common Crawl์์ ์ํ ๊ด๋ จ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐ ์์งํ๋ ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ๋ค. (https://arxiv.org/abs/2402.03300) ๊ทธ๋ฆฌ๊ณ DeepSeek-V2๋ฅผ ๊ฑฐ์น๋ฉด์ ๋ฐ์ดํฐ์ ๊ท๋ชจ๋ ๊ณ์ ์ฆ๊ฐํ๋ค.
ํ์ต ์ธํ๋ผ์ ๋ํด์๋? DeepSeek-V2์์ Zero-Bubble Pipeline Parallel์ ์ด๋ฏธ ๋์ ํ๊ณ (https://arxiv.org/abs/2401.10241) DeepSeek-V3์์๋ Pipeline Parallel ์ค์ผ์ค, MoE๋ฅผ ์ํ All-to-All ํต์ ์ ์ต์ ํ, FP8 ํ์ต์ ์ํ Quantization ๋ฐฉ๋ฒ์ ๊ฐ์ ๋ฑ์ด ํฌํจ๋์๋ค.
๊ทธ๋ฆฌ๊ณ ์ด๋ฐ ๊ณผ์ ๋ค์ ๊ฑฐ์ณ DeepSeek-V3๊ฐ ๋ฑ์ฅํ๋ค. ์ฌ์ค DeepSeek LLM์ ํ ํฌ๋์ปฌ ๋ฆฌํฌํธ์ ํ๋ฆฌํฐ์๋ ๋ณ๊ฐ๋ก ๊ทธ ์์ ์์ Mistral 7B ๊ฐ์ ๋ชจ๋ธ์ ๋นํด ๊ทธ๋ ๊ฒ ๊ณ ์ฑ๋ฅ์ธ ๋ชจ๋ธ์ ์๋์๋ค. Llama 1 ์ ๋์ ๋ชจ๋ธ์ด์๊ธฐ ๋๋ฌธ์.
๊น์ฑํ๋
Substack
DeepSeek LLM
์ธ๋ฏธ๋ ๋ฐ์ ๋ฅผ ์ํ ์๋ฃ๋ก ์์ฑํ์ง๋ง ๊ณต๊ฐํ ๋งํ ๊ฐ์น๊ฐ ์์ ๊ฒ ๊ฐ์ ๊ณต์ ํฉ๋๋ค.
์ด์ ์ ์ธ๊ธํ๋ ๊ฒ์ฒ๋ผ ์ง๊ธ ๊ฐ์ฅ ์ค์ํ ๋ฌธ์ ๋ o1์ ์ฌ์ฉ๋ ์ถ๋ก ๋ฅ๋ ฅ์ ์ํ ๋ฐฉ๋ฒ์ ์์๋ด๋ ๊ฒ์ด์๋ค. ๋ฌผ๋ก o1์ ๋ฐฉ๋ฒ์ด ๋ฌด์์ธ์ง๋ ๊ธฐ๋ฐ์ด๋ ์ฌ์ ํ ์ ํํ ์ ์๋ ์๋ค. ๊ทธ๋ฌ๋ o1๊ณผ ๋๋ฑํ ์์ค์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ ๋ฐฉ๋ฒ์ ์ด์ ์๋ ค์ก๋ค. ๊ทธ๊ฒ๋ ํ๋ฃจ๋ง์ ๋ ๊ฐ์ง ์ฌ๋ก๋ก.
https://github.com/deepseek-ai/DeepSeek-R1
https://github.com/MoonshotAI/Kimi-k1.5
ํฅ๋ฏธ๋ก์ด ๊ฒ์ ์ด ๋ ๊ฐ์ง ์ฌ๋ก ๋ชจ๋ ๊ณตํต๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค๋ ๊ฒ์ด๋ค. ๊ทธ์ ๋ชจ๋ธ์ ์ต์ข ์ถ๋ ฅ ๊ฒฐ๊ณผ์ ์ ๋ต ์ฌ๋ถ๋ง์ผ๋ก (์ํ์ด๋ผ๋ฉด ์ ๋ต๊ณผ์ ์ผ์น ์ฌ๋ถ, ์ฝ๋ฉ์ด๋ผ๋ฉด ์ปดํ์ผ๋ฌ๋ฅผ ํตํ ์ ๋ ํ ์คํธ ํผ๋๋ฐฑ ๋ฑ) RL์ ํ๋ ๊ฒ์ด๋ค. ์ง๊ธ๊น์ง ์ถ๋ก ๋ฅ๋ ฅ์ ์ํ ๋ง์ ์๋๋ค์ด ๋์๊ณ ์ด ์๋๋ค์ ๋์ฒด๋ก Process Reward Model (PRM)์ ์ฌ์ฉํด์ CoT์ ๊ฐ ์คํ ์ ๋ํด Reward๋ฅผ ์ฃผ๊ฑฐ๋ MCTS๋ฅผ ํ๋ ๊ฒ์ด ์ฃผ๋ฅ์๋ค.
๊ทธ๋ฐ๋ฐ ๊ทธ๋ฐ ์ ์ถฉ์ ์ธ ๋ฐฉ๋ฒ์ด๋ ๋ช ์์ ์ธ ํ์์ ์ ํ ์ฌ์ฉํ์ง ์๊ณ ๊ฒฐ๊ณผ ๋ณด์(Outcome Reward)๋ง์ผ๋ก ์ถ๋ก ๋ฅ๋ ฅ์ ๋ชจ๋ธ์ ์ฃผ์ ํ๋๋ฐ ์ฑ๊ณตํ ๊ฒ์ด๋ค.
์ฌ์ค o1์ด MCTS ๊ฐ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋๊ฐ๋ ๊ณ์ํด์ ๋ ผ์์ ์ธ ๋ฌธ์ ์๋ค. TรLU 3์์ ์ ๋ต์ ๊ธฐ๋ฐํ RL์ (RLVR) ํตํด ์ฐฝ๋ฐ์ ์ธ ๋ฅ๋ ฅ์ด ๋ํ๋ ์ฌ๋ก๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์์ด ์๋๋ผ Outcome Reward๋ฅผ ํตํด ์ถ๋ก ๋ฅ๋ ฅ์ด ๋ฑ์ฅํ ์ ์๋ค๋ ์ฃผ์ฅ๋ ์์๊ณ (https://www.interconnects.ai/.../openais-o1-using-search...) ํ์์ ๋ต์ด ์๋๋ผ๋ ๋ง๋ ์์์ง๋ง (https://x.com/denny_zhou/status/1870551510741811644) ์ด์จ๋ ์ง๊ธ๊น์ง ๊ฐ์ฅ ์ธ๊ธฐ ์์๋ ๋ฐฉ๋ฒ์ ํ์์ด์๋ค. (https://arxiv.org/abs/2501.04682)
๊ทธ๋ ๋ค๋ฉด ์ Outcome Reward ๊ธฐ๋ฐ์ ๋ฐฉ๋ฒ์ด ์ฃผ๋ชฉ์ ๋ฐ์ง ๋ชปํ์๊น? ์ด๋ ์ด ๋ฐฉ๋ฒ์ด ์ฑ๊ณต์ ์ด๊ธฐ ์ํด์ ๋ฒ ์ด์ค ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ถฉ๋ถํ ๋์์ผ ํ๊ณ ์ถฉ๋ถํ ๋์ด๋์ ์์ ๋ฌธ์ -์ ๋ต ๋ฐ์ดํฐ๊ฐ ํ์ํ๊ธฐ ๋๋ฌธ์ผ ๊ฒ์ด๋ค.
๋ฅ ๋ฌ๋์์ ํํ๊ฒ ์ผ์ด๋๋ ๋ฌธ์ , ์ฆ ์ ๊ตํ ๋ฐฉ๋ฒ์ด ๊ท๋ชจ๋ฅผ ํค์ด ๋จ์ํ ๋ฐฉ๋ฒ์ ๋ฐ๋ฆฌ๋ ํ์์ ๋ฐ๋ณต์ด๋ผ๊ณ ํ ์ ์๊ฒ ๋ค.
PRM์ ๋ฌธ์ ๋ ๋ฌด์์ผ๊น? ์ผ๋จ PRM์ ์ ์ฉํ์๋ฉด CoT์์ Process๊ฐ ๋ ๋จ์๋ฅผ ์ค์ ํด์ผ ํ๋ค. ์ด ์คํ ๋ค์ ๋ํ ํ์ต ๋ ์ด๋ธ ๋ํ ํ์ํ๋ค. ์ด ๋ ์ด๋ธ ๊ตฌ์ถ์ ์์ฃผ ์ด๋ ค์ด ์์ ์ด๊ธฐ์ ์ ๋ต ์ฌ๋ถ๋ฅผ ํตํด ๋ ์ด๋ธ์ ๋ถ์ฌํ๋ ๋ฐฉ๋ฒ์ด ์ธ๊ธฐ๋ฅผ ์ป์์ง๋ง ์ด๋ ๊ฒ ํ์ตํ ๋ชจ๋ธ์ ํ์ต ๋๋ฉ์ธ ๋ฐ์ผ๋ก ๋์ด๊ฐ๋ฉด ์ฑ๋ฅ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. (https://arxiv.org/abs/2501.07301) ๋ํ ์ ์ด์ ๋ชจ๋ธ ๊ธฐ๋ฐ์ด๊ธฐ์ ๋ชจ๋ธ์ ๋ถ์ ํ์ฑ ๋ํ ๋ฌธ์ ๊ฐ ๋๋ค.
MCTS๋ ์ด๋จ๊น? MCTS๋ฅผ ์ํด์ ์ ํํ Value ๋ชจ๋ธ์ด ํ์ํ๊ณ ์ด๋ฅผ ํ๋ณดํ๋ ๊ฒ์ด ๋ฌธ์ ๊ฐ ๋๋ค.
PRM๊ณผ MCTS ๋ชจ๋ CoT์ ์ผ์ ํ ๊ตฌ์กฐ๋ฅผ ๋ถ์ฌํ๊ฒ ๋๋ค. PRM์์๋ Reward์ ๋จ์๊ฐ ๋๋ ์คํ ๋ค์ด ์ ํด์ ธ์ผ ํ๊ณ MCTS๋ ํ์ ๊ณต๊ฐ์ด ์ค์ ๋์ด์ผ ํ๋ค.
๊ทธ๋ฆฌ๊ณ ๋ฅ ๋ฌ๋์ ๊ฐ์ฅ ์ค์ํ ๊ตํ์ ๋ฌธ์ ์ ๋ํ ํด๊ฒฐ ๋ฐฉ๋ฒ์ ๊ตฌ์กฐ๋ฅผ ๋ถ์ฌํด์๋ ์ ๋๋ค๋ ๊ฒ์ด๋ค.
๋ฌผ๋ก ์์ผ๋ก๋ PRM์ด๋ MCTS๊ฐ ๋์์ด ๋์ง ์์ ๊ฒ์ด๋ผ๊ณ ๋งํ ์๋ ์๋ค. ๊ทธ๋ฌ๋ ๋จ์ํ ๋ฐฉ๋ฒ์ Scaling ํ๋ ๊ฒ์ด ํด์ผ ํ ์ฒซ ๋จ๊ณ์ธ ๊ฒ๋ ์ฌ์ค์ด๋ค.
์ด๋ฐ ์ถ๋ก ๋ชจ๋ธ๋ค์ ํตํด ๋ฒ ์ด์ค ๋ชจ๋ธ์ ๋ ๊ฐํํ ์ ์๋๊ฐ, ๊ทธ๋ฆฌ๊ณ ์ง๊ธ ์ ๋ต์ ์ ์ ์๋ ๋ฌธ์ ๋ค์ ๋ํด ํ์ตํ ๋ชจ๋ธ์ด ์ฐ๋ฆฌ๊ฐ ๋ชฉํํ๋ ์ ๋ต์ ์์ง ๋ชจ๋ฅด๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ ๋๋ฌํ ์ ์๋๊ฐ ๋ฑ ์๊ฐํ๊ณ ์ฐ๊ตฌํ ๋ฌธ์ ๋ค์ ๋ง์ด ์๋ค. ์ค์ฉ์ ์ผ๋ก๋ ๋ ๋ค์ํ ๊ณผ์ ๋ค์ ๋ํด ์ ๋ต ์ฌ๋ถ๋ฅผ ๊ณ์ฐํ ์ ์๋ ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ๋ ๊ฒ๋ ์ค์ํ๋ค.
๊ทธ๋ฌ๋ ์ผ๋จ ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ํ์ธํ๋ค๋ฉด ๊ทธ ์ง์ ์์ ๋์๊ฐ๋ ๊ฒ์ ํ๊ฒฐ ์ฝ๋ค.
#
DeepSeek-R1 ๋ฆฌํฌํธ์์ ๋งํ๋ฏ Distillation์ ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ถ์ฌํ๋ ์์ฃผ ์์ฌ์ด ๋ฐฉ๋ฒ์ด๋ค. ์ฌ์ค o1์ ์ฌํํ๋ค๊ณ ์ฃผ์ฅํ ๋ง์ ์๋๋ค์ด Distillation์ ์์กดํ๊ณ ์๋ค.
(๋๋ ์ธ๋ถ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๋ฅผ ์ฌ์ฉํด ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ์ Distillation์ด๋ผ๊ณ ๋ถ๋ฅด๋ ๊ฒ์ ๋ฐ๋ํ๊ณ ์ถ์ง๋ง ์ด๋ฏธ ๋๋ฌด ๊ด๋ฒ์ํ ์ฉ๋ฒ์ด ๋์ด๋ฒ๋ ธ์ผ๋ ์ด์ฉ ์ ์์ ๋ฏ ์ถ๋ค.)
์ฌ์ค ์์ ๋ชจ๋ธ์์๋ RL๋ณด๋ค Distillation์ด ๋ ํจ๊ณผ์ ์ด๋ผ๊ณ ์ธ๊ธํ๊ณ ์๊ธฐ๋ ํ๋ค. RL์ด ์ ๋๋ก ์๋ํ๋ ค๋ฉด ๊ฐ๋ ฅํ ๋ฒ ์ด์ค ๋ชจ๋ธ์ด ๋ท๋ฐ์นจ๋์ด์ผ ํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ฆฌํฌํธ์์ ์ธ๊ธํ๋ ๊ฒ์ฒ๋ผ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ๊ฒฝ๊ณ๋ฅผ ํ์ฅํ๋ ค๋ฉด ๋ ๊ฐ๋ ฅํ ๋ฒ ์ด์ค ๋ชจ๋ธ๊ณผ ๋๊ท๋ชจ RL์ ํตํ ์๋ฐ์ ์๋ค. ๋ฐ๋ผ์ ์ง์ ์ผ๋ก ํฅ๋ฏธ๋ก์ด ๊ฒ์ ๊ทธ ๊ฒฝ๊ณ๋ฅผ ํ์ฅํ๋ ์์ ๊ณผ ๊ทธ ์์ญ์ ์๋ค.
#
DeepSeek์ ์ฐฝ๋ฆฝ์๊ฐ ์ธํฐ๋ทฐ์์ AGI์ ๋๋ฌํ๊ธฐ ์ํ ๊ธฐ์ ์ ํ์ ์ ๋์ ํ์ฌ์ ๊ธฐ์ ์ ํตํ ์์ฉ์ด๋ ์ด์ค ์ฐฝ์ถ์ ์ง์คํ ์๊ฐ์ ์๋ค๋ ์์ผ๋ก ์ธ๊ธํ ์ ์ด ์๋ค. (https://www.chinatalk.media/.../deepseek-ceo-interview...) ์ด ๊ธฐ์ ์ ํ์ ์ ๋ํ ์ง์ค์ด ์ง๊ธ DeepSeek์ด ๊ณต๊ฐํ๊ณ ์๋ ์ฑ๊ณผ์ ๋๋ ฅ์ด์์ผ๋ฆฌ๋ผ๊ณ ์๊ฐํ๋ค.
๊ทธ๋ฆฌ๊ณ ์ด๊ฒ์ด ์คํ๋ ค ํฉ๋ฆฌ์ ์ธ ์ ํ์ผ ์ ์๋ค. ํ์ฌ ์์ค์ LLM์ ๋ฅ๋ ฅ์ ์ ํ์ ์ด๊ณ ๋ฐ๋ผ์ ๊ทธ๊ฒ์ ์ ์ฉํ ์ ์๋ ๋ถ์ผ์ ์ฐฝ์ถํ ์ ์๋ ์ด์ค ๋ํ ์ ํ์ ์ผ ์๋ฐ์ ์๋ค. ๊ทธ๋ ๋ค๋ฉด ์ง๊ธ ๊ฐ๋ฅํ ์์ญ์์ ์ด์ค์ ์ง๋ด๋ ค ์๋ํ๋ ๊ฒ๋ณด๋ค๋ ๊ฐ๋ฅํ ์์ญ์ ๋๋ฆฌ๋ ๊ฒ์ ์ง์คํ๋ ๊ฒ์ด ๋์ ์ ์๋ค.
์ด ์์ญ์ ๋ฐ์ ์๋๋ฅผ ๊ณ ๋ คํ์ ๋ ์ด ๊ธฐ์ ์ด ๋๋ฌํ ์ ์๋ ๋ฒ์์ ๋ํด ๊ฐ๋ ํ ์ ์๊ฒ ๋๊ธฐ๊น์ง ๊ฑธ๋ฆด ์๊ฐ์ ๊ทธ๋ฆฌ ๋ง์ง ์๋ค. ์ฆ ๊ต์ฅํ ์ฅ๊ธฐ์ ์ธ ํฌ์๊ฐ ํ์ํ์ง๋ ์์ ๊ฒ์ด๋ผ๋ ์๋ฏธ์ด๋ค. (๋ฌผ๋ก ๋น์ฉ์ ํด ์ ์๋ค.) ๊ทธ๋ ๋ค๋ฉด ๊ตณ์ด ์ง๊ธ ์ป์ ์ ์๋ ์กฐ๊ธ์ ์ด์ค์ ์ํด ์กฐ๋ฐ์ฌ์ ๋ผ ํ์๋ ์๋ค.
๊น์ฑํ๋
https://github.com/deepseek-ai/DeepSeek-R1
https://github.com/MoonshotAI/Kimi-k1.5
ํฅ๋ฏธ๋ก์ด ๊ฒ์ ์ด ๋ ๊ฐ์ง ์ฌ๋ก ๋ชจ๋ ๊ณตํต๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค๋ ๊ฒ์ด๋ค. ๊ทธ์ ๋ชจ๋ธ์ ์ต์ข ์ถ๋ ฅ ๊ฒฐ๊ณผ์ ์ ๋ต ์ฌ๋ถ๋ง์ผ๋ก (์ํ์ด๋ผ๋ฉด ์ ๋ต๊ณผ์ ์ผ์น ์ฌ๋ถ, ์ฝ๋ฉ์ด๋ผ๋ฉด ์ปดํ์ผ๋ฌ๋ฅผ ํตํ ์ ๋ ํ ์คํธ ํผ๋๋ฐฑ ๋ฑ) RL์ ํ๋ ๊ฒ์ด๋ค. ์ง๊ธ๊น์ง ์ถ๋ก ๋ฅ๋ ฅ์ ์ํ ๋ง์ ์๋๋ค์ด ๋์๊ณ ์ด ์๋๋ค์ ๋์ฒด๋ก Process Reward Model (PRM)์ ์ฌ์ฉํด์ CoT์ ๊ฐ ์คํ ์ ๋ํด Reward๋ฅผ ์ฃผ๊ฑฐ๋ MCTS๋ฅผ ํ๋ ๊ฒ์ด ์ฃผ๋ฅ์๋ค.
๊ทธ๋ฐ๋ฐ ๊ทธ๋ฐ ์ ์ถฉ์ ์ธ ๋ฐฉ๋ฒ์ด๋ ๋ช ์์ ์ธ ํ์์ ์ ํ ์ฌ์ฉํ์ง ์๊ณ ๊ฒฐ๊ณผ ๋ณด์(Outcome Reward)๋ง์ผ๋ก ์ถ๋ก ๋ฅ๋ ฅ์ ๋ชจ๋ธ์ ์ฃผ์ ํ๋๋ฐ ์ฑ๊ณตํ ๊ฒ์ด๋ค.
์ฌ์ค o1์ด MCTS ๊ฐ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋๊ฐ๋ ๊ณ์ํด์ ๋ ผ์์ ์ธ ๋ฌธ์ ์๋ค. TรLU 3์์ ์ ๋ต์ ๊ธฐ๋ฐํ RL์ (RLVR) ํตํด ์ฐฝ๋ฐ์ ์ธ ๋ฅ๋ ฅ์ด ๋ํ๋ ์ฌ๋ก๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์์ด ์๋๋ผ Outcome Reward๋ฅผ ํตํด ์ถ๋ก ๋ฅ๋ ฅ์ด ๋ฑ์ฅํ ์ ์๋ค๋ ์ฃผ์ฅ๋ ์์๊ณ (https://www.interconnects.ai/.../openais-o1-using-search...) ํ์์ ๋ต์ด ์๋๋ผ๋ ๋ง๋ ์์์ง๋ง (https://x.com/denny_zhou/status/1870551510741811644) ์ด์จ๋ ์ง๊ธ๊น์ง ๊ฐ์ฅ ์ธ๊ธฐ ์์๋ ๋ฐฉ๋ฒ์ ํ์์ด์๋ค. (https://arxiv.org/abs/2501.04682)
๊ทธ๋ ๋ค๋ฉด ์ Outcome Reward ๊ธฐ๋ฐ์ ๋ฐฉ๋ฒ์ด ์ฃผ๋ชฉ์ ๋ฐ์ง ๋ชปํ์๊น? ์ด๋ ์ด ๋ฐฉ๋ฒ์ด ์ฑ๊ณต์ ์ด๊ธฐ ์ํด์ ๋ฒ ์ด์ค ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ถฉ๋ถํ ๋์์ผ ํ๊ณ ์ถฉ๋ถํ ๋์ด๋์ ์์ ๋ฌธ์ -์ ๋ต ๋ฐ์ดํฐ๊ฐ ํ์ํ๊ธฐ ๋๋ฌธ์ผ ๊ฒ์ด๋ค.
๋ฅ ๋ฌ๋์์ ํํ๊ฒ ์ผ์ด๋๋ ๋ฌธ์ , ์ฆ ์ ๊ตํ ๋ฐฉ๋ฒ์ด ๊ท๋ชจ๋ฅผ ํค์ด ๋จ์ํ ๋ฐฉ๋ฒ์ ๋ฐ๋ฆฌ๋ ํ์์ ๋ฐ๋ณต์ด๋ผ๊ณ ํ ์ ์๊ฒ ๋ค.
PRM์ ๋ฌธ์ ๋ ๋ฌด์์ผ๊น? ์ผ๋จ PRM์ ์ ์ฉํ์๋ฉด CoT์์ Process๊ฐ ๋ ๋จ์๋ฅผ ์ค์ ํด์ผ ํ๋ค. ์ด ์คํ ๋ค์ ๋ํ ํ์ต ๋ ์ด๋ธ ๋ํ ํ์ํ๋ค. ์ด ๋ ์ด๋ธ ๊ตฌ์ถ์ ์์ฃผ ์ด๋ ค์ด ์์ ์ด๊ธฐ์ ์ ๋ต ์ฌ๋ถ๋ฅผ ํตํด ๋ ์ด๋ธ์ ๋ถ์ฌํ๋ ๋ฐฉ๋ฒ์ด ์ธ๊ธฐ๋ฅผ ์ป์์ง๋ง ์ด๋ ๊ฒ ํ์ตํ ๋ชจ๋ธ์ ํ์ต ๋๋ฉ์ธ ๋ฐ์ผ๋ก ๋์ด๊ฐ๋ฉด ์ฑ๋ฅ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. (https://arxiv.org/abs/2501.07301) ๋ํ ์ ์ด์ ๋ชจ๋ธ ๊ธฐ๋ฐ์ด๊ธฐ์ ๋ชจ๋ธ์ ๋ถ์ ํ์ฑ ๋ํ ๋ฌธ์ ๊ฐ ๋๋ค.
MCTS๋ ์ด๋จ๊น? MCTS๋ฅผ ์ํด์ ์ ํํ Value ๋ชจ๋ธ์ด ํ์ํ๊ณ ์ด๋ฅผ ํ๋ณดํ๋ ๊ฒ์ด ๋ฌธ์ ๊ฐ ๋๋ค.
PRM๊ณผ MCTS ๋ชจ๋ CoT์ ์ผ์ ํ ๊ตฌ์กฐ๋ฅผ ๋ถ์ฌํ๊ฒ ๋๋ค. PRM์์๋ Reward์ ๋จ์๊ฐ ๋๋ ์คํ ๋ค์ด ์ ํด์ ธ์ผ ํ๊ณ MCTS๋ ํ์ ๊ณต๊ฐ์ด ์ค์ ๋์ด์ผ ํ๋ค.
๊ทธ๋ฆฌ๊ณ ๋ฅ ๋ฌ๋์ ๊ฐ์ฅ ์ค์ํ ๊ตํ์ ๋ฌธ์ ์ ๋ํ ํด๊ฒฐ ๋ฐฉ๋ฒ์ ๊ตฌ์กฐ๋ฅผ ๋ถ์ฌํด์๋ ์ ๋๋ค๋ ๊ฒ์ด๋ค.
๋ฌผ๋ก ์์ผ๋ก๋ PRM์ด๋ MCTS๊ฐ ๋์์ด ๋์ง ์์ ๊ฒ์ด๋ผ๊ณ ๋งํ ์๋ ์๋ค. ๊ทธ๋ฌ๋ ๋จ์ํ ๋ฐฉ๋ฒ์ Scaling ํ๋ ๊ฒ์ด ํด์ผ ํ ์ฒซ ๋จ๊ณ์ธ ๊ฒ๋ ์ฌ์ค์ด๋ค.
์ด๋ฐ ์ถ๋ก ๋ชจ๋ธ๋ค์ ํตํด ๋ฒ ์ด์ค ๋ชจ๋ธ์ ๋ ๊ฐํํ ์ ์๋๊ฐ, ๊ทธ๋ฆฌ๊ณ ์ง๊ธ ์ ๋ต์ ์ ์ ์๋ ๋ฌธ์ ๋ค์ ๋ํด ํ์ตํ ๋ชจ๋ธ์ด ์ฐ๋ฆฌ๊ฐ ๋ชฉํํ๋ ์ ๋ต์ ์์ง ๋ชจ๋ฅด๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ ๋๋ฌํ ์ ์๋๊ฐ ๋ฑ ์๊ฐํ๊ณ ์ฐ๊ตฌํ ๋ฌธ์ ๋ค์ ๋ง์ด ์๋ค. ์ค์ฉ์ ์ผ๋ก๋ ๋ ๋ค์ํ ๊ณผ์ ๋ค์ ๋ํด ์ ๋ต ์ฌ๋ถ๋ฅผ ๊ณ์ฐํ ์ ์๋ ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ๋ ๊ฒ๋ ์ค์ํ๋ค.
๊ทธ๋ฌ๋ ์ผ๋จ ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ํ์ธํ๋ค๋ฉด ๊ทธ ์ง์ ์์ ๋์๊ฐ๋ ๊ฒ์ ํ๊ฒฐ ์ฝ๋ค.
#
DeepSeek-R1 ๋ฆฌํฌํธ์์ ๋งํ๋ฏ Distillation์ ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ถ์ฌํ๋ ์์ฃผ ์์ฌ์ด ๋ฐฉ๋ฒ์ด๋ค. ์ฌ์ค o1์ ์ฌํํ๋ค๊ณ ์ฃผ์ฅํ ๋ง์ ์๋๋ค์ด Distillation์ ์์กดํ๊ณ ์๋ค.
(๋๋ ์ธ๋ถ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๋ฅผ ์ฌ์ฉํด ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ์ Distillation์ด๋ผ๊ณ ๋ถ๋ฅด๋ ๊ฒ์ ๋ฐ๋ํ๊ณ ์ถ์ง๋ง ์ด๋ฏธ ๋๋ฌด ๊ด๋ฒ์ํ ์ฉ๋ฒ์ด ๋์ด๋ฒ๋ ธ์ผ๋ ์ด์ฉ ์ ์์ ๋ฏ ์ถ๋ค.)
์ฌ์ค ์์ ๋ชจ๋ธ์์๋ RL๋ณด๋ค Distillation์ด ๋ ํจ๊ณผ์ ์ด๋ผ๊ณ ์ธ๊ธํ๊ณ ์๊ธฐ๋ ํ๋ค. RL์ด ์ ๋๋ก ์๋ํ๋ ค๋ฉด ๊ฐ๋ ฅํ ๋ฒ ์ด์ค ๋ชจ๋ธ์ด ๋ท๋ฐ์นจ๋์ด์ผ ํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ฆฌํฌํธ์์ ์ธ๊ธํ๋ ๊ฒ์ฒ๋ผ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ๊ฒฝ๊ณ๋ฅผ ํ์ฅํ๋ ค๋ฉด ๋ ๊ฐ๋ ฅํ ๋ฒ ์ด์ค ๋ชจ๋ธ๊ณผ ๋๊ท๋ชจ RL์ ํตํ ์๋ฐ์ ์๋ค. ๋ฐ๋ผ์ ์ง์ ์ผ๋ก ํฅ๋ฏธ๋ก์ด ๊ฒ์ ๊ทธ ๊ฒฝ๊ณ๋ฅผ ํ์ฅํ๋ ์์ ๊ณผ ๊ทธ ์์ญ์ ์๋ค.
#
DeepSeek์ ์ฐฝ๋ฆฝ์๊ฐ ์ธํฐ๋ทฐ์์ AGI์ ๋๋ฌํ๊ธฐ ์ํ ๊ธฐ์ ์ ํ์ ์ ๋์ ํ์ฌ์ ๊ธฐ์ ์ ํตํ ์์ฉ์ด๋ ์ด์ค ์ฐฝ์ถ์ ์ง์คํ ์๊ฐ์ ์๋ค๋ ์์ผ๋ก ์ธ๊ธํ ์ ์ด ์๋ค. (https://www.chinatalk.media/.../deepseek-ceo-interview...) ์ด ๊ธฐ์ ์ ํ์ ์ ๋ํ ์ง์ค์ด ์ง๊ธ DeepSeek์ด ๊ณต๊ฐํ๊ณ ์๋ ์ฑ๊ณผ์ ๋๋ ฅ์ด์์ผ๋ฆฌ๋ผ๊ณ ์๊ฐํ๋ค.
๊ทธ๋ฆฌ๊ณ ์ด๊ฒ์ด ์คํ๋ ค ํฉ๋ฆฌ์ ์ธ ์ ํ์ผ ์ ์๋ค. ํ์ฌ ์์ค์ LLM์ ๋ฅ๋ ฅ์ ์ ํ์ ์ด๊ณ ๋ฐ๋ผ์ ๊ทธ๊ฒ์ ์ ์ฉํ ์ ์๋ ๋ถ์ผ์ ์ฐฝ์ถํ ์ ์๋ ์ด์ค ๋ํ ์ ํ์ ์ผ ์๋ฐ์ ์๋ค. ๊ทธ๋ ๋ค๋ฉด ์ง๊ธ ๊ฐ๋ฅํ ์์ญ์์ ์ด์ค์ ์ง๋ด๋ ค ์๋ํ๋ ๊ฒ๋ณด๋ค๋ ๊ฐ๋ฅํ ์์ญ์ ๋๋ฆฌ๋ ๊ฒ์ ์ง์คํ๋ ๊ฒ์ด ๋์ ์ ์๋ค.
์ด ์์ญ์ ๋ฐ์ ์๋๋ฅผ ๊ณ ๋ คํ์ ๋ ์ด ๊ธฐ์ ์ด ๋๋ฌํ ์ ์๋ ๋ฒ์์ ๋ํด ๊ฐ๋ ํ ์ ์๊ฒ ๋๊ธฐ๊น์ง ๊ฑธ๋ฆด ์๊ฐ์ ๊ทธ๋ฆฌ ๋ง์ง ์๋ค. ์ฆ ๊ต์ฅํ ์ฅ๊ธฐ์ ์ธ ํฌ์๊ฐ ํ์ํ์ง๋ ์์ ๊ฒ์ด๋ผ๋ ์๋ฏธ์ด๋ค. (๋ฌผ๋ก ๋น์ฉ์ ํด ์ ์๋ค.) ๊ทธ๋ ๋ค๋ฉด ๊ตณ์ด ์ง๊ธ ์ป์ ์ ์๋ ์กฐ๊ธ์ ์ด์ค์ ์ํด ์กฐ๋ฐ์ฌ์ ๋ผ ํ์๋ ์๋ค.
๊น์ฑํ๋
GitHub
GitHub - deepseek-ai/DeepSeek-R1
Contribute to deepseek-ai/DeepSeek-R1 development by creating an account on GitHub.
https://youtu.be/kYWUEV_e2ss
๋ฌธ์ ์ ์: โ์ธ๊ฐ์ด ์์ธํ ๊ฐ๋ฅด์น๋ ๊ฒ vs. ๋ชจ๋ธ์ด ์ค์ค๋ก ํ์ตํ๋๋ก ๋๊ธฐ๋ฅผ ๋ถ์ฌํ๋ ๊ฒโ
โข ๊ธฐ์กด ์ ๊ทผ๋ฒ: ์ธ๊ฐ ํ๋ค์ด ์ฌ๊ณ ๋ฐฉ์(์์์ ๊ตฌ์กฐยท์ธ๊ฐ ์ง๊ด)์ ๊ธฐ๋ฐํด ๋ชจ๋ธ์ โ์ธ์ดํยท๋ ผ๋ฆฌโ ๋ฑ์ ๋ช ์์ ์ผ๋ก ๊ฐ๋ฅด์น๋ ค ๋ฆ.
ํ๊ณ: ์ฌ๋์ด โ์ด๋ป๊ฒ ์๊ฐํ๋์งโ๋ฅผ ์๋ฒฝํ ์ดํดํ ๊ฒ๋ ์๋๊ณ , ์ด๊ฒ์ด ๊ณง ๋ชจ๋ธ์ ์ต์ ํด๋ฒ๊ณผ ์ผ์นํ์ง๋ ์์.
โข ๋์(First Principle): โ๋ชจ๋ธ์ด ๋ค๋ฃฐ ๋ฐฉ๋ํ ๋ฐ์ดํฐ์ ๋์ ๊ณ์ฐ๋ ฅ(Compute)์ ์ด์ฉํด, ๊ทธ ์์ฒด๋ฅผ '์ฝํ ์๊ทธ๋(Weak Incentive)'๋ก ์ผ์ โ์ค์ค๋ก ์ฌ๊ณ ยทํ์ตโ์ ์ด์ง.โ
์: โ๋ค์ ํ ํฐ ์์ธกโ์ด๋ผ๋ ๋จ์ ๋ชฉํ๋ง ๋์ ธ์ฃผ๋(๊ต์ X), ์์ญ์ตยท์์กฐ ๊ฐ ๋ฌธ๋งฅ์ ํด๊ฒฐํ๋ ค ์ ์ฐ๊ฒ ํ๋ฉด, ์์ฐ์ค๋ฝ๊ฒ ์ธ์ด ์ดํด/์ถ๋ก /์๋ฌธ ๋ฑ์ด ์๊ฒจ๋จ(์ธ์ผํฐ๋ธ O).
โ๋ฌด์ ํ Scalabilityโ๊ฐ ์ ์ ๊ฐ ๋๋ ํ์ฌ ํ๊ฒฝ
์ ์ ์กฐ๊ฑด:
ํ๋์จ์ด/์ปดํจํ ์ด ์ง์์ ์ผ๋ก ๋ฐ์ (๋น์ฉ ์ ๊ฐ์๋ ๋ํ ์์ฒญ๋จ).
๊ธฐ์กด๋ฌผ๋ฆฌ(์ฌ๋๊ณผ ๊ฐ์ ์๊ฐ์ ์ ์ฝ)๋ โ์ด๋ก ์ XXโ ์์ค์ผ๋ก ์ํ.
ํ๋ ์ง์นจ:
(1) โํจ์ฌ ๋ง์ computeโ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ํํ๋๋ก, ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ต์์ ์ฌ์ ๊ฐ์ (Structure)์ผ๋ก ์ ์ง.
(2) ์ฌ๋์ด โ๋ฌธ์ ํด๊ฒฐ ๋จ์โ๋ฅผ ์ง์ ์ค๊ณํ์ง ๋ง ๊ฒ(์ซ์๊ฐ ์ปค์ง์๋ก ๊ทธ ์ฌ์ ๊ฐ์ ์ด ๋ณ๋ชฉ์ด ๋จ).
(3) โ์ธ๊ฐ ์ง์โ ๋์ , ๋ชจ๋ธ์ด โ๋ฐ์ดํฐ์ ๋ชฉํ(์:๋ค์ ํ ํฐ ์์ธก, ์ฑ๊ณต ์ฌ๋ถ ๋ณด์ ๋ฑ)โ๋ฅผ ๋ฐํ์ผ์ ์๋ฐ์ ์ผ๋ก ์ผ๋ฐํ๋(General) ๋ฅ๋ ฅ์ ์ฐพ๋๋ก.
โNext Token Predictionโ์ด ์ด๋ป๊ฒ ์ผ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ณ๋๊ฐ
ํํ: ์น ์ค์ผ์ผ(์์ญ์ต~์์กฐ ๋ฌธ์ฅ), ๊ฐ ๋ฌธ์ฅ์์ ๋งค ๋ค์ ํ ํฐ์ ๋งํ๋ ๊ฒ์ด ์ ๋ถ.
๊ฒฐ๊ณผ:
(1) ์ธ์ดํ์ ์ง์๋ถํฐ, ์ํยท์ฝ๋ฉยท๋ ผ๋ฆฌ๊น์ง โํ์ต์๊ฐ ์ค์ค๋ก ๊ฐ์ฅ ์ ๋ฆฌํโ ์ผ๋ฐ๊ธฐ์ ์ ํฐ๋.
(2) ์ธ๊ฐ์ด ๋ณ๋ ๊ต๊ณผ๊ณผ์ ์์ด๋, โ์๋ง์ ๋ฌธ๋งฅ์ ์ฒ๋ฆฌํด์ผ ํ๋ ์ธ์ผํฐ๋ธโ ๋๋ฌธ์ ์ ์ ๋ก ๋ณต์กํ ๋ฌธ์ ํด๊ฒฐ๋ ฅ(โEmergent Abilityโ) ํ๋.
(3) ์์ ๋ชจ๋ธ๋ก๋ ๋ถ๊ฐ๋ฅํ์ง๋ง, ์ผ์ ๊ท๋ชจ ๋์ผ๋ฉด(์ฒซ ์๋ฆฌ ์ฐจ์์์ โ์ถฉ๋ถํ ๊ณ์ฐ ์์+๋ฐ์ดํฐ=๊ฐ๋ฅโ) ์๋นํ ์ง์ ๋ฅ๋ ฅ์ด โ๋์ฐโ ์ถํ.
โEmergent Abilityโ์ ์ค์ผ์ผ๋ง: ์ปค์ง๋ ๋ชจ๋ธ์ โ์ฝํโ ๋ชฉํ๋ง ๋์ ธ๋ ๋ณ๋ ๋ฅ๋ ฅ์ด ์๊ธฐ๋ ์ด์
โ์์ ๋ชจ๋ธ ๊ธฐ์คโ์์ ๋ณด๋ฉด, ์ฌ๋์ ๊ทธ ๋ชจ๋ธ ํ๊ณ ์ ํจ ๋ฒ์๋ง ๋ชฉ๊ฒฉํ๊ณ ๋ โ์ ๋๋คโ๊ณ ๊ฒฐ๋ก ๋.
โข ํ์ง๋ง ์ปดํจํ ์์์ด ๋๋ฉด์, ์ ํ ๋ค๋ฅธ ๋ฒ์(scales)์์ ์๊ณ์ ์ ๋์ผ๋ฉด, โ์์ฐ๋ฐ์ ์ถ๋ก ๋ฅ๋ ฅโ ํญ์ฆ.
๋น์ : ๋ฌผ๋ฆฌ ์คํ์ด๋ผ๋ฉด โ๋ช ๋ ํ ๋ฐ๋ ๋ฒ์น์ ์๋ค.โ โ AI๋ โํ๋์จ์ด ์ถ์ โ์ด ๋ฒ์น ์์ฒด๋ฅผ ๋ฐ๊พธ๋ ๊ฒฉ.
๋ฐ๋ผ์ ๋น ๋ฅธ โ๊ด์ฑ ์์ดโ ์ฌ๊ณ ์ ํ(โUnlearning ๊ธฐ์กด ๊ฐ์ โ)์ด ํ์.
์์ผ๋ก์ ๋ฐฉํฅ: โ๋ชจ๋ ๋ฌธ์ ๋ฅผ ์ธ์ผํฐ๋ธ๋ก ์ ์ํ๋ผโ
Next Token Prediction โ ์ผ์ข ์ โ์ฝํ ๋ณด์โ์ผ๋ก ์ธ์ดยท์ถ๋ก ์ง์ ํ์ตํ๋ ๊ฒ์ฒ๋ผ, โ์ ํ ์๋ตโยทโ์ฌ์ค ๊ฒ์ฆโ ๋ฑ ๋ค๋ฅธ ๋ชฉํ๋ค๋ ์ฝํ์ง๋ง ๊ด๋ฒ์ํ๊ฒ ์ค์ ๊ฐ๋ฅ.
โข ๊ฑฐ๋๋ชจ๋ธ ์๋: ๊ณผ๊ฑฐ์ โํ์ต๋น์ฉ์ด ๋๋ฌด ์ปค์โ ๋นํจ์จ์ด ๋ฌธ์ ์์ง๋ง, ์ด์ ๋ ์ปดํจํ ์ด ๋ฌด์ ํ์ ์ผ๋ก ์ฆ๊ฐ ๊ฐ๋ฅ โ ์ด ๋ฐฉ๋ฒ์ด ์คํ๋ ค ํจ์จ์ .
โข ๊ฒฐ๋ก : โ์ ๋ ๊ฒ ๊ฐ์ ๋ณด์ด๋ ๋จ์ ๋ณด์ ๊ตฌ์กฐโ + โ๋ ํฐ ๋ชจ๋ธ/๋ฐ์ดํฐโ = ๋ชจ๋ธ์ด ๋ณธ์ง์ ์ผ๋ก ํจ์ฌ ๊น์ ๊ธฐ์ (์: ์๊ธฐ๋ฐ์, ์ํ, ์น๋ฐ์ถ๋ก ๋ฑ)์ ์ฐพ์ ํ ์์ด ๋จ.
๋ฌธ์ ์ ์: โ์ธ๊ฐ์ด ์์ธํ ๊ฐ๋ฅด์น๋ ๊ฒ vs. ๋ชจ๋ธ์ด ์ค์ค๋ก ํ์ตํ๋๋ก ๋๊ธฐ๋ฅผ ๋ถ์ฌํ๋ ๊ฒโ
โข ๊ธฐ์กด ์ ๊ทผ๋ฒ: ์ธ๊ฐ ํ๋ค์ด ์ฌ๊ณ ๋ฐฉ์(์์์ ๊ตฌ์กฐยท์ธ๊ฐ ์ง๊ด)์ ๊ธฐ๋ฐํด ๋ชจ๋ธ์ โ์ธ์ดํยท๋ ผ๋ฆฌโ ๋ฑ์ ๋ช ์์ ์ผ๋ก ๊ฐ๋ฅด์น๋ ค ๋ฆ.
ํ๊ณ: ์ฌ๋์ด โ์ด๋ป๊ฒ ์๊ฐํ๋์งโ๋ฅผ ์๋ฒฝํ ์ดํดํ ๊ฒ๋ ์๋๊ณ , ์ด๊ฒ์ด ๊ณง ๋ชจ๋ธ์ ์ต์ ํด๋ฒ๊ณผ ์ผ์นํ์ง๋ ์์.
โข ๋์(First Principle): โ๋ชจ๋ธ์ด ๋ค๋ฃฐ ๋ฐฉ๋ํ ๋ฐ์ดํฐ์ ๋์ ๊ณ์ฐ๋ ฅ(Compute)์ ์ด์ฉํด, ๊ทธ ์์ฒด๋ฅผ '์ฝํ ์๊ทธ๋(Weak Incentive)'๋ก ์ผ์ โ์ค์ค๋ก ์ฌ๊ณ ยทํ์ตโ์ ์ด์ง.โ
์: โ๋ค์ ํ ํฐ ์์ธกโ์ด๋ผ๋ ๋จ์ ๋ชฉํ๋ง ๋์ ธ์ฃผ๋(๊ต์ X), ์์ญ์ตยท์์กฐ ๊ฐ ๋ฌธ๋งฅ์ ํด๊ฒฐํ๋ ค ์ ์ฐ๊ฒ ํ๋ฉด, ์์ฐ์ค๋ฝ๊ฒ ์ธ์ด ์ดํด/์ถ๋ก /์๋ฌธ ๋ฑ์ด ์๊ฒจ๋จ(์ธ์ผํฐ๋ธ O).
โ๋ฌด์ ํ Scalabilityโ๊ฐ ์ ์ ๊ฐ ๋๋ ํ์ฌ ํ๊ฒฝ
์ ์ ์กฐ๊ฑด:
ํ๋์จ์ด/์ปดํจํ ์ด ์ง์์ ์ผ๋ก ๋ฐ์ (๋น์ฉ ์ ๊ฐ์๋ ๋ํ ์์ฒญ๋จ).
๊ธฐ์กด๋ฌผ๋ฆฌ(์ฌ๋๊ณผ ๊ฐ์ ์๊ฐ์ ์ ์ฝ)๋ โ์ด๋ก ์ XXโ ์์ค์ผ๋ก ์ํ.
ํ๋ ์ง์นจ:
(1) โํจ์ฌ ๋ง์ computeโ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ํํ๋๋ก, ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ต์์ ์ฌ์ ๊ฐ์ (Structure)์ผ๋ก ์ ์ง.
(2) ์ฌ๋์ด โ๋ฌธ์ ํด๊ฒฐ ๋จ์โ๋ฅผ ์ง์ ์ค๊ณํ์ง ๋ง ๊ฒ(์ซ์๊ฐ ์ปค์ง์๋ก ๊ทธ ์ฌ์ ๊ฐ์ ์ด ๋ณ๋ชฉ์ด ๋จ).
(3) โ์ธ๊ฐ ์ง์โ ๋์ , ๋ชจ๋ธ์ด โ๋ฐ์ดํฐ์ ๋ชฉํ(์:๋ค์ ํ ํฐ ์์ธก, ์ฑ๊ณต ์ฌ๋ถ ๋ณด์ ๋ฑ)โ๋ฅผ ๋ฐํ์ผ์ ์๋ฐ์ ์ผ๋ก ์ผ๋ฐํ๋(General) ๋ฅ๋ ฅ์ ์ฐพ๋๋ก.
โNext Token Predictionโ์ด ์ด๋ป๊ฒ ์ผ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ณ๋๊ฐ
ํํ: ์น ์ค์ผ์ผ(์์ญ์ต~์์กฐ ๋ฌธ์ฅ), ๊ฐ ๋ฌธ์ฅ์์ ๋งค ๋ค์ ํ ํฐ์ ๋งํ๋ ๊ฒ์ด ์ ๋ถ.
๊ฒฐ๊ณผ:
(1) ์ธ์ดํ์ ์ง์๋ถํฐ, ์ํยท์ฝ๋ฉยท๋ ผ๋ฆฌ๊น์ง โํ์ต์๊ฐ ์ค์ค๋ก ๊ฐ์ฅ ์ ๋ฆฌํโ ์ผ๋ฐ๊ธฐ์ ์ ํฐ๋.
(2) ์ธ๊ฐ์ด ๋ณ๋ ๊ต๊ณผ๊ณผ์ ์์ด๋, โ์๋ง์ ๋ฌธ๋งฅ์ ์ฒ๋ฆฌํด์ผ ํ๋ ์ธ์ผํฐ๋ธโ ๋๋ฌธ์ ์ ์ ๋ก ๋ณต์กํ ๋ฌธ์ ํด๊ฒฐ๋ ฅ(โEmergent Abilityโ) ํ๋.
(3) ์์ ๋ชจ๋ธ๋ก๋ ๋ถ๊ฐ๋ฅํ์ง๋ง, ์ผ์ ๊ท๋ชจ ๋์ผ๋ฉด(์ฒซ ์๋ฆฌ ์ฐจ์์์ โ์ถฉ๋ถํ ๊ณ์ฐ ์์+๋ฐ์ดํฐ=๊ฐ๋ฅโ) ์๋นํ ์ง์ ๋ฅ๋ ฅ์ด โ๋์ฐโ ์ถํ.
โEmergent Abilityโ์ ์ค์ผ์ผ๋ง: ์ปค์ง๋ ๋ชจ๋ธ์ โ์ฝํโ ๋ชฉํ๋ง ๋์ ธ๋ ๋ณ๋ ๋ฅ๋ ฅ์ด ์๊ธฐ๋ ์ด์
โ์์ ๋ชจ๋ธ ๊ธฐ์คโ์์ ๋ณด๋ฉด, ์ฌ๋์ ๊ทธ ๋ชจ๋ธ ํ๊ณ ์ ํจ ๋ฒ์๋ง ๋ชฉ๊ฒฉํ๊ณ ๋ โ์ ๋๋คโ๊ณ ๊ฒฐ๋ก ๋.
โข ํ์ง๋ง ์ปดํจํ ์์์ด ๋๋ฉด์, ์ ํ ๋ค๋ฅธ ๋ฒ์(scales)์์ ์๊ณ์ ์ ๋์ผ๋ฉด, โ์์ฐ๋ฐ์ ์ถ๋ก ๋ฅ๋ ฅโ ํญ์ฆ.
๋น์ : ๋ฌผ๋ฆฌ ์คํ์ด๋ผ๋ฉด โ๋ช ๋ ํ ๋ฐ๋ ๋ฒ์น์ ์๋ค.โ โ AI๋ โํ๋์จ์ด ์ถ์ โ์ด ๋ฒ์น ์์ฒด๋ฅผ ๋ฐ๊พธ๋ ๊ฒฉ.
๋ฐ๋ผ์ ๋น ๋ฅธ โ๊ด์ฑ ์์ดโ ์ฌ๊ณ ์ ํ(โUnlearning ๊ธฐ์กด ๊ฐ์ โ)์ด ํ์.
์์ผ๋ก์ ๋ฐฉํฅ: โ๋ชจ๋ ๋ฌธ์ ๋ฅผ ์ธ์ผํฐ๋ธ๋ก ์ ์ํ๋ผโ
Next Token Prediction โ ์ผ์ข ์ โ์ฝํ ๋ณด์โ์ผ๋ก ์ธ์ดยท์ถ๋ก ์ง์ ํ์ตํ๋ ๊ฒ์ฒ๋ผ, โ์ ํ ์๋ตโยทโ์ฌ์ค ๊ฒ์ฆโ ๋ฑ ๋ค๋ฅธ ๋ชฉํ๋ค๋ ์ฝํ์ง๋ง ๊ด๋ฒ์ํ๊ฒ ์ค์ ๊ฐ๋ฅ.
โข ๊ฑฐ๋๋ชจ๋ธ ์๋: ๊ณผ๊ฑฐ์ โํ์ต๋น์ฉ์ด ๋๋ฌด ์ปค์โ ๋นํจ์จ์ด ๋ฌธ์ ์์ง๋ง, ์ด์ ๋ ์ปดํจํ ์ด ๋ฌด์ ํ์ ์ผ๋ก ์ฆ๊ฐ ๊ฐ๋ฅ โ ์ด ๋ฐฉ๋ฒ์ด ์คํ๋ ค ํจ์จ์ .
โข ๊ฒฐ๋ก : โ์ ๋ ๊ฒ ๊ฐ์ ๋ณด์ด๋ ๋จ์ ๋ณด์ ๊ตฌ์กฐโ + โ๋ ํฐ ๋ชจ๋ธ/๋ฐ์ดํฐโ = ๋ชจ๋ธ์ด ๋ณธ์ง์ ์ผ๋ก ํจ์ฌ ๊น์ ๊ธฐ์ (์: ์๊ธฐ๋ฐ์, ์ํ, ์น๋ฐ์ถ๋ก ๋ฑ)์ ์ฐพ์ ํ ์์ด ๋จ.
YouTube
MIT EI seminar, Hyung Won Chung from OpenAI. "Don't teach. Incentivize."
I made this talk last year, when I was thinking about a paradigm shift. This delayed posting is timely as we just released o1, which I believe is a new paradigm. It's a good time to zoom out for high level thinking
I titled the talk โDonโt teach. Incentivizeโ.โฆ
I titled the talk โDonโt teach. Incentivizeโ.โฆ
โค1
https://arxiv.org/abs/2501.12599
โPretraining ๋ฐ์ดํฐ ํ๊ณ โ RL ๊ธฐ๋ฐ โ์๋ก์ด ์ถโ์ ์ด์ด๋ณผ ์ ์์๊น?โ
โข ๊ธฐ์กด LLM ํ์ฅ์ฑ: ๋ณดํต โ๋ค์ ํ ํฐ ์์ธกโ(next token prediction)์ผ๋ก ๊ฑฐ๋ ๋ฐ์ดํฐ์ ์ ๋ง์ถฐ ์ฌ์ ํ์ต์ ์งํ.
ํ๊ณ: ํ์ต ๊ฐ๋ฅํ ๋ฐ์ดํฐ๊ฐ ๊ฒฐ๊ตญ ์ ํ๋ ์๋ฐ์ ์์.
โข ๋์(First Principle): โ๋ชจ๋ธ์ด ๋ณด์(reward)์ ํตํด ์ค์ค๋ก ํ์(explore)ํ๋ ์ถโโ์ฆ, RL์ ๋๊ท๋ชจ LLM์ ๋์ ํ๋ฉด, ๋ ์ด์ ์ ์ ๋ฐ์ดํฐ์๋ง ์์กดํ์ง ์์๋ ๋จ.
๋ฌธ์ : ์ง๊ธ๊น์ง RL+LLM ์ฑ๊ณผ๊ฐ ๊ฒฝ์๋ ฅ์ด ๋์ง ์์์.
โKimi k1.5โ๊ฐ ์ด ๋ฌธ์ ํด๊ฒฐ์ ๋ชฉํ: โ๋๊ณ ๊ธด ์ปจํ ์คํธ์์, RL๋ก ์ฆ๊ฐ์ ํ์๊ณผ ์๊ธฐ-์์ ๋ฅ๋ ฅ์ ํ์ตํ๋๋ก ํ์ฌ, ๊ฒฐ๊ณผ์ ์ผ๋ก OpenAI o1 ๋ฑ ์ต์ ๊ฑฐ๋๋ชจ๋ธ๊ณผ ๊ฒฌ์ค ๋งํ ๊ฐ๋ ฅํ Reasoning ๋ชจ๋ธ์ ๋ง๋ค ์ ์๋๊ฐ?โ
โLong Context + Policy Optimization ๊ฐ๋จํ๊ฐ ๊ด๊ฑดโ
Long context scaling
์์ด๋์ด: โ๋ฌธ์ ๋ฅผ ํ ๋, ์ถฉ๋ถํ ๊ธด ๋งฅ๋ฝ(128K ํ ํฐ ๋ฑ)์ ์ฃผ๋ฉด, ๊ฑฐ์ โํ๋๋ ์๊ณ ๋ฆฌ์ฆโ์ฒ๋ผ ๋ชจ๋ธ์ด ์๋ฐ์ ์ผ๋ก ๊ผฌ๋ฆฌ์ ๊ผฌ๋ฆฌ๋ฅผ ๋ฌด๋ ์ถ๋ก ์ ํ ์ ์์ง ์์๊น?โ
๋ฌธ์ : ๊ธธ์ด๊ฐ ๋๋ฌด ๊ธธ๋ฉด RL ๊ณผ์ ์ด ๋นํจ์จ์ ์ด๊ฑฐ๋ โ์ค๋ฒ-์ฝํน(์๋ต์ด ๋๋ฌด ๊ธธ์ด์ง๋ ํ์)โ์ด ๊ฑฑ์ ๋จ. โ ์ด๋ฅผ ์ํ โpartial rolloutโ ๋ฑ ์ ๋ฌธ ์ต์ ํ๊ฐ ํ์.
Simplistic RL framework (๊ฐ๋จํ ์ ์ฑ ์ต์ ํ ๊ธฐ๋ฒ)
๊ธฐ์กด์ MCTS(่ํ ์นด๋ฅด๋ก ํธ๋ฆฌ์์น), Value ํจ์, Process Reward๋ฅผ ์ ์ฐ๊ณ ๋ ์ถฉ๋ถํ ํ์ฅ ๊ฐ๋ฅํจ์ ์๋.
โ์คํ-ํด๋ฆฌ์ ์ํ๋ง + relative entropy ์ ๊ทํโ โ ๊ฑฐ๋ํ LLM์๋ ์ ํฉํ โmirror descentโ ๋ฐฉ์์ ์ฝ๊ฒ ๊ตฌํ.
๊ฐ๋จํ ์ฅ์ : ๋ณต์กํ ๋ณด์กฐ ๋ชจ๋ ์์ด๋ ์ถฉ๋ถํ โ๋ค์ํ ํ์โ๊ณผ โ์ ๋ต๋ฅ โ์ ๋์์ ๋์.
์๋ฃ ๊ตฌ์ฑ, ๋ชจ๋ธ ๊ตฌ์กฐ, ํ์ต ๋ ์ํผ: ์ฌํ ์คํ์์ค์ ๋ค๋ฅธ ์
์ฌ์ ํ์ต(Pretraining)์ ๊ธฐ์กด์ฒ๋ผ ๊ฑฐ๋ ํ ์คํธยท์ฝ๋ยท์ํยท๋น์ (์ด๋ฏธ์ง) ๋ฐ์ดํฐ๋ฅผ ํผํฉ
๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ(์ฌ์ง+๊ธ) ์ ๋ ฅ ์ฒ๋ฆฌ ๊ฐ๋ฅ โ ์ด๋๋ โ๊ธธ์ด ํ์ฅโ๊ณผ โํ์ง ๋์ ํํฐ๋งโ์ด ์ค์
โVanilla SFT(์ง๋ํ์ต)โ ํ, โLong-CoT Supervised Fine-Tuningโ์ ์ถ๊ฐ๋ก ๋์
์ฒซ ๋จ๊ณ์์ ์ผ๋ฐ ๋ชฉ์ SFT๋ก ๊ธฐ์ด ์ฌ์ฉ์ ์๋ต ํํ ํ๋ณด โ ๋ค์ ๋จ๊ณ์์ ๊ธธ๊ณ ์ ๊ตํ ์ฒด์ธ์ค๋ธ์ํธ(CoT)๋ฅผ ๋ฐ์ดํฐ๋ก ๋ง๋ ํ ๋ค์ ํ์ธํ๋.
RL ๋จ๊ณ โ
์๋ก ๋ง๋ RL PromptSet(์์ ๋ ์ง์๋ค)
Long-CoT Warmup(์๋์ด์ง๋ง ์ฌ๋ ์์ค์ผ๋ก ๊น๋ํ๊ณ ๊ธด ์ถ๋ก ๊ฒฝ๋ก ์์๋ฅผ ์ฃผ์ )
์ค์ RL Policy Optimization: off-policy ์ถ๊ฐ ์ํ(+๋ง์ด๋์ค ๋ณด์๋ถ)์ ๋ชจ๋ ์ด์ฉ, โrejection sampling / partial rollout / length penaltyโ ๋ฑ ์ต์ ํ ๊ธฐ๋ฒ ๊ฒฐํฉ.
โ๋ถ๋ถ ๋กค์์(Partial Rollout)โ: ๋๋ฌด ๊ธด ๋ต๋ณ์ ํ ๋ฒ์ ์ ๋ถ ์์ฑํ์ง ์๊ณ ์๊ฒ ๋๋ , ์ค๊ฐ๋จ๊ณ(์ด์ ํ์ต๊ฒฐ๊ณผ) ์ฌํ์ฉ.
ํ์ต ์ค์ผ์ค ํจ์จ์ ๋์ฌ โ๊ธด ํด์ค ์์ฑโ๋ ๊ฐ๋ฅํ๊ฒ ๋ง๋ฆ.
โ๋จ์ํ RL๊ณผ ๋กฑ-์ปจํ ์คํธ๋ง์ผ๋ก๋ ์ต์ฒจ๋จ ์์ค ๋ฌ์ฑโ
Kimi k1.5 Long-CoT
์ํ(MATH 500) 96.2 / AIME 77.5 ๋ฑ, OpenAI o1๊ณผ ๋๋ฑ.
LiveCodeBench, Codeforces ๋ฑ ์ฝ๋ฉ ๊ฒฝ์ ์งํ๋ ์ฐ์.
๋น์ (MathVista, MMMU) ํฌํจํด ๋ฉํฐ๋ชจ๋ฌ reasoning ์ฑ๋ฅ STOA ๊ธฐ๋ก.
Kimi k1.5 Short-CoT
Long-CoT ๋ชจ๋ธ์ด ๋๋ฌด ํ ํฐ ๋ง์ด ์ฐ๋ ๋ฌธ์ (โ์ค๋ฒ์ฝํนโ) โ โLong2Shortโ ๊ธฐ๋ฒ(๋ชจ๋ธ ์์ถ, DPO, ์งง์ ์๋ต ์ ๋ณ ๋ฑ)์ผ๋ก ์งง์ CoT๋ง์ผ๋ก๋ ๊ธฐ์กด GPT-4o/Claude3.5๋ณด๋ค ํจ์ฌ ์ข์ ๊ฒฐ๊ณผ.
AIME 2024์ Pass@1์ด 60.8 ๋ฑ ๊ด๋ชฉํ ๋งํ ํฅ์.
โRL+LongCont = ๋ ๋ค๋ฅธ ์ฌ๋กํ ์ด๋ ธ๋ค, ๊ณ์ ํ์ฅ ๊ฐ๋ฅโ
โ์ ์ ๋ฐ์ดํฐ ์์ง์ด ์๋๋ผ, ๋ชจ๋ธ์ด ์์ฒด์ ์ผ๋ก ๋ณด์์ ํตํด explorationํ๋ ์ถ์ด ์๋กญ๊ฒ ์ด๋ฆผ โ ๋ฐ์ดํฐ ํ๊ณ๋ฅผ ๋์ ์ ์๋ค.โ
โข ๋์ ํด๊ฒฐ: ๋๋ฌด ๊ธธ๊ณ ๋ณต์กํ rollouts ์ฒ๋ฆฌ ์ํด โpartial rollout / length penalty / simplistic mirror descentโ ๋ฑ ํตํฉ.
โข ์คํ ์ฆ๋ช : ์ฌํ ๋ณต์กํ(๊ฐ๋ น Monte Carlo tree search, Value function) ์์ด๋ simple RL ์ฒด๊ณ์ ๊ธธ์ด์ง ์ปจํ ์คํธ๋ง์ผ๋ก o1๊ธ ์ฑ๋ฅ ๋ฌ์ฑ ๊ฐ๋ฅ.
โข ๋ฉํฐ๋ชจ๋ฌ ๋ถ์ผ์์๋ ์ ์ฉ ๊ฐ๋ฅ: ์๊ฐ+ํ ์คํธ ์ตํฉ๋ ๋๊ท๋ชจ RL์ด, ๊ธฐ์กด LLM ํ๊ณ๋ฅผ ๋์ด ์๋ก์ด Reasoning ํจ๋ฌ๋ค์ ์๋.
๋ฐ์ดํฐ:
์ธ์ด(ํ ์คํธ) ๋ฐ์ดํฐ
์์ดโง์ค๊ตญ์ด ํ ์คํธ, ์ฝ๋, ์ํ/์ถ๋ก , ์ง์(ํ์ ์๋ฃ ๋ฑ)์ ํฌํจํ 5๊ฐ์ง ์์ญ์ ์ค์ ์ ์ผ๋ก ๋ค๋ฃน๋๋ค.
์ค๋ณต ๋ฌธ์๋ฅผ ์ ๊ฑฐํ๊ณ (with ์๋ฒ ๋ฉ ์ ์ฌ๋ ๋ถ์), ๊ธ์ ๊นจ์ง, ํ์ ์ค๋ฅ, ์คํธ์ฑ ํ ์คํธ ๋ฑ์ ๊ฑธ๋ฌ๋ด๋ ๊ท์น ๊ธฐ๋ฐ ํํฐ๋ง ๊ณผ์ ์ ๊ฑฐ์นฉ๋๋ค.
FastText, LLM ๊ธฐ๋ฐ ์ค์ฝ์ด๋ง ๋ฑ์ ์ํํด, ๊ฐ ๋ฌธ์์ ์ธ์ด์ ํ์ง๊ณผ ์ฃผ์ ์ ํฉ๋๋ฅผ ํ๊ฐํ ๋ค, ์ค์ํ ๋ฌธ์๋ฅผ ์ ์ํ๋ง(up-sampling), ๋ฎ์ ํ์ง ๋ฌธ์๋ฅผ ๋ค์ด์ํ๋ง(down-sampling) ํฉ๋๋ค.
์ฝ๋ ๋ฐ์ดํฐ
๋ค์ํ ๊ณต๊ฐ ์ ์ฅ์(์: Git ๋ฆฌํฌ์งํ ๋ฆฌ)์์ ์ถ์ถํ ์์ค์ฝ๋๋ฅผ ์ ์ ํด ์ฌ์ฉํฉ๋๋ค.
JSON, YAML ๋ฑ ๋งํฌ์ ์ธ์ด๋ ๋น์ค์ ์ค์ด๊ณ , PythonยทC++ยทJava ๋ฑ ๋ํ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด๋ฅผ ๊ณจ๊ณ ๋ฃจ ํฌํจํ๋๋ก ์กฐ์ ํฉ๋๋ค.
์ํยท์ถ๋ก ๋ฐ์ดํฐ
์ํ ๋ ผ๋ฌธยทํ์ ์๋ฃยท์ํ ๋ฌธ์ (์: ๋ํ ๋ฌธ์ ) ๋ฑ์ ์์งํ๊ณ , ์์, ํน์๊ธฐํธ ๋ฑ์ด ์ ํํ ์ธ์๋๋๋ก ๋ง์ถคํ OCR ๋ชจ๋ธ์ ์ถ๊ฐ ์ ์ฉํ์ต๋๋ค.
๋ ๋จ๊ณ ํํฐ๋ง์ ๊ฑฐ์ณ(1) ๊ฐ๋จํ FastText ๋ถ๋ฅ๊ธฐ๋ก ๋๋ต ๋ถํ์ ๋ฌธ์ ์ ๊ฑฐ, (2) ์ ์ ๋ LLM์ผ๋ก ์ธ๋ถ ํ์ง ๊ฒ์ฌ), ๋์ด๋ ๋๊ณ ์๋ฏธ ์๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ์ต๋๋ค.
๋ฉํฐ๋ชจ๋ฌ(์ด๋ฏธ์ง+ํ ์คํธ) ๋ฐ์ดํฐ
์บก์ (caption) ๋ฐ์ดํฐ(์ด๋ฏธ์ง ๊ธฐ์ ), ์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ์์ธ(interleaving) ๋ฐ์ดํฐ, OCR(๊ธ์ ์์ญ์ด ํฌํจ๋ ์ด๋ฏธ์ง) ๋ฐ์ดํฐ, ์๊ฐโง์ง์ ๊ด๋ จ ์๋ฃ ๋ฑ์ ํญ๋๊ฒ ์์งํ์ต๋๋ค.
ํ์ํ ๊ฒฝ์ฐ, ์ด๋ฏธ์ง๋ ์ฐจํธยท์์ ์ด๋ฏธ์ง ๋ฑ์ OCR ๋ชจ๋ธ๋ก ๋ค์ ์ถ์ถํด ํ ์คํธ ํํ๋ ํจ๊ป ํ์ตํ๋๋ก ํ์ต๋๋ค.
์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ๊ธด ๋งฅ๋ฝ์์ ์๋ก ๊ต์ฐจ ์ฐ๊ฒฐ๋๋(interleaved) ์์๋ค์ ์ถฉ๋ถํ ํฌํจํ์ฌ, ๊ธด ์๊ฐ์ ๋ฌธ๋งฅ์ ์ฒ๋ฆฌํ๋ ๋๊ท๋ชจ ํ์ต์ ์ํํ์ต๋๋ค.
ํ์ต ๋ฐฉ์
Kimi k1.5๋ ํฌ๊ฒ ๋ค์ ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ ํ์ตํ๋ฉฐ, ์ต์ข ์ ์ผ๋ก โ๋ฉํฐ๋ชจ๋ฌ RL(๊ฐํํ์ต)โ ๊ธฐ๋ฐ์ ๋กฑ ์ฒด์ธ์ค๋ธ์๋(long-CoT) ๊ธฐ๋ฒ์ ๋์ ํด ๋ชจ๋ธ ์ถ๋ก ๋ฅ๋ ฅ์ ํ์ฅ์์ผฐ์ต๋๋ค.
1/ ๊ธฐ๋ณธ ์ฌ์ ํ์ต(Pretraining)
์์ ๊ตฌ์ถ๋ ๋๊ท๋ชจ ํ ์คํธยท์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ผ๋ก ์ธ์ด๋ชจ๋ธ(๋์ฝ๋ Transformer) ๊ธฐ๋ฐ์ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ํ๋ จํฉ๋๋ค.
(1) ํ ์คํธ ์ค์ฌ ํ์ต โ (2) ์๊ฐยท์ธ์ด ์ตํฉ(vision-language) โ (3) ๊ธด ๋งฅ๋ฝ ์ฒ๋ฆฌ ๋ฅ๋ ฅ ํ์ฑํ(์ต๋ 128k ํ ํฐ) ์์ผ๋ก ์ ์ง์ ์ผ๋ก ์ํํฉ๋๋ค.
์ด๋ RoPE(๊ฐ๊ฐ์ ์์น ์๋ฒ ๋ฉ์ ํฌ๊ฒ ํ์ฅํ๋) ๊ธฐ๋ฒ, ๋ฉํฐ๋ชจ๋ฌ ์ฒ๋ฆฌ๋ฅผ ์ํ ๋ณ๋ ๋น์ ํ์(freezing & unfreezing), 32kโ128k ํ ํฐ์ผ๋ก ์ ์ง์ ๋งฅ๋ฝ ๊ธธ์ด ํ์ฅ ๋ฑ์ด ํ์ฉ๋ฉ๋๋ค.
2/ ์ํผ๋ฐ์ด์ฆ๋ ํ์ธํ๋(SFT) ๋ฐ ๋กฑ-CoT ์ฌ์ ํ์ต
์ ํ๋ ๊ณ ํ์ง ๋ฌธ์ โง๋ฌธ๋ต์ ๋ฑ์ ๋ํด ๋ชจ๋ธ ์ถ๋ ฅ์ ๋ฐ์, ์ฌ๋์ด ์ง์ ํ๊ฐํ๊ฑฐ๋(์คํํ QA) ๋ฃฐ๋ฒ ์ด์คยทํ ์คํธ์ผ์ด์ค๋ก ์๋ ๊ฒ์ฆํ๋(์ฝ๋ยท์ํ ๋ฌธ์ ) โ๊ฑฐ๋ถ ์ํ๋ง(rejection sampling)โ์ผ๋ก ์ ๋ต๋ฅ ๋์ ์์๋ฅผ ํ๋ณดํฉ๋๋ค.
์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ชจ๋ธ์ ์ถ๊ฐ ๋ฏธ์ธ์กฐ์ ํ ๋ค, ํนํ โ๊ธธ๊ณ ์์ธํ ๋จ๊ณ์ ์ถ๋ก โ(Long-CoT)์ ๋ฐ๋ก ํ์ต์์ผ ์ค๊ฐ ์ฌ๊ณ ๊ณผ์ (PlanningยทReflectionยทBacktracking ๋ฑ)์ ์ ํํํ๋๋ก ๋ง๋ญ๋๋ค.
3/๊ฐํํ์ต(RL) ๋จ๊ณ
โPretraining ๋ฐ์ดํฐ ํ๊ณ โ RL ๊ธฐ๋ฐ โ์๋ก์ด ์ถโ์ ์ด์ด๋ณผ ์ ์์๊น?โ
โข ๊ธฐ์กด LLM ํ์ฅ์ฑ: ๋ณดํต โ๋ค์ ํ ํฐ ์์ธกโ(next token prediction)์ผ๋ก ๊ฑฐ๋ ๋ฐ์ดํฐ์ ์ ๋ง์ถฐ ์ฌ์ ํ์ต์ ์งํ.
ํ๊ณ: ํ์ต ๊ฐ๋ฅํ ๋ฐ์ดํฐ๊ฐ ๊ฒฐ๊ตญ ์ ํ๋ ์๋ฐ์ ์์.
โข ๋์(First Principle): โ๋ชจ๋ธ์ด ๋ณด์(reward)์ ํตํด ์ค์ค๋ก ํ์(explore)ํ๋ ์ถโโ์ฆ, RL์ ๋๊ท๋ชจ LLM์ ๋์ ํ๋ฉด, ๋ ์ด์ ์ ์ ๋ฐ์ดํฐ์๋ง ์์กดํ์ง ์์๋ ๋จ.
๋ฌธ์ : ์ง๊ธ๊น์ง RL+LLM ์ฑ๊ณผ๊ฐ ๊ฒฝ์๋ ฅ์ด ๋์ง ์์์.
โKimi k1.5โ๊ฐ ์ด ๋ฌธ์ ํด๊ฒฐ์ ๋ชฉํ: โ๋๊ณ ๊ธด ์ปจํ ์คํธ์์, RL๋ก ์ฆ๊ฐ์ ํ์๊ณผ ์๊ธฐ-์์ ๋ฅ๋ ฅ์ ํ์ตํ๋๋ก ํ์ฌ, ๊ฒฐ๊ณผ์ ์ผ๋ก OpenAI o1 ๋ฑ ์ต์ ๊ฑฐ๋๋ชจ๋ธ๊ณผ ๊ฒฌ์ค ๋งํ ๊ฐ๋ ฅํ Reasoning ๋ชจ๋ธ์ ๋ง๋ค ์ ์๋๊ฐ?โ
โLong Context + Policy Optimization ๊ฐ๋จํ๊ฐ ๊ด๊ฑดโ
Long context scaling
์์ด๋์ด: โ๋ฌธ์ ๋ฅผ ํ ๋, ์ถฉ๋ถํ ๊ธด ๋งฅ๋ฝ(128K ํ ํฐ ๋ฑ)์ ์ฃผ๋ฉด, ๊ฑฐ์ โํ๋๋ ์๊ณ ๋ฆฌ์ฆโ์ฒ๋ผ ๋ชจ๋ธ์ด ์๋ฐ์ ์ผ๋ก ๊ผฌ๋ฆฌ์ ๊ผฌ๋ฆฌ๋ฅผ ๋ฌด๋ ์ถ๋ก ์ ํ ์ ์์ง ์์๊น?โ
๋ฌธ์ : ๊ธธ์ด๊ฐ ๋๋ฌด ๊ธธ๋ฉด RL ๊ณผ์ ์ด ๋นํจ์จ์ ์ด๊ฑฐ๋ โ์ค๋ฒ-์ฝํน(์๋ต์ด ๋๋ฌด ๊ธธ์ด์ง๋ ํ์)โ์ด ๊ฑฑ์ ๋จ. โ ์ด๋ฅผ ์ํ โpartial rolloutโ ๋ฑ ์ ๋ฌธ ์ต์ ํ๊ฐ ํ์.
Simplistic RL framework (๊ฐ๋จํ ์ ์ฑ ์ต์ ํ ๊ธฐ๋ฒ)
๊ธฐ์กด์ MCTS(่ํ ์นด๋ฅด๋ก ํธ๋ฆฌ์์น), Value ํจ์, Process Reward๋ฅผ ์ ์ฐ๊ณ ๋ ์ถฉ๋ถํ ํ์ฅ ๊ฐ๋ฅํจ์ ์๋.
โ์คํ-ํด๋ฆฌ์ ์ํ๋ง + relative entropy ์ ๊ทํโ โ ๊ฑฐ๋ํ LLM์๋ ์ ํฉํ โmirror descentโ ๋ฐฉ์์ ์ฝ๊ฒ ๊ตฌํ.
๊ฐ๋จํ ์ฅ์ : ๋ณต์กํ ๋ณด์กฐ ๋ชจ๋ ์์ด๋ ์ถฉ๋ถํ โ๋ค์ํ ํ์โ๊ณผ โ์ ๋ต๋ฅ โ์ ๋์์ ๋์.
์๋ฃ ๊ตฌ์ฑ, ๋ชจ๋ธ ๊ตฌ์กฐ, ํ์ต ๋ ์ํผ: ์ฌํ ์คํ์์ค์ ๋ค๋ฅธ ์
์ฌ์ ํ์ต(Pretraining)์ ๊ธฐ์กด์ฒ๋ผ ๊ฑฐ๋ ํ ์คํธยท์ฝ๋ยท์ํยท๋น์ (์ด๋ฏธ์ง) ๋ฐ์ดํฐ๋ฅผ ํผํฉ
๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ(์ฌ์ง+๊ธ) ์ ๋ ฅ ์ฒ๋ฆฌ ๊ฐ๋ฅ โ ์ด๋๋ โ๊ธธ์ด ํ์ฅโ๊ณผ โํ์ง ๋์ ํํฐ๋งโ์ด ์ค์
โVanilla SFT(์ง๋ํ์ต)โ ํ, โLong-CoT Supervised Fine-Tuningโ์ ์ถ๊ฐ๋ก ๋์
์ฒซ ๋จ๊ณ์์ ์ผ๋ฐ ๋ชฉ์ SFT๋ก ๊ธฐ์ด ์ฌ์ฉ์ ์๋ต ํํ ํ๋ณด โ ๋ค์ ๋จ๊ณ์์ ๊ธธ๊ณ ์ ๊ตํ ์ฒด์ธ์ค๋ธ์ํธ(CoT)๋ฅผ ๋ฐ์ดํฐ๋ก ๋ง๋ ํ ๋ค์ ํ์ธํ๋.
RL ๋จ๊ณ โ
์๋ก ๋ง๋ RL PromptSet(์์ ๋ ์ง์๋ค)
Long-CoT Warmup(์๋์ด์ง๋ง ์ฌ๋ ์์ค์ผ๋ก ๊น๋ํ๊ณ ๊ธด ์ถ๋ก ๊ฒฝ๋ก ์์๋ฅผ ์ฃผ์ )
์ค์ RL Policy Optimization: off-policy ์ถ๊ฐ ์ํ(+๋ง์ด๋์ค ๋ณด์๋ถ)์ ๋ชจ๋ ์ด์ฉ, โrejection sampling / partial rollout / length penaltyโ ๋ฑ ์ต์ ํ ๊ธฐ๋ฒ ๊ฒฐํฉ.
โ๋ถ๋ถ ๋กค์์(Partial Rollout)โ: ๋๋ฌด ๊ธด ๋ต๋ณ์ ํ ๋ฒ์ ์ ๋ถ ์์ฑํ์ง ์๊ณ ์๊ฒ ๋๋ , ์ค๊ฐ๋จ๊ณ(์ด์ ํ์ต๊ฒฐ๊ณผ) ์ฌํ์ฉ.
ํ์ต ์ค์ผ์ค ํจ์จ์ ๋์ฌ โ๊ธด ํด์ค ์์ฑโ๋ ๊ฐ๋ฅํ๊ฒ ๋ง๋ฆ.
โ๋จ์ํ RL๊ณผ ๋กฑ-์ปจํ ์คํธ๋ง์ผ๋ก๋ ์ต์ฒจ๋จ ์์ค ๋ฌ์ฑโ
Kimi k1.5 Long-CoT
์ํ(MATH 500) 96.2 / AIME 77.5 ๋ฑ, OpenAI o1๊ณผ ๋๋ฑ.
LiveCodeBench, Codeforces ๋ฑ ์ฝ๋ฉ ๊ฒฝ์ ์งํ๋ ์ฐ์.
๋น์ (MathVista, MMMU) ํฌํจํด ๋ฉํฐ๋ชจ๋ฌ reasoning ์ฑ๋ฅ STOA ๊ธฐ๋ก.
Kimi k1.5 Short-CoT
Long-CoT ๋ชจ๋ธ์ด ๋๋ฌด ํ ํฐ ๋ง์ด ์ฐ๋ ๋ฌธ์ (โ์ค๋ฒ์ฝํนโ) โ โLong2Shortโ ๊ธฐ๋ฒ(๋ชจ๋ธ ์์ถ, DPO, ์งง์ ์๋ต ์ ๋ณ ๋ฑ)์ผ๋ก ์งง์ CoT๋ง์ผ๋ก๋ ๊ธฐ์กด GPT-4o/Claude3.5๋ณด๋ค ํจ์ฌ ์ข์ ๊ฒฐ๊ณผ.
AIME 2024์ Pass@1์ด 60.8 ๋ฑ ๊ด๋ชฉํ ๋งํ ํฅ์.
โRL+LongCont = ๋ ๋ค๋ฅธ ์ฌ๋กํ ์ด๋ ธ๋ค, ๊ณ์ ํ์ฅ ๊ฐ๋ฅโ
โ์ ์ ๋ฐ์ดํฐ ์์ง์ด ์๋๋ผ, ๋ชจ๋ธ์ด ์์ฒด์ ์ผ๋ก ๋ณด์์ ํตํด explorationํ๋ ์ถ์ด ์๋กญ๊ฒ ์ด๋ฆผ โ ๋ฐ์ดํฐ ํ๊ณ๋ฅผ ๋์ ์ ์๋ค.โ
โข ๋์ ํด๊ฒฐ: ๋๋ฌด ๊ธธ๊ณ ๋ณต์กํ rollouts ์ฒ๋ฆฌ ์ํด โpartial rollout / length penalty / simplistic mirror descentโ ๋ฑ ํตํฉ.
โข ์คํ ์ฆ๋ช : ์ฌํ ๋ณต์กํ(๊ฐ๋ น Monte Carlo tree search, Value function) ์์ด๋ simple RL ์ฒด๊ณ์ ๊ธธ์ด์ง ์ปจํ ์คํธ๋ง์ผ๋ก o1๊ธ ์ฑ๋ฅ ๋ฌ์ฑ ๊ฐ๋ฅ.
โข ๋ฉํฐ๋ชจ๋ฌ ๋ถ์ผ์์๋ ์ ์ฉ ๊ฐ๋ฅ: ์๊ฐ+ํ ์คํธ ์ตํฉ๋ ๋๊ท๋ชจ RL์ด, ๊ธฐ์กด LLM ํ๊ณ๋ฅผ ๋์ด ์๋ก์ด Reasoning ํจ๋ฌ๋ค์ ์๋.
๋ฐ์ดํฐ:
์ธ์ด(ํ ์คํธ) ๋ฐ์ดํฐ
์์ดโง์ค๊ตญ์ด ํ ์คํธ, ์ฝ๋, ์ํ/์ถ๋ก , ์ง์(ํ์ ์๋ฃ ๋ฑ)์ ํฌํจํ 5๊ฐ์ง ์์ญ์ ์ค์ ์ ์ผ๋ก ๋ค๋ฃน๋๋ค.
์ค๋ณต ๋ฌธ์๋ฅผ ์ ๊ฑฐํ๊ณ (with ์๋ฒ ๋ฉ ์ ์ฌ๋ ๋ถ์), ๊ธ์ ๊นจ์ง, ํ์ ์ค๋ฅ, ์คํธ์ฑ ํ ์คํธ ๋ฑ์ ๊ฑธ๋ฌ๋ด๋ ๊ท์น ๊ธฐ๋ฐ ํํฐ๋ง ๊ณผ์ ์ ๊ฑฐ์นฉ๋๋ค.
FastText, LLM ๊ธฐ๋ฐ ์ค์ฝ์ด๋ง ๋ฑ์ ์ํํด, ๊ฐ ๋ฌธ์์ ์ธ์ด์ ํ์ง๊ณผ ์ฃผ์ ์ ํฉ๋๋ฅผ ํ๊ฐํ ๋ค, ์ค์ํ ๋ฌธ์๋ฅผ ์ ์ํ๋ง(up-sampling), ๋ฎ์ ํ์ง ๋ฌธ์๋ฅผ ๋ค์ด์ํ๋ง(down-sampling) ํฉ๋๋ค.
์ฝ๋ ๋ฐ์ดํฐ
๋ค์ํ ๊ณต๊ฐ ์ ์ฅ์(์: Git ๋ฆฌํฌ์งํ ๋ฆฌ)์์ ์ถ์ถํ ์์ค์ฝ๋๋ฅผ ์ ์ ํด ์ฌ์ฉํฉ๋๋ค.
JSON, YAML ๋ฑ ๋งํฌ์ ์ธ์ด๋ ๋น์ค์ ์ค์ด๊ณ , PythonยทC++ยทJava ๋ฑ ๋ํ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด๋ฅผ ๊ณจ๊ณ ๋ฃจ ํฌํจํ๋๋ก ์กฐ์ ํฉ๋๋ค.
์ํยท์ถ๋ก ๋ฐ์ดํฐ
์ํ ๋ ผ๋ฌธยทํ์ ์๋ฃยท์ํ ๋ฌธ์ (์: ๋ํ ๋ฌธ์ ) ๋ฑ์ ์์งํ๊ณ , ์์, ํน์๊ธฐํธ ๋ฑ์ด ์ ํํ ์ธ์๋๋๋ก ๋ง์ถคํ OCR ๋ชจ๋ธ์ ์ถ๊ฐ ์ ์ฉํ์ต๋๋ค.
๋ ๋จ๊ณ ํํฐ๋ง์ ๊ฑฐ์ณ(1) ๊ฐ๋จํ FastText ๋ถ๋ฅ๊ธฐ๋ก ๋๋ต ๋ถํ์ ๋ฌธ์ ์ ๊ฑฐ, (2) ์ ์ ๋ LLM์ผ๋ก ์ธ๋ถ ํ์ง ๊ฒ์ฌ), ๋์ด๋ ๋๊ณ ์๋ฏธ ์๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ์ต๋๋ค.
๋ฉํฐ๋ชจ๋ฌ(์ด๋ฏธ์ง+ํ ์คํธ) ๋ฐ์ดํฐ
์บก์ (caption) ๋ฐ์ดํฐ(์ด๋ฏธ์ง ๊ธฐ์ ), ์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ์์ธ(interleaving) ๋ฐ์ดํฐ, OCR(๊ธ์ ์์ญ์ด ํฌํจ๋ ์ด๋ฏธ์ง) ๋ฐ์ดํฐ, ์๊ฐโง์ง์ ๊ด๋ จ ์๋ฃ ๋ฑ์ ํญ๋๊ฒ ์์งํ์ต๋๋ค.
ํ์ํ ๊ฒฝ์ฐ, ์ด๋ฏธ์ง๋ ์ฐจํธยท์์ ์ด๋ฏธ์ง ๋ฑ์ OCR ๋ชจ๋ธ๋ก ๋ค์ ์ถ์ถํด ํ ์คํธ ํํ๋ ํจ๊ป ํ์ตํ๋๋ก ํ์ต๋๋ค.
์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ๊ธด ๋งฅ๋ฝ์์ ์๋ก ๊ต์ฐจ ์ฐ๊ฒฐ๋๋(interleaved) ์์๋ค์ ์ถฉ๋ถํ ํฌํจํ์ฌ, ๊ธด ์๊ฐ์ ๋ฌธ๋งฅ์ ์ฒ๋ฆฌํ๋ ๋๊ท๋ชจ ํ์ต์ ์ํํ์ต๋๋ค.
ํ์ต ๋ฐฉ์
Kimi k1.5๋ ํฌ๊ฒ ๋ค์ ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ ํ์ตํ๋ฉฐ, ์ต์ข ์ ์ผ๋ก โ๋ฉํฐ๋ชจ๋ฌ RL(๊ฐํํ์ต)โ ๊ธฐ๋ฐ์ ๋กฑ ์ฒด์ธ์ค๋ธ์๋(long-CoT) ๊ธฐ๋ฒ์ ๋์ ํด ๋ชจ๋ธ ์ถ๋ก ๋ฅ๋ ฅ์ ํ์ฅ์์ผฐ์ต๋๋ค.
1/ ๊ธฐ๋ณธ ์ฌ์ ํ์ต(Pretraining)
์์ ๊ตฌ์ถ๋ ๋๊ท๋ชจ ํ ์คํธยท์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ผ๋ก ์ธ์ด๋ชจ๋ธ(๋์ฝ๋ Transformer) ๊ธฐ๋ฐ์ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ํ๋ จํฉ๋๋ค.
(1) ํ ์คํธ ์ค์ฌ ํ์ต โ (2) ์๊ฐยท์ธ์ด ์ตํฉ(vision-language) โ (3) ๊ธด ๋งฅ๋ฝ ์ฒ๋ฆฌ ๋ฅ๋ ฅ ํ์ฑํ(์ต๋ 128k ํ ํฐ) ์์ผ๋ก ์ ์ง์ ์ผ๋ก ์ํํฉ๋๋ค.
์ด๋ RoPE(๊ฐ๊ฐ์ ์์น ์๋ฒ ๋ฉ์ ํฌ๊ฒ ํ์ฅํ๋) ๊ธฐ๋ฒ, ๋ฉํฐ๋ชจ๋ฌ ์ฒ๋ฆฌ๋ฅผ ์ํ ๋ณ๋ ๋น์ ํ์(freezing & unfreezing), 32kโ128k ํ ํฐ์ผ๋ก ์ ์ง์ ๋งฅ๋ฝ ๊ธธ์ด ํ์ฅ ๋ฑ์ด ํ์ฉ๋ฉ๋๋ค.
2/ ์ํผ๋ฐ์ด์ฆ๋ ํ์ธํ๋(SFT) ๋ฐ ๋กฑ-CoT ์ฌ์ ํ์ต
์ ํ๋ ๊ณ ํ์ง ๋ฌธ์ โง๋ฌธ๋ต์ ๋ฑ์ ๋ํด ๋ชจ๋ธ ์ถ๋ ฅ์ ๋ฐ์, ์ฌ๋์ด ์ง์ ํ๊ฐํ๊ฑฐ๋(์คํํ QA) ๋ฃฐ๋ฒ ์ด์คยทํ ์คํธ์ผ์ด์ค๋ก ์๋ ๊ฒ์ฆํ๋(์ฝ๋ยท์ํ ๋ฌธ์ ) โ๊ฑฐ๋ถ ์ํ๋ง(rejection sampling)โ์ผ๋ก ์ ๋ต๋ฅ ๋์ ์์๋ฅผ ํ๋ณดํฉ๋๋ค.
์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ชจ๋ธ์ ์ถ๊ฐ ๋ฏธ์ธ์กฐ์ ํ ๋ค, ํนํ โ๊ธธ๊ณ ์์ธํ ๋จ๊ณ์ ์ถ๋ก โ(Long-CoT)์ ๋ฐ๋ก ํ์ต์์ผ ์ค๊ฐ ์ฌ๊ณ ๊ณผ์ (PlanningยทReflectionยทBacktracking ๋ฑ)์ ์ ํํํ๋๋ก ๋ง๋ญ๋๋ค.
3/๊ฐํํ์ต(RL) ๋จ๊ณ
arXiv.org
Kimi k1.5: Scaling Reinforcement Learning with LLMs
Language model pretraining with next token prediction has proved effective for scaling compute but is limited to the amount of available training data. Scaling reinforcement learning (RL) unlocks...
โค1
์ค์ RL ํ๋ จ์์, (๋ฌธ์ ยท๋ต๋ณ) ์์ ๋ํ ๋ณด์ ํจ์๋ฅผ ์ ์ํด(์ฝ๋: ํ
์คํธ์ผ์ด์ค ํต๊ณผ ์ฌ๋ถ, ์ํ: ์ ๋ต๊ฒ์ฆ ๋ชจ๋ธ ๋ฑ) ๋ชจ๋ธ์ด ๋ต์ ์์ฑํ๋ฉด ๊ทธ ์ฑ๋ฅ์ ์ฆ์ ๋ณด์์ผ๋ก ํ์ฐํฉ๋๋ค.
์คํ์๊ฐ ์๋ ์ค๊ฐ ๋จ๊ณ๋ผ๋, ์ต์ข ์ ์ผ๋ก ๋ต์ ๋ง์ถ๋ฉด ํจ๋ํฐ ๋์ ํ์ต์ ํ์ํ ๋ค์ํ โ์๋ ๊ณผ์ โ์ ๊ฐ์ ธ๊ฐ๋ ์์ผ๋ก ์ค๊ณํด, ๋ชจ๋ธ์ด ์ฌ๋ฌ ๊ฒฝ๋ก๋ฅผ ์คํํ๊ณ ์ ์ฐจ ๊ฐ์ ํ๋๋ก ์ฅ๋ คํฉ๋๋ค.
์ ์ฑ ์ต์ ํ๋ ๊ธฐ์กด โ์จ๋ผ์ธ ๋ฏธ๋ฌ ๋์ผํธ(online mirror descent)โ ๋ณํ ๋ฐฉ์์ ์ฐ๋, ์คํํด๋ฆฌ์(off-policy) ์ํ๋ง, ๊ธธ์ด ํจ๋ํฐ(length penalty), ์ปค๋ฆฌํ๋ผ ์ํ๋ง(์ฌ์ด ๋ฌธ์ โ์ด๋ ค์ด ๋ฌธ์ ์) ๋ฑ์ ๋์ ํด ํจ์จ์ ๋์์ต๋๋ค.
ํนํ ๋กฑ-CoT ๊ฐํํ์ต ์, ๋งฅ๋ฝ ๊ธธ์ด๊ฐ ๋งค์ฐ ๊ธธ์ด์ง๋ฏ๋ก โPartial Rollout(๋ถ๋ถ ๋กค์์)โ์ด๋ผ๋ ๋ฐฉ์์ ์จ์ ์ด์ ์ ์์ฑํ ๊ธด ํ ํฐ ์ํ์ค ์ค ์ฌํ์ฉ ๊ฐ๋ฅํ ๊ตฌ๊ฐ์ ๋นผ๋ด ์ฌ์ํ๋งํ๋ ์์ผ๋ก ์์คํ ์์์ ์ ์ฝํฉ๋๋ค.
4/Long2short ๊ธฐ๋ฒ(ํ ํฐ ํจ์จํ)
์ต์ข ์ ์ผ๋ก ์๋ง์ ๊ธธ์ด(Short-CoT)๋ก๋ ๋์ ์ ํ๋๋ฅผ ์ ์งํ๋๋ก, โlong-CoT๋ก ํ์ต๋ ๋ฒ ์ด์ค ๋ชจ๋ธโ์ ๋ค์ โ์งง์ ์ถ๋ก ์ฉโ์ผ๋ก ์์ถ ์ ๋ จํ๋ ๋จ๊ณ์ ๋๋ค.
๊ธธ์ด ํ๋ํฐ์ ๋ชจ๋ธ ๋ณํฉ(merge), DPO, Rejection Sampling ๋ฑ์ ๋ณํํ์ฌ, ๊ฐ๋ฅํ ํ ๊ฐ๊ฒฐํ ํ ํฐ ์ฌ์ฉ์ผ๋ก๋ ๋์ ์ ๋ต๋ฅ ์ ๋ด๋ ค ํฉ๋๋ค.
์คํ์๊ฐ ์๋ ์ค๊ฐ ๋จ๊ณ๋ผ๋, ์ต์ข ์ ์ผ๋ก ๋ต์ ๋ง์ถ๋ฉด ํจ๋ํฐ ๋์ ํ์ต์ ํ์ํ ๋ค์ํ โ์๋ ๊ณผ์ โ์ ๊ฐ์ ธ๊ฐ๋ ์์ผ๋ก ์ค๊ณํด, ๋ชจ๋ธ์ด ์ฌ๋ฌ ๊ฒฝ๋ก๋ฅผ ์คํํ๊ณ ์ ์ฐจ ๊ฐ์ ํ๋๋ก ์ฅ๋ คํฉ๋๋ค.
์ ์ฑ ์ต์ ํ๋ ๊ธฐ์กด โ์จ๋ผ์ธ ๋ฏธ๋ฌ ๋์ผํธ(online mirror descent)โ ๋ณํ ๋ฐฉ์์ ์ฐ๋, ์คํํด๋ฆฌ์(off-policy) ์ํ๋ง, ๊ธธ์ด ํจ๋ํฐ(length penalty), ์ปค๋ฆฌํ๋ผ ์ํ๋ง(์ฌ์ด ๋ฌธ์ โ์ด๋ ค์ด ๋ฌธ์ ์) ๋ฑ์ ๋์ ํด ํจ์จ์ ๋์์ต๋๋ค.
ํนํ ๋กฑ-CoT ๊ฐํํ์ต ์, ๋งฅ๋ฝ ๊ธธ์ด๊ฐ ๋งค์ฐ ๊ธธ์ด์ง๋ฏ๋ก โPartial Rollout(๋ถ๋ถ ๋กค์์)โ์ด๋ผ๋ ๋ฐฉ์์ ์จ์ ์ด์ ์ ์์ฑํ ๊ธด ํ ํฐ ์ํ์ค ์ค ์ฌํ์ฉ ๊ฐ๋ฅํ ๊ตฌ๊ฐ์ ๋นผ๋ด ์ฌ์ํ๋งํ๋ ์์ผ๋ก ์์คํ ์์์ ์ ์ฝํฉ๋๋ค.
4/Long2short ๊ธฐ๋ฒ(ํ ํฐ ํจ์จํ)
์ต์ข ์ ์ผ๋ก ์๋ง์ ๊ธธ์ด(Short-CoT)๋ก๋ ๋์ ์ ํ๋๋ฅผ ์ ์งํ๋๋ก, โlong-CoT๋ก ํ์ต๋ ๋ฒ ์ด์ค ๋ชจ๋ธโ์ ๋ค์ โ์งง์ ์ถ๋ก ์ฉโ์ผ๋ก ์์ถ ์ ๋ จํ๋ ๋จ๊ณ์ ๋๋ค.
๊ธธ์ด ํ๋ํฐ์ ๋ชจ๋ธ ๋ณํฉ(merge), DPO, Rejection Sampling ๋ฑ์ ๋ณํํ์ฌ, ๊ฐ๋ฅํ ํ ๊ฐ๊ฒฐํ ํ ํฐ ์ฌ์ฉ์ผ๋ก๋ ๋์ ์ ๋ต๋ฅ ์ ๋ด๋ ค ํฉ๋๋ค.
arXiv.org
Kimi k1.5: Scaling Reinforcement Learning with LLMs
Language model pretraining with next token prediction has proved effective for scaling compute but is limited to the amount of available training data. Scaling reinforcement learning (RL) unlocks...
Continuous Learning_Startup & Investment
https://arxiv.org/abs/2501.12599 โPretraining ๋ฐ์ดํฐ ํ๊ณ โ RL ๊ธฐ๋ฐ โ์๋ก์ด ์ถโ์ ์ด์ด๋ณผ ์ ์์๊น?โ โข ๊ธฐ์กด LLM ํ์ฅ์ฑ: ๋ณดํต โ๋ค์ ํ ํฐ ์์ธกโ(next token prediction)์ผ๋ก ๊ฑฐ๋ ๋ฐ์ดํฐ์
์ ๋ง์ถฐ ์ฌ์ ํ์ต์ ์งํ. ํ๊ณ: ํ์ต ๊ฐ๋ฅํ ๋ฐ์ดํฐ๊ฐ ๊ฒฐ๊ตญ ์ ํ๋ ์๋ฐ์ ์์. โข ๋์(First Principle): โ๋ชจ๋ธ์ด ๋ณด์(reward)์ ํตํด ์ค์ค๋ก ํ์(explore)ํ๋ ์ถโโ์ฆโฆ
1. ๋ชฉํ์ ์ ์ : ์ฑ๋ฅ์ด ์ต์ฐ์ ์ด๋ค
โLong CoT(๊ธด ์ฒด์ธ ์ค๋ธ ์ํธ)โ๋ฅผ ํ์ฉํ LLM ๊ฐํํ์ต(RL)์ผ๋ก ๋ ๋์ ๋ฌธ์ ํด๊ฒฐ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ณ ์ ํจ.
๋น์ฉ๊ณผ ์๋(ํ ํฐ ์ฌ์ฉ ์ฆ๊ฐ ๋ฑ)๋ ๊ถ๊ทน์ ์ผ๋ก ๋ฌด์ด์ ๋ฒ์น ๋ฑ์ผ๋ก ํด๊ฒฐ ๊ฐ๋ฅํ๋ฏ๋ก, โ์ฐ์ ์ฑ๋ฅ์ ์ต๊ณ ๋ก ๋์ด์ฌ๋ฆฐ๋คโ๊ฐ ์ต์์ ์์น.
2. ๋ฌธ์ ์ ๊ทผ๋ณธ ๊ตฌ์กฐ ํ์
๊ธฐ์กด ์งง์ ์ถ๋ก (CoT)๋ณด๋ค ๊ธด ์ถ๋ก (Long CoT)์ด ํ์ โ โ์์ ๋กญ๊ฒ ์๊ฐํ๋ ๊ณผ์ ์ ๋ชจ๋ธ์๊ฒ ๋งก๊ธฐ๋, ์ ๋ต์ ์ ๋๋ก ๋ง์ถ๋์ง ์ฌ๋ถ๋ง ๋ช ํํ ํ๋จโํ๋ค๋ ์ ์ด ํต์ฌ.
๋ช ํํ ์ ๋ต์ด ์ ๊ณต๋๋(๋๋ ์ ํํ ๊ฒ์ฆ ๊ฐ๋ฅํ) ๊ณผ์ (์: ์ํ, ์ฝ๋ฉ ๋ฑ)์์ RL์ ์ ์ฉํด์ผ ์ฌ๋ฐ๋ฅธ ๋ณด์์ ์ค ์ ์์.
๋ชจ๋ธ์ด ์ค์ค๋ก โ๊ฒ์(Search) ๊ณผ์ โ์ ์ํํ๋๋ก ํด์ผ ํ๋ฉฐ, ์ธ์์ ์ผ๋ก โMCTS๋ Agentic ๊ตฌ์กฐโ ๊ฐ์ ์๊ฒฉํ ํ์ ๊ฐ์ ํ๋ฉด ์คํ๋ ค ๋ชจ๋ธ ์ญ๋์ ์ ํํจ.
3. ๊ทผ๋ณธ ํด๋ฒ: In-Context RL + Exploration
๊ธธ๊ณ ์์ ๋ก์ด ์ฌ๊ณ ๊ณผ์ ์ โํ ๋ฒ์ ๋ฉ์์ง(ํน์ ๋ฌธ๋งฅ)โ ์์ ๋ด์, ๊ณง๋ฐ๋ก ๋ณด์์ ํผ๋๋ฐฑ๋ฐ๋ ๊ตฌ์กฐ โ ์ธ์ปจํ ์คํธ RL.
๋ชจ๋ธ์ด ์ค๊ฐ์ ์ค์ํด๋, ์ต์ข ์ ์ผ๋ก ๋ต์ ๋ง์ถ๋ฉด(์ฆ, โํ์ต ๊ณผ์ ์์ ์ค์๋ ํ์ฉ, ๊ฒฐ๊ณผ๋ฌผ๋ง ์ ํํ๋ค๋ฉด ๋ณด์โ) ๊ทธ๊ฒ์ผ๋ก ์ถฉ๋ถํ๋ค๋ โ๋งฅ๋ฝ ๋ฐด๋ํธ(Contextual Bandit)โ ๊ด์ .
๊ฐ์นํจ์(๋ฐธ๋ฅ ํจ์)๋ ๋ณต์กํ ๊ตฌ์กฐ ์์ด, โ๋ต์ด ๋ง์ผ๋ฉด +, ํ๋ฆฌ๋ฉด โโ ์์ REINFORCE๋ฅ ์ ๊ทผ์ด ์์ฐ์ค๋ฝ๊ณ , ๊ตฌ์กฐ์ ์ธ ๊ฐ์ (์: MCTS)๋ ์ง์.
4. Long CoT๊ฐ ์ค์ค๋ก ํ์ฅ๋๋ ์ด์
RL ๊ณผ์ ์ ์งํํ๋ฉด, ๋ชจ๋ธ์ ์ ํ๋๋ฅผ ์ฌ๋ฆฌ๊ธฐ ์ํด ์์ฐ์ค๋ฝ๊ฒ ์ ์ ๋ ๊ธด ์ฌ๊ณ ๊ณผ์ ์ ํ์ฉ โ ํ ํฐ ๊ธธ์ด๊ฐ ํ์ต ๊ณผ์ ์ค์ ์๋ฐ์ ์ผ๋ก ์ฆ๊ฐํจ.
โ๋ชจ๋ธ์ด ์ฑ๋ฅ์ ์ฌ๋ฆฌ๋ ๋ฐ ํ์ํ ๋งํผโ ์ค์ค๋ก ๋ ๊ธธ๊ฒ ํ์ํ๊ณ ๋ฐ์ฑ(reflection)ํ๋ฉฐ, ์๋ชป๋ ์๋์์ ๋ฐฐ์ฐ๋ ํจํด์ ํ์ต.
5. ์ฃผ์ ํ ์ดํฌ์ด์จ์ด
๋์ ์ฑ๋ฅ(Performance)์ ๋ฌด์๋ณด๋ค ์ฐ์ ํ๋ค. ๋น์ฉ๊ณผ ์๋ ๋ฌธ์ ๋ ํ์์๋ก ํด๊ฒฐ ๊ฐ๋ฅ.
๋ณด์์ด ์ ํํด์ผ ํ๋ค(์ค์ ์ ๋ต์ ์๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค).
๋ชจ๋ธ์ด ์๊ฐ์ ๊ตฌ์กฐ๋ฅผ โ๋ด์ฌ์ ํ์โ ํํ๋ก ์์ ๋กญ๊ฒ ํผ์น ์ ์๊ฒ ํ๋ค(Structured PlanningโงMCTS๋ ์ ํ์ ).
ํ์ต์ โ์ค์๊ฐ ์ผ์ด๋ ์ ์์โ์ ์ ์ ๋ก โ ์ต์ข ์ ๋ต์ด ๋ง์ผ๋ฉด ๊ทธ ๊ณผ์ ์ ๋ชจ๋ ์ธ์ ํ๋ค๋ ์์ผ๋ก ๋จ์ํํ๋ค.
๋ชจ๋ธ์ด ์ค์ค๋ก โ๊ฒ์(Search)+์๊ธฐ๋นํ(Self-Critique)โ์ ์ํํ ์ ์๋๋ก ํ๋ค.
โLong CoT(๊ธด ์ฒด์ธ ์ค๋ธ ์ํธ)โ๋ฅผ ํ์ฉํ LLM ๊ฐํํ์ต(RL)์ผ๋ก ๋ ๋์ ๋ฌธ์ ํด๊ฒฐ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ณ ์ ํจ.
๋น์ฉ๊ณผ ์๋(ํ ํฐ ์ฌ์ฉ ์ฆ๊ฐ ๋ฑ)๋ ๊ถ๊ทน์ ์ผ๋ก ๋ฌด์ด์ ๋ฒ์น ๋ฑ์ผ๋ก ํด๊ฒฐ ๊ฐ๋ฅํ๋ฏ๋ก, โ์ฐ์ ์ฑ๋ฅ์ ์ต๊ณ ๋ก ๋์ด์ฌ๋ฆฐ๋คโ๊ฐ ์ต์์ ์์น.
2. ๋ฌธ์ ์ ๊ทผ๋ณธ ๊ตฌ์กฐ ํ์
๊ธฐ์กด ์งง์ ์ถ๋ก (CoT)๋ณด๋ค ๊ธด ์ถ๋ก (Long CoT)์ด ํ์ โ โ์์ ๋กญ๊ฒ ์๊ฐํ๋ ๊ณผ์ ์ ๋ชจ๋ธ์๊ฒ ๋งก๊ธฐ๋, ์ ๋ต์ ์ ๋๋ก ๋ง์ถ๋์ง ์ฌ๋ถ๋ง ๋ช ํํ ํ๋จโํ๋ค๋ ์ ์ด ํต์ฌ.
๋ช ํํ ์ ๋ต์ด ์ ๊ณต๋๋(๋๋ ์ ํํ ๊ฒ์ฆ ๊ฐ๋ฅํ) ๊ณผ์ (์: ์ํ, ์ฝ๋ฉ ๋ฑ)์์ RL์ ์ ์ฉํด์ผ ์ฌ๋ฐ๋ฅธ ๋ณด์์ ์ค ์ ์์.
๋ชจ๋ธ์ด ์ค์ค๋ก โ๊ฒ์(Search) ๊ณผ์ โ์ ์ํํ๋๋ก ํด์ผ ํ๋ฉฐ, ์ธ์์ ์ผ๋ก โMCTS๋ Agentic ๊ตฌ์กฐโ ๊ฐ์ ์๊ฒฉํ ํ์ ๊ฐ์ ํ๋ฉด ์คํ๋ ค ๋ชจ๋ธ ์ญ๋์ ์ ํํจ.
3. ๊ทผ๋ณธ ํด๋ฒ: In-Context RL + Exploration
๊ธธ๊ณ ์์ ๋ก์ด ์ฌ๊ณ ๊ณผ์ ์ โํ ๋ฒ์ ๋ฉ์์ง(ํน์ ๋ฌธ๋งฅ)โ ์์ ๋ด์, ๊ณง๋ฐ๋ก ๋ณด์์ ํผ๋๋ฐฑ๋ฐ๋ ๊ตฌ์กฐ โ ์ธ์ปจํ ์คํธ RL.
๋ชจ๋ธ์ด ์ค๊ฐ์ ์ค์ํด๋, ์ต์ข ์ ์ผ๋ก ๋ต์ ๋ง์ถ๋ฉด(์ฆ, โํ์ต ๊ณผ์ ์์ ์ค์๋ ํ์ฉ, ๊ฒฐ๊ณผ๋ฌผ๋ง ์ ํํ๋ค๋ฉด ๋ณด์โ) ๊ทธ๊ฒ์ผ๋ก ์ถฉ๋ถํ๋ค๋ โ๋งฅ๋ฝ ๋ฐด๋ํธ(Contextual Bandit)โ ๊ด์ .
๊ฐ์นํจ์(๋ฐธ๋ฅ ํจ์)๋ ๋ณต์กํ ๊ตฌ์กฐ ์์ด, โ๋ต์ด ๋ง์ผ๋ฉด +, ํ๋ฆฌ๋ฉด โโ ์์ REINFORCE๋ฅ ์ ๊ทผ์ด ์์ฐ์ค๋ฝ๊ณ , ๊ตฌ์กฐ์ ์ธ ๊ฐ์ (์: MCTS)๋ ์ง์.
4. Long CoT๊ฐ ์ค์ค๋ก ํ์ฅ๋๋ ์ด์
RL ๊ณผ์ ์ ์งํํ๋ฉด, ๋ชจ๋ธ์ ์ ํ๋๋ฅผ ์ฌ๋ฆฌ๊ธฐ ์ํด ์์ฐ์ค๋ฝ๊ฒ ์ ์ ๋ ๊ธด ์ฌ๊ณ ๊ณผ์ ์ ํ์ฉ โ ํ ํฐ ๊ธธ์ด๊ฐ ํ์ต ๊ณผ์ ์ค์ ์๋ฐ์ ์ผ๋ก ์ฆ๊ฐํจ.
โ๋ชจ๋ธ์ด ์ฑ๋ฅ์ ์ฌ๋ฆฌ๋ ๋ฐ ํ์ํ ๋งํผโ ์ค์ค๋ก ๋ ๊ธธ๊ฒ ํ์ํ๊ณ ๋ฐ์ฑ(reflection)ํ๋ฉฐ, ์๋ชป๋ ์๋์์ ๋ฐฐ์ฐ๋ ํจํด์ ํ์ต.
5. ์ฃผ์ ํ ์ดํฌ์ด์จ์ด
๋์ ์ฑ๋ฅ(Performance)์ ๋ฌด์๋ณด๋ค ์ฐ์ ํ๋ค. ๋น์ฉ๊ณผ ์๋ ๋ฌธ์ ๋ ํ์์๋ก ํด๊ฒฐ ๊ฐ๋ฅ.
๋ณด์์ด ์ ํํด์ผ ํ๋ค(์ค์ ์ ๋ต์ ์๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค).
๋ชจ๋ธ์ด ์๊ฐ์ ๊ตฌ์กฐ๋ฅผ โ๋ด์ฌ์ ํ์โ ํํ๋ก ์์ ๋กญ๊ฒ ํผ์น ์ ์๊ฒ ํ๋ค(Structured PlanningโงMCTS๋ ์ ํ์ ).
ํ์ต์ โ์ค์๊ฐ ์ผ์ด๋ ์ ์์โ์ ์ ์ ๋ก โ ์ต์ข ์ ๋ต์ด ๋ง์ผ๋ฉด ๊ทธ ๊ณผ์ ์ ๋ชจ๋ ์ธ์ ํ๋ค๋ ์์ผ๋ก ๋จ์ํํ๋ค.
๋ชจ๋ธ์ด ์ค์ค๋ก โ๊ฒ์(Search)+์๊ธฐ๋นํ(Self-Critique)โ์ ์ํํ ์ ์๋๋ก ํ๋ค.
https://youtu.be/snkOMOjiVOk
์ถ๋ก ์ด๋ผ๊ณ ๋ถ๋ฅผ ์๋ Inference time Scaling์ด๋ผ๊ณ ๋ถ๋ฅผ ์๋ ์๊ฒ ์ง๋ง ๋ณธ์ง์ ์ผ๋ก๋ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋๊ท๋ชจ RL์ ํ์ ๋ ๋ํ๋๋ ์ฐฝ๋ฐ์ ์ธ ํ์์ด๋ผ๋ ๊ฒ. ๊ณผ์ ์ด ์ด๋ ํด์ผ ํ๋๊ฐ๋ฅผ ๊ธฐ์ ํ๋ ๋์ ๋ชจ๋ธ์ด ๊ทธ๊ฒ์ ์ค์ค๋ก ์ฐพ๊ฒ ํด์ผ ํ๋ค๋ ๋ฅ ๋ฌ๋์ ์ฌ๊ณ ๋ฐฉ์์ผ๋ก ๋ค์ ๋์๊ฐ์ผ ํ๋ ์๊ฐ. ๊น์ฑํ๋
์ถ๋ก (Reasoning) ๋ชจ๋ธ, RL ์ ๋ชฉ ์ ๋ง
ํ์ฌ ๋ชจ๋ธ(์: OpenAI)๊ณผ์ ๋น๊ต
์ง๋ฌธ์๋ โOpenAI์์ ๋ชจ๋ธ๋ณ๋ก Reasoning ๋ชจ๋๊ฐ ์กด์ฌํ๋ค๋๋ฐ, Anthropic์๋ ๋น์ทํ ๋ชจ๋ธ์ด ์๋โ๊ณ ์ง๋ฌธ.
ํ์๋ Anthropic ์ธก ์ ๊ทผ์ โ์ด๋ถ๋ฒ์ ์ผ๋ก ์ถ๋ก ๋ชจ๋ธ vs. ์ผ๋ฐ ๋ชจ๋ธโ๋ก ๊ตฌ๋ถํ๊ธฐ๋ณด๋ค, RL(๊ฐํํ์ต)์ ํตํด ๋ชจ๋ธ์ด ๋ ๊น๊ฒ ์ฌ๊ณ ยท๋ฐ์ฑ(reflection)ยทํ์(search)ํ๊ฒ ๋ง๋๋ ๋ฐฉํฅ์ด๋ผ ์ค๋ช .
๊ฒฐ๋ก ์ ์ผ๋ก โ์๊ฐํ๋ ๋ชจ๋ธโ๊ณผ โ๊ทธ๋ฅ ๋น ๋ฅด๊ฒ ๋ต๋ณํ๋ ๋ชจ๋ธโ์ ๋ณ๋๋ก ๋๊ธฐ๋ณด๋ค, ์์ฐ์ค๋ฝ๊ฒ ๋ชจ๋ธ์ด ์ํฉ์ ๋ฐ๋ผ ์์ฝ๊ฒ ์ถ๋ก ํ๋ ์ชฝ์ ์งํฅ.
๊ฐํํ์ต(RL) ๋๊ท๋ชจ ๋์
Anthropic์ ์์ผ๋ก ์ ์ ๋ ๋ง์ RL ๊ธฐ๋ฒ์ ๋ชจ๋ธ ํ์ต์ ํ์ฉํ ๊ฒ์ด๋ฉฐ, ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ด โ์ค์ค๋ก ์ฌ๊ณ ๊ณผ์ ์ ์ ๊ฒโํ๊ณ ํ์ง ๋์ ๋ต๋ณ์ ๋์ถํ๊ฒ ๋ง๋ค ๊ฒ.
โํ ์คํธ ์๊ฐ(Test-Time) ์ปดํจํธโ ํน์ โ์ถ๋ก ์๊ฐ ์ค๊ณโ์ ๋ํ ๋ ผ์๊ฐ ์์ง๋ง, Anthropic์ โ๊ฒฐ๊ตญ ๋๊ท๋ชจ RL ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ธ ์ค์ค๋ก ์ฌ๊ณ ๋ฅผ ๊ฐํโํ๋ ๋ฐฉ์์ด ๋ ์์ฐ์ค๋ฝ๋ค๊ณ ๋ด.
2017~2018๋ ์ดํ Scaling Laws ๊ด์ฐฐ
ํ์๋ ์ด๋ฏธ 2017๋ ๋ฌด๋ ต๋ถํฐ โ๊ณ์ฐ ์์์ ๊ณ์ ๋๋ฆฌ๋ฉด ๋ชจ๋ธ ์ฑ๋ฅ์ด ์ ๋ฐฉ์๋ก ํฅ์๋๋คโ๋ผ๋ ์ค์ผ์ผ๋ง ๋ฒ์น์ ๋ฏฟ์ด ์์.
๊ณผ๊ฑฐ์๋ ์ผ์ ์์ค ๋ถํ์ค์ฑ์ด ์์์ผ๋, ์ต๊ทผ 3~6๊ฐ์ ์ฌ์ด ๊ทธ ๋ถํ์ค์ฑ์ด ํฌ๊ฒ ์ค์๊ณ , ์ค์ ๋ก ์ฌ๋ฌ ์งํ์์ ๋ชจ๋ธ์ด ์ฌ๋๋ณด๋ค ๋ฐ์ด๋ ๋จ๊ณ๊ฐ ๊ฐ๊น์์ง๊ณ ์๋ค๊ณ ์ง๋จ.
โAI ๋ฐ์ ์ด ์๊ฐ๋ณด๋ค ๋น ๋ฅด๋คโ
ํ์๋ AI ๋ฐ์ ์ด ๊ทน๋๋ก ๋น ๋ฅด๋ฉฐ, ํฅํ 2~3๋ ๋ด์ ๊ฑฐ์ ๋ชจ๋ ์ง์ยทํน์ ์์ ์์ ์ธ๊ฐ๋ณด๋ค ์ฐ์ํด์ง ๋ชจ๋ธ์ด ๋์ฌ ์ ์๋ค๊ณ ์ค๋ช .
์ด์ ๋ํ ๊ธ์ ์ ํจ๊ณผ์ ๋ถ์ ์ ๋ฆฌ์คํฌ ๋ชจ๋๊ฐ ์ปธ๊ธฐ์, โAI ์ ๊ณ๊ฐ ์ด๋ฅผ ์ ๋๋ก ์ธ์ํ๊ณ ์์งํ ์ํตํด์ผ ํ๋คโ๊ณ ๊ฐ์กฐ.
๋ ธ๋์์ฅ ์ํฅ (๋จ๊ธฐ vs ์ฅ๊ธฐ)
๋จ๊ธฐ์ ๊ด์ (1~3๋ ์ ๋)
์๋ก์ด ๊ธฐ์ ์ ๊ธฐ์กด ์ผ์๋ฆฌ๋ฅผ ๋์ฒดํ ์ ์์ง๋ง, ๋ฐ๋๋ก โ๊ธฐ์ ํ์ฉ ๋ฅ๋ ฅ์ด ์๋ ์ธ๋ ฅโ์ ์์ฐ์ฑ์ ํฌ๊ฒ ๋์ฌ โ๋ณด์์ฌ(Complementary)โ ์ญํ ์ ํ ์๋ ์์.
Anthropic์ ์ด์ ๊ธฐ์ ํ์ ์ฌ๋ก์ฒ๋ผ, โ์ง๋ฌด ์ผ๋ถ๋ฅผ AI๊ฐ ๋์ ํ๋ฉด, ์ฌ๋์ด ๋ ์ฐฝ์์ ยท๊ณ ์ฐจ์์ ๋ถ๋ถ์ ์ง์คํด ์ ๋ฌด ํจ์จ์ ๋์ผ ์ ์๋คโ๋ โ๋น๊ต์ฐ์โ ๊ด์ ์ ๊ฐ์กฐ.
๋ค๋ง ๊ธฐ์ ๋ค์ด AI๋ฅผ ์ด๋ป๊ฒ ๋์ ํ๋๋(๋์ฒด vs. ๋ณด์)์ ๋ฐ๋ผ ๊ฒฐ๊ณผ๊ฐ ๋ฌ๋ผ์ง ์ ์์ผ๋ฉฐ, Anthropic์ โ๋ณด์ํ ํํธ๋์ญโ ๋ฐฉํฅ์ ์ง์ง.
์ฅ๊ธฐ์ ๊ด์
ํ์๋ โ๊ฒฐ๊ตญ์๋ AI๊ฐ ์ธ๊ฐ๋ณด๋ค ๋ ๋ฐ์ด๋ ๋จ๊ณ, ์ฌ์ง์ด ๋ก๋ด๊ณผ ๊ฒฐํฉํด ๋ฌผ๋ฆฌ ๋ ธ๋๊น์ง ๋์ฒดํ๋ ์์ โ์ด ์ฌ ๊ฒ์ผ๋ก ์์(์์ ๋ถ๋ช , ๋ค๋ง 2027๋ ์ ํ ๊ฐ๋ฅ์ฑ ์ธ๊ธ).
๊ทธ๋๋ โ์ธ๊ฐ์ ์์กด๊ฐ, ๊ฐ์น, ๊ฒฝ์ ์ฒด๊ณ, ๋ถ๋ฐฐ ๋ฐฉ์โ ๋ฑ์ ๊ทผ๋ณธ์ ์ธ ์ฌ์ค๊ณ๊ฐ ํ์.
๋ชจ๋ ์ธ๊ฐ์๊ฒ ์ ์ฉ๋๋ ์ํฉ์ด๋ผ๋ฉด โ์ (ๅ จ) ์ธ๋ฅ๊ฐ ๊ฐ์ ๋ฐฐ๋ฅผ ํ๋ค๊ณ ๋ณผ ์๋ ์์ง๋ง, ๋ง์ผ 30%๋ง ๋์ฒด๋๊ณ 70%๋ ๊ทธ๋๋ก๋ผ๋ฉด ํฐ ์ฌํ ๊ฐ๋ฑ์ด ์๊ธธ ๊ฒโ์ด๋ผ๊ณ ์ฐ๋ ค.
์ถ๋ก ์ด๋ผ๊ณ ๋ถ๋ฅผ ์๋ Inference time Scaling์ด๋ผ๊ณ ๋ถ๋ฅผ ์๋ ์๊ฒ ์ง๋ง ๋ณธ์ง์ ์ผ๋ก๋ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋๊ท๋ชจ RL์ ํ์ ๋ ๋ํ๋๋ ์ฐฝ๋ฐ์ ์ธ ํ์์ด๋ผ๋ ๊ฒ. ๊ณผ์ ์ด ์ด๋ ํด์ผ ํ๋๊ฐ๋ฅผ ๊ธฐ์ ํ๋ ๋์ ๋ชจ๋ธ์ด ๊ทธ๊ฒ์ ์ค์ค๋ก ์ฐพ๊ฒ ํด์ผ ํ๋ค๋ ๋ฅ ๋ฌ๋์ ์ฌ๊ณ ๋ฐฉ์์ผ๋ก ๋ค์ ๋์๊ฐ์ผ ํ๋ ์๊ฐ. ๊น์ฑํ๋
์ถ๋ก (Reasoning) ๋ชจ๋ธ, RL ์ ๋ชฉ ์ ๋ง
ํ์ฌ ๋ชจ๋ธ(์: OpenAI)๊ณผ์ ๋น๊ต
์ง๋ฌธ์๋ โOpenAI์์ ๋ชจ๋ธ๋ณ๋ก Reasoning ๋ชจ๋๊ฐ ์กด์ฌํ๋ค๋๋ฐ, Anthropic์๋ ๋น์ทํ ๋ชจ๋ธ์ด ์๋โ๊ณ ์ง๋ฌธ.
ํ์๋ Anthropic ์ธก ์ ๊ทผ์ โ์ด๋ถ๋ฒ์ ์ผ๋ก ์ถ๋ก ๋ชจ๋ธ vs. ์ผ๋ฐ ๋ชจ๋ธโ๋ก ๊ตฌ๋ถํ๊ธฐ๋ณด๋ค, RL(๊ฐํํ์ต)์ ํตํด ๋ชจ๋ธ์ด ๋ ๊น๊ฒ ์ฌ๊ณ ยท๋ฐ์ฑ(reflection)ยทํ์(search)ํ๊ฒ ๋ง๋๋ ๋ฐฉํฅ์ด๋ผ ์ค๋ช .
๊ฒฐ๋ก ์ ์ผ๋ก โ์๊ฐํ๋ ๋ชจ๋ธโ๊ณผ โ๊ทธ๋ฅ ๋น ๋ฅด๊ฒ ๋ต๋ณํ๋ ๋ชจ๋ธโ์ ๋ณ๋๋ก ๋๊ธฐ๋ณด๋ค, ์์ฐ์ค๋ฝ๊ฒ ๋ชจ๋ธ์ด ์ํฉ์ ๋ฐ๋ผ ์์ฝ๊ฒ ์ถ๋ก ํ๋ ์ชฝ์ ์งํฅ.
๊ฐํํ์ต(RL) ๋๊ท๋ชจ ๋์
Anthropic์ ์์ผ๋ก ์ ์ ๋ ๋ง์ RL ๊ธฐ๋ฒ์ ๋ชจ๋ธ ํ์ต์ ํ์ฉํ ๊ฒ์ด๋ฉฐ, ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ด โ์ค์ค๋ก ์ฌ๊ณ ๊ณผ์ ์ ์ ๊ฒโํ๊ณ ํ์ง ๋์ ๋ต๋ณ์ ๋์ถํ๊ฒ ๋ง๋ค ๊ฒ.
โํ ์คํธ ์๊ฐ(Test-Time) ์ปดํจํธโ ํน์ โ์ถ๋ก ์๊ฐ ์ค๊ณโ์ ๋ํ ๋ ผ์๊ฐ ์์ง๋ง, Anthropic์ โ๊ฒฐ๊ตญ ๋๊ท๋ชจ RL ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ธ ์ค์ค๋ก ์ฌ๊ณ ๋ฅผ ๊ฐํโํ๋ ๋ฐฉ์์ด ๋ ์์ฐ์ค๋ฝ๋ค๊ณ ๋ด.
2017~2018๋ ์ดํ Scaling Laws ๊ด์ฐฐ
ํ์๋ ์ด๋ฏธ 2017๋ ๋ฌด๋ ต๋ถํฐ โ๊ณ์ฐ ์์์ ๊ณ์ ๋๋ฆฌ๋ฉด ๋ชจ๋ธ ์ฑ๋ฅ์ด ์ ๋ฐฉ์๋ก ํฅ์๋๋คโ๋ผ๋ ์ค์ผ์ผ๋ง ๋ฒ์น์ ๋ฏฟ์ด ์์.
๊ณผ๊ฑฐ์๋ ์ผ์ ์์ค ๋ถํ์ค์ฑ์ด ์์์ผ๋, ์ต๊ทผ 3~6๊ฐ์ ์ฌ์ด ๊ทธ ๋ถํ์ค์ฑ์ด ํฌ๊ฒ ์ค์๊ณ , ์ค์ ๋ก ์ฌ๋ฌ ์งํ์์ ๋ชจ๋ธ์ด ์ฌ๋๋ณด๋ค ๋ฐ์ด๋ ๋จ๊ณ๊ฐ ๊ฐ๊น์์ง๊ณ ์๋ค๊ณ ์ง๋จ.
โAI ๋ฐ์ ์ด ์๊ฐ๋ณด๋ค ๋น ๋ฅด๋คโ
ํ์๋ AI ๋ฐ์ ์ด ๊ทน๋๋ก ๋น ๋ฅด๋ฉฐ, ํฅํ 2~3๋ ๋ด์ ๊ฑฐ์ ๋ชจ๋ ์ง์ยทํน์ ์์ ์์ ์ธ๊ฐ๋ณด๋ค ์ฐ์ํด์ง ๋ชจ๋ธ์ด ๋์ฌ ์ ์๋ค๊ณ ์ค๋ช .
์ด์ ๋ํ ๊ธ์ ์ ํจ๊ณผ์ ๋ถ์ ์ ๋ฆฌ์คํฌ ๋ชจ๋๊ฐ ์ปธ๊ธฐ์, โAI ์ ๊ณ๊ฐ ์ด๋ฅผ ์ ๋๋ก ์ธ์ํ๊ณ ์์งํ ์ํตํด์ผ ํ๋คโ๊ณ ๊ฐ์กฐ.
๋ ธ๋์์ฅ ์ํฅ (๋จ๊ธฐ vs ์ฅ๊ธฐ)
๋จ๊ธฐ์ ๊ด์ (1~3๋ ์ ๋)
์๋ก์ด ๊ธฐ์ ์ ๊ธฐ์กด ์ผ์๋ฆฌ๋ฅผ ๋์ฒดํ ์ ์์ง๋ง, ๋ฐ๋๋ก โ๊ธฐ์ ํ์ฉ ๋ฅ๋ ฅ์ด ์๋ ์ธ๋ ฅโ์ ์์ฐ์ฑ์ ํฌ๊ฒ ๋์ฌ โ๋ณด์์ฌ(Complementary)โ ์ญํ ์ ํ ์๋ ์์.
Anthropic์ ์ด์ ๊ธฐ์ ํ์ ์ฌ๋ก์ฒ๋ผ, โ์ง๋ฌด ์ผ๋ถ๋ฅผ AI๊ฐ ๋์ ํ๋ฉด, ์ฌ๋์ด ๋ ์ฐฝ์์ ยท๊ณ ์ฐจ์์ ๋ถ๋ถ์ ์ง์คํด ์ ๋ฌด ํจ์จ์ ๋์ผ ์ ์๋คโ๋ โ๋น๊ต์ฐ์โ ๊ด์ ์ ๊ฐ์กฐ.
๋ค๋ง ๊ธฐ์ ๋ค์ด AI๋ฅผ ์ด๋ป๊ฒ ๋์ ํ๋๋(๋์ฒด vs. ๋ณด์)์ ๋ฐ๋ผ ๊ฒฐ๊ณผ๊ฐ ๋ฌ๋ผ์ง ์ ์์ผ๋ฉฐ, Anthropic์ โ๋ณด์ํ ํํธ๋์ญโ ๋ฐฉํฅ์ ์ง์ง.
์ฅ๊ธฐ์ ๊ด์
ํ์๋ โ๊ฒฐ๊ตญ์๋ AI๊ฐ ์ธ๊ฐ๋ณด๋ค ๋ ๋ฐ์ด๋ ๋จ๊ณ, ์ฌ์ง์ด ๋ก๋ด๊ณผ ๊ฒฐํฉํด ๋ฌผ๋ฆฌ ๋ ธ๋๊น์ง ๋์ฒดํ๋ ์์ โ์ด ์ฌ ๊ฒ์ผ๋ก ์์(์์ ๋ถ๋ช , ๋ค๋ง 2027๋ ์ ํ ๊ฐ๋ฅ์ฑ ์ธ๊ธ).
๊ทธ๋๋ โ์ธ๊ฐ์ ์์กด๊ฐ, ๊ฐ์น, ๊ฒฝ์ ์ฒด๊ณ, ๋ถ๋ฐฐ ๋ฐฉ์โ ๋ฑ์ ๊ทผ๋ณธ์ ์ธ ์ฌ์ค๊ณ๊ฐ ํ์.
๋ชจ๋ ์ธ๊ฐ์๊ฒ ์ ์ฉ๋๋ ์ํฉ์ด๋ผ๋ฉด โ์ (ๅ จ) ์ธ๋ฅ๊ฐ ๊ฐ์ ๋ฐฐ๋ฅผ ํ๋ค๊ณ ๋ณผ ์๋ ์์ง๋ง, ๋ง์ผ 30%๋ง ๋์ฒด๋๊ณ 70%๋ ๊ทธ๋๋ก๋ผ๋ฉด ํฐ ์ฌํ ๊ฐ๋ฑ์ด ์๊ธธ ๊ฒโ์ด๋ผ๊ณ ์ฐ๋ ค.
YouTube
Inside Anthropic's Race to Build a Smarter Claude and Human-Level AI | WSJ
At WSJ Journal House Davos, Anthropic CEO Dario Amodei outlines Claudeโs next chapterโfrom web browsing, voice to more advanced modelsโwhile predicting that AI could reach human-level intelligence within just a few years.
#AI #Tech #WSJ
#AI #Tech #WSJ
๐1