Continuous Learning_Startup & Investment
2.43K subscribers
513 photos
5 videos
16 files
2.74K links
We journey together through the captivating realms of entrepreneurship, investment, life, and technology. This is my chronicle of exploration, where I capture and share the lessons that shape our world. Join us and let's never stop learning!
Download Telegram
๐Ÿ‡จ๐Ÿ‡ณ ์ค‘๊ตญ ํ…Œํฌ์‚ฐ์—… ์ƒํƒœ๊ณ„ (์ž๋ฃŒ: Kyle)
โค1
https://youtu.be/XJsHIoIDhPY

1) ๋”ฅ๋Ÿฌ๋‹์˜ ํšจ์œจ์  ๋ฐฉ์‹๊ณผ โ€œํ™•์žฅ(์Šค์ผ€์ผ์—…) + ํ†ต๊ณ„โ€ ์ ‘๊ทผ

(1) ๋”ฅ๋Ÿฌ๋‹์˜ ํšจ์œจ์  ๋ฐฉ์‹์ด๋ž€?
์ „ํ†ต์ ์ธ โ€œ๊ธฐํ˜ธ์  AIโ€๋‚˜ โ€œ๊ทœ์น™ ๊ธฐ๋ฐ˜(If-Then)โ€ ์ ‘๊ทผ์€, ์‚ฌ๋žŒ์ด ์ง์ ‘ ๊ทœ์น™์„ ๋งŒ๋“ค์–ด์ค˜์•ผ ํ–ˆ์Œ.
๋ฐ˜๋ฉด ๋”ฅ๋Ÿฌ๋‹์€ ๋ชจ๋ธ์— ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋ฅผ ๋„ฃ๊ณ , ๋ชจ๋ธ์ด ํŒŒ๋ผ๋ฏธํ„ฐ(๊ฐ€์ค‘์น˜)๋ฅผ ์Šค์Šค๋กœ ํ•™์Šตํ•˜์—ฌ ๊ทœ์น™์„ โ€˜์ถ”๋ก โ€™ํ•œ๋‹ค.
์ด ๊ณผ์ •์—์„œ ํ•„์š”ํ•œ ๊ฒƒ์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ, ๋Œ€๊ทœ๋ชจ ๊ณ„์‚ฐ(์ปดํ“จํŒ…), ํšจ์œจ์ ์ธ ๋ชจ๋ธ ๊ตฌ์กฐ(์˜ˆ: ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง, ํŠธ๋žœ์Šคํฌ๋จธ ๋“ฑ).

(2) ์Šค์ผ€์ผ ์—…(scaling)์ด ์ค‘์š”ํ•œ ์ด์œ 
์Šค์ผ€์ผ ์—…์ด๋ž€ ๋ชจ๋ธ์˜ ํฌ๊ธฐ(ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜), ํ•™์Šต ๋ฐ์ดํ„ฐ ์–‘, ํ•™์Šต์— ์“ธ ์ปดํ“จํŒ… ์ž์› ๋“ฑ์„ ๋‹จ์ˆœํžˆ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ์„ ์˜๋ฏธ.
2012๋…„ ๋ฌด๋ ต๋ถ€ํ„ฐ GPU์™€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์ด ๊ฒฐํ•ฉ๋˜๋ฉด์„œ, ๋”ฅ๋Ÿฌ๋‹์ด ๊ธฐ์กด ์ ‘๊ทผ(๊ธฐํ˜ธ์  AI ๋“ฑ)์„ ์••๋„ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‚ด๊ธฐ ์‹œ์ž‘.
์ค‘์š” ํฌ์ธํŠธ: โ€œ๊ทœ๋ชจ๋ฅผ ๋Š˜๋ฆฌ๋ฉด(dB)์„์ˆ˜๋ก ์„ฑ๋Šฅ์ด ๊ฐœ์„ ๋  ์—ฌ์ง€โ€๊ฐ€ ํฌ๋‹ค๋Š” ์‚ฌ์‹ค. ์˜ˆ์ปจ๋Œ€ ํŠธ๋žœ์Šคํฌ๋จธ ๊ณ„์—ด ๋ชจ๋ธ(GPT, Claude ๋“ฑ)์€ ํŒŒ๋ผ๋ฏธํ„ฐยท๋ฐ์ดํ„ฐ๋ฅผ ํ™•์žฅํ• ์ˆ˜๋ก, ์–ธ์–ด ์ดํ•ดยท์ƒ์„ฑ ๋Šฅ๋ ฅ์ด ๊ธ‰์ƒ์Šนํ•ด ์™”๋‹ค.
์Šค์ผ€์ผ๋ง์ด ์˜๋ฏธ ์žˆ๋Š” ์ด์œ ๋Š”, โ€œ์„ค๊ณ„์ž๊ฐ€ ์ผ์ผ์ด ์†๋Œ€์ง€ ์•Š์•„๋„โ€, ๋‹จ์ˆœํžˆ ๋ชจ๋ธ ์šฉ๋Ÿ‰๊ณผ ๋ฐ์ดํ„ฐ๋งŒ ๋Š˜๋ฆฌ๋ฉด ์„ฑ๋Šฅ์ด ๊พธ์ค€ํžˆ ํ–ฅ์ƒ๋˜๋Š” โ€˜์Šค์ผ€์ผ๋ง ๋ฒ•์น™(scaling law)โ€™์ด ๊ด€์ฐฐ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ.

(3) โ€˜๋ฌผ๋ฆฌํ•™์˜ ํ†ต๊ณ„์—ญํ•™์  ๊ด€์ โ€™๊ณผ์˜ ์—ฐ๊ฒฐ
Dan์ด ๋งํ•˜๋Š” โ€œํ†ต๊ณ„์—ญํ•™์  ๊ด€์ โ€์€, ๋ฏธ์‹œ์  ์š”์†Œ๋“ค์ด ๋ฌด์ˆ˜ํžˆ ๋งŽ์„ ๋•Œ, ๊ฑฐ์‹œ์ ์œผ๋กœ ๋‹จ์ˆœํ•œ ๋ฒ•์น™์ด ๋“œ๋Ÿฌ๋‚œ๋‹ค๋Š” ๋ฌผ๋ฆฌํ•™ ๋ฒ•์น™(์˜ˆ: ์ด์ƒ๊ธฐ์ฒด๋ฒ•์น™ ๋“ฑ)์„ ์ผ์ปซ๋Š”๋‹ค.
๋”ฅ๋Ÿฌ๋‹๋„ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ์ˆ˜๋งŽ์€ ํŒŒ๋ผ๋ฏธํ„ฐ(๊ฐ€์ค‘์น˜)์™€ ๋‰ด๋Ÿฐ์ด ๋ฏธ์‹œ์ ์œผ๋กœ ๋ณต์žกํ•˜๊ฒŒ ์–ฝํ˜€ ์žˆ์ง€๋งŒ, ๋Œ€๊ทœ๋ชจ๋กœ ์Šค์ผ€์ผ์—…ํ–ˆ์„ ๋•Œ ์–ด๋–ค ๊ฐ„๋‹จํ•œ ํ†ต๊ณ„์  ๊ฑฐ๋™(์˜ˆ: ์ผ์ •ํ•œ ์†์‹ค ํ•˜๋ฝ ์ถ”์„ธ, ์„ฑ๋Šฅ ๊ณก์„ )์ด ๋‚˜ํƒ€๋‚œ๋‹ค.
๋ฌผ๋ฆฌํ•™์ž๋Š” ์ด๋Ÿฌํ•œ โ€œํฐ ๊ทœ๋ชจ์—์„œ์˜ ๋‹จ์ˆœํ•จโ€์„ ์ดํ•ดํ•˜๊ณ  ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐ ์ต์ˆ™ํ•˜๋ฏ€๋กœ, ๋Œ€๊ทœ๋ชจ ์‹ ๊ฒฝ๋ง(๋”ฅ๋Ÿฌ๋‹)์—๋„ ๋˜‘๊ฐ™์€ ์‚ฌ๊ณ ๋ฅผ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ.

2) ๋‹จ์ผ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ vs. ์ „๋ฌธ ๋ถ„์•ผ๋ณ„ ๋ชจ๋ธ

(1) ํ˜„์žฌ ํŠธ๋ Œ๋“œ: โ€˜ํ•˜๋‚˜์˜ ๋ฒ”์šฉ ์ดˆ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธโ€™
๊ตฌ๊ธ€, OpenAI, Meta ๋“ฑ ๋น…ํ…Œํฌ๋“ค์€ โ€œํ•˜๋‚˜์˜ ๊ฑฐ๋Œ€ํ•œ ์–ธ์–ด๋ชจ๋ธ(GPT, PaLM, Llama ๋“ฑ)โ€์ด ๋ชจ๋“  ์–ธ์–ด ์—…๋ฌด๋ฅผ ์ž˜ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋ฏฟ์Œ/์‹คํ—˜์„ ๊ณ„์†ํ•ด ์™”๋‹ค.
์žฅ์ :
์—ฌ๋Ÿฌ ๋ถ„์•ผ๋ณ„ ๋ชจ๋ธ์„ ๊ฐ๊ฐ ๋งŒ๋“œ๋Š” ๊ฒƒ๋ณด๋‹ค, ํ•˜๋‚˜์˜ ๋ฒ”์šฉ ๋ชจ๋ธ์„ ์ž˜ ํ‚ค์›Œ๋†“์œผ๋ฉด ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ์— ์กฐ๊ธˆ์”ฉ ํŠœ๋‹ํ•ด์„œ ์“ธ ์ˆ˜ ์žˆ์Œ.
๋ฐ์ดํ„ฐ ๊ณต์œ ๋‚˜ ํ•™์Šต ์ธํ”„๋ผ ์ธก๋ฉด์—์„œ โ€œ๊ทœ๋ชจ์˜ ๊ฒฝ์ œโ€ ๋ฐœ์ƒ.

(2) ํ•˜์ง€๋งŒ ์ž์›ยท๊ฒฝ์ œ์„ฑ ํ•œ๊ณ„ ๊ฐ€๋Šฅ
ํฌ๊ธฐ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ํ›ˆ๋ จ ๋น„์šฉ, ์ถ”๋ก  ๋น„์šฉ, ์ „๋ ฅ ์†Œ๋ชจ๊ฐ€ ํญ๋ฐœ์ ์œผ๋กœ ์ฆ๊ฐ€.
โ€œ๋ฌด์ž‘์ • ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๋Š˜๋ฆฌ๋‹ค๊ฐ€, ๊ฒฝ์ œ์ ์œผ๋กœ/๋ฌผ๋ฆฌ์ ์œผ๋กœ ๊ฐ๋‹น ์•ˆ ๋˜๋Š” ์ง€์ โ€์ด ์˜จ๋‹ค๋Š” ์šฐ๋ ค๊ฐ€ ์กด์žฌ.
์˜ˆ๋ฅผ ๋“ค์–ด, GPT-4๋ณด๋‹ค ํ›จ์”ฌ ํฐ ๋ชจ๋ธ์„ ๋งŒ๋“ค๋ ค๋ฉด ์ฒœ๋ฌธํ•™์ ์ธ GPU ํด๋Ÿฌ์Šคํ„ฐ, ์ „๋ ฅ, ์‹œ๊ฐ„ ๋“ฑ์ด ํ•„์š”ํ•ด์งˆ ์ˆ˜ ์žˆ์Œ.

(3) ์™„์ „ํžˆ ๋„๋ฉ”์ธ๋ณ„ ๋ชจ๋ธ๋กœ ์ชผ๊ฐœ์ง€๋Š” ๊ฒƒ์€ ๋ณด์žฅ๋˜์ง€ ์•Š์Œ
โ€œ์ดˆ๋Œ€ํ˜• ๋ฒ”์šฉ ๋ชจ๋ธโ€๊ณผ ๋ฐ˜๋Œ€๋กœ, ๊ฐ ๋„๋ฉ”์ธ(์˜ํ•™, ๋ฒ•๋ฅ , ๊ธˆ์œต ๋“ฑ)์— ์ตœ์ ํ™”๋œ โ€œ์ „๋ฌธ ๋ชจ๋ธโ€์„ ๋งŒ๋“ค์ž๋Š” ์‹œ๊ฐ๋„ ์žˆ์Œ.
๊ทธ๋Ÿฌ๋‚˜ ์ „๋ฌธ ๋ชจ๋ธ๋งŒ ๋งŒ๋“ค ๊ฒฝ์šฐ, ๋งค ๋„๋ฉ”์ธ๋งˆ๋‹ค ๋ฐ์ดํ„ฐ, ํŠœ๋‹, ์œ ์ง€๋ณด์ˆ˜๊ฐ€ ๋ถ„์‚ฐ๋˜์–ด ๋น„ํšจ์œจ์ด ์ปค์งˆ ์ˆ˜ ์žˆ์Œ.
์‹ค์ œ๋กœ๋Š” ๋‘ ์ ‘๊ทผ์ด ์–ด๋–ป๊ฒŒ ์œตํ•ฉ๋ ์ง€ ์•„์ง ๋ถˆ๋ช…ํ™•.
์˜ˆ) ํ•˜๋‚˜์˜ ํฐ ๋ฒ”์šฉ ๋ชจ๋ธ+ํ•„์š” ์‹œ ๋„๋ฉ”์ธ๋ณ„ ์ถ”๊ฐ€ ๋ชจ๋“ˆ(ํ˜น์€ ํ•˜์œ„ ๋ชจ๋ธ)์„ ํ˜ผํ•ฉํ•˜๋Š” โ€˜Mixture of Expertsโ€™ ๊ตฌ์ƒ, ํ˜น์€ API๋กœ ์„œ๋กœ ํ˜‘์—…ํ•˜๋Š” ๊ตฌ์กฐ ๋“ฑ๋“ฑ.

3) AI ๋ฏธ๋ž˜ ์ „๋ง (๋‹จ๊ธฐ ~ ์žฅ๊ธฐ)
Dan์˜ ์ž…์žฅ์—์„œ, AI๊ฐ€ ์–ด๋–ค ๊ฒฝ๋กœ๋ฅผ ๊ฐˆ์ง€ ํ™•์‹คํ•˜์ง„ ์•Š์ง€๋งŒ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์–ธ๊ธ‰:

(1) ๋‹จ๊ธฐ (์•ฝ 5๊ฐœ์›” ์ •๋„)
GPT-n ์ฐจ์„ธ๋Œ€ ๋ชจ๋ธ: ์˜ˆ์ปจ๋Œ€ GPT-5, GPT-4.5 ํ˜น์€ ๋‹ค๋ฅธ ํšŒ์‚ฌ ๋ชจ๋ธ์ด ๋‚˜์˜ฌ ๊ฐ€๋Šฅ์„ฑ.
์ด ๋•Œ **โ€œ์Šค์ผ€์ผ๋ง์„ ๋” ๋ฐ€์–ด๋ถ™์ผ ๊ฒฝ์šฐ, ์–ด๋А ์ •๋„ ์„ฑ๋Šฅ ํ–ฅ์ƒโ€**์ด ๋ฐœ์ƒํ•˜๋Š”์ง€ ์ฒด๊ฐํ•˜๊ฒŒ ๋  ๊ฒƒ.
๋งŒ์•ฝ ์ด์ „ GPT์—์„œ ๋‹ค์Œ GPT๋กœ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋‹ฌ๋ผ์ง„๋‹ค๋ฉด, โ€œ์Šค์ผ€์ผ๋ง ์•„์ง ์—ฌ๋ ฅ ์žˆ๋‹คโ€๋Š” ๊ฒฐ๋ก ์ด ๊ฐ€๋Šฅ.
๋ฐ˜๋ฉด ํ–ฅ์ƒ์ด ๋ฏธ๋ฏธํ•˜๋‹ค๋ฉด, โ€œ์Šค์ผ€์ผ๋ง ํ•œ๊ณ„๊ฐ€ ์ด๋ฏธ ๋„๋ž˜ํ–ˆ๋‚˜?โ€๋ผ๋Š” ์งˆ๋ฌธ ๋ฐœ์ƒ.

(2) ์ค‘๊ธฐ (์•ฝ 5๋…„)
์Šค์ผ€์ผ ์—…์— ๊ฒฝ์ œ์ /๋ฌผ๋ฆฌ์  ํ•œ๊ณ„๊ฐ€ ์ฐพ์•„์˜ฌ ์ˆ˜๋„.
โ€œ๋„ˆ๋ฌด ๋น„์šฉ์ด ์ปค์„œ ๋ชป ํ‚ค์šด๋‹คโ€ โ†’ AI ์œˆํ„ฐ(ํˆฌ์žยท์—ด๊ธฐ ์‹๋Š” ํ˜„์ƒ) ๊ฐ€๋Šฅ์„ฑ.
๋ฐ˜๋Œ€๋กœ, ์ƒˆ๋กœ์šด ์•„์ด๋””์–ด(์˜ˆ: ์ƒˆ๋กœ์šด ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„, ์•„ํ‚คํ…์ฒ˜, ๋ฉ”๋ชจ๋ฆฌยท์ถ”๋ก  ๋ฐฉ์‹ ๋“ฑ)๊ฐ€ ๋“ฑ์žฅํ•ด โ€œ๋˜ ๋‹ค๋ฅธ ๋„์•ฝโ€์„ ์ด๋ฃฐ ์ˆ˜๋„.
๊ฒฐ๊ตญ ์ด ์‹œ๊ธฐ์—๋Š” โ€œ์Šค์ผ€์ผ๋ง ์ง€์† vs. ์ƒˆ ์•„์ด๋””์–ดยท๊ธฐ์ˆ  ์ „ํ™˜โ€ ๊ฐˆ๋ฆผ๊ธธ์ด ๊ด€๊ฑด.

(3) ์žฅ๊ธฐ (์ˆ˜์‹ญ ๋…„)
์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๊ฐ€๋Šฅ์„ฑ์ด ๊ณต์กด:
AI๊ฐ€ ๋ชจ๋“  ๊ฒƒ์„ ๋ฐ”๊พธ๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค: ์ธ๊ฐ„ ๋…ธ๋™ ๋Œ€์ฒด, ์ง€์  ๋ฐœ๊ฒฌ ๊ฐ€์†, ๊ฒฝ์ œ ์ฒด๊ณ„ ์žฌํŽธ ๋“ฑ.
์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„ ๋“ฑ์žฅ: โ€œAI๋Š” ํ•œ๊ณ„์— ๋ถ€๋”ชํžˆ๊ณ  ์™„์ „ํžˆ ๋‹ค๋ฅธ ์ปดํ“จํŒ…/๋ชจ๋ธ ๋ฐฉ์‹โ€์ด ๋Œ€๋‘๋  ์ˆ˜๋„.
โ€œ์ •ํ™•ํžˆ ์–ด๋–ค ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐˆ์ง€๋Š” ๋งค์šฐ ์˜ˆ์ธกํ•˜๊ธฐ ์–ด๋ ต๋‹คโ€๋ฉฐ Dan ๋ณธ์ธ๋„ ์‹ ์ค‘ํ•œ ํƒœ๋„๋ฅผ ์œ ์ง€.
๐Ÿ‘2
๋ฉ”ํƒ€์˜ ์ƒ์„ฑ AI ์กฐ์ง์ด ํŒจ๋‹‰ ์ƒํƒœ์— ๋น ์กŒ์Šต๋‹ˆ๋‹ค.
๋ชจ๋“  ๊ฒƒ์€ deepseek v3์—์„œ ์‹œ์ž‘๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
์ด ๋ชจ๋ธ์ด Llama 4๋ฅผ ์ด๋ฏธ ๋ฒค์น˜๋งˆํฌ์—์„œ ๋’ค์ฒ˜์ง€๊ฒŒ ๋งŒ๋“ค์—ˆ์ฃ .
์„ค์ƒ๊ฐ€์ƒ์œผ๋กœ โ€œ5~5๋ฐฑ๋งŒ ๋‹ฌ๋Ÿฌ์˜ ์˜ˆ์‚ฐ์œผ๋กœ ํ›ˆ๋ จํ•œ ์ •์ฒด๋ถˆ๋ช…์˜ ์ค‘๊ตญ ํšŒ์‚ฌโ€๊ฐ€ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค.
์—”์ง€๋‹ˆ์–ด๋“ค์€ deepseek์„ ํ•„์‚ฌ์ ์œผ๋กœ ๋ถ„์„ํ•˜๋ฉฐ ๊ฑฐ๊ธฐ์„œ ๋ฐฐ์šธ ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ๊ฒƒ์„ ๋ฒ ๊ปด ์˜ค๋ ค๊ณ  ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ •๋ง ๊ณผ์žฅ์ด ์•„๋‹™๋‹ˆ๋‹ค.
๊ฒฝ์˜์ง„์€ ์ƒ์„ฑ AI ์กฐ์ง์˜ ๋ง‰๋Œ€ํ•œ ๋น„์šฉ์„ ์–ด๋–ป๊ฒŒ ์ •๋‹นํ™”ํ•  ์ˆ˜ ์žˆ์„์ง€ ์šฐ๋ คํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์กฐ์ง ๋‚ด โ€œ๋ฆฌ๋”โ€ ํ•œ ๋ช…์ด deepseek v3์˜ ์ „์ฒด ํ›ˆ๋ จ ๋น„์šฉ๋ณด๋‹ค ๋” ๋งŽ์€ ์—ฐ๋ด‰์„ ๋ฐ›๊ณ  ์žˆ๊ณ , ๊ทธ๋Ÿฐ โ€œ๋ฆฌ๋”โ€๊ฐ€ ์—ฌ๋Ÿฌ ๋ช…์ด๋‚˜ ๋˜๋‹ˆ ๋ง์ž…๋‹ˆ๋‹ค.
deepseek r1์€ ์ƒํ™ฉ์„ ๋”์šฑ ์•…ํ™”์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๊ธฐ๋ฐ€ ์ •๋ณด๋ผ ์ž์„ธํžˆ ๋ฐํž ์ˆ˜๋Š” ์—†์ง€๋งŒ ๊ณง ๊ณต๊ฐœ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.
์‚ฌ์‹ค ์ด ์กฐ์ง์€ ์†Œ๊ทœ๋ชจ์˜ ์—”์ง€๋‹ˆ์–ด๋ง ์ค‘์‹ฌ ์กฐ์ง์ด ๋˜์—ˆ์–ด์•ผ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์—ฌ๋Ÿฌ ์‚ฌ๋žŒ๋“ค์ด ์˜ํ–ฅ๋ ฅ์„ ์–ป๊ธฐ ์œ„ํ•ด ์กฐ์ง์œผ๋กœ ๋ชฐ๋ ค๋“ค๊ณ , ์ธ๋ ฅ์„ ์ธ์œ„์ ์œผ๋กœ ๋ถ€ํ’€๋ฆฐ ๊ฒฐ๊ณผ ๋ชจ๋‘์—๊ฒŒ ํ•ด๊ฐ€ ๋˜๊ณ  ๋ง์•˜์Šต๋‹ˆ๋‹ค.
โ€œ์ˆ˜ํ•™์ด ๊ณง ์ถ”๋ก โ€์ด๋ผ๋Š” ๋ฏฟ์Œ
์ˆ˜ํ•™์„ ์ง์ ‘ ๊ฐ€๋ฅด์ณ์•ผ ํ•˜๋Š” ์ด์œ 

๋Œ€๊ทœ๋ชจ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ(LLM)๋“ค์ด ์ธํ„ฐ๋„ท ํ…์ŠคํŠธ ์ „๋ฐ˜(์ฝ”๋“œ, ์ž์—ฐ์–ด, ๋…ผ๋ฌธ ๋“ฑ)์„ ํ•™์Šตํ•ด โ€˜์ž์—ฐ์Šค๋Ÿฝ๊ฒŒโ€™ ์ˆ˜ํ•™ ๋Šฅ๋ ฅ์„ ์ตํž ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ธฐ๋Œ€ํ•˜์ง€๋งŒ, ์‹ค์ œ๋กœ๋Š” ๋ฏธํกํ•จ.
โ€œ์ˆ˜ํ•™์€ ๊ฐ๊ด€์ ์ด๊ณ  ์—„๊ฒฉํ•œ ๋…ผ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐโ€, ์ด๋ฅผ AI์— ์ง์ ‘ ํ•™์Šต์‹œ์ผœ์•ผ ์ง„์ •ํ•œ โ€˜์ถ”๋ก  ๋Šฅ๋ ฅโ€™์ด ์ƒ๊ธด๋‹ค๊ณ  ๋ด„.
์ธ๊ฐ„ ์‚ฌ๋ก€: ์–ด๋ฆด ๋•Œ ์ˆ˜ํ•™(ํŠนํžˆ ์–ด๋ ต๊ณ  ์ถ”์ƒ์ ์ธ ๋ฌธ์ œ)์„ ํ›ˆ๋ จํ•œ ์‚ฌ๋žŒ๋“ค์ด ๋‹ค๋ฅธ ๊ณผํ•™ยท๊ณตํ•™ยท๋…ผ๋ฆฌ์  ์ž‘์—…์— ๋›ฐ์–ด๋‚œ ์—ญ๋Ÿ‰์„ ๋ฐœํœ˜ํ•˜๋“ฏ, AI๋„ ๋งˆ์ฐฌ๊ฐ€์ง€ ํŒจํ„ด์„ ๋ณด์ผ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ.
์ˆ˜ํ•™์„ ์ž˜ํ•˜๋ฉด ๋‹ค๋ฅธ ๋ถ„์•ผ๋„ ์ž˜ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?

์ฝ”๋“œ ์˜ˆ์‹œ: ์ด๋ฏธ ์—…๊ณ„์—์„œ โ€œ์ฝ”๋“œ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•˜๋ฉด ๋…ผ๋ฆฌยท์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜๊ฐ€ ํฌ๊ฒŒ ์˜ฌ๋ผ๊ฐ„๋‹คโ€๋Š” ์‚ฌ์‹ค์ด ์•Œ๋ ค์ ธ ์žˆ์Œ. ์ˆ˜ํ•™์€ ๊ทธ๋ณด๋‹ค ๋” ํ™•์žฅ๋œ ๋ฒ”์œ„์˜ ๋…ผ๋ฆฌ ํ›ˆ๋ จ์„ ์ œ๊ณต.
๋ธ”๋ผ๋“œ ํ…Œ๋„ค๋ธŒ ๋ณธ์ธ์˜ ๊ฒฝํ—˜: ๋Œ€ํ•™ ์‹œ์ ˆ ์ˆ˜ํ•™์— ๋ชฐ๋‘ํ–ˆ์œผ๋‚˜, ์ดํ›„ ํ”„๋กœ๊ทธ๋ž˜๋ฐยท๊ธฐ์—… ๊ฒฝ์˜ยท๊ณ„์•ฝ์„œ ๋ถ„์„ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ๋ฅผ ๋น ๋ฅด๊ฒŒ ์ตํž ์ˆ˜ ์žˆ์—ˆ๋‹ค๊ณ  ์–ธ๊ธ‰.

AI๊ฐ€ ๋ฆฌ๋งŒ ๊ฐ€์„ค(Riemann Hypothesis) ๋“ฑ์„ ํ’€ ์ˆ˜ ์žˆ์„๊นŒ?
์ˆ˜ํ•™๊ณ„์˜ ์‹œ๊ฐ

์ Š์€ ์ˆ˜ํ•™์ž๋“ค์€ Lean, ์ž๋™์ฆ๋ช…, AI ์—ฐ๊ตฌ์— ๋น„๊ต์  ๊ฐœ๋ฐฉ์ ยท๊ธ์ •์ ์ธ ๋ฐ˜๋ฉด, ์ „ํ†ต์ ์ธ ํ•™๊ณ„ ์›๋กœ๋“ค์€ ์•„์ง ๋‹ค์†Œ ํšŒ์˜์ .
๊ทธ๋Ÿฌ๋‚˜ ์ ์ฐจ โ€˜AI ๋ณด์กฐ ์ˆ˜ํ•™ ์—ฐ๊ตฌ(Human+AI ํ˜‘๋ ฅ)โ€™๊ฐ€ ๋ณดํŽธํ™”๋  ๊ฒƒ์ด๋ผ๋Š” ๋ฐ์—๋Š” ๊ณต๊ฐ๋Œ€๊ฐ€ ํ˜•์„ฑ๋˜๊ณ  ์žˆ์Œ.
๋ฆฌ๋งŒ ๊ฐ€์„ค ๋“ฑ ๋ฐ€๋ ˆ๋‹ˆ์—„ ๋‚œ์ œ

๋ฉ”ํƒ€ํ˜๋Ÿฌ์Šค(Metaculus) ์˜ˆ์ธก: โ€œ๋‹ค์Œ ๋ฐ€๋ ˆ๋‹ˆ์—„ ํ”„๋ผ์ด์ฆˆ๋ฅผ AI ํ˜น์€ AI ๋ณด์กฐ๋กœ ํ•ด๊ฒฐํ•  ํ™•๋ฅ ์ด 43%โ€๋ผ๋Š” ์ง‘๊ณ„๊ฐ€ ์žˆ์œผ๋‚˜, ๋ธ”๋ผ๋“œ๋Š” ์ด๋ฅผ โ€œ๊ณผ์†Œํ‰๊ฐ€โ€๋ผ๊ณ  ๋ด„.
์กฐ๋งŒ๊ฐ„(๊ฐ€๋ น 2020๋…„๋Œ€ ๋ง~2030๋…„๋Œ€ ์ดˆ)์— AI๊ฐ€ ์ธ๊ฐ„ ํ˜‘์—… ๋˜๋Š” ๋‹จ๋…์œผ๋กœ ์ฃผ์š” ๋‚œ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค๊ณ  ์ „๋ง.
์ธ๊ฐ„์ด ํ•ด์•ผ ํ•  ์—ญํ• 

AI๊ฐ€ ์ ์ฐจ ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ๋ ฅ์„ ๋†’์ด๋”๋ผ๋„, โ€œ์–ด๋–ค ๋ฌธ์ œ์— compute ์ž์›์„ ํˆฌ์ž…ํ• ์ง€ ๊ฒฐ์ •โ€ํ•˜๋Š” ๊ฒƒ์€ ์ธ๊ฐ„์˜ ๋ชซ.
๋˜ํ•œ โ€œ์ƒˆ๋กœ์šด ๋ฌธ์ œ๋ฅผ ์–ด๋–ป๊ฒŒ ์ œ์‹œํ•˜๊ณ , ์ฆ๋ช…๋œ ๊ฒฐ๊ณผ๋ฅผ ์–ด๋–ป๊ฒŒ ํ•ด์„ํ• ์ง€โ€ ๋“ฑ์˜ ๊ณผ์ •์—์„œ ์ธ๊ฐ„ ์ˆ˜ํ•™์ž๋“ค์€ ๊ณ„์† ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•  ๊ฒƒ.

Lean(๊ณต์‹ ์ฆ๋ช… ์‹œ์Šคํ…œ) ํ™œ์šฉ๊ณผ ์ž๊ธฐ๊ฐ•ํ™”(Self-play)
Lean์ด๋ž€?

๋งˆ์ดํฌ๋กœ์†Œํ”„ํŠธ ์—ฐ๊ตฌ์›(ํ˜„์žฌ๋Š” AWS ์†Œ์†) ๋ ˆ์˜ค ๋“œ ๋ชจ๋ผ(Leo de Moura)๊ฐ€ ๊ฐœ๋ฐœํ•œ ํ˜•์‹ ๋…ผ๋ฆฌ(Proof Assistant) ๊ธฐ๋ฐ˜ ์–ธ์–ด.
์›๋ž˜๋Š” โ€˜์†Œํ”„ํŠธ์›จ์–ด ๊ฒ€์ฆโ€™์„ ๋ชฉํ‘œ๋กœ ํ–ˆ์ง€๋งŒ, ์ˆ˜ํ•™๊ณ„์—์„œ ํญ๋ฐœ์ ์œผ๋กœ ํ™•์‚ฐ๋˜์–ด ์ˆ˜์ฒœ ๋ช… ์ด์ƒ์˜ ์ˆ˜ํ•™์ž๋“ค์ด Mathlib ์˜คํ”ˆ์†Œ์Šค ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ๊ตฌ์ถ• ์ค‘.
๋ชจ๋“  ์ •๋ฆฌ๋Š” Lean์˜ ํƒ€์ž… ์‹œ์Šคํ…œ ์•ˆ์— โ€˜ํ•จ์ˆ˜(signature)โ€™ ํ˜•ํƒœ๋กœ ํ‘œํ˜„๋˜๋ฏ€๋กœ, ์ฆ๋ช…๋งŒ ํ†ต๊ณผํ•˜๋ฉด 100% ์˜ณ์€ ๊ฒƒ์œผ๋กœ ๊ฐ„์ฃผ ๊ฐ€๋Šฅ.
์™œ ์ˆ˜ํ•™ AI์— Lean์ด ํ•„์ˆ˜์ธ๊ฐ€?

์ผ๋ฐ˜ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜์˜ โ€œ์ •๋‹ต ์—ฌ๋ถ€โ€ ํŒ๋‹จ์€ ๋ชจํ˜ธํ•˜๊ฑฐ๋‚˜ ์žก์Œ์ด ๋งŽ๋‹ค.
Lean ์•ˆ์—์„œ๋Š” โ€œ์ฆ๋ช…์ด ์ปดํŒŒ์ผ๋˜๋ฉด ์˜ณ์Œ์ด ํ™•์ •โ€๋˜๋ฏ€๋กœ, ๊ฐ•ํ™”ํ•™์Šต(RL)๊ณผ ์ž๊ธฐ๊ฒ€์ฆ(self-play)์— ์ด์ƒ์ .
์ฒด์Šค๋‚˜ ๋ฐ”๋‘‘์ฒ˜๋Ÿผ ํ•ด๊ฐ€ ์œ ํ•œํ•œ ๊ฒŒ์ž„๊ณผ ๋‹ฌ๋ฆฌ, ์ˆ˜ํ•™ ๋ฌธ์ œ๋Š” ๋ฌดํ•œํ•œ ๋‹ค์–‘์„ฑ๊ณผ ๋‚œ์ด๋„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฏ€๋กœ AI๊ฐ€ ๋Š์ž„์—†์ด ๋” ๋†’์€ ๊ฒฝ์ง€๋กœ ์˜ฌ๋ผ๊ฐˆ ์ˆ˜ ์žˆ์Œ(โ€œAlphaZeroโ€ ๋ฐฉ์‹).
ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ(synthetic data)

ํ•˜๋ชจ๋‹‰์€ ๊ธฐ์กด์— ์กด์žฌํ•˜๋Š” Mathlibยท๋…ผ๋ฌธยท์ธํ„ฐ๋„ท ์ˆ˜ํ•™ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ๋Š” ๋ถ€์กฑํ•˜๋‹ค๊ณ  ํŒ๋‹จ.
๊ฒฐ๊ตญ AI๊ฐ€ ์ž์ฒด์ ์œผ๋กœ ์ˆ˜๋งŽ์€ ๋ฌธ์ œ๋ฅผ ๋งŒ๋“ค์–ด(์ž๊ธฐ ์ถœ์ œ) ํ’€๊ณ (์ž๊ธฐ ํ•ด๊ฒฐ), ๊ฒ€์ฆํ•˜๋Š” ๋ฃจํ”„๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ด์•ผ ํ•จ.
์ด๋ ‡๊ฒŒ โ€œ์ฆ๋ช… ๋‚œ์ด๋„โ€๋„ ์ ์ฐจ ๋†’์ด๋Š” ๋ฐฉ์‹์œผ๋กœ ์ ์ง„์  ์ž๊ธฐํ•™์Šต์„ ๊ตฌํ˜„.

๋ชฉํ‘œ: ์ธ๊ฐ„ ์ง€์‹์˜ ๊ฒฝ๊ณ„๋ฅผ ํ™•์žฅ

๋‹น์žฅ์—๋Š” โ€œAI ์ˆ˜ํ•™ ์—ฐ๊ตฌ์žโ€๊ฐ€ ๋˜์–ด, ๋Œ€ํ˜• ๋‚œ์ œ๋ฅผ ํ‘ธ๋Š” ๋ฐ ๊ธฐ์—ฌ. (์˜ˆ: ๋ฐ€๋ ˆ๋‹ˆ์—„ ๋ฌธ์ œ, ๋ฆฌ๋งŒ ๊ฐ€์„ค, ๋‚˜๋ธŒ-์Šคํ†ก์Šค ๋“ฑ)
๊ทธ ๊ณผ์ •์—์„œ ํ˜•์„ฑ๋˜๋Š” โ€œ์ˆ˜๋ฆฌ ์ถ”๋ก  ๋Šฅ๋ ฅโ€์ด ๊ฒฐ๊ตญ ๋ฌผ๋ฆฌํ•™, ์ด๋ก  ๊ณผํ•™, ์†Œํ”„ํŠธ์›จ์–ด ๊ฒ€์ฆ ๋“ฑ์œผ๋กœ ํ™•์žฅ๋  ๊ฒƒ.
์ถ”ํ›„์—๋Š” โ€œ์†Œํ”„ํŠธ์›จ์–ด๋ฅผ ์ž๋™์œผ๋กœ ์™„๋ฒฝ ๊ฒ€์ฆโ€ํ•˜๋Š” ์‹œ๋Œ€๊ฐ€ ๋„๋ž˜ํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Œ.
์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง ํŒจ๋Ÿฌ๋‹ค์ž„ ์ „ํ™˜

์ธ๊ฐ„์ด ์ง์ ‘ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜๊ณ  ๊ฒ€ํ† ํ•˜๋˜ ๋ฐฉ์‹์—์„œ, ์•ž์œผ๋กœ๋Š” โ€œ์‚ฌ์–‘(์ŠคํŽ™)โ€ ์œ„์ฃผ๋กœ ํ˜‘์—…ํ•˜๊ณ , ์‹ค์ œ ์ฝ”๋“œ ๊ตฌํ˜„๊ณผ ๊ฒ€์ฆ์€ ๊ฑฐ์˜ AI๊ฐ€ ์ˆ˜ํ–‰.
๋น„์šฉ์ด ๋น„์‹ธ๊ณ  ๋ณต์žกํ–ˆ๋˜ โ€œํฌ๋ฉ€ ๊ฒ€์ฆ(formal verification)โ€๋„ AI ๋•๋ถ„์— ์ €๋น„์šฉยท์ž๋™ํ™”๋กœ ์ „ํ™˜๋  ์ˆ˜ ์žˆ์Œ.
๊ธฐ์ˆ ์ ์œผ๋กœ ๋‚จ์€ ๊ณผ์ œ

์•„์ง Lean๊ณผ Mathlib์ด ์ผ๋ถ€ ๋ถ„์•ผ(์˜ˆ: ๊ธฐํ•˜ํ•™, ๋ฌผ๋ฆฌ ๋“ฑ)์—์„  ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๊ฐ€ ์ œํ•œ์ .
โ€œAI๊ฐ€ ์ž๋™์œผ๋กœ ์ƒˆ๋กœ์šด ์ด๋ก ยท๊ณต๋ฆฌ๋ฅผ ์ •์˜ํ•˜๊ณ , ์ด๋ฅผ ๋‹ค์‹œ Lean์— ํฌ์„ญโ€ํ•˜๋Š” ์ž‘์—…์ด ์™„์ „ํžˆ ์ž๋™ํ™”๋˜๋ ค๋ฉด ์—ฐ๊ตฌ๊ฐ€ ๋” ํ•„์š”.
๊ทธ๋Ÿฌ๋‚˜ 1~2๋…„ ์ด๋‚ด์— โ€œIMO ์ˆ˜์ค€(๊ตญ์ œ์ˆ˜ํ•™์˜ฌ๋ฆผํ”ผ์•„๋“œ ์šฐ์Šน ์ˆ˜์ค€)โ€์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ๊ณ , ๊ทธ ํ›„ ๋งค์šฐ ๋น ๋ฅธ ์†๋„๋กœ ์„ฑ์žฅํ•  ๊ฒƒ์ด๋ผ๋Š” ์ „๋ง.

https://youtu.be/NvAxuCIBb-c
https://youtu.be/KYzYOPkxLis

๊ธ€๋กœ๋ฒŒ AI ์ธํ”„๋ผ & ๋Œ€ํ˜• ํˆฌ์ž ๊ฒฝ์Ÿ
GPU ์ˆ˜์š” ํญ์ฆ๊ณผ ์บํŒŒ(Capacity) ํ•œ๊ณ„:

x.ai(Elon Musk)๋‚˜ Anthropic(์•„๋งˆ์กด ํ›„์›), Google(DeepMind), Meta ๋“ฑ ์ดˆ๊ฑฐ๋Œ€ ๋ชจ๋ธ๋“ค์ด ๋ชจ๋‘ GPU ์ฆ์„ค ๊ฒฝ์Ÿ.
์ œ์กฐ์‚ฌ(Nvidia ๋“ฑ)์˜ ์—ฐ๊ฐ„ GPU ์ƒ์‚ฐ๋Šฅ๋ ฅ์„ ๊ฐ์•ˆํ•  ๋•Œ, ๋Œ€๊ทœ๋ชจ ์‹ ๊ทœ ํ”„๋กœ์ ํŠธ(Stargate ๋“ฑ)๋Š” ๊ฒฐ๊ตญ GPUยท์ „๋ ฅยท๋ฉ”๋ชจ๋ฆฌยท์—”์ง€๋‹ˆ์–ด๋ง์ด ๋ณ‘๋ชฉ์ด ๋  ๊ฒƒ์œผ๋กœ ๋ณด์ž„.
์ด ๊ณผ์ •์—์„œ Nvidia์˜ ์ˆ˜์š”๊ฐ€ ๋”์šฑ ์ฆ๊ฐ€, ๊ธฐ์—… ๋งค์ถœ ๊ธฐ๋Œ€์น˜ ์ƒ์Šน.
Innovation vs. Commoditization:

์ผ๋ถ€ ์ „๋ฌธ๊ฐ€๋Š” ๊ทœ๋ชจ์˜ ๊ฒฝ์ œ์™€ ๋ญ‰์นซ๋ˆ์ด ๋ชจ์ด๋ฉด, ๊ณง AI ๋ชจ๋ธ๋“ค์˜ โ€˜์œ ์‚ฌ Commoditizationโ€™์ด ์˜ฌ ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ง€์ .
๊ทธ๋Ÿฌ๋‚˜ Sam Altman(์˜คํ”ˆAI), Elon Musk(x.ai)์ฒ˜๋Ÿผ โ€œ๋ง‰๋Œ€ํ•œ ์ž๋ณธ+๋…๋ณด์  ๋ชจ๋ธ๋งยท๋ฐ์ดํ„ฐโ€ ์กฐํ•ฉ์ด ๊ฒฐ๊ตญ ์Šน์ž๋กœ ๊ท€๊ฒฐ๋  ๊ฒƒ์ด๋ผ๋Š” ์ „๋ง๋„ ๊ณต์กด.
๊ตญ๊ฐ€ ๊ฒฝ์Ÿ๊ตฌ๋„:

๋ฏธ๊ตญ์ด ๋Œ€๊ทœ๋ชจ AI compute ์„ผํ„ฐ ๊ฑด์„ค์— ๋ฐ•์ฐจ๋ฅผ ๊ฐ€ํ•˜๋ฉด, MetaยทGoogleยทMicrosoft ๋“ฑ ์ž๊ตญ ํ…Œํฌ ๊ธฐ์—…๋„ ๋Œ€์‘ Capex ์ฆ์„ค์ด ๋ถˆ๊ฐ€ํ”ผ.
์ค‘๊ตญ์€ ์–ด์ฉ” ์ˆ˜ ์—†์ด โ€˜์ œํ•œ๋œ ์นฉ ํ™˜๊ฒฝโ€™์—์„œ ํ˜์‹ (์••์ถ• ๋ชจ๋ธยท์ฆ๋ฅ˜ ๋ชจ๋ธ ๋“ฑ)์„ ๊ฐ€์†ํ™” ์ค‘. DeepSeek ์‚ฌ๋ก€๊ฐ€ ๋Œ€ํ‘œ์ .
๋Œ€๋‹ด์ž๋“ค์€ ํ˜„ํ–‰ ์ˆ˜์ถœ ์ œํ•œ์ด ์˜คํžˆ๋ ค ์ค‘๊ตญ ์ธก์— ์ฐฝ์˜์  ์†”๋ฃจ์…˜์„ ์œ ๋„ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ง€์ .

์ „๋ ฅ ์ˆ˜์š”๊ฐ€ ๊ธฐ๊ฐ€์™€ํŠธ(GW) ๊ธ‰:

10๋งŒ GPU ์ˆ˜์ค€์˜ โ€˜AI ํŒฉํ† ๋ฆฌโ€™๋„ 100MW ์ด์ƒ์˜ ์ „๋ ฅ์ด ์†Œ์š”๋œ๋‹ค๊ณ  ์•Œ๋ ค์ ธ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ทธ ์ด์ƒ์˜ ๊ทœ๋ชจ๊ฐ€ ๋˜๋ฉด ์ตœ๋Œ€ 1GW์— ์ด๋ฅด๋Š” ์ „๋ ฅ ์ธํ”„๋ผ๋„ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค(์ฐธ๊ณ ๋กœ, 1GW๋Š” ์•ฝ 100๋งŒ ๊ฐ€๊ตฌ๊ฐ€ ์‚ฌ์šฉํ•˜๋Š” ์ „๋ ฅ๋Ÿ‰์— ํ•ด๋‹น).
์ˆ˜ GW ๊ทœ๋ชจ์˜ ๋ถ€์ง€ยท์ „๋ ฅยท๋ƒ‰๊ฐ ์ธํ”„๋ผ๋ฅผ ๊ฑด์„คํ•  ์ˆ˜ ์žˆ์–ด์•ผ โ€œ๋งค์šฐ ํฌ๋‹คโ€๊ณ  ํ‰๊ฐ€ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
์ˆ˜๋ฐฑ์–ต~์ˆ˜์ฒœ์–ต ๋‹ฌ๋Ÿฌ๊ธ‰ ํˆฌ์ž ๊ทœ๋ชจ:

์—”๋น„๋””์•„ H100 GPU 1์žฅ๋งŒ ํ•ด๋„ ์•ฝ 2~3๋งŒ ๋‹ฌ๋Ÿฌ, ์„œ๋ฒ„ยท๋ƒ‰๊ฐยท๋„คํŠธ์›Œํ‚นยท๋ถ€์ง€ ๋“ฑ์„ ์ข…ํ•ฉํ•˜๋ฉด GPU 1์žฅ๋‹น 4~5๋งŒ ๋‹ฌ๋Ÿฌ์˜ Total System Cost๊ฐ€ ๋“ ๋‹ค๋Š” ์ถ”์ •์ด ์žˆ์Šต๋‹ˆ๋‹ค.
์˜ˆ์ปจ๋Œ€ 10๋งŒ ์žฅ๋งŒ ํ•ด๋„, ํ•˜๋“œ์›จ์–ดยท์ธํ”„๋ผ ๋น„์šฉ์ด 50์–ต ๋‹ฌ๋Ÿฌ์— ๋‹ฌํ•˜๊ณ , ์‹ค์ œ๋กœ๋Š” ์ „๋ ฅ ์„ค๋น„/์‹œ๊ณต ๋น„์šฉ ๋“ฑ์ด ๋”ํ•ด์ ธ ๊ทธ 2~3๋ฐฐ๋กœ ๋›ธ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค.
SoftBank(Arm)์™€ OpenAI์˜ ํ˜‘์—…์ด ๊ตฌ์ฒดํ™”๋  ๊ฒฝ์šฐ, ์ˆ˜์‹ญ๋งŒ ์žฅ GPU ์‚ฌ์šฉ, ์ˆ˜๋ฐฑ์–ต ๋‹ฌ๋Ÿฌ๊ธ‰ Capex๊ฐ€ ๋“ค์–ด๊ฐˆ ์ˆ˜ ์žˆ์–ด โ€œ์ดˆ๋Œ€ํ˜•โ€์ด๋ผ ํ‰๊ฐ€๋˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

AI Helm vs. Micro-model ํ˜์‹ 


๋”ฅ์”จํฌ(DeepSeek) ๋“ฑ์€ ์ œํ•œ๋œ GPU๋กœ๋„ ๊ณ ์„ฑ๋Šฅ ๋ชจ๋ธ ๋‹ฌ์„ฑ(๋ชจ๋ธ ์••์ถ•ยท์ฆ๋ฅ˜ ๊ธฐ๋ฒ•) โ†’ ๊ทœ์ œ๊ฐ€ ์—ญ์„ค์ ์œผ๋กœ ํ˜์‹ .
์ค‘์š” ์‹คํ–‰ ๊ณผ์ œ

์ „๋ ฅ ํ™•๋ณด(7GW~10GW ์ด์ƒ), GPU ์ƒ์‚ฐํ•  ํŒน ์บํŒŒ(3nm ๊ณต์ •), ๋Œ€๊ทœ๋ชจ HBM ๊ณต๊ธ‰, ๋ƒ‰๊ฐยท์ผ€์ด๋ธ” ์ธํ”„๋ผ ๋“ฑ ์ข…ํ•ฉ์  ์ฐจ์›์˜ ํ˜‘์—… ํ•„์š”.
๋ฏธ๊ตญ ๋Œ€ํ˜• ํ…Œํฌ ๊ธฐ์—…(๊ตฌ๊ธ€, ๋ฉ”ํƒ€, ์•„๋งˆ์กด, x.ai)๋„ ํ˜น๋…ํ•œ Capex ๊ฒฝ์Ÿ ์˜ˆ์ƒ.

๋ฐ˜๋„์ฒด ์ƒ์‚ฐ ์บํŒŒ(Capacity) ์ž์ฒด ํ™•์ถฉ:

GPUยทAI์šฉ ASIC ๋“ฑ ์ƒ์‚ฐ์„ ๋‹ด๋‹นํ•˜๋Š” ํŒŒ์šด๋“œ๋ฆฌ(์ฃผ๋กœ TSMC)๋‚˜ ์ธํ…”ยท์‚ผ์„ฑ์ „์ž๊ฐ€ 3nmยท2nm ๊ณต์ •์œผ๋กœ ๋Œ€๋Ÿ‰ ์–‘์‚ฐํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ณต์žฅ๋ผ์ธยท์žฅ๋น„(ASML ๋…ธ๊ด‘์žฅ๋น„ ๋“ฑ)๋ฅผ ์ฆ์„คํ•ด์•ผ ํ•จ.
CPU ์ƒ์‚ฐ์˜ ๊ฒฝ์šฐ๋„ Arm ์•„ํ‚คํ…์ฒ˜ ๊ธฐ๋ฐ˜ SoC๋ฅผ ๋Œ€๊ทœ๋ชจ๋กœ ๋งŒ๋“ค๋ ค๋ฉด, ํŒŒ์šด๋“œ๋ฆฌ์™€์˜ ํ˜‘์—…ยทํˆฌ์ž ํ•„์š”.
HBM(๊ณ ๋Œ€์—ญํญ ๋ฉ”๋ชจ๋ฆฌ) ๋“ฑ ๋ณด์กฐ ๋ถ€ํ’ˆ์˜ ์•ˆ์ •์  ์กฐ๋‹ฌ๋ง ๊ตฌ์ถ•:

AI ์„œ๋ฒ„์—๋Š” GPU๋ฟ ์•„๋‹ˆ๋ผ ๋Œ€์šฉ๋Ÿ‰ HBM ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ํ•„์ˆ˜์ธ๋ฐ, HBM ์ œ์กฐ(์‚ผ์„ฑยทํ•˜์ด๋‹‰์Šค ๋“ฑ)๋Š” ์บํŒŒ๊ฐ€ ์ œํ•œ์ ์ž„.
์‹ค์ œ๋กœ 2023๋…„~2024๋…„ ์ „ ์„ธ๊ณ„ HBM์ด ๊ณต๊ธ‰ ๋ถ€์กฑ์ด ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ์šฐ๋ ค๊ฐ€ ๊พธ์ค€ํžˆ ์ œ๊ธฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
๋”ฐ๋ผ์„œ AI ๊ธฐ์—…๋“ค์€ โ€œCPU/GPU์นฉ+HBM+Advanced Packagingโ€ ๋“ฑ ์ „์ฒด ๋ฐ˜๋„์ฒด ๊ณต๊ธ‰๋ง์„ ์žฅ๊ธฐ ๊ณ„์•ฝยท์ง์ ‘ ํˆฌ์ž ๋“ฑ์œผ๋กœ ํ™•๋ณดํ•ด์•ผ ํ•˜๋ฉฐ, ์ด๊ฒƒ์„ โ€œ๋ฐ˜๋„์ฒด ํŒŒ์ดํ”„๋ผ์ธ ํ™•์ถฉโ€์ด๋ผ ๋ถ€๋ฆ…๋‹ˆ๋‹ค.
๐Ÿ‘1
https://youtu.be/7EH0VjM3dTk

1. AI Diffusion Rule (๋ฏธ๊ตญ ์ƒ๋ฌด๋ถ€ ๊ทœ์ œ) ๊ฐœ์š”
๋ฐฐ๊ฒฝ:

2022๋…„ 10์›” ๋ฐœํ‘œ๋œ ๋ฏธ๊ตญ์˜ ๋Œ€(ๅฐ)์ค‘๊ตญ ๋ฐ˜๋„์ฒด ์ˆ˜์ถœ ๊ทœ์ œ(โ€œOctober 2022 rulesโ€)๊ฐ€ ์žˆ์—ˆ์Œ.
์ง€๊ธˆ๊นŒ์ง€ ์—ฌ๋Ÿฌ ์ฐจ๋ก€ ๊ฐœ์ •ยท๋ณด์™„๋˜๋ฉด์„œ, 2023๋…„ ๋ง โ€œAI Diffusion Ruleโ€์ด ์ถ”๊ฐ€๋ผ ์ค‘๊ตญยท์ œ3๊ตญ ๋“ฑ์—์„œ์˜ ์ดˆ๊ฑฐ๋Œ€ ๋ชจ๋ธ(Frontier Model) ๊ฐœ๋ฐœยท์‹œํ–‰์ด ํฌ๊ฒŒ ์ œํ•œ๋จ.
๋”œ๋Ÿฐ ํŒŒํ…”์€ โ€œ์ด๋ฒˆ ๊ทœ์ œ๊ฐ€ ๊ณผ๊ฑฐ ์–ด๋–ค ๊ทœ์ œ๋ณด๋‹ค ๋” ๊ด‘๋ฒ”์œ„ํ•˜๊ณ  ๊ฐ•๋„ ๋†’๋‹คโ€๋ฉฐ, ๋ฏธ๊ตญ์ด AI ํ—ค๊ฒŒ๋ชจ๋‹ˆ๋ฅผ ๊ณต๊ณ ํžˆ ํ•˜๋ ค๋Š” ์˜๋„๋ผ๊ณ  ์ง€์ .

ํ•ต์‹ฌ ๋‚ด์šฉ ๋ฐ ์˜ํ–ฅ:

ํด๋ผ์šฐ๋“œ ์ œ๊ณต์ž(ํŠนํžˆ ๋ฏธ๊ตญ ๊ธฐ์—…)๋Š” โ€œ๋น„์šฐ๋ฐฉ๊ตญโ€์—์„œ GPU๋ฅผ 5๋งŒ ๊ฐœ ์ด์ƒ ๊ตฌ๋งคยทํ™œ์šฉํ•˜์ง€ ๋ชปํ•˜๋„๋ก ๊ทœ์ •.
๋ฏธ๊ตญ ์™ธ ๊ตญ๊ฐ€(์˜ˆ: ๋ง๋ ˆ์ด์‹œ์•„)์— ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋ฅผ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒƒ๋„, ๊ทœ์ • ์ค€์ˆ˜(๊ฐ์‹œยท์‹ ๊ณ  ์˜๋ฌด ๋“ฑ)๊ฐ€ ๊ฐ•ํ™”๋˜์–ด ์ ์ฐจ ์–ด๋ ค์›Œ์ง.
๋”œ๋Ÿฐ์€ ์ด ๊ทœ์ œ๊ฐ€ ๋ฏธ๊ตญ ๋น…ํ…Œํฌยทํ•˜์ดํผ์Šค์ผ€์ผ๋Ÿฌ(์˜ˆ: Microsoft, Google, Meta, Amazon)๋‚˜ ์ฝ”์–ด์œ„๋ธŒ(CoreWeave) ๋“ฑ ์†Œ์ˆ˜ ํด๋ผ์šฐ๋“œ์— ์˜คํžˆ๋ ค ์œ ๋ฆฌํ•˜๊ฒŒ ์ž‘์šฉํ•œ๋‹ค๊ณ  ์„ค๋ช….
์ž‘์€ ํด๋ผ์šฐ๋“œ๋Š” ๊ทœ์ œ ์ค€์ˆ˜ ๋ฐ GPU ์กฐ๋‹ฌ์ด ๋งค์šฐ ์–ด๋ ค์›Œ์ ธ ๊ฒฝ์Ÿ๋ ฅ์ด ์•ฝํ™”.
์žฅ๊ธฐ์ ์œผ๋กœ ์ค‘๊ตญ์€ ์ž์ฒด ๋ฐ˜๋„์ฒดยทํด๋ผ์šฐ๋“œ ์ธํ”„๋ผ๋ฅผ ๊ฐ•์ œ ์œก์„ฑํ•  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Œ.

Goldilocks ์ ‘๊ทผ:

๋”œ๋Ÿฐ์€ ๊ทœ์ œ์˜ ๊ณจ๋””๋ฝ์Šค(hardํ•˜๋˜ ๋„ˆ๋ฌด ์ง€๋‚˜์น˜์ง€๋Š” ์•Š์€) ์ง€์ ์ด ์ค‘์š”ํ•˜๋‹ค๊ณ  ๋ด„.
์ง€๋‚˜์น˜๊ฒŒ ๊ฐ•ํ•˜๋ฉด ์ค‘๊ตญ์ด ๋” ๊ฐ•๋ ฅํ•˜๊ฒŒ ๋…์ž ๋ฐ˜๋„์ฒดยทํด๋ผ์šฐ๋“œ ๊ธฐ์ˆ ์„ ์œก์„ฑํ•  ์ˆ˜ ์žˆ๊ณ , ๋ฐ˜๋Œ€๊ธ‰๋ถ€๋กœ ๋ฏธ๊ตญ ๋‚ด ํ˜์‹ ๋„ ์ €ํ•ด๋  ๊ฐ€๋Šฅ์„ฑ์ด ์กด์žฌ.


2. ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์„ผํ„ฐ(โ€œAI ํŒฉํ† ๋ฆฌโ€)ยทํด๋Ÿฌ์Šคํ„ฐ ๊ตฌ์ถ• ๋™ํ–ฅ
GPU ํด๋Ÿฌ์Šคํ„ฐ ๊ทœ๋ชจ:

GPT-4(2022๋…„ ๋ง)๋Š” ์•ฝ 20k~30k A100 GPU๋กœ ํ›ˆ๋ จ๋˜์—ˆ๋‹ค๊ณ  ์ถ”์ •(์ด ์ „๋ ฅ 20MW ์ˆ˜์ค€).
ํ˜„์žฌ๋Š” 100k GPU(์ฃผ๋กœ Nvidia h100) ๊ทœ๋ชจ ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ์˜คํ”ˆAI, Meta, x.ai ๋“ฑ์—์„œ ํ™œ์šฉ๋˜๋ฉฐ, ์ „๋ ฅ 150MW ๋„˜๊ฒŒ ์†Œ์š”.
2026~2027๋…„์—๋Š” ๊ธฐ๊ฐ€์™€ํŠธ(GW) ๋‹จ์œ„ ์ „๋ ฅ์„ ๊ฐ–์ถ˜ ์ดˆ๊ฑฐ๋Œ€ โ€œAI ํŒฉํ† ๋ฆฌโ€๊ฐ€ ์†์† ๋“ฑ์žฅํ•  ์ „๋ง(์˜ˆ: ๋ฉ”ํƒ€๋Š” 2GW, ์—‘์‚ฌ์ด x.ai๋Š” 1GW ๋ชฉํ‘œ).

Elon Musk์˜ x.ai ์‚ฌ๋ก€ (๋ฉคํ”ผ์Šค ๊ณต์žฅ):

์—‘์‚ฌ์ด๋Š” ๊ธฐ์กด ๊ฐ€์ „ ๊ณต์žฅ์„ ๋งค์ž…ํ•ด ๋Œ€๊ทœ๋ชจ AI ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋กœ ๊ธด๊ธ‰ ์ „ํ™˜, ์ž์ฒด ๋ฐœ์ „์‹œ์„ค(NG๋ฐœ์ „๊ธฐ+ํ…Œ์Šฌ๋ผ ๋ฐฐํ„ฐ๋ฆฌ) ๊ตฌ์ถ•, ์ˆ˜๋„ยท๋ƒ‰๊ฐ ๋ฌธ์ œ ๋“ฑ ํ•ด๊ฒฐ.
์ „๋ ฅยท์„ค๋น„ยท๋ƒ‰๊ฐ ๋“ฑ ๋‚œ์ œ๊ฐ€ ์žˆ์ง€๋งŒ, โ€œํ™˜๊ฒฝ ๊ทœ์ œ๋ณด๋‹จ ์†๋„โ€๋ผ๋Š” ๊ด€์ ์œผ๋กœ ์ดˆ๊ณ ์† ๊ตฌ์ถ•์„ ์ถ”์ง„.
์‹ฌ์ง€์–ด ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ์šด์šฉ ์ค‘ ์ „๋ ฅ ์ˆ˜์š”๊ฐ€ ๊ธ‰๋ฝโ†”๊ธ‰๋“ฑํ•  ๋•Œ๋ฅผ ๋Œ€๋น„ํ•ด, โ€œ๊ฐ€์งœ ์—ฐ์‚ฐโ€์„ ๋„ฃ์–ด ์ „๋ ฅ ์•ˆ์ •ํ™”๋ฅผ ์œ ์ง€ํ•œ๋‹ค๋Š” ์ผํ™”๊ฐ€ ์†Œ๊ฐœ๋จ.
๊ฐ€์žฅ ํฐ ๋ณ‘๋ชฉ: ์ „๋ ฅ๋งยท๋ถ€์ง€ ํ—ˆ๊ฐ€(๊ทœ์ œ)ยท๋ฐ˜๋„์ฒด ์ œ์กฐยท๋ƒ‰๊ฐยท๋„คํŠธ์›Œํ‚น ๋“ฑ ์ข…ํ•ฉ์  ๊ด€์ .

๋”œ๋Ÿฐ์€ โ€œ๋ฏธ๊ตญ ๋‚ด ์ „๋ ฅ๋งยท์ธํ”„๋ผ ๊ทœ์ œ ์™„ํ™”๊ฐ€ ์‹œ๊ธ‰ํ•˜๋ฉฐ, ๋น ๋ฅธ ๋ฐ์ดํ„ฐ์„ผํ„ฐ ์ฆ์„ค์ด ํ•„์š”ํ•˜๋‹คโ€๊ณ  ๊ฐ•์กฐ.

3. ์ค‘๊ตญ AI ๋ฐ˜๋„์ฒดยท๋ชจ๋ธ์˜ ํ–ฅ๋ฐฉ
๊ทœ์ œ๊ฐ€ ์ ์šฉ๋œ ์ค‘๊ตญ:

๊ตฌ์ฒด์ ์œผ๋กœ ์ค‘๊ตญ ๊ธฐ์—…์€ ์ตœ์ฒจ๋‹จ GPU ๊ตฌ๋งค ํ•œ๋„๊ฐ€ ์—ฐ 5๋งŒ ๊ฐœ๋กœ ์ œํ•œ ๋“ฑ.
์ด๋ฅผ ์šฐํšŒํ•˜๊ธฐ ์œ„ํ•ด ์…ธ ์ปดํผ๋‹ˆ(1,700๊ฐœ ์ดํ•˜ ์นฉ ๊ตฌ๋งค) ๋“ฑ์„ ํ†ตํ•œ ํŽธ๋ฒ• ์กฐ๋‹ฌ ๊ฐ€๋Šฅ์„ฑ์€ ์กด์žฌํ•ด๋„, ์ ์  ์–ด๋ ค์›Œ์ง€๋Š” ์ถ”์„ธ.
๋”œ๋Ÿฐ์€ DeepSeek, Alibaba ๋“ฑ ์ค‘๊ตญ AI ๋žฉ์ด โ€œ๋›ฐ์–ด๋‚œ ์•„ํ‚คํ…์ฒ˜ยท์—”์ง€๋‹ˆ์–ด๋งโ€์œผ๋กœ ์ œํ•œ๋œ ์ปดํ“จํŒ…์—์„œ ํšจ์œจ์„ ๊ทน๋Œ€ํ™”ํ•  ๊ฒƒ์ด์ง€๋งŒ, ๊ฒฐ๊ตญ ๋ฏธ๊ตญ ๋Œ€๋น„ ์ˆ˜์‹ญ~์ˆ˜๋ฐฑ์–ต ๋‹ฌ๋Ÿฌ ๊ทœ๋ชจ์˜ Capex ์ฐจ์ด๊ฐ€ ์ปค์ง€๋Š” ๋ฌธ์ œ.

๋ง๋ ˆ์ด์‹œ์•„๋‚˜ ์ค‘๋ฆฝ๊ตญ์— ๋ฐ์ดํ„ฐ์„ผํ„ฐ ๊ฑด์„ค:

๊ทœ์ œ ๊ฐ•ํ™”๋กœ ์ธํ•ด ๋ง๋ ˆ์ด์‹œ์•„์—์„œ ๊ฑด์„ค ์ค‘์ด๋˜ ๋Œ€๊ทœ๋ชจ AI ๋ฐ์ดํ„ฐ์„ผํ„ฐ ๋“ฑ์ด ๋ถˆํ™•์‹คํ•ด์ง.
๋ฏธ๊ตญ์€ โ€œ๋™๋งน๊ตญ ์ค‘์‹ฌโ€์˜ ํด๋ผ์šฐ๋“œ๋งŒ ํ—ˆ์šฉํ•˜๊ฒ ๋‹ค๋Š” ๊ธฐ์กฐ์ด๋ฉฐ, ๊ทธ ์™ธ ๊ตญ๊ฐ€(์›1, ์›2 ๊ตฌ๋ถ„)์— ๋Œ€ํ•ด์„  ๋ณต์žกํ•œ ๊ทœ์ •๊ณผ ํ• ๋‹น๋Ÿ‰์„ ์ ์šฉ.

4. AI ๋ชจ๋ธ ์ง„ํ™”: ํ…Œ์ŠคํŠธ ํƒ€์ž„ ์ปดํ“จํŠธ(Test-time Compute) / Reasoning
์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„:

์ „ํ†ต์ ์œผ๋กœ โ€œ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋Š˜๋ฆฌ๋Š” ์ „ํ†ต์  ์Šค์ผ€์ผ๋งโ€ ๋Œ€์‹ , ์‚ฌํ›„ํ›ˆ๋ จ(post-training)๊ณผ Test-time Compute(์ฆ‰ ์ฒด์ด๋‹๋œ ์ถ”๋ก ยทReasoning) ์ค‘์š”์„ฑ์ด ๋ถ€์ƒ.
์ด๋Š” ๋ชจ๋ธ ์ถ”๋ก (Inference)์—์„œ๋„ ์—„์ฒญ๋‚œ ์—ฐ์‚ฐ(โ€œ์ถ”๋ก  ๋น„์šฉโ€)์ด ํ•„์š”ํ•ด, ์ˆ˜๋ฐฑ์–ต ๋‹ฌ๋Ÿฌ ๊ทœ๋ชจ GPU ์ธํ”„๋ผ๊ฐ€ ํ•„์ˆ˜.

๋ฐ์ดํ„ฐ ์ฆ๋ฅ˜(Synthetic Data Generation) ์—ญํ• :

๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ๋“ค์€ GPT-4 ๋“ฑ์„ ํ™œ์šฉํ•ด ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค๊ณ , ๊ทธ์ค‘ ์ •ํ™•ํ•œ ์ƒ˜ํ”Œ๋งŒ ๋‹ค์‹œ ํ›ˆ๋ จ์— ํ™œ์šฉ(โ€œReasoning ์‚ฌํ›„ํ›ˆ๋ จโ€).
์ด๋Š” ์ค‘๊ตญ ๋“ฑ๋„ ์ ๊ทน ์‹œ๋„ํ•˜๋Š”๋ฐ, ๊ทœ์ œํ•˜์—์„œ ์–ผ๋งˆ๋‚˜ ๊ทœ๋ชจ ์žˆ๊ฒŒ ํ™•์žฅํ• ์ง€๋Š” ๋ฏธ์ง€์ˆ˜.
โ€œOpen Sourceโ€ vs. โ€œClosedโ€

๋ฉ”ํƒ€๊ฐ€ llama๋ฅผ ๊ณต๊ฐœํ–ˆ์œผ๋‚˜, ์‹ค์ œ ์ตœ๊ณ ์„ฑ๋Šฅ(์˜ˆ: llama4)๊นŒ์ง€ ์˜คํ”ˆ์†Œ์Šคํ• ์ง€๋Š” ๋ถˆํˆฌ๋ช….
Reasoning ๋Šฅ๋ ฅ์„ ๋†’์ธ ์ฒจ๋‹จ ๋ชจ๋ธ(์˜ˆ: GPT-5, Claude Next, OO ์‹œ๋ฆฌ์ฆˆ ๋“ฑ)์˜ ์ถ”๋ก  ๋น„์šฉ์ด ๋งค์šฐ ๋น„์‹ธ์ ธ, ์ž๋ณธ์ง‘์•ฝ์  ํˆฌ์ž๋งŒ์ด ๊ฐ€๋Šฅํ•ด์ง€๋Š” ๊ตฌ์กฐ.

5. ๊ธฐ์—…/ํ•˜์ดํผ์Šค์ผ€์ผ๋Ÿฌ๋ณ„ ๋Œ€์‘ ์ „๋žต
Anthropic์™€ ํŠธ๋ ˆ์ด๋Š„(Trainium) ์‚ฌ๋ก€:

โ€˜์•„๋งˆ์กด ๋ฒ ์ด์‹(๊ธฐ๋ณธํ˜•)โ€™ TPU๋ผ๋Š” ๋ณ„์นญ์ธ ํŠธ๋ ˆ์ด๋Š„์„ ํ™œ์šฉํ•˜๋Š” ์•คํŠธ๋กœํ”ฝ.
๋น„์šฉ ์ ˆ๊ฐ์„ ์œ„ํ•ด GPU ๋Œ€์‹  ํŠธ๋ ˆ์ด๋Š„(์„ฑ๋Šฅ์€ ์ƒ๋Œ€์  ์—ด์„ธ์ด์ง€๋งŒ AWS์™€ ์ œํœดยทํˆฌ์ž์œ ์น˜)์„ ํƒํ•จ.
์ด๋Ÿฌํ•œ ์ „๋žต์ด ์žฅ๊ธฐ์ ์œผ๋กœ ํ•ฉ๋ฆฌ์ ์ธ์ง€ ๋ถˆํ™•์‹คํ•˜๋‚˜, ๋‹น์žฅ์€ โ€œ๊ฐ•๋ ฅ ์ž๋ณธ + ํ• ์ธ๋œ ์ธํ”„๋ผโ€๊ฐ€ ๋งค๋ ฅ ์š”์ธ.

OpenAI์˜ ์ž์ฒด์นฉ ์„ค๊ณ„ ๊ฐ€๋Šฅ์„ฑ:

ํ˜„์žฌ Nvidia ๋…์ฃผ์ฒด์ œ์ง€๋งŒ, OpenAI๊ฐ€ ๋” ๊ทœ๋ชจ๊ฐ€ ์ปค์ง„๋‹ค๋ฉด(๋งค์ถœ ์ˆ˜๋ฐฑ์–ต ๋‹ฌ๋Ÿฌ ๋‹จ์œ„) ์ž์ฒด ์นฉ ์„ค๊ณ„๋ฅผ ๋ณธ๊ฒฉํ™”ํ•  ์ˆ˜ ์žˆ์Œ.
์—ฌํƒ€ ํ•˜์ดํผ์Šค์ผ€์ผ๋Ÿฌ(์•„๋งˆ์กด, ๊ตฌ๊ธ€, ๋ฉ”ํƒ€ ๋“ฑ)์ฒ˜๋Ÿผ, โ€˜์นฉ ํŒ€โ€™์˜ ์กด์žฌ ์ž์ฒด๊ฐ€ ํ˜‘์ƒ๋ ฅ ์ƒ์Šนํšจ๊ณผ๋ฅผ ๋…ธ๋ฆฌ๋Š” ๋ฉด๋„ ์žˆ์Œ.

CoreWeave ์„ฑ์žฅ ๋น„๊ฒฐ:

์—”๋น„๋””์•„์˜ โ€œGPU ๋ฌผ๋Ÿ‰ ํ• ๋‹น+์†Œ์•ก ํˆฌ์žโ€๋ฅผ ํ†ตํ•ด ์ดˆ๊ธฐ ๋ฌผ๋Ÿ‰์„ ํ™•๋ณด.
๋ฏผ์ฒฉํ•œ ์„ค๊ณ„(์˜ˆ: ๋ฐ์ดํ„ฐ์„ผํ„ฐ ๊ตฌ์ถ• ์†๋„, ํด๋ผ์šฐ๋“œ ์†Œํ”„ํŠธ์›จ์–ด ์ตœ์ ํ™”)๋กœ ๊ธฐ์กด ๋น…ํด๋ผ์šฐ๋“œ๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ํŠน์ • ์—ญ๋Ÿ‰ ๋ณด์œ .
ESG๋ณด๋‹ค๋Š” โ€œ๊ณ ์† ๊ตฌ์ถ•โ€์„ ๊ฐ•์ ์œผ๋กœ ๋‚ด์„ธ์›Œ ํŽ˜์ด์Šค๋ฅผ ๋†’์ž„.


6. ๋ฏธ๋ž˜ ์ „๋ง ๋ฐ ๊ฒฐ๋ก 
1. ๊ทœ์ œ + ์ธํ”„๋ผ + ์—ฐ๊ตฌ ํŒจ๋Ÿฌ๋‹ค์ž„:

๋ฏธ๊ตญ ๋‚ด AI ๋ฐ์ดํ„ฐ์„ผํ„ฐ ์ธํ”„๋ผ ํˆฌ์ž๊ฐ€ ํญ๋ฐœ์  ์ฆ๊ฐ€(์ˆ˜์ฒœ์–ต ๋‹ฌ๋Ÿฌ ๊ทœ๋ชจ). ๊ทœ์ œ๋กœ ์ธํ•ด ๊ธ€๋กœ๋ฒŒ ํด๋ผ์šฐ๋“œ ์‹œ์žฅ์€ ์†Œ์ˆ˜ ๋ฏธ๊ตญ ๊ธฐ์—…์ด ๋…์  ๊ฐ•ํ™”ํ•  ์ˆ˜๋„ ์žˆ์Œ.
์ค‘ยท์žฅ๊ธฐ์ ์œผ๋กœ ์ค‘๊ตญ์€ ์ž์ฒด ๊ธฐ์ˆ  ์ง„ํ™”(๋‹ค๋ฅธ ๊ฒฝ๋กœ์˜ ํ˜์‹ )๋กœ ์ถ”๊ฒฉ ๊ฐ€๋Šฅ์„ฑ๋„ ์—ด๋ ค ์žˆ์Œ.

2. ๋ถ„์‚ฐ ํ›ˆ๋ จ, ํ…Œ์ŠคํŠธํƒ€์ž„ ์ปดํ“จํŠธ, ์—๋„ˆ์ง€ ๊ณต๊ธ‰:

๋ชจ๋ธ ์ž์ฒด๊ฐ€ โ€œReasoning ์ฒด์ธโ€ ๋ฐฉ์‹์„ ์ฑ„ํƒํ•ด ์ถ”๋ก  ๋น„์šฉ ๊ธ‰์ฆ โ†’ ๋Œ€๊ทœ๋ชจ ์ „๋ ฅยท๋ƒ‰๊ฐยท๋„คํŠธ์›Œํ‚น ๋ณ‘๋ชฉ ๋ฐœ์ƒ.
๋ฏธ๊ตญ ๋‚ด ์ „๋ ฅ ์ธํ”„๋ผ ํ™•์ถฉ, ๊ทœ์ œ ์™„ํ™”, ์นœ(่ฆช) ๋ฐ์ดํ„ฐ์„ผํ„ฐ ์ •์ฑ…์ด ์ค‘์š”ํ•˜๋‹ค๋Š” ์˜๊ฒฌ.

3. ํ•˜๋“œ์›จ์–ด ์Šคํƒ€ํŠธ์—…ยท์†Œํ”„ํŠธ์›จ์–ด ์ธํ”„๋ผ ๊ธฐํšŒ:

์ƒˆ๋กœ์šด AI ๋ฐ˜๋„์ฒด(์—์น˜๋“œ, ๋งˆ๋ฑ์Šค, ๋“ฑ) ๋ฐ ๋ถ„์‚ฐ ํ›ˆ๋ จ ์Šคํƒ€ํŠธ์—…์ด ๋“ฑ์žฅ ์ค‘์ด์ง€๋งŒ, Nvidia ๋“ฑ ๊ธฐ์กด ๊ฐ•์ž ๋Œ€๋น„ โ€œ์‚ฌ์šฉ ๋ชจ๋ธ ์ƒํƒœ๊ณ„โ€ ์ด์ ์ด ๋ถ€์กฑ.
Infra ๋ ˆ์ด์–ด(ํšจ์œจ์ ์ธ AI serving, ๋ถ„์‚ฐ ํ›ˆ๋ จ, ๋ ˆ์ดํ„ด์‹œยท์ค‘๊ฐ„ ์บ์‹ฑ ๊ธฐ์ˆ  ๋“ฑ)์€ ํฐ ํˆฌ์žยทํ˜์‹  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค๊ณ  ๋ด„.

๊ฑฐ์‹œ ์‹œ์‚ฌ์ :

๋ฏธ๊ตญ์€ โ€œ์Šค์Šค๋กœ ๋” ๋นจ๋ฆฌ (infrastructure๋ฅผ) ์ง“๊ณ  ์—๋„ˆ์ง€๋ฅผ ํ™•๋Œ€ํ•˜์—ฌ ์Šน๋ฆฌโ€ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ€์•ผ ํ•œ๋‹ค๊ณ  ๋”œ๋Ÿฐ์€ ์ฃผ์žฅ.
์ค‘๊ตญ, ์ค‘๋™, ๋™๋‚จ์•„ ๋“ฑ ๋‹ค์–‘ํ•œ AI ํ—ˆ๋ธŒ ์‹œ๋„๊ฐ€ ์žˆ์—ˆ์ง€๋งŒ, ์ด๋ฒˆ ๊ด‘๋ฒ”์œ„ ๊ทœ์ œ๋กœ ์ƒ๋‹น ๋ถ€๋ถ„ ์ œ์•ฝ.
https://youtu.be/pE3KKUKXcTM

2. โ€œ์‹œ์ง„ํ•‘์ด AGI์— ์˜ฌ์ธํ•œ๋‹ค๋ฉด?โ€ (์ค‘๊ตญ์˜ AIยท๋ฐ˜๋„์ฒด ์—ญ๋Ÿ‰)
์งˆ๋ฌธ: โ€œ์‹œ์ง„ํ•‘์ด ์Šค์ผ€์ผ์— ์ง‘์ฐฉ(โ€˜scaling-pilledโ€™)ํ•ด, AI์— ์ „ํญ ํˆฌ์žํ•˜๋ ค ํ•œ๋‹ค๋ฉด ์–ด๋–ป๊ฒŒ ํ• ๊นŒ?โ€

Dylan: ํ•ต์‹ฌ์€ ํ•˜๋“œ์›จ์–ดยท์†Œํ”„ํŠธ์›จ์–ดยท๋ฐ์ดํ„ฐ ๋ชจ๋“  ๋ ˆ์ด์–ด์—์„œ โ€˜์ง‘์ค‘โ€™(centralization)ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ.
์ค‘๊ตญ์€ ์ด๋ฏธ ์ „๋ ฅยท๊ณต๊ธ‰๋งยท์ธํ”„๋ผ๋ฅผ ๋น ๋ฅด๊ฒŒ ํ™•์žฅํ•ด ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋ฅผ ์ง€์„ ์ˆ˜ ์žˆ์Œ(์˜ˆ: 10GW๊ธ‰ ๊ทœ๋ชจ๋„ ๊ฐ€๋Šฅ).
๋ฌธ์ œ: ์•„์ง ์ค‘๊ตญ ๋‚ด AI ๊ธฐ์—…๋“ค์ด ๋Œ€๊ทœ๋ชจ ๋‹จ์ผ ํด๋Ÿฌ์Šคํ„ฐ(10๋งŒ~30๋งŒ GPU๊ธ‰)๋ฅผ ํ•œ๊ณณ์— ๋ชจ์•„ ํ›ˆ๋ จํ•˜๋Š” ์‚ฌ๋ก€๋Š” ์—†์—ˆ์Œ.
๋งŒ์•ฝ ๋‹น๊ตญ์ด GPU ์กฐ๋‹ฌ์„ ํ†ตํ•ฉยท๊ด€๋ฆฌํ•œ๋‹ค๋ฉด(์ˆ˜์ž…+๋‚ด์ˆ˜ ๋ฐ˜๋„์ฒด), ๋ฏธ๊ตญ ๋น…ํ…Œํฌ ์ด์ƒ์˜ โ€˜์ดˆ๊ฑฐ๋Œ€ ํด๋Ÿฌ์Šคํ„ฐโ€™๋ฅผ ๊ฑด์„ค ๊ฐ€๋Šฅ.
์ค‘๊ตญ ๋ฐ˜๋„์ฒด ์‚ฐ์—…

SMIC ๋“ฑ์ด 7nm ~ 5nm๊ธ‰์„ ๊ณต์ •์ƒ ์–ด๋ ค์›€(์ด์œ : EUV ๋“ฑ)์ด ์žˆ์œผ๋‚˜, ์ค‘๊ตญ ํŠน์œ ์˜ โ€˜์ง‘์š”ํ•จโ€™ยทโ€˜๊ฐ„๋ถ€๊ธ‰ ์˜์ž…โ€™ ๋ฌธํ™”๋กœ ๋น ๋ฅธ ์ถ”๊ฒฉ.
โ€œํ™”์›จ์ด(HiSilicon)๋Š” ํ˜„์กด ๊ธฐ์—… ์ค‘ ๊ฐ€์žฅ โ€˜ํฌ๋ž™โ€™๋œ ์—ญ๋Ÿ‰์„ ์ง€๋‹˜.โ€ (ํ•ต์‹ฌ ๊ธฐ์ˆ  ์—†์ด๋„ 5G ๋“ฑ์—์„œ ์„ธ๊ณ„ ์ตœ๊ณ  ์„ฑ๊ณผ)
๋ถ€ํ’ˆยท์žฅ๋น„ยท์ œ์กฐ ์ „ ์˜์—ญ์—์„œ ์‚ฐ์—… ์ŠคํŒŒ์ด+๊ตญ๊ฐ€ ์ง€์›์œผ๋กœ ๋ฐœ์ „, โ€œ๋ฌด์‹œํ•˜๋ฉด ์•ˆ ๋œ๋‹ค.โ€
์ˆ˜์ถœํ†ต์ œ์˜ ํšจ๊ณผ

Dylan: โ€œ์ œ๋Œ€๋กœ ๋ง‰์œผ๋ ค๋ฉด โ€˜์žฅ๋น„ยทํ”„๋กœ์„ธ์Šค ์ „๋ฉด์ฐจ๋‹จโ€™ํ•ด์•ผ ํ•˜๋Š”๋ฐ, ํ˜„์‹ค์€ ์ค‘๊ตญ์˜ ๊ธฐ์ˆ  ๊ฐœ๋ฐœ ์˜์ง€๋งŒ ๋” ๋ถ€์ถ”๊น€.โ€
์—ฌ์ „ํžˆ SMIC ๋“ฑ์€ 7nm ๊ณต์ • ์žฅ๋น„๋ฅผ ํ•ด์™ธ์—์„œ ์กฐ๋‹ฌํ•˜๊ณ , ์ธ์žฌ ์˜์ž…์œผ๋กœ ๊ธฐ์–ด์ด ๋งŒ๋“ค๊ณ  ์žˆ์Œ.

3. ์ „ ์„ธ๊ณ„ ๋ฐ˜๋„์ฒดยทAI ์นฉ ์ƒ์‚ฐ๊ณผ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์„ผํ„ฐ ์ „๋ง
๋ฏธ๊ตญยท์œ ๋Ÿฝ vs. ์ค‘๊ตญ: ๋ˆ„๊ฐ€ ๋” ๋จผ์ € โ€˜1GW~10GW๊ธ‰ AI ๋ฐ์ดํ„ฐ์„ผํ„ฐโ€™๋ฅผ ์„ธ์šธ๊นŒ?

๋ฏธ๊ตญ์€ ์—”ํ„ฐํ”„๋ผ์ด์ฆˆยท๋น…ํ…Œํฌ(MS, ๊ตฌ๊ธ€, ๋ฉ”ํƒ€ ๋“ฑ)๊ฐ€ โ€œ๋ถ„์‚ฐโ€ ํ˜•ํƒœ๋กœ ๊ฐ์ž ๋Œ€ํ˜• ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ์šด์˜.
์ค‘๊ตญ์€ ๊ตญ๊ฐ€ ์ฃผ๋„๋กœ โ€œ์ง‘์ค‘โ€ ํˆฌ์ž๊ฐ€ ๊ฐ€๋Šฅ. ๋‹ค๋งŒ, ์•„์ง์€ ์‹ค์ œ๋กœ ๋Œ€๊ทœ๋ชจ ๋‹จ์ผ ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ๋‚˜์˜จ ์  ์—†์Œ.
Dylan: โ€œ์ค‘๊ตญ์ด ์ง„์งœ ๋งˆ์Œ๋จน๊ณ  ์ถ”์ง„ํ•˜๋ฉด, ์ „๋ ฅ ์ธํ”„๋ผยท๊ณต์‚ฌ ์†๋„ยทGPU ์ง‘์ค‘ ์ธก๋ฉด์—์„œ ๋ฏธ๊ตญ์„ ์•ž์„ค ์ˆ˜๋„ ์žˆ๋‹ค.โ€
ํด๋Ÿฌ์Šคํ„ฐ ๊ทœ๋ชจ ์ถ”์ด

2023๋…„: OpenAI, xAI ๋“ฑ ๋Œ€๋žต 10๋งŒ GPU๊ธ‰(์˜ˆ: H100) ํด๋Ÿฌ์Šคํ„ฐ โ†’ 20242025๋…„์—” 3050๋งŒ GPU ๊ทœ๋ชจ(๋˜๋Š” ๋” ํผ).
NVIDIA๋Š” ์—ฐ๊ฐ„ ์ˆ˜๋ฐฑ๋งŒ ๊ฐœ GPU ์ƒ์‚ฐ. ๊ทนํžˆ ์ผ๋ถ€(์ˆ˜์‹ญ~์ˆ˜๋ฐฑ๋งŒ)๊ฐ€ ๋Œ€ํ˜• AI ํด๋Ÿฌ์Šคํ„ฐ์— ํˆฌ์ž…๋  ์ „๋ง.
2026๋…„ ์ดํ›„: ๋ฏธ๊ตญ ๋‚ด 1GW, 2~3GW ๋“ฑ ์ดˆ๊ฑฐ๋Œ€ AI ๋ฐ์ดํ„ฐ์„ผํ„ฐ ์—ฌ๋Ÿฟ ๋“ฑ์žฅํ•  ๊ฐ€๋Šฅ์„ฑ.
โ€œ20282029๋…„์ด๋ฉด ๋‹จ์ผ ๋ชจ๋ธ ํ›ˆ๋ จ ์ด FLOPs๊ฐ€ GPT-4 ๋Œ€๋น„ ์ˆ˜์ฒœ์ˆ˜๋งŒ ๋ฐฐ(1e30 ์ˆ˜์ค€)๋กœ ๊ฐˆ ์ˆ˜ ์žˆ๋‹ค.โ€ (Dylan ์ถ”์ •)
TSMC/์‚ผ์„ฑ ํŒŒ์šด๋“œ๋ฆฌ์˜ ์—ญํ• 

์ฐจ์„ธ๋Œ€ ๊ณต์ •(5โ†’3โ†’2nm)์€ ๋น„์šฉ ๊ธ‰์ฆ๊ณผ ๊ธฐ์ˆ  ํ•œ๊ณ„ ๋•Œ๋ฌธ์— โ€œ๊ฒฝ์ œ์„ฑ์ด ์‚ฌ๋ผ์กŒ๋‹คโ€๊ณ  ๋ณด๋Š” ์ด๋“ค๋„ ์žˆ์Œ.
๊ทธ๋Ÿฌ๋‚˜ AIยทGPU ์ˆ˜์š” ํญ์ฆ์ด ๊ฒฐ๊ตญ 2nm ๋“ฑ ์ดˆ๋ฏธ์„ธ ๊ณต์ •์˜ ๋Œ€๊ทœ๋ชจ ์ฆ์„ค์— ์ •๋‹น์„ฑ์„ ๋ถ€์—ฌํ•  ๊ฒƒ.
โ€œ๊ฒฐ๊ตญ TSMC๋Š” AI ์นฉ ์ˆ˜์š”๋ฅผ ์œ„ํ•ด์„œ 2nm ๋ผ์ธ ํ™•์žฅํ•  ๋“ฏ. (์• ํ”Œ ๋‹จ์ผ ๊ณ ๊ฐ๋งŒ์œผ๋กœ๋Š” ๊ฐ๋‹น ์–ด๋ ค์šด ๊ทœ๋ชจ)โ€

4. ๋ฐ˜๋„์ฒด ์ œ์กฐ ์‚ฐ์—…์˜ ๊ทน๋‹จ์  ๋ณต์žก์„ฑ
๋ถ„ํ™”๋œ ๊ณต๊ธ‰๋ง: ์›จ์ดํผ, ๋…ธ๊ด‘(๋ฆฌ์†Œ๊ทธ๋ž˜ํ”ผ), ์—์นญ, ์†Œ์žฌ(ํฌํ† ๋ ˆ์ง€์ŠคํŠธ, Cu interconnect ๋“ฑ), ํŒจํ‚ค์ง• ๋“ฑ ์ˆ˜์ฒœ ๋‹จ๊ณ„.

์ด ๋ถ„์•ผ์˜ ์ง€์‹ ๊ฒฉ์ฐจ:

โ€œAI๋Š” ๊ฐœ์ธ์ด ๋…ผ๋ฌธยท์ฝ”๋“œ๋กœ ๋น ๋ฅด๊ฒŒ ์ž์Šต ๊ฐ€๋Šฅํ•˜์ง€๋งŒ, ๋ฐ˜๋„์ฒด๋Š” ๋ฐฉ๋Œ€ํ•œ ๊ธฐ์—… ๋‚ด๋ถ€ ๋…ธํ•˜์šฐ+ํŠนํ—ˆ+์žฅ๋น„ ๋งค๋‰ด์–ผ๋กœ ์™ธ๋ถ€ ์ ‘๊ทผ ์–ด๋ ค์›€.โ€
๋Œ€ํ˜• ์žฅ๋น„(ASML EUV ๋“ฑ) ํ•˜๋‚˜ํ•˜๋‚˜์— ์ˆ˜์‹ญ ๋…„ ์ถ•์ ๋œ ์žฅ์ธยทํ•™์žยท์—”์ง€๋‹ˆ์–ด์˜ โ€œ๋งˆ์Šคํ„ฐ-๊ฒฌ์Šตโ€ ์ฒด๊ณ„๊ฐ€ ์กด์žฌ.
R&D์™€ ์ œ์กฐ ํ˜„์žฅ์˜ โ€˜์žฅ์ธ ๋ฌธํ™”โ€™

์˜ˆ: TSMC ์ธ๋ ฅ ๋Œ€๋‹ค์ˆ˜ ๊ณ ํ•™๋ ฅ(์„๋ฐ•์‚ฌ) + ๋ฐ˜์˜๊ตฌ์‹ ์•ผ๊ทผยท์„ค๋น„ ์‹คํ—˜.
์–ด๋А ํ•œ ์‚ฌ๋žŒ๋งŒ์ด ์ „์ฒด ๊ณต์ •์„ ์•„๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๊ฐ ๋‹จ๊ณ„ ์ „๋ฌธํŒ€์ด ํ˜‘์—…ํ•ด ์ „์ฒด ํ”„๋กœ์„ธ์Šค ์™„์„ฑ.

5. AI ์‚ฐ์—…๊ณผ ๋ฐ˜๋„์ฒด์˜ ์ƒํ˜ธ์ž‘์šฉ
GPU ์•„ํ‚คํ…์ฒ˜ โ†” ๋ชจ๋ธ ๊ตฌ์กฐ

โ€œGPU์˜ ๋ฉ”๋ชจ๋ฆฌ ๋Œ€์—ญํญ์ด ์ œํ•œ์ ์ด๋ฉด, ์ค‘๊ตญ ์ชฝ ๋ชจ๋ธ์€ ๋” ์••์ถ•ยทํŠนํ™”๋œ ๊ตฌ์กฐ๋ฅผ ์ฑ„ํƒํ•  ์ˆ˜๋„ ์žˆ์Œ.โ€
๊ตฌ๊ธ€ TPU vs. NVIDIA GPU vs. ํ™”์›จ์ด Ascend ๋“ฑ ๊ฐ์ž ํ•˜๋“œ์›จ์–ด ํŠน์„ฑ์— ๋งž์ถฐ ๋ชจ๋ธ ์„ค๊ณ„๊ฐ€ ๋‹ฌ๋ผ์ง.
์•„ํ‚คํ…์ฒ˜ ํ˜์‹ ์˜ ์ž ์žฌ๋ ฅ

โ€œํ˜„ GPU/TPU๋Š” ์ „๋ ฅ์˜ ๋Œ€๋ถ€๋ถ„์ด ๋ฐ์ดํ„ฐ ์ด๋™์— ์“ฐ์ž„. ๊ทผ๋ณธ์  ๊ตฌ์กฐ ๊ฐœ์„ (Compute-In-Memory ๋“ฑ) ๊ฐ€๋Šฅ.โ€
๋ฐ˜๋„์ฒด ์„ค๊ณ„ ์ž๋™ํ™”(EDA)์™€ AI ๊ฒฐํ•ฉ โ†’ 100๋ฐฐ ์ด์ƒ ์„ฑ๋Šฅยท์ „๋ ฅ ํšจ์œจ ๋Œ์–ด์˜ฌ๋ฆด ๊ธฐํšŒ ์กด์žฌ.
๋ฏธ๋ž˜ ์ „๋ง

๊ฑฐ๋Œ€ ๋ชจ๋ธ์˜ ํ›ˆ๋ จยท์„œ์น˜ยทํ•ฉ์„ฑ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋“ฑ โ€˜์ถ”๊ฐ€ FLOPsโ€™ ์†Œ์š”๋กœ ์ธํ•ด, ๊ณต์ • ๋ฏธ์„ธํ™”์™€ ์นฉ ์„ค๊ณ„ ํ˜์‹  ์ง€์† ๊ฐ€์†.
โ€œ๋ฉ”๋ชจ๋ฆฌ ํ˜์‹ (์ฐจ์„ธ๋Œ€ HBM ๋“ฑ), ์•„ํ‚คํ…์ฒ˜ ๊ฐœํŽธ, ์ฒจ๋‹จ ํŒจํ‚ค์ง•์ด ๋ชจ๋‘ ๋ณ‘ํ–‰๋ผ์•ผ ํ•œ๋‹ค.โ€

6. โ€œ๋ฒ„๋ธ”์ธ๊ฐ€, ์ง„์งœ ๊ธฐํšŒ์ธ๊ฐ€?โ€
**Pascal's Wager(ํŒŒ์Šค์นผ ๋‚ด๊ธฐ)**๋ฅผ ๋น—๋Œ„ ์„ค๋ช…

โ€œAI ํˆฌ์ž ์•ˆ ํ–ˆ๋‹ค๊ฐ€ ๋’ค์ฒ˜์ง€๋ฉด ๋งํ•˜์ง€๋งŒ, ํˆฌ์žํ–ˆ๋‹ค ์‹คํŒจํ•ด๋„ ๊ทธ๋‚˜๋งˆ ๋œ ๋งํ•œ๋‹ค.โ€
๋Œ€ํ˜• ๋น…ํ…Œํฌยทํˆฌ์ž๊ธฐ๊ด€ ๋ชจ๋‘ AI์— โ€˜์˜ฌ์ธโ€™ ์ค‘ (Satya Nadella, Sundar Pichai, Mark Zuckerberg ๋“ฑ).
1990๋…„๋Œ€ ๋‹ท์ปด๋ฒ„๋ธ”์ฒ˜๋Ÿผ ๊ณผ์ž‰ํˆฌ์ž์ผ ์ˆ˜๋„ ์žˆ์ง€๋งŒ, โ€œ์ธํ”„๋ผ๊ฐ€ ๊น”๋ฆฌ๋ฉด ํ›„๋ฐœ ํ˜์‹ ์€ ๊ณ„์† ๋‚˜ํƒ€๋‚œ๋‹ค.โ€
์ˆ˜์ต์„ฑ vs. ํ™•์žฅ ์†๋„

๋‹จ๊ธฐ์ ์œผ๋กœ๋Š” GPUยท๋ฐ์ดํ„ฐ์„ผํ„ฐ ๋น„์šฉ > AI ๋งค์ถœ, ๊ทธ๋Ÿฌ๋‚˜ ํ•œ ๋ฒˆ ๋Œ€ํ˜• ๋ชจ๋ธ ์„ฑ๊ณต ์‹œ ์ฒœ๋ฌธํ•™์  ROI ๊ธฐ๋Œ€.
โ€œGPT-4 ํ›ˆ๋ จ๋น„์šฉ ์•ฝ 5์–ต ๋‹ฌ๋Ÿฌ, ์ถ”์ • ๋งค์ถœ ์ˆ˜์‹ญ~์ˆ˜๋ฐฑ์–ต ๋‹ฌ๋Ÿฌ ์˜ˆ์ƒโ€ โ†’ ํˆฌ์ž์œ ์น˜๋กœ ๋˜ ๋‹ค์Œ ๋ชจ๋ธ ํ›ˆ๋ จ ๊ฐ€๋Šฅ.
โค1
https://youtu.be/hobvps-H38o

AI ๋ฉ”๊ฐ€ ํด๋Ÿฌ์Šคํ„ฐ(Mega Clusters)์˜ ํ˜„ํ™ฉ

2.1 ๋งˆ์ดํฌ๋กœ์†Œํ”„ํŠธ & OpenAI์˜ ์˜ˆ์‹œ
1. ์• ๋ฆฌ์กฐ๋‚˜ ๋ฐ์ดํ„ฐ์„ผํ„ฐ
โ€ข ๊ฑด๋ฌผ(โ€œ๋ฐ์ดํ„ฐ ํ™€โ€) ํ•˜๋‚˜๋‹น ์ „๋ ฅ ์•ฝ 48MW, ๋‚ด๋ถ€์— 3.2๋งŒ ๊ฐœ GPU(์ด 32k GPU) ํƒ‘์žฌ ๊ฐ€๋Šฅ.
โ€ข ์—ฌ๋Ÿฌ ๊ฑด๋ฌผ์„ ๋ฌถ์–ด 10๋งŒ ๊ฐœ GPU ๊ทœ๋ชจ๋„ ๊ตฌ์„ฑ.
โ€ข ๋น… ๋ชจ๋ธ(GPT-4/5 ๋“ฑ) ํ•™์Šต์„ ์œ„ํ•ด ์„ค๊ณ„๋œ ์ „ํ˜•์  ๊ตฌ์กฐ.

2. ํ–ฅํ›„ ํ™•์žฅ
โ€ข ๊ณผ๊ฑฐ ๋‹จ์ผ ๊ฑด๋ฌผ(50MW ์ „ํ›„)์„ ๋„˜์–ด, 300MW~1.5GW๊ธ‰ ๋‹จ์ผ ๋ถ€์ง€ ๊ทœ๋ชจ๋ฅผ ๋ชฉํ‘œ.
โ€ข 1.5GW๊ธ‰์ด๋ฉด ์•ฝ 100๋งŒ(1e6) ๊ฐœ GPU๋ฅผ ์ˆ˜์šฉ ๊ฐ€๋Šฅ โ†’ GPT-4๋ณด๋‹ค ํ›จ์”ฌ ํฐ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ.

3. ๋„คํŠธ์›Œํ‚น ๋ฐ ํ† ํด๋กœ์ง€
โ€ข ๋‹ค์ธต ์Šค์œ„์น˜(rail-optimized vs. fat-tree) ๊ตฌ์กฐ๋กœ ๊ณ ๊ฐ€์šฉ์„ฑ/๊ณ ๋Œ€์—ญํญ ๊ตฌํ˜„.
โ€ข Synchronous GD(๋™๊ธฐ ๋ฐฉ์‹)์—์„œ ๋ฒ—์–ด๋‚˜, Multi-datacenter๋ฅผ ๋ฌถ์„ ์ˆ˜ ์žˆ๋Š” Asynchronous/ํŒŒ๋ผ๋ฏธํ„ฐ ์„œ๋ฒ„/๊ณ„์ธต์  SGD ๊ธฐ๋ฒ•์— ๋Œ€ํ•œ ์—ฐ๊ตฌ ํ™œ๋ฐœ.
โ€ข ์ง€์—ฐ(latency)๋ณด๋‹ค๋Š” ๋Œ€์—ญํญ ๋ถ€์กฑ์ด ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ์„ผํ„ฐ ์—ฐ๊ฒฐ ์‹œ ํฐ ๋ฌธ์ œ.

2.2 ๊ตฌ๊ธ€ TPU ํด๋Ÿฌ์Šคํ„ฐ
1. ๊ณ ์ง‘์ ยท์ˆ˜๋žญ(๋ฌผ๋ƒ‰๊ฐ) ์„ค๊ณ„
โ€ข TPU๋Š” ์ „๋ ฅ ๋ฐ€๋„๊ฐ€ ํฌ๋ฏ€๋กœ ์ผ์ฐ๋ถ€ํ„ฐ ๋ฌผ๋ƒ‰๊ฐ, ๋†’์€ ๋ฐ€๋„ ์„ค๊ณ„๋ฅผ ๋„์ž….
โ€ข ์ง€์—ญ๋ณ„(์˜คํ•˜์ด์˜ค, ์•„์ด์˜ค์™€ ๋“ฑ) ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋ฅผ ๊ด‘ํ†ต์‹ ์œผ๋กœ ์—ฐ๊ฒฐ, ๋Œ€๊ทœ๋ชจ ํ•™์Šต ์‹œ ํ•˜๋‚˜์˜ ๋ถ„์‚ฐ ํด๋Ÿฌ์Šคํ„ฐ์ฒ˜๋Ÿผ ์‚ฌ์šฉ ๊ณ„ํš.
2. ๋™๊ธฐ์‹์—์„œ ๋น„๋™๊ธฐ์‹์œผ๋กœ
โ€ข ๋™๊ธฐ์‹ ํ•™์Šต ์‹œ ๋ช‡ ๋งŒ~๋ช‡ ์‹ญ ๋งŒ GPU(๋˜๋Š” TPU) ๊ฐ„ ๋™๊ธฐํ™” ๋ฌธ์ œ ๋ฐœ์ƒ.
โ€ข ๊ตฌ๊ธ€ ๋“ฑ์€ โ€œ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋ฅผ ์—ฐ๊ฒฐํ•ด ๋‹จ์ผ ๊ฑฐ๋Œ€ ํด๋Ÿฌ์Šคํ„ฐโ€ ๊ตฌ์„ฑ์„ ์‹œ๋„ํ•˜๋‚˜, ์•„์ง์€ ์—ฌ๋Ÿฌ ์—ฐ๊ตฌ ๊ณผ์ œ๊ฐ€ ๋‚จ์•„ ์žˆ์Œ.

2.3 xAI(Elon Musk) ์‚ฌ๋ก€
1. ๋ฉคํ”ผ์Šค ๊ณต์žฅ ํ™œ์šฉ
โ€ข ํœด๋ฉด ์ƒํƒœ์˜ ์„ธํƒ๊ธฐ ๊ณต์žฅ ๋ถ€์ง€๋ฅผ ๋งค์ž…ํ•ด ๋‹จ๊ธฐ๊ฐ„์— AI ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋กœ ๊ฐœ์กฐ.
โ€ข ์ธ์ ‘ ์ฒœ์—ฐ๊ฐ€์Šค๊ด€๊ณผ ์ด๋™ํ˜• ๋ฐœ์ „๊ธฐ(๋””์ ค/๊ฐ€์Šค)ยท์ด๋™ํ˜• ๋ƒ‰๊ฐ ์žฅ์น˜๋ฅผ ์„ค์น˜ โ†’ ์ „๋ ฅยท๋ƒ‰๊ฐ ์ธํ”„๋ผ๋ฅผ ๋น ๋ฅด๊ฒŒ ํ™•๋ณด.
โ€ข ๋ณดํ†ต ๋Œ€ํ˜• ํด๋ผ์šฐ๋“œ ๊ธฐ์—…๋“ค์€ ์ด๋ฏธ์ง€ยทํ‰ํŒ ๋•Œ๋ฌธ์— ์ง์ ‘ ์ด๋Ÿฐ ์‹์œผ๋กœ ํ•˜์ง„ ์•Š์Œ(โ€œ๋…น์ƒ‰ ์—๋„ˆ์ง€โ€ ๋ช…๋ถ„ ๋•Œ๋ฌธ).
โ€ข xAI๋Š” ์ผ๋‹จ ์†๋„๋ฅผ ์šฐ์„ ์‹œ โ†’ 10๋งŒ+ GPU ๋น ๋ฅธ ๋ฐฐ์น˜.
2. ์ฐจ๋ณ„์ 
โ€ข ์ตœ์ดˆ๋กœ NVIDIA GPU(GB200 ๋“ฑ) ์ง์ˆ˜๋ƒ‰ ๋ชจ๋ธ์„ ๋Œ€๊ทœ๋ชจ๋กœ ๋„์ž… ์˜ˆ์ •. (์ผ๋ฐ˜์ ์œผ๋กœ air-cooled ๋˜๋Š” ๋‹ค๋ฅธ ๊ตฌ์กฐ)
โ€ข ๋„คํŠธ์›Œํฌ๋„ ์ด๋”๋„ท ๊ธฐ๋ฐ˜ ๋“ฑ, ๋น„์ •ํ˜•์  ๋ฐฉ์‹ ํ™œ์šฉ.

2.4 ๊ทธ ์™ธ ํด๋ผ์šฐ๋“œ/์ฝ”๋กœ์ผ€์ด์…˜ ์—…์ฒด
โ€ข ์•„๋งˆ์กด(AWS): ์ „ ์„ธ๊ณ„ ๋งŽ์€ ๋ถ€์ง€์—์„œ ๋™์‹œ๋‹ค๋ฐœ์  ํ™•์žฅ, CPUโ†’GPU ์ „ํ™˜.
โ€ข ์˜ค๋ผํด(Oracle): OpenAI์™€ ํ˜‘๋ ฅํ•ด 200MW๊ธ‰ ๋ฐ์ดํ„ฐ์„ผํ„ฐ, ์žฅ๊ธฐ์ ์œผ๋กœ 1GW ํ™•์žฅ.
โ€ข ๋ฉ”ํƒ€(Meta): ๊ตฌํ˜• โ€œH ํ˜•ํƒœโ€ ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋ฅผ ํ์‡„ ํ›„, ๊ณ ๋ฐ€๋„ ์ˆ˜๋žญ ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋กœ ์žฌ๊ฑด์ถ•.
โ€ข ๋‹ค๋ฅธ ์ˆ˜์‹ญ~์ˆ˜๋ฐฑ ๊ฐœ ์ค‘์†Œ/์ฃผ๊ถŒ(โ€œ์†Œ๋ฒ„๋ฆฐโ€) ํด๋ผ์šฐ๋“œ๋„ ์œ ์‚ฌํ•˜๊ฒŒ GPU ํ˜ธ์ŠคํŒ… ์‚ฐ์—… ์ฐธ์—ฌ ์ค‘.

3. ์ถ”๋ก (Inference) ํ† ํฐ ์ฒ˜๋ฆฌ(tokenomics)์™€ ์ตœ์ ํ™”

3.1 ์ถ”๋ก  ์ œ๊ณต์ž(โ€œํ† ํฐ ํŒฉํ† ๋ฆฌโ€) ๊ด€์ 
โ€ข ๋Œ€ํ˜• ๋ชจ๋ธ์˜ API ํ˜ธ์ถœ๋กœ โ€œํ† ํฐโ€ ๋‹จ์œ„ ๊ณผ๊ธˆ โ†’ ์„œ๋ฒ„ GPUยท๋ฉ”๋ชจ๋ฆฌยท๋„คํŠธ์›Œํฌ๋ฅผ ์ผ์ • ๋ฐฉ์‹์œผ๋กœ ํ• ๋‹น.
โ€ข ์ถ”๋ก  ์„ฑ๋Šฅ(throughput)์€ ๋ฐฐ์นญ(batch size), ์–‘์žํ™”(quantization), KV์บ์‹œ ๊ด€๋ฆฌ, ๋ณ‘๋ ฌํ™” ๋“ฑ ์ตœ์ ํ™”๋กœ ํฌ๊ฒŒ ์ขŒ์šฐ.

3.2 KV ์บ์‹œ(KV Cache)์˜ ์˜ํ–ฅ
1. ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ vs. KV์บ์‹œ
โ€ข ํ† ํฐ์„ ์ƒ์„ฑํ•  ๋•Œ๋งˆ๋‹ค, โ€œ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ(์ •์ )โ€ + โ€œKV์บ์‹œ(๋™์ ยท์œ ์ €๋ณ„)โ€ ๋ชจ๋‘ ๋ฉ”๋ชจ๋ฆฌ์—์„œ ์ฝ์–ด์˜ด.
โ€ข ๋ฐฐ์น˜๊ฐ€ ์ปค์งˆ์ˆ˜๋ก(๋™์‹œ ์œ ์ €โ†‘) KV์บ์‹œ ์กฐํšŒ๋„ ๋งŽ์•„์ ธ, ๋ฉ”๋ชจ๋ฆฌ ๋Œ€์—ญํญ ๋ณ‘๋ชฉ ๋ฐœ์ƒ.
2. ์‹œํ€€์Šค ๊ธธ์ด(Context Length) ์ฆ๊ฐ€
โ€ข ๋ชจ๋ธ์ด ๋งŽ์€ reasoning(๋‚ด๋ถ€ ํ† ํฐ ์ƒ์„ฑ์„ ์ˆจ๊ธด๋‹ค ํ•ด๋„) โ†’ ๋‚ด๋ถ€์ ์œผ๋กœ KV์บ์‹œ๊ฐ€ ์ปค์ง.
โ€ข ์‹œํ€€์Šค ๊ธธ์ด๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก, ๋ฐฐ์น˜ ๊ฐ€๋Šฅ ํฌ๊ธฐ๊ฐ€ ์ค„๊ณ , ํ† ํฐ๋‹น ์ฒ˜๋ฆฌ ์ง€์—ฐ์ด ์ปค์ ธ ์‚ฌ์šฉ์ž ๊ฒฝํ—˜ ์ €ํ•˜.
3. GQA(Grouped Query Attention) ๋“ฑ ๊ธฐ๋ฒ•
โ€ข llama ์‹œ๋ฆฌ์ฆˆ ๋“ฑ์—์„œ GQA/MQA๋ฅผ ์ ์šฉํ•˜๋ฉด KV์บ์‹œ ํฌ๊ธฐ๋ฅผ ์ค„์ด๊ณ , ๋ณ‘๋ชฉ์„ ์™„ํ™”.
โ€ข ์˜ˆ) 40~70B ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์—์„œ GQA ์ ์šฉ ์‹œ, ๊ฐ™์€ ํ•˜๋“œ์›จ์–ด๋กœ ๋ฐฐ์น˜ ํฌ๊ธฐ(๋™์‹œ ์œ ์ € ์ˆ˜) ํฌ๊ฒŒ ์ฆ๊ฐ€ โ†’ ์ถ”๋ก  ๋น„์šฉ ์ ˆ๊ฐ.

3.3 OpenAI โ€œ0.1/01โ€ ๋ชจ๋ธ๊ณผ ๋น„์šฉ
โ€ข Zero One(01) ๋ชจ๋ธ: โ€œ์‹ค์‹œ๊ฐ„ ๋‚ด๋ถ€ reasoningโ€์œผ๋กœ ํฐ ์‹œํ€€์Šค ๊ธธ์ด.
โ€ข ๊ธฐ์กด ์งง์€ ์‹œํ€€์Šค(๋ช‡ K tokens)๋ณด๋‹ค 10~40K ์ด์ƒ์˜ ์‹œํ€€์Šค โ†’ ๋ฐฐ์น˜ ํšจ์œจ ๊ธ‰๊ฐ, ์ถ”๋ก  ๋น„์šฉ ์ฆ๊ฐ€.
โ€ข ์‹ค์ œ API ๊ฐ€๊ฒฉ๋„ GPT-4 ๋Œ€๋น„ 3~4๋ฐฐ ๋น„์‹ผ ์ด์œ  ์ค‘ ํ•˜๋‚˜๊ฐ€ ์ด KV์บ์‹œ/๋ฐฐ์น˜ ๋น„ํšจ์œจ ๋ฌธ์ œ.

4. Inference & Training ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ / TCO ๋ชจ๋ธ
โ€ข ๋ฐœํ‘œ์ž๋Š” ์ž์‚ฌ(SemiAnalysis)์—์„œ ์ถ”๋ก ยทํ›ˆ๋ จ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋ฅผ ๊ฐœ๋ฐœ, โ€œ๋ฉ”๋ชจ๋ฆฌ BW vs. ๋ชจ๋ธ ํฌ๊ธฐ vs. ๋ฐฐ์น˜ vs. ์‹œํ€€์Šค ๊ธธ์ดโ€ ๋“ฑ์„ ๋ชจ์˜์‹คํ—˜.
โ€ข ์„œ๋ฒ„ ์›”๊ฐ„ ๋น„์šฉ(์˜ˆ: h100 8-GPU ์„œ๋ฒ„)
โ€ข ๊ตฌ์ž…๋น„ ๊ฐ๊ฐ€์ƒ๊ฐ + ๊ธˆ์œต๋น„์šฉ + ์šด์˜๋น„(์ „๋ ฅ+์ฟจ๋ง+๋ฐ์ดํ„ฐ์„ผํ„ฐ ๋ Œํƒˆ ๋“ฑ).
โ€ข ๋Œ€๋ถ€๋ถ„์˜ ๋น„์šฉ(70~80% ์ด์ƒ)์ด โ€œGPU ๊ตฌ์ž…โ€์ด๋ฏ€๋กœ, ์ „๋ ฅ ์‚ฌ์šฉ ์—ฌ๋ถ€(๊ฐ€๋™๋ฅ )์— ๋”ฐ๋ฅธ ์ถ”๊ฐ€ ๋ณ€๋™๋น„๋Š” ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์Œ.
โ€ข ๋”ฐ๋ผ์„œ โ€œGPU๋ฅผ 100% ํ™œ์šฉโ€ํ•˜๋Š” ๊ณ ๋ฐฐ์น˜/๊ณ ํšจ์œจ์ด ์ˆ˜์ต์„ฑ์— ํ•ต์‹ฌ.

5. ๋ฐ์ดํ„ฐ์„ผํ„ฐ ์„ค๊ณ„ยท์ „๋ ฅ ์ด์Šˆ ์ข…ํ•ฉ
1. ์™œ ๊ฐ์‚ฌ ์„ค๊ณ„๊ฐ€ ๋‹ค๋ฅธ๊ฐ€?
โ€ข ์—ญ์‚ฌ์  ์œ ์‚ฐ, ๋‚ด๋ถ€ ์ธํ”„๋ผ, ๋ƒ‰๊ฐ(์ˆ˜๋žญ/๊ณต๋žญ) ๋ฐฉ์‹, GPU/TPU ์•„ํ‚คํ…์ฒ˜ ์ฐจ์ด ๋“ฑ์œผ๋กœ ๋ชจ๋‘ ์ƒ์ด.
โ€ข ๋ฉ”ํƒ€๋Š” H์žํ˜• ๊ตฌํ˜• ์„ค๊ณ„ ํ๊ธฐ ํ›„, ์‹ ํ˜•์œผ๋กœ ๊ต์ฒด. ๊ตฌ๊ธ€์€ TPU ๊ณ ๋ฐ€๋„ ์ˆ˜๋žญ์„ ์ผ์ฐ ์‹œ์ž‘. xAI๋Š” ๊ธ‰์กฐ(๊ณต์žฅ+์ด๋™์‹ ๋ฐœ์ „๊ธฐ).
โ€ข ์ตœ์  ์„ค๊ณ„๋Š” ์กด์žฌํ•˜์ง€ ์•Š์œผ๋ฉฐ, ๋Œ€๋‹ค์ˆ˜๊ฐ€ โ€œ์‹œ๊ฐ„ ์••๋ฐ•/์œ ์—ฐ์„ฑ/PR(ํ™˜๊ฒฝ)โ€ ๋“ฑ์„ ์ ˆ์ถฉ.
2. ๋ชจ๋‘ โ€˜์ฒœ์—ฐ๊ฐ€์Šคยท์„ํƒ„โ€™ ์˜์กด?
โ€ข ์‹ค์ œ ์ „๋ ฅ์€ ํ™”์„์—ฐ๋ฃŒ ๊ธฐ๋ฐ˜์ด ๋Œ€๋ถ€๋ถ„. ESG ๋ช…๋ถ„์œผ๋กœ ํƒœ์–‘๊ด‘ ๋“ฑ ๊ตฌ๋งค(PPA)๋Š” ํ•˜๋‚˜ ์‹ค์ œ ๋ฌผ๋ฆฌ์  ๊ณต๊ธ‰ ์ „๋ ฅ์€ ๋Œ€๋ถ€๋ถ„ ๊ฐ€์Šค.
โ€ข ๋Œ€๊ทœ๋ชจ ๋ฐœ์ „์†Œ(์ตœ๋Œ€์ˆ˜ GW)์™€ ๋ถ€์ง€ ์—ฐ๊ฒฐ์ด ๊ด€๊ฑด. ์„œ๊ตฌ ๊ตญ๊ฐ€๋“ค์€ ์ „๋ ฅ๋ง ์ฆ์„ค์ด ๋А๋ ค, 3~4๋…„์”ฉ ๋Œ€๊ธฐ๊ฐ€ ๋ฐœ์ƒ.
3. ๋งˆ์ดํฌ๋กœ๊ทธ๋ฆฌ๋“œ/์›์ „/ํ•ด์ƒ ๋ฐ์ดํ„ฐ์„ผํ„ฐ ๋“ฑ
โ€ข ์—˜๋ก ์ฒ˜๋Ÿผ ์ž์ฒด ๋ฐœ์ „๊ธฐ ์‚ฌ์šฉ โ€œ๋งˆ์ดํฌ๋กœ๊ทธ๋ฆฌ๋“œโ€ ์‹œ๋„๋„ ์žˆ์ง€๋งŒ ๊ทœ์ œยท์‹ค๋ฌด ์ƒ ์–ด๋ ค์›€ ํผ.
โ€ข ํ•ด์ƒ/์šฐ์ฃผ ๋“ฑ์€ GPU ์•ˆ์ •์„ฑยท์œ ์ง€๋ณด์ˆ˜ ์ธก๋ฉด์—์„œ ๋น„ํ˜„์‹ค์ .
โ€ข ์›์ „ ์ง์ ‘ ์—ฐ๊ณ„๋„ ๊ทœ์ œยท๋ฏผ์›์œผ๋กœ ์‹คํ˜„์€ ๊ฑฐ์˜ ์—†๊ณ , ๋Œ€๋ถ€๋ถ„ โ€œ๊ทธ๋ฆฐ์›Œ์‹ฑโ€ ๊ณ„์•ฝ์— ๊ทธ์นจ.

6. ์งˆ์˜์‘๋‹ต ์š”์•ฝ
1. FPGA/ASIC/๋‰ด๋กœ๋ชจํ”ฝ
โ€ข GPU(๋˜๋Š” TPU) ๋ง๊ณ  ๋‹ค๋ฅธ ๋ณ‘๋ ฌ ์นฉ ์•„์ด๋””์–ด ๋งŽ์œผ๋‚˜, GPU/TPU ์ƒํƒœ๊ณ„๊ฐ€ ์ด๋ฏธ ์••๋„์ (์†Œํ”„ํŠธ์›จ์–ดยท์ธํ”„๋ผยท์ธ์žฌ ๋“ฑ).
โ€ข ๋‰ด๋กœ๋ชจํ”ฝ ๋“ฑ์€ ์ž ์žฌ์  ํšจ์œจ์ด ํ›จ์”ฌ ๋†’์„ ์ˆ˜ ์žˆ์œผ๋‚˜, ์ œ๋Œ€๋กœ ๋œ ์—ฐ๊ตฌยท์ƒํƒœ๊ณ„ยทํˆฌ์ž ๋ถ€์กฑ. ๋‹น๋ถ„๊ฐ„ GPT๋ฅ˜ ์ž‘์—…์€ GPU/TPU๊ฐ€
์ฃผ๋„.
2. ๊ทœ๋ชจ ํ™•์žฅ ์ง€์† ๊ฐ€๋Šฅ์„ฑ
โ€ข โ€œ๋ฒ„๋ธ”์ด๋ƒ?โ€๋ผ๋Š” ์งˆ๋ฌธ. ๊ธฐ์—…(์˜คํ”ˆAIยท๊ตฌ๊ธ€ยท๋ฉ”ํƒ€ ๋“ฑ)์ด AGI ๊ฐ€๋Šฅ์„ฑยท์ˆ˜์ต์„ฑ์— ๋ฒ ํŒ…, CapEx ํญ์ฆ.
โ€ข ํ–ฅํ›„ ์ „๋ ฅยทํ™˜๊ฒฝ ๋ฌธ์ œ์™€ ์ถฉ๋Œํ•˜๋‚˜, ๋‹จ๊ธฐ์ ์œผ๋กœ๋Š” โ€œPascalโ€™s Wagerโ€(์•ˆ ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ํ•ด์„œ ์‹คํŒจํ•˜๋Š” ๊ฒŒ ๋‚ซ๋‹ค)๋กœ ๊ณ„์† ํˆฌ์ž.
3. ํŠน์ • ํšŒ์‚ฌ์˜ ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋งŒ์ด โ€œ์ •๋‹ตโ€?
โ€ข ์—†๋‹ค๊ณ  ๋ด„. ๋ฉ”ํƒ€/๊ตฌ๊ธ€/MS/xAI ๋ชจ๋‘ ๋‹ค๋ฆ„. ์นฉ(์ธํ”„๋ผ), ๋ƒ‰๊ฐ, ๋„คํŠธ์›Œํ‚น ๋“ฑ์— ๋”ฐ๋ผ ์ƒ์ด.
โ€ข AI/HPC ์š”๊ตฌ์‚ฌํ•ญ์ด ์ปค์„œ, ์™„์ „ํžˆ ์ƒˆ ๊ฑด๋ฌผ์„ ์ง€์„ ๋•Œ๋งˆ๋‹ค ์„ค๊ณ„๊ฐ€ ๋‹ฌ๋ผ์ง€๊ณ , ์‹ค์‹œ๊ฐ„์œผ๋กœ ๊ฐœ์„  ์ค‘.
4. ๋ฏธ๋ž˜ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ (Transformer vs. ๋‹ค๋ฅธ ๊ตฌ์กฐ)
โ€ข ๋‹น์žฅ์€ Transformer๊ฐ€ ์‚ฐ์—…ยท์—ฐ๊ตฌ ๋ชจ๋‘ ํ‘œ์ค€, ๋Œ€๊ทœ๋ชจ ์ตœ์ ํ™” ํˆดยท์—”์ง€๋‹ˆ์–ดยท์ƒํƒœ๊ณ„๊ฐ€ ์ด๋ฏธ ์ •์ฐฉ.
โ€ข ๋‹ค๋ฅธ ์•„ํ‚คํ…์ฒ˜(์˜ˆ: state-space, rnn ๋ณ€ํ˜•, etc.)๊ฐ€ ๋‚˜์™€๋„ GPU๋กœ ์ถฉ๋ถ„ํžˆ ์žฌํ™œ์šฉ ๊ฐ€๋Šฅ โ†’ ๊ณง๋ฐ”๋กœ ๋Œ€์ฒด ์‰ฝ์ง€ ์•Š์Œ.

7. ๊ฒฐ๋ก  ๋ฐ ์ฃผ์š” ์‹œ์‚ฌ์ 
1. ๋ฐ์ดํ„ฐ์„ผํ„ฐ ์ „๋ ฅยท๊ตฌ์กฐ
โ€ข AI ์ˆ˜์š” ํญ์ฆ์œผ๋กœ ๊ธฐ์กด โ€œCPU+์Šคํ† ๋ฆฌ์ง€โ€ ์ค‘์‹ฌ์—์„œ โ€œGPU ๋Œ€๋ฐ€๋„ + ์ˆ˜๋žญ + ์ดˆ๊ณ ์† ๋„คํŠธ์›Œํฌโ€๋กœ ๊ธ‰๋ณ€.
โ€ข ๊ฑด๋ฌผ ๋‹จ์œ„๊ฐ€ ์•„๋‹ˆ๋ผ 10~100๋งŒ GPU๊ธ‰ โ€œ์บ ํผ์Šค/์ง€์—ญ ๋‹จ์œ„โ€ ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ๋ฌถ๋Š” ์ค‘.
โ€ข ์ „๋ ฅ๋ง/๋ณ€์••๊ธฐ/๋ƒ‰๊ฐ ๋“ฑ์˜ ์ œํ•œ์ด ๋ณ‘๋ชฉ์ด๋ฉฐ, xAI์ฒ˜๋Ÿผ ๊ธฐ๋ฐœํ•˜์ง€๋งŒ ์ž„์‹œ๋ฐฉํŽธ์  ๋ฐฉ๋ฒ•(์ด๋™์‹ ๋ฐœ์ „๊ธฐ ๋“ฑ)๋„ ๋“ฑ์žฅ.
2. ์ถ”๋ก  ๋น„์šฉ(ํ† ํฐ๋‹น) ๊ธ‰์ฆ ์šฐ๋ ค
โ€ข ๋ชจ๋ธ์˜ ์‹œํ€€์Šค ๊ธธ์ด ์ฆ๊ฐ€, KV์บ์‹œ ๋ฉ”๋ชจ๋ฆฌ ๋ฌธ์ œ๊ฐ€ ๋ฐฐ์น˜ ํšจ์œจ์„ ๋–จ์–ด๋œจ๋ฆผ.
โ€ข OpenAI ๋“ฑ์€ โ€œ์žฅ๋ฌธ ์ถ”๋ก โ€ ๋ชจ๋ธ์— ๋” ๋†’์€ API ๊ฐ€๊ฒฉ ๋งค๊น€. ๋‹ค์–‘ํ•œ ์ตœ์ ํ™”(GQA, quant, flash-attn ๋“ฑ)๊ฐ€ ํ•„์ˆ˜.
3. AI ์ธํ”„๋ผ ํˆฌ์ž
โ€ข GPU(๋˜๋Š” TPU) ์ž์ฒด ๊ฐ€๊ฒฉ์ด ์›”๋“ฑํžˆ ๋น„์‹ธ, ์ „๊ธฐยท์ฟจ๋ง ๋น„์šฉ์€ ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์•„.
โ€ข ๋”ฐ๋ผ์„œ โ€œ๋Œ€๊ทœ๋ชจ ๋ฐฐ์น˜๋กœ GPU ํ’€ ๊ฐ€๋™, ๋‹จ๊ฐ€ ์ ˆ๊ฐโ€ ๋ฐฉ์‹์ด ํ•ต์‹ฌ ๋น„์ฆˆ๋‹ˆ์Šค ๋ชจ๋ธ.
โ€ข Sovereign ํŽ€๋“œ, ์‚ฌ๋ชจํŽ€๋“œ, ํด๋ผ์šฐ๋“œ ์Šคํƒ€ํŠธ์—… ๋“ฑ ์ „๋ฐฉ์œ„์—์„œ ์ผ์ข…์˜ ์ธํ”„๋ผ ๊ธˆ์œต์œผ๋กœ ํˆฌ์ž ์—ดํ’.
4. ์—ฐ๊ตฌ/๊ฐœ๋ฐœ ๊ณผ์ œ
โ€ข ๋ฉ€ํ‹ฐ ๋ฐ์ดํ„ฐ์„ผํ„ฐ ๋น„๋™๊ธฐ ํ›ˆ๋ จ, ๋” ๊ธด ์‹œํ€€์ŠคยทKV์บ์‹œ ์ตœ์ ํ™”, ํฌ์†Œ์„ฑยท์–‘์žํ™”, ์ž๋™ ๋ถ„์‚ฐ ๊ด€๋ฆฌ ๋“ฑ ํ•ด๊ฒฐํ•ด์•ผ ํ•  ๋ฌธ์ œ ์—ฌ๋Ÿฟ.
โ€ข ์ž๋ณธ๊ณผ ์ธ๋ ฅ์ด ๋Œ€๊ทœ๋ชจ ํˆฌ์ž…๋˜๋ฉด์„œ โ€œ์ง€์†์ ์ธ ์ธํ”„๋ผ ํ˜์‹ +๋น„์šฉ ์ ˆ๊ฐโ€์ด ์˜ˆ์ƒ๋˜๋‚˜, ์ „๋ ฅยทํ™˜๊ฒฝ ๋ฌธ์ œ๋Š” ๊ฐˆ๋“ฑ ์š”์†Œ.

๊ฒฐ๊ตญ ๋ณธ ๋ฐœํ‘œ์˜ ํ•ต์‹ฌ ๋ฉ”์‹œ์ง€๋Š”, AI ๋Œ€ํ˜• ๋ชจ๋ธ์„ ํ•™์Šตยท์ถ”๋ก ํ•˜๊ธฐ ์œ„ํ•ด ์ „ ์„ธ๊ณ„๊ฐ€ ์ „๋ก€ ์—†์ด ๊ฑฐ๋Œ€ํ•œ GPU ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์„ผํ„ฐ๋ฅผ ๊ฑด์„ค ์ค‘์ด๊ณ , ์ด ๊ณผ์ •์—์„œ ํ† ํฐ ๋ฐฐ์น˜ยทKV ์บ์‹œยท์‹œํ€€์Šค ๊ธธ์ด ๋“ฑ ์‹œ์Šคํ…œ์  ๋ณ‘๋ชฉ๊ณผ ์—„์ฒญ๋‚œ ์ž๋ณธ/์ „๋ ฅ ์š”๊ตฌ๊ฐ€ ๋“œ๋Ÿฌ๋‚˜๊ณ  ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์—…๊ณ„ ์ „๋ฐ˜์€ โ€œAGI, AI ํญ๋ฐœ์  ์„ฑ์žฅโ€์„ ๊ธฐ๋Œ€ํ•˜๋ฉฐ, ์ ์–ด๋„ ์ˆ˜๋…„๊ฐ„์€ ์ด๋Ÿฌํ•œ ์ดˆ๋Œ€ํ˜• ํ™•์žฅ ๊ธฐ์กฐ๊ฐ€ ์ด์–ด์งˆ ์ „๋ง์ž„์„ ์‹œ์‚ฌํ•œ๋‹ค.
https://www.youtube.com/live/CSE77wAdDLg?si=lwBc_rySVhPbz-Qc

Open AI Operator

1) ์ด๋ฏธ ํ˜ธ์ŠคํŒ…๋˜์–ด ์žˆ๊ณ  ๋ฐ”๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์‚ฌ์‹ค์€ Claude์˜ โ€œ์ปดํ“จํ„ฐ ์‚ฌ์šฉโ€ ๊ธฐ๋Šฅ๋ณด๋‹ค ๋” ๋„๋ฆฌ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

2) ์šด์˜์ž๋Š” ์–ด๋–ค ์ด์œ ๋กœ๋“  API๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†๋Š” ์›น์‚ฌ์ดํŠธ๋„ API๊ฐ€ ์žˆ๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ์ž‘๋™ํ•˜๋„๋ก ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์ œ ์ž๋™ํ™”ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

3) ์˜คํผ๋ ˆ์ดํ„ฐ๋Š” LLM์˜ ๋„๊ตฌ ํ˜ธ์ถœ๊ณผ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์ธํ„ฐ๋„ท ์ „์ฒด๋ฅผ '๋„๊ตฌ'๋กœ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ์ ๋งŒ ๋‹ค๋ฆ…๋‹ˆ๋‹ค(์‚ฌ์ดํŠธ์— API๊ฐ€ ์žˆ๋“  ์—†๋“ ).

4) ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ํ•จ์ˆ˜์— ๋Œ€ํ•œ ์บ์‹ฑ/์‚ฌ์ „ ์ปดํŒŒ์ผ์˜ ํ˜•ํƒœ๋ฅผ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ๋ณธ์ ์œผ๋กœ ์šด์˜์ž๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ํ•„์š”ํ•œ ๊ธฐ๋Šฅ์— ๋Œ€ํ•ด *์ž์ฒด* API๋ฅผ ์ž‘์„ฑํ•œ ๋‹ค์Œ, ์ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํŠน์ • ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

5) ์˜คํผ๋ ˆ์ดํ„ฐ๋Š” ๊ฐ€์ƒ ๋ธŒ๋ผ์šฐ์ €์˜ ์—ฌ๋Ÿฌ ์ธ์Šคํ„ด์Šค์— ๊ฑธ์ณ ๊ธด ์ž‘์—… ๋ชฉ๋ก์„ ๋ฐฐํฌํ•˜๊ธฐ ์œ„ํ•ด ๋ฐฑ๊ทธ๋ผ์šด๋“œ์—์„œ ์ž์ฒด์ ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

6) ์šด์˜์ž๋Š” ์ž‘์—…์„ ๋ณ‘๋ ฌํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ์‹œ: ์ž‘์—…์—๋Š” 50๊ฐœ์˜ ์›น ํŽ˜์ด์ง€๋กœ ๊ตฌ์„ฑ๋œ ๊ฒฐ๊ณผ๋ฅผ ํŽ˜์ด์ง•ํ•˜๋Š” ์ž‘์—…์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. ๋Œ€์‹  ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋งํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค: ์—ฐ์‚ฐ์ž A๋Š” ์ฒซ ๋ฒˆ์งธ ํŽ˜์ด์ง€์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ์•ž์œผ๋กœ ์ด๋™ํ•ฉ๋‹ˆ๋‹ค. ์—ฐ์‚ฐ์ž B๋Š” ๋งˆ์ง€๋ง‰ ํŽ˜์ด์ง€์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ๋’ค๋กœ ์ด๋™ํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋“  ํŽ˜์ด์ง€๊ฐ€ ์™„๋ฃŒ๋˜๋ฉด โ€œ์ค‘๊ฐ„์—์„œ ๋งŒ๋‚˜๊ฒŒโ€ ๋ฉ๋‹ˆ๋‹ค.

7) ํ˜„์žฌ ์›น์‚ฌ์ดํŠธ๋Š” (๋Œ€๋ถ€๋ถ„) ์ธ๊ฐ„์„ ์œ„ํ•ด ๋งŒ๋“ค์–ด์กŒ๊ณ  API๋Š” (๋Œ€๋ถ€๋ถ„) ๊ฐœ๋ฐœ์ž(ํŠน์ˆ˜ํ•œ ์œ ํ˜•์˜ ์ธ๊ฐ„)๋ฅผ ์œ„ํ•ด ๋งŒ๋“ค์–ด์กŒ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ฐ”์ผ ์‚ฌ์ดํŠธ๋Š” ๋ชจ๋ฐ”์ผ ๊ธฐ๊ธฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์‚ฌ๋žŒ์„ ์œ„ํ•ด ๋งŒ๋“ค์–ด์กŒ์Šต๋‹ˆ๋‹ค. ์•ž์œผ๋กœ๋Š” ์—์ด์ „ํŠธ AI๊ฐ€ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด ํŠน๋ณ„ํžˆ ์ œ์ž‘๋œ ์›น์‚ฌ์ดํŠธ๋ฅผ ๋ณด๊ฒŒ ๋ ์ง€ ๊ถ๊ธˆํ•ฉ๋‹ˆ๋‹ค.
Introducing DeepSeek-V3
https://api-docs.deepseek.com/news/news1226

1. ์™œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์— Mixture-of-Experts(MoE)๋ฅผ ์ ์šฉํ•˜๋Š”๊ฐ€?

1.1. LLM์˜ ๊ธฐ๋ณธ ์•„์ด๋””์–ด
**๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)**์€ ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ํ…์ŠคํŠธ๋ฅผ ํ•™์Šตํ•˜์—ฌ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. Transformer ๊ตฌ์กฐ(Vaswani et al., 2017)๊ฐ€ ์ฃผ๋ฅ˜์ด๋ฉฐ, ์ž๊ฐ€ํšŒ๊ท€(autoregressive) ๋ฐฉ์‹์œผ๋กœ ๋‹ค์Œ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋Š” ํ™•๋ฅ ์  ์–ธ์–ด ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค.
์ดˆ๊ธฐ์˜ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์€ ์ „๋ถ€ Dense ๋ชจ๋ธ์ด์—ˆ๋Š”๋ฐ, ์ด๋Š” ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋งค ํ† ํฐ๋งˆ๋‹ค ์ „๋ถ€ ํ™œ์„ฑํ™”ํ•˜์—ฌ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ) GPT ์‹œ๋ฆฌ์ฆˆ, BERT ์‹œ๋ฆฌ์ฆˆ ๋“ฑ.

1.2. Mixture-of-Experts(MoE)์˜ ํ•ต์‹ฌ ๋™๊ธฐ
**Mixture-of-Experts(์ดํ•˜ MoE)**๋Š” ๋งค ํ† ํฐ๋งˆ๋‹ค โ€˜์ „๋ถ€๊ฐ€ ์•„๋‹Œ ์ผ๋ถ€ ์ „๋ฌธ๊ฐ€(Expert)โ€™ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ์‚ฌ์šฉํ•ด ์ถ”๋ก ํ•˜๋„๋ก ํ•˜๋Š” ์•„์ด๋””์–ด์ž…๋‹ˆ๋‹ค.
์˜ˆ) 1,000์–ต ๊ฐœ ํŒŒ๋ผ๋ฏธํ„ฐ ์ค‘์—์„œ 50์–ต ๊ฐœ๋งŒ ํ™œ์„ฑํ™”, ๋‚˜๋จธ์ง€๋Š” ๋น„ํ™œ์„ฑํ™”.
์žฅ์ :
๊ฒฝ์ œ์„ฑ: ๋Œ€๊ทœ๋ชจ ํŒŒ๋ผ๋ฏธํ„ฐ ์ค‘ ์ผ๋ถ€๋งŒ ๊ณ„์‚ฐํ•˜๋ฏ€๋กœ, ๊ฐ™์€ ์ˆ˜์ค€(๋˜๋Š” ๋” ๋†’์€ ์ˆ˜์ค€)์˜ ํ‘œํ˜„๋ ฅ์„ ๋” ์ ์€ FLOPs(์—ฐ์‚ฐ๋Ÿ‰)๋กœ ๋‹ฌ์„ฑ.
์ „๋ฌธ์„ฑ ๋ถ„ํ™”: ํ† ํฐ๋ณ„๋กœ ๊ฐ€์žฅ ์ž˜ ๋งž๋Š” ์ „๋ฌธ๊ฐ€(Expert)๊ฐ€ ํ™œ์„ฑํ™”๋˜๋ฉฐ, ํŠน์ • ํ† ํฐ(์˜ˆ: ์ˆ˜ํ•™, ํ”„๋กœ๊ทธ๋ž˜๋ฐ, ์˜ํ•™ ํ…์ŠคํŠธ ๋“ฑ)์€ ํ•ด๋‹น ๋ถ„์•ผ์— ํŠนํ™”๋œ Expert๊ฐ€ ํ•™์Šต๋˜์–ด ์„ฑ๋Šฅ ํ–ฅ์ƒ.

ํ•˜์ง€๋งŒ ๋ฌธ์ œ์ ๋„ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค:
Expert๋“ค์˜ ๋ถ€ํ•˜ ๋ถˆ๊ท ํ˜•(Load Imbalance): ํŠน์ • Expert์—๋งŒ ํ† ํฐ์ด ๊ณผ๋„ํ•˜๊ฒŒ ๋ชฐ๋ฆฌ๋ฉด ํ•™์Šต/์ถ”๋ก ์ด ๋น„ํšจ์œจ์ .
ํ•™์Šต ์‹œ Token dispatch/combination ๋‹จ์—์„œ ํ†ต์‹ (์˜ฌํˆฌ์˜ฌ(All-to-all) ํ†ต์‹ )์ด ๋งŽ์•„์ ธ ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ์ปค์งˆ ์ˆ˜ ์žˆ์Œ.
DeepSeek-V3๋Š” ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด DeepSeekMoE๋ผ๋Š” ๊ตฌ์กฐ์™€ ๋ณด์กฐ ๋กœ์Šค ์—†๋Š”(Aux-loss-free) ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ ์ „๋žต์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.


2. DeepSeek-V3์˜ ์„ค๊ณ„ ๊ฐœ์š”
DeepSeek-V3๋Š” ์•ฝ **6710์–ต ๊ฐœ(โ€˜์ด ํŒŒ๋ผ๋ฏธํ„ฐโ€™)**์— ๋‹ฌํ•˜๋Š” ๊ฑฐ๋Œ€ ๋ชจ๋ธ์ด์ง€๋งŒ, ๋งค ํ† ํฐ๋งˆ๋‹ค ์•ฝ 370์–ต ๊ฐœ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ํ™œ์„ฑํ™”ํ•ด์„œ ๊ณ„์‚ฐํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
์ด๋Ÿฐ ๊ฑฐ๋Œ€ ๋ชจํ˜•์„ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตยท์ถ”๋ก ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•ต์‹ฌ ์„ค๊ณ„๋ฅผ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค.

Multi-head Latent Attention (MLA)

๊ธฐ์กด Transformer์˜ Self-Attention์—์„œ Key-Value๋ฅผ ์ถ•์†Œ(latent vector)ํ•œ ๋’ค, ํ•„์š”ํ•  ๋•Œ๋งŒ ๋‹ค์‹œ ๋ณต์›(up-projection)ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, KV ์บ์‹œ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์ค„์—ฌ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์ด๋ผ๋„ ๊ธด ๋ฌธ๋งฅ ์ฒ˜๋ฆฌ ์†๋„๋ฅผ ๋†’์ž„.

DeepSeekMoE + Aux-loss-free balancing

FFN(Feed-Forward Network) ๋ถ€๋ถ„์„ MoE ๊ตฌ์กฐ๋กœ ๊ตฌ์„ฑํ•˜๋˜, Expert ๊ฐ„ ๋ถ€ํ•˜๋ฅผ ๋งž์ถ”๊ธฐ ์œ„ํ•ด โ€˜๋ณด์กฐ ๋กœ์Šค(auxiliary loss)โ€™๋ฅผ ๊ฐ•์ œํ•˜์ง€ ์•Š๊ณ , ๋™์  ๋ฐ”์ด์–ด์Šค(bias)๋ฅผ ์กฐ์ •ํ•ด ๋ถˆ๊ท ํ˜•์„ ํ•ด๊ฒฐ(โ€œAux-loss-freeโ€ ๊ธฐ๋ฒ•).
์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ ๋ชจ๋ธ ์„ฑ๋Šฅ ์†์‹ค ์—†์ด ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ์„ ๋‹ฌ์„ฑ.

Multi-Token Prediction (MTP)

ํ•œ ์œ„์น˜์—์„œ ๋‹ค์Œ ํ† ํฐ ํ•˜๋‚˜๋งŒ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ํ•œ ๋ฒˆ์— ์—ฌ๋Ÿฌ ํ† ํฐ(์—ฌ๊ธฐ์„œ๋Š” 2๊ฐœ)๊นŒ์ง€ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šต.
๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ๊ณผ ๋ชจ๋ธ ์„ฑ๋Šฅ ๋ชจ๋‘์— ๋„์›€์„ ์ฃผ๋ฉฐ, ์ถ”๋ก  ์‹œ์—๋Š” Speculative Decoding ๊ธฐ๋ฒ•์œผ๋กœ TPS(์ดˆ๋‹น ํ† ํฐ ์ฒ˜๋ฆฌ๋Ÿ‰)๋ฅผ ๋†’์ด๋Š” ๋ฐ ํ™œ์šฉ ๊ฐ€๋Šฅ.

FP8 Training ๋ฐ ํšจ์œจ์  ๋ถ„์‚ฐ ํ•™์Šต


๋Œ€๋ถ€๋ถ„์˜ ๊ณ„์‚ฐ์„ FP8 ์ •๋ฐ€๋„๋กœ ์ˆ˜ํ–‰ํ•˜์—ฌ ํ•™์Šต ๋น„์šฉ๊ณผ GPU ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ํฌ๊ฒŒ ์ ˆ๊ฐ.
์ด ๊ณผ์ •์—์„œ ์ •๋ฐ€๋„ ์†์‹ค์„ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด, ๋ฏธ์„ธํ•œ ์Šค์ผ€์ผ๋ง(granularity scaling)๊ณผ ๋†’์€ ์ •๋ฐ€๋„์˜ ๋ˆ„์‚ฐ(accumulation)์„ ์‚ฌ์šฉ.
All-to-all ํ†ต์‹ ์„ ๋ถ„์‚ฐ ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ๊ฒน์ณ์„œ(dual-pipe) ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ตœ๋Œ€ํ•œ ์ˆจ๊น€.


3. ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ๋ณ„ ์ƒ์„ธ ์„ค๋ช…

3.1. Multi-head Latent Attention(MLA)

3.1.1. ์™œ MLA์ธ๊ฐ€?
๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์€ โ€˜KV ์บ์‹œ(Key-Value Cache)โ€™๊ฐ€ ๋งค์šฐ ์ปค์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ 64๊ฐœ ํ—ค๋“œ ร— ํžˆ๋“ ์ฐจ์› 128 ๋“ฑ์œผ๋กœ ์ปค์ง€๋ฉด, ๊ธด ๋ฌธ๋งฅ ์ฒ˜๋ฆฌ ์‹œ ๋ฉ”๋ชจ๋ฆฌ์™€ ์—ฐ์‚ฐ๋Ÿ‰์ด ๋ฌธ์ œ๋จ.
MLA๋Š” Key/Value๋ฅผ ๋จผ์ € ์ €์ฐจ์›(latent)์œผ๋กœ ์••์ถ•ํ–ˆ๋‹ค๊ฐ€, ์‹ค์ œ Attention ์—ฐ์‚ฐ ์ง์ „์— ๋‹ค์‹œ ๋ณต์›(up-projection)ํ•ด ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
์ถ”๋ก  ์‹œ, โ€˜์••์ถ•๋œ ๋ฒกํ„ฐ(c_KV_t ๋“ฑ)โ€™๋งŒ ์บ์‹œ์— ์ €์žฅํ•˜๋ฉด ๋˜๋ฏ€๋กœ, ์บ์‹œ ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ํฌ๊ฒŒ ์ค„์–ด๋“ญ๋‹ˆ๋‹ค.

3.1.2. ๊ตฌ์กฐ
Attention์— ํ•„์š”ํ•œ Query/Key/Value๋ฅผ ๋‹ค์Œ์ฒ˜๋Ÿผ ๊ตฌ๋ถ„:
(1) ์••์ถ•(latent) ๋ฒกํ„ฐ: h_t โ†’ c_KV_t(์ฐจ์› d_c).
(2) ๋ณต์›(up-projection) ํ–‰๋ ฌ: c_KV_t โ†’ (k_C, v_C).
(3) RoPE ๋กœํ…Œ๋ฆฌ ์ž„๋ฒ ๋”ฉ์šฉ decoupled query/key: ์ถ”๊ฐ€๋กœ k_R, q_R๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ๋ฌธ๋งฅ ์œ„์น˜ ์ •๋ณด๋ฅผ ๋ฐ˜์˜.
๊ฒฐ๋ก ์ ์œผ๋กœ MLA๋Š” Token ํ•˜๋‚˜๊ฐ€ ์ง€๋‚˜๊ฐˆ ๋•Œ (์••์ถ• + ๋ณต์› + RoPE + ์ตœ์ข… ์–ดํ…์…˜) ๊ณผ์ •์„ ๊ฑฐ์นฉ๋‹ˆ๋‹ค.
์ด๋ฅผ ํ†ตํ•ด **โ€œKV ์บ์‹œ ํฌ๊ธฐ ๊ฐ์†Œโ€**์™€ **โ€œ์„ฑ๋Šฅ ๋ณด์กดโ€**์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ์ด์ ์„ ์–ป์Šต๋‹ˆ๋‹ค.

3.2. DeepSeekMoE (Mixture-of-Experts) & Auxiliary-loss-free Balancing

3.2.1. DeepSeekMoE ๊ธฐ๋ณธ ์•„์ด๋””์–ด
Transformer์˜ FFN ๋‹จ์„ MoE Layer๋กœ ๋ฐ”๊พธ์–ด,
์ผ๋ถ€(๊ณต์œ  Expert, N_s๊ฐœ)๋Š” ๋ชจ๋“  ํ† ํฐ์ด ๊ณตํ†ต์ ์œผ๋กœ ์“ฐ๊ณ ,
๋‚˜๋จธ์ง€(๋ผ์šฐํŒ… Expert, N_r๊ฐœ)๋Š” ํ† ํฐ๋ณ„๋กœ top-Kr๊ฐœ๋งŒ ์„ ๋ณ„ํ•˜์—ฌ ๊ณ„์‚ฐ.
์˜ˆ: h'_t = h_t + ฮฃ(Shared Experts) + ฮฃ(Routed Experts).
๋ผ์šฐํŒ…์€ ํ† ํฐ๊ณผ Expert ๊ฐ„์˜ ์ ์ˆ˜(affinity)๋ฅผ ๊ตฌํ•˜์—ฌ, ๊ฐ€์žฅ ๋†’์€ Expert ๋ช‡ ๊ฐœ๋ฅผ ํ™œ์„ฑํ™”.

3.2.2. Aux-loss-free ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ
๊ธฐ์กด MoE ์—ฐ๊ตฌ๋“ค์€ Expert ๊ฐ„ ๋ถ€ํ•˜๋ฅผ ๊ท ๋“ฑํ•˜๊ฒŒ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด **๋ณด์กฐ ๋กœ์Šค(auxiliary loss)**๋ฅผ ํ•จ๊ป˜ ์ตœ์†Œํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.
ํ•˜์ง€๋งŒ ์ด ๋กœ์Šค๊ฐ€ ๋„ˆ๋ฌด ํฌ๋ฉด ๋ชจ๋ธ ๋ณธ๋ž˜์˜ ์ตœ์ ํ™”๋ฅผ ํ•ด์น  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
DeepSeek-V3๋Š” ๋ณด์กฐ ๋กœ์Šค ์—†์ด๋„ ๊ท ๋“ฑ ๋ถ€ํ•˜๋ฅผ ๋‹ฌ์„ฑํ•˜๋„๋ก, ๊ฐ Expert๋งˆ๋‹ค ๋™์ ์ธ โ€˜biasโ€™ ๋ณ€์ˆ˜๋ฅผ ๋‘๊ณ , ๋งค ์Šคํ…๋งˆ๋‹ค expert๊ฐ€ ๊ณผ๋ถ€ํ•˜ยท์ €๋ถ€ํ•˜์ธ์ง€์— ๋”ฐ๋ผ bias๋ฅผ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค.
๊ทธ ๊ฒฐ๊ณผ, ๊ท ๋“ฑ ๋ถ€ํ•˜๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๋ชจ๋ธ ์„ฑ๋Šฅ ์†ํ•ด๊ฐ€ ์ ๊ณ , ์ „๋ฌธ๊ฐ€ ๋ถ„ํ™”๋ฅผ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.

3.2.3. ์ถ”๊ฐ€๋กœ ์ ์šฉ๋˜๋Š” ๊ธฐ๋ฒ•๋“ค
Sequence-wise auxiliary loss: ๊ทธ๋ž˜๋„ ํŠน์ • ์‹œํ€€์Šค๊ฐ€ ์ผ๋ถ€ expert์—๋งŒ ๋ชฐ๋ฆฌ๋Š” ๊ทน๋‹จ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด, ๋งค์šฐ ์ž‘์€ ๊ฐ€์ค‘์น˜์˜ ์‹œํ€€์Šค ์ฐจ์› ๋ณด์กฐ ๋กœ์Šค๋ฅผ ์ถ”๊ฐ€.
Node-limited routing: ํ†ต์‹  ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ œํ•œํ•˜๊ธฐ ์œ„ํ•ด ํ•œ ํ† ํฐ์ด ์ตœ๋Œ€ M๊ฐœ์˜ ๋…ธ๋“œ๊นŒ์ง€๋งŒ ๋ถ„์‚ฐ๋˜๋Š” ์ œํ•œ์„ ๋‘ (์˜ˆ: M=4).
Token-dropping ์—†์Œ: ๋กœ๋“œ ๋ฐธ๋Ÿฐ์Šค๊ฐ€ ์•ˆ์ •์ ์œผ๋กœ ์œ ์ง€๋˜๋ฏ€๋กœ, DeepSeek-V3๋Š” ํ† ํฐ ๋“œ๋กญ ์—†์ด ์ง„ํ–‰.


3.3. Multi-Token Prediction (MTP)

3.3.1. ํ•œ ๋ฒˆ์— ์—ฌ๋Ÿฌ ํ† ํฐ ์˜ˆ์ธกํ•˜๊ธฐ
์ผ๋ฐ˜ Transformer๋Š” ์œ„์น˜ t์—์„œ โ€œt+1๋ฒˆ์งธโ€ ํ† ํฐ๋งŒ ์˜ˆ์ธก.
MTP๋Š” t์—์„œ โ€œt+1, t+2, โ€ฆโ€ ๊ฐ™์ด ์—ฌ๋Ÿฌ ๊ฐœ๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ์ถ”๊ฐ€ ๋ชจ๋“ˆ์„ ๋‘ก๋‹ˆ๋‹ค.
DeepSeek-V3์—์„œ๋Š” depth=1(์ฆ‰, โ€œ๋‹ค์Œ ํ† ํฐ + ์ถ”๊ฐ€๋กœ ๊ทธ ๋‹ค์Œ ํ† ํฐโ€)๋งŒ ์˜ˆ์ธกํ•˜๋‚˜, ์ด๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ํšจ์œจ๊ณผ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘1
3.3.2. ํ•™์Šต๊ณผ ์ถ”๋ก  ์‹œ ํšจ๊ณผ
ํ•™์Šต ์‹œ Cross-Entropy Loss๋ฅผ โ€œ๊ธฐ์กด(Next Token) + MTP(Next2 Token)โ€ ํ˜•ํƒœ๋กœ ํ•จ๊ป˜ ์ตœ์ ํ™”.
์ถ”๋ก  ์‹œ์—๋Š” MTP ๋ชจ๋“ˆ์„ ๋ฒ„๋ฆฌ๊ฑฐ๋‚˜, ํ˜น์€ Speculative Decoding(๋‘˜์งธ ํ† ํฐ๊นŒ์ง€ ํ•œ๊บผ๋ฒˆ์— ํ—ˆ์šฉ)์œผ๋กœ ์†๋„ ํ–ฅ์ƒ์„ ๊พ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ†ต๊ณ„์ƒ, DeepSeek-V3์—์„œ ๋‘ ๋ฒˆ์งธ ํ† ํฐ์ด ๋งž์„ ํ™•๋ฅ ์€ 85~90%๋กœ ๋†’์•„, ์•ฝ 1.8๋ฐฐ์˜ ํ† ํฐ ์ฒ˜๋ฆฌ ์†๋„๋ฅผ ๊ตฌํ˜„ํ–ˆ๋‹ค๊ณ  ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค.

4. ํšจ์œจ์  ํ•™์Šต(Training) ์ธํ”„๋ผ

4.1. FP8 Training

4.1.1. ๊ธฐ์กด BF16 ๋Œ€๋น„ FP8 ๋„์ž… ๋ฐฐ๊ฒฝ

BF16(๋˜๋Š” FP16)์€ ๋ถ€๋™์†Œ์ˆ˜์ ์—์„œ exponent๋ฅผ ์ถฉ๋ถ„ํžˆ ๋ณด์žฅํ•˜๋‚˜, ํฐ ๋ชจ๋ธ์—์„œ๋Š” ๋” ์ค„์ผ ์ˆ˜ ์žˆ๋Š” ์—ฌ์ง€๊ฐ€ ์žˆ์Œ.
FP8์€ exponent ๋น„ํŠธ ์ˆ˜๊ฐ€ ์ค„์–ด ์ •๋ฐ€๋„ ๋ฌธ์ œ๊ฐ€ ์žˆ์ง€๋งŒ,
(1) ๋ฏธ์„ธ ๊ตฌ๊ฐ„ ๋‹จ์œ„์˜ ์Šค์ผ€์ผ๋ง(์˜ˆ: 1ร—128, 128ร—128)
(2) ๋†’์€ ์ •๋ฐ€๋„์˜ ๋ˆ„์‚ฐ(accumulation)
(3) ์˜จ๋ผ์ธ ํ€€ํƒ€์ด์ œ์ด์…˜
๋“ฑ์„ ํ†ตํ•ด ์ •๋ฐ€๋„ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ  ์—ฐ์‚ฐ์†๋„๋ฅผ ํฌ๊ฒŒ ๋†’์ž„.

4.1.2. ๊ตฌ์ฒด์  ์ „๋žต
Fine-grained Quantization:
Activation(ํŠนํžˆ forward ์ž…๋ ฅ ๋“ฑ)์€ โ€œํ† ํฐ๋ณ„ 128์ฑ„๋„ ๋‹จ์œ„(1ร—128)โ€๋กœ ์Šค์ผ€์ผ ์กฐ์ •,
Weight(๊ฐ€์ค‘์น˜)๋Š” โ€œ128ร—128 ๋ธ”๋ก ๋‹จ์œ„โ€๋กœ ์Šค์ผ€์ผ ์กฐ์ •.
๋†’์€ ์ •๋ฐ€๋„ ๋ˆ„์‚ฐ:
Tensor Core์—์„œ FP8 ์—ฐ์‚ฐ ์‹œ ๋‚ด๋ถ€์— 14๋น„ํŠธ ๋“ฑ ์ œํ•œ๋œ ์ •๋ฐ€๋„๋ฅผ ์“ฐ๋Š”๋ฐ, ์ผ์ • interval๋งˆ๋‹ค(์˜ˆ: 128๊ฐœ์”ฉ) CUDA Core์˜ FP32 ๋ ˆ์ง€์Šคํ„ฐ๋กœ ์Šน๊ฒฉํ•ด ๋” ์ •ํ™•ํžˆ ์ถ•์ .
Online Quantization:
์ตœ๋Œ€ ์ ˆ๋Œ“๊ฐ’์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๊ตฌํ•ด, ํ•ด๋‹น ๋ฏธ๋‹ˆ๊ทธ๋ฃน(ํ† ํฐ/๋ธ”๋ก ๋“ฑ)์— ๋งž์ถฐ ์Šค์ผ€์ผ๋งํ•˜์—ฌ FP8๋กœ ๋ณ€ํ™˜.

4.2. DualPipe ํŒŒ์ดํ”„๋ผ์ธ
4.2.1. ๋ฐฐ๊ฒฝ
DeepSeek-V3์ฒ˜๋Ÿผ ๊ฑฐ๋Œ€ MoE ๋ชจ๋ธ์€ ๊ฐ ๋ ˆ์ด์–ด(๋˜๋Š” ๊ตฌ๊ฐ„)๋ฅผ GPU ์—ฌ๋Ÿฌ ๋Œ€์— ๊ฑธ์ณ ๋ถ„์‚ฐ(Pipeline Parallel)์‹œํ‚ค๊ณ , MoE ํ† ํฐ ์ „๋‹ฌ ๋“ฑ All-to-all ํ†ต์‹ ์ด ์žฆ์Šต๋‹ˆ๋‹ค.
๋‹จ์ˆœ 1F1B(Forward 1๊ฐœ, Backward 1๊ฐœ)๋‚˜ ZeroBubble ๊ฐ™์€ ๊ธฐ์กด ๊ธฐ๋ฒ•์€ ํ†ต์‹  ์‹œ๊ฐ„์ด ๊ฒน์น˜์ง€ ์•Š์•„ ์ „์ฒด ์†๋„ ์ €ํ•˜๊ฐ€ ํผ.

4.2.2. DualPipe ์•Œ๊ณ ๋ฆฌ์ฆ˜
์•„์ด๋””์–ด: Forward ์—ฐ์‚ฐ ์ค‘์— Backward์˜ ํ†ต์‹ , ๋˜๋Š” Backward์˜ ์ผ๋ถ€ ์—ฐ์‚ฐ๊ณผ Forward์˜ ํ†ต์‹ ์„ ๋™์‹œ์—(Overlap) ์ง„ํ–‰.
์„ธ๋ถ€์ ์œผ๋กœ Attention / MoE Dispatch / MLP / MoE Combine ๋“ฑ์„ ์ž˜๊ฒŒ ์ชผ๊ฐœ์–ด, ์ด๋“ค ์‚ฌ์ด์˜ ํ†ต์‹ ์„ ํŒŒ์ดํ”„๋ผ์ธ ์ƒ ์„œ๋กœ ๋‹ค๋ฅธ ๋งˆ์ดํฌ๋กœ๋ฐฐ์น˜๋ผ๋ฆฌ ๊ฒน์น˜๊ฒŒ ๊ตฌ์„ฑ.
๊ฒฐ๊ณผ์ ์œผ๋กœ ํ†ต์‹ ์ด ๊ฑฐ์˜ โ€œ๊ณต์งœ(fully hidden)โ€์ฒ˜๋Ÿผ ์ฒ˜๋ฆฌ๋˜์–ด, ์ปค๋‹ค๋ž€ GPU ํด๋Ÿฌ์Šคํ„ฐ์—์„œ๋„ ํ™•์žฅ์„ฑ์ด ์ข‹์•„์ง‘๋‹ˆ๋‹ค.

4.3. ์ถ”๋ก (Inference) ๋ฐ ๋ฐฐํฌ ์ „๋žต

4.3.1. Prefilling
์ถ”๋ก  ์‹œ โ€œ์ฒ˜์Œ ๋ฌธ๋งฅ์„ ๋Œ€๋Ÿ‰์œผ๋กœ ๋„ฃ์–ดโ€ ๋ชจ๋ธ ๋‚ด๋ถ€ ์ƒํƒœ(KV ์บ์‹œ ๋“ฑ)๋ฅผ ์ฑ„์šฐ๋Š” ๊ณผ์ •.
DeepSeek-V3๋Š” ๋…ธ๋“œ ๊ฐ„ IB(InfiniBand) ํ†ต์‹ ๊ณผ ๋…ธ๋“œ ๋‚ด NVLink ํ†ต์‹ ์„ ํ˜ผํ•ฉํ•ด ์‚ฌ์šฉ.
โ€œ์ค‘๋ณต Expert(Redundant Expert)โ€๋ฅผ ๋ฐฐ์น˜ํ•ด, ํŠน์ • Expert๊ฐ€ ๊ณผ๋ถ€ํ•˜๊ฐ€ ๋˜์ง€ ์•Š๋„๋ก ๋™์ ์œผ๋กœ ํ• ๋‹น.
์ด ๋ชจ๋“  ๊ณผ์ •์„ ํ†ตํ•ฉํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ์˜จยท์˜คํ”„๋ผ์ธ ์„œ๋น„์Šค์— ๋Œ€์‘ ๊ฐ€๋Šฅํ•œ ๊ตฌ์กฐ.

4.3.2. Decoding
Prefilling ํ›„, ์‹ค์ œ ํ•œ ํ† ํฐ์”ฉ ๋””์ฝ”๋”ฉํ•˜๋Š” ๊ณผ์ •.
์‹ค์‹œ๊ฐ„ ์š”์ฒญ์—์„œ๋Š” ๋ชจ๋ฉ˜ํ…€์ด โ€œAttention ์—ฐ์‚ฐโ€์— ๋” ์ง‘์ค‘๋จ.
๋งˆ์ฐฌ๊ฐ€์ง€๋กœ โ€œRedundant Expertโ€ + โ€œNode๋ณ„๋กœ 1๊ฐœ Expertโ€ ๋ฐฉ์‹์œผ๋กœ ๊ตฌํ˜„ํ•˜์—ฌ, ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ํ†ต์‹ ์„ ๊ฒน์น˜๊ณ , ๊ธธ์ด๊ฐ€ ์งง์€ ๋งˆ์ดํฌ๋กœ๋ฐฐ์น˜๋ผ๋„ ๋น ๋ฅธ ์‘๋‹ต์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ํ•จ.

5. Pre-Training (์‚ฌ์ „ํ•™์Šต)

5.1. ๋ฐ์ดํ„ฐ
์ด 14.8์กฐ(14.8T) ํ† ํฐ ๊ทœ๋ชจ์˜ ๊ณ ํ’ˆ์งˆ ๋‹ค๊ตญ์–ด ๋ฐ์ดํ„ฐ.
์˜ยท์ค‘์‹ฌ + ๊ธฐํƒ€ ์–ธ์–ด ํฌํ•จ.
์ˆ˜ํ•™, ์ฝ”๋”ฉ ๋น„์ค‘์„ ๋Š˜๋ฆฌ๊ณ , ๋ฐ์ดํ„ฐ ์ค‘๋ณต ์ œ๊ฑฐ์™€ ํ’ˆ์งˆ ๊ด€๋ฆฌ๋ฅผ ๊ฐ•ํ™”.
Fill-in-Middle(FIM) ์ „๋žต ์ ์šฉ: 10% ์ •๋„๋Š” ๋ฌธ์žฅ์˜ ๊ฐ€์šด๋ฐ๋ฅผ ๋งž์ถ”๋Š” ํ˜•ํƒœ๋กœ ํ•™์Šต(์ฝ”๋“œ ์™„์„ฑ ๋“ฑ์—์„œ ์œ ์šฉ).
Byte-level BPE ๊ธฐ๋ฐ˜์˜ 12.8๋งŒ(128K) ํ† ํฐ ์‚ฌ์ „.

5.2. ํ•™์Šต ์ŠคํŽ™
Transformer ๋ ˆ์ด์–ด์ˆ˜ 61, hidden dim=7168, ํ—ค๋“œ์ˆ˜=128 ๋“ฑ.
๋ชจ๋“  FFN(์ฒซ 3๊ฐœ ์ œ์™ธ)์— MoE ์ ์šฉ. ๊ฐ ๋ ˆ์ด์–ด๋‹น ๊ณต์œ  Expert 1๊ฐœ, ๋ผ์šฐํŒ… Expert 256๊ฐœ.
๋‹จ, ๋งค ํ† ํฐ์—๋Š” 8๊ฐœ Expert ํ™œ์„ฑํ™”.
๋ฐฐ์น˜ ์‚ฌ์ด์ฆˆ ์Šค์ผ€์ค„๋ง, LR(learning rate) ์Šค์ผ€์ค„๋ง(์ดˆ๋ฐ˜ ์›Œ๋ฐ์—… โ†’ ์ฝ”์‚ฌ์ธ ๋””์ผ€์ด), ๋“ฑ ๋‹ค์–‘ํ•œ ๊ธฐ๋ฒ• ์‚ฌ์šฉ.
MTP: depth=1, ์ฒซ 10T ํ† ํฐ ๋™์•ˆ MTP ๊ฐ€์ค‘์น˜ ฮป=0.3, ์ดํ›„ 0.1๋กœ ์กฐ์ •.
Aux-loss-free์˜ bias ์—…๋ฐ์ดํŠธ ์†๋„ ฮณ=0.001(์ฒ˜์Œ 14.3T ํ† ํฐ๊นŒ์ง€), ๊ทธ ํ›„ 0์œผ๋กœ ์ค‘๋‹จ.

5.3. ๋กฑ์ปจํ…์ŠคํŠธ ํ™•์žฅ (YaRN)
์‚ฌ์ „ํ•™์Šต ํ›„, 4K ๋ฌธ๋งฅ์—์„œ ์‹œ์ž‘ํ•ด 2๋‹จ๊ณ„์— ๊ฑธ์ณ 32K, 128K๊นŒ์ง€ ๋ฌธ๋งฅ์„ ํ™•์žฅ.
YaRN(Peng et al., 2023) ๊ธฐ๋ฒ•์œผ๋กœ ๋กœํ…Œ๋ฆฌ ์ž„๋ฒ ๋”ฉ(RoPE)์„ ํ™•์žฅํ•ด, 128K ๊ธธ์ด๊นŒ์ง€ ์•ˆ์ •์ ์œผ๋กœ ์ฒ˜๋ฆฌ.

5.4. ์„ฑ๋Šฅ ์š”์•ฝ (Base ๋ชจ๋ธ)
English, Chinese, Multilingual ์ „๋ฐ˜์„ ์•„์šฐ๋ฅด๋Š” ๋ฒค์น˜๋งˆํฌ์—์„œ ๋™๊ธ‰ ๋Œ€๋น„ ์ตœ๊ณ  ์ˆ˜์ค€.
์˜ˆ) MMLU-Pro, GSM8K, MATH, HumanEval ๋“ฑ ์ฝ”๋”ฉยท์ˆ˜ํ•™ ๋ถ„์•ผ ์ตœ๊ณ  ์ˆ˜์ค€.
๋Œ€๋“ฑ ๊ทœ๋ชจ ํ˜น์€ ๋” ํฐ Dense ๋ชจ๋ธ๊ณผ ๋น„๊ต ์‹œ๋„์—์„œ๋„ ํ•™์Šต ๋น„์šฉ์ด๋‚˜ ์ถ”๋ก  ํšจ์œจ ๋ฉด์—์„œ ๊ฐ•์ .

6. Post-Training(์ถ”๊ฐ€ ํ•™์Šต, SFTยทRL)

6.1. Supervised Fine-Tuning (SFT)
์•ฝ 150๋งŒ ๊ฑด์˜ ๊ณ ํ’ˆ์งˆ ์ธ์ŠคํŠธ๋Ÿญ์…˜ ํŠœ๋‹ ๋ฐ์ดํ„ฐ.
ํŠนํžˆ ์ˆ˜ํ•™ยท์ฝ”๋“œ ๋“ฑ ๋…ผ๋ฆฌ์  ์‚ฌ๊ณ (Reasoning) ๋ถ„์•ผ ๋ฐ์ดํ„ฐ์— ์ง‘์ค‘.
DeepSeek-R1 ๋ชจ๋ธ(๋ณ„๋„ โ€œLong Chain-of-Thoughtโ€์— ํŠนํ™”)์˜ ์ถœ๋ ฅ์„ ์ ์ ˆํžˆ ์ •์ œํ•˜์—ฌ(๋„ˆ๋ฌด ๊ธธ๊ฑฐ๋‚˜ ํฌ๋งท ์—‰ํ‚จ ๋ถ€๋ถ„ ๋ณด์™„) final SFT ๋ฐ์ดํ„ฐ๋กœ ํ™œ์šฉ โ†’ ์ •ํ™•๋„ ๋Œ€ํญ ์ƒ์Šน.

6.2. RL (Reinforcement Learning)
Group Relative Policy Optimization (GRPO) ๊ธฐ๋ฒ• ์‚ฌ์šฉ.
Rule-based RM(์ •๋‹ต ๊ฒ€์ฆ ๊ฐ€๋Šฅ ๋ฌธ์ œ) + Model-based RM(์ •๋‹ต์ด ํ•˜๋‚˜๋กœ ๊ฒฐ์ • ์–ด๋ ค์šด ๋ฌธํ•ญ) ํ˜ผํ•ฉ.
์ž๊ธฐ ์ž์‹ (DeepSeek-V3)์ด ๋งŒ๋“  ํˆฌํ‘œ๊ฒฐ๊ณผ ๋“ฑ์„ ๋‹ค์‹œ ๋ณด์ƒ์œผ๋กœ ํ™œ์šฉํ•˜๋Š” โ€œSelf-Rewarding(Constitutional AI)โ€ ๋ฐฉ์‹๋„ ๋ณ‘ํ–‰.

7. ๊ฒฐ๋ก  ๋ฐ ํ•œ๊ณ„
DeepSeek-V3๋Š” (1) MLA, (2) DeepSeekMoE, (3) Aux-loss-free balancing, (4) MTP, (5) FP8 training ๋“ฑ ๋‹ค์–‘ํ•œ ํ˜์‹  ์š”์†Œ๋ฅผ ๊ฒฐํ•ฉํ•œ **๊ฑฐ๋Œ€ ์ŠคํŒŒ์Šค ๋ชจ๋ธ(MoE)**์ž…๋‹ˆ๋‹ค.
์ด ํŒŒ๋ผ๋ฏธํ„ฐ 6710์–ต์ด์ง€๋งŒ, ๋งค ํ† ํฐ๋งˆ๋‹ค 370์–ต ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ํ™œ์„ฑํ™”ํ•˜๊ณ ,
์‚ฌ์ „ํ•™์Šต 14.8T ํ† ํฐ,
๋กฑ์ปจํ…์ŠคํŠธ(์ตœ๋Œ€ 128K) ์ง€์›,
ํฌ์ŠคํŠธ ํŠธ๋ ˆ์ด๋‹(SFT+RL)์œผ๋กœ ์ •๋ฐ€๋„์™€ ํ™œ์šฉ๋„(์ฝ”๋“œยท์ˆ˜ํ•™ ๋“ฑ) ๊ทน๋Œ€ํ™”๋ฅผ ์ด๋ฃน๋‹ˆ๋‹ค.
ํ•™์Šต ๋น„์šฉ ์—ญ์‹œ **H800 GPU ๊ธฐ์ค€ ์•ฝ 278๋งŒ8์ฒœ GPU-์‹œ(์•ฝ 560๋งŒ ๋‹ฌ๋Ÿฌ)**๋กœ, ์ด ์ •๋„ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ ์ค‘์—์„  ๋งค์šฐ ๊ฒฝ์ œ์ ์œผ๋กœ ๋‹ฌ์„ฑ.

7.1. ์ œํ•œ์‚ฌํ•ญ
๋Œ€๊ทœ๋ชจ ํด๋Ÿฌ์Šคํ„ฐ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ค๊ณ„๋˜์–ด, ์ ์€ GPU ๋ณด์œ  ํŒ€์ด ์ง์ ‘ ์ถ”๋ก /์„œ๋น„์Šคํ•˜๊ธฐ๋Š” ์–ด๋ ต๋‹ค.
์ถ”๋ก  ์†๋„๋Š” ๊ธฐ์กด Dense ๋Œ€ํ˜• ๋ชจ๋ธ๋ณด๋‹ค ๋‚ซ์ง€๋งŒ, ์ž‘์€ Dense ๋ชจ๋ธ ๋Œ€๋น„ ์„ฑ๋Šฅ/์†๋„ ์ ˆ์ถฉ์€ ์‚ฌ์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค์— ๋”ฐ๋ผ ๊ณ ๋ฏผ์ด ํ•„์š”.

7.2. ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ
๋ฌดํ•œ๋Œ€ ํ˜น์€ ๋” ํฐ ์ปจํ…์ŠคํŠธ๋ฅผ ์œ„ํ•œ RoPE/AliBi ๋“ฑ ํ™•์žฅ ๊ธฐ๋ฒ• ์—ฐ๊ตฌ.
MoE ์ด์ƒ์œผ๋กœ ํšจ์œจ์ ์ธ ๊ตฌ์กฐ(์˜ˆ: ์ŠคํŒŒ์Šคํ•œ Attention, Retrieval-Augmented ๋“ฑ)์™€์˜ ์กฐํ•ฉ.
๋‹ค์–‘ํ•œ ๋ถ„์•ผ(๋น„์ „ยท๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋“ฑ)์œผ๋กœ ํ™•์žฅ, ํ›ˆ๋ จ ์‹ ํ˜ธ ๋‹ค์–‘ํ™”.
**LLM ์ž์ฒด๋ฅผ ๋ณด์ƒ ํ•จ์ˆ˜๋กœ ํ™œ์šฉ(Self-Rewarding)**ํ•˜๋Š” ๊ธฐ๋ฒ•์„ ๋” ๊ณ ๋„ํ™”.
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

๋‹จ์ง€ RL(๊ฐ•ํ™”ํ•™์Šต)๋งŒ์œผ๋กœ Instruct Model์„ Reasoning Model๋กœ ๋ณ€ํ™”

๊ธฐ์กด DeepSeek-V3 Base๋ฅผ ๋Œ€์ƒ์œผ๋กœ ์„ ํ–‰ SFT ์—†์ด RL๋งŒ์„ ์ ์šฉํ•˜์—ฌ, โ€œDeepSeek-R1-Zeroโ€๋ผ๋Š” ์ˆœ์ˆ˜ํ•œ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ๋งŒ๋“ค์—ˆ๋‹ค.
โ€œ์ด ๋ชจ๋ธ์ด ๊ณผ์—ฐ, ์ธ๊ฐ„์ด ์ฃผ์ž…ํ•ด์ค€ ์ •๊ตํ•œ ์ง€๋„ ๋ฐ์ดํ„ฐ ์—†์ด๋„ ๊นŠ์ด ์žˆ๋Š” Reasoning์„ ์Šต๋“ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?โ€๋ผ๋Š” ์˜๋ฌธ์—์„œ ์ถœ๋ฐœํ–ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ R1-Zero๋Š” ๋†€๋ž„ ๋งŒํผ ๊ฐ•๋ ฅํ•œ Reasoning ๋Šฅ๋ ฅ์„ ๋ฐœํœ˜ํ•˜๊ธฐ ์‹œ์ž‘ํ–ˆ๋‹ค.
์›๋ž˜๋Š” โ€œ์‚ฌ๋žŒ์ด ๋จผ์ € CoT ์˜ˆ์‹œ๋ฅผ ๋Œ€๊ทœ๋ชจ๋กœ ๋ถ™์—ฌ ๋ชจ๋ธ์„ ๊ต์ •(SFT)ํ•ด์•ผ ํ•œ๋‹คโ€๋Š” ๊ฒƒ์ด ์ผ๋ฐ˜์ ์ด์—ˆ๋‹ค.
ํ•˜์ง€๋งŒ DeepSeek-R1-Zero๋Š” โ€œSFT ์—†๋Š” ๋Œ€๊ทœ๋ชจ RLโ€๋งŒ์œผ๋กœ๋„ ๊ธด ์‚ฌ๊ณ  ๊ณผ์ •์„ ์‚ฌ์šฉํ•ด ๋ฌธ์ œ๋ฅผ ํ’€๊ณ  ๊ฐœ์„ ํ•ด๋‚˜๊ฐ”๋‹ค. โ€œAha Momentโ€๋ผ ๋ถˆ๋ฆด ์ •๋„๋กœ ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ๋” ๊นŠ์€ ๊ณ ์ฐฐ์„ ํ•˜๊ฒŒ ๋œ ๊ฒƒ์ด๋‹ค.

์ด R1-Zero๋กœ๋ถ€ํ„ฐ ์ƒ์„ฑ๋œ Reasoning ๋ฐ์ดํ„ฐ์…‹์„ ์ธ๊ฐ„์ด ์•ฝ๊ฐ„ ๋ณด์ •ํ•˜๊ณ , SFT+RL ๊ณผ์ •์„ ์ถ”๊ฐ€

R1-Zero๊ฐ€ ๋งŒ๋“ค์–ด๋‚ธ ๊ธด Chain-of-Thought(CoT)๋“ค ์ค‘ ์œ ์šฉํ•œ ๊ฒƒ๋งŒ ๊ณจ๋ผ์„œ โ€œCold Startโ€๋กœ ๋ถˆ๋ฆฌ๋Š” ์†Œ๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹์„ ๋งˆ๋ จํ–ˆ๋‹ค.
์ด๋ฅผ ์‹œ์ž‘์ ์œผ๋กœ ๋‹ค์‹œ ํ•œ ๋ฒˆ RL๊ณผ SFT ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์น˜์ž, ์ „๋ฐ˜์ ์œผ๋กœ ํ›จ์”ฌ ๋” ์ธ๊ฐ„ ์นœํ™”์ ์ด๊ณ  ๊ฐ€๋…์„ฑ๋„ ๋›ฐ์–ด๋‚œ ๋ชจ๋ธ์ธ โ€œDeepSeek-R1โ€์ด ํƒ„์ƒํ–ˆ๋‹ค.
์ฆ‰, ๋‹จ์ˆœ ๊ฐ•ํ™”ํ•™์Šต๋งŒ์œผ๋กœ๋Š” ์ž์—ฐ์–ธ์–ด ์‚ฌ์šฉ(๊ฐ€๋…์„ฑ, ํ˜ผ์šฉ์–ด ๋ฌธ์ œ ๋“ฑ)์— ์–ด๋ ค์›€์ด ์žˆ์—ˆ์œผ๋‚˜, ์†Œ๋Ÿ‰์˜ ์ •์ œ๋œ CoT ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์ „ ์ฃผ์ž…ํ•จ์œผ๋กœ์จ ์•ˆ์ •์„ฑ๊ณผ ํ’ˆ์งˆ์„ ๊ทน์ ์œผ๋กœ ๋Œ์–ด์˜ฌ๋ ธ๋‹ค.

์ตœ์ข…์ ์œผ๋กœ ๋งŒ๋“ค์–ด์ง„ 80๋งŒ(800k) ๊ฑด์˜ Reasoning ๋ฐ์ดํ„ฐ๋กœ, ์ž‘์€ ๋ชจ๋ธ๋„ RL ์—†์ด SFT๋งŒ์œผ๋กœ ํฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ

์ด๋ ‡๊ฒŒ ๊ตฌ์ถ•ํ•œ 800k ๊ทœ๋ชจ์˜ ๊ณ ํ’ˆ์งˆ Reasoning ๋ฐ์ดํ„ฐ์…‹์€ ํ›จ์”ฌ ์ž‘์€ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ(Qwen, Llama ๋“ฑ)์—๋„ ๋‹จ์ˆœํžˆ SFT๋กœ๋งŒ ์ ์šฉํ•ด๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค.
๋ฐ˜๋ฉด, ์ž‘์€ ๋ชจ๋ธ์—์„œ๋Š” ๋™์ผํ•œ RL ๊ณผ์ •์„ ์•„๋ฌด๋ฆฌ ์˜ค๋ž˜ ํ•ด๋„ ์„ฑ๋Šฅ ์ด๋“์ด ๋งค์šฐ ๋ฏธ๋ฏธํ–ˆ๋‹ค.
๊ฒฐ๋ก ์€, โ€œ์‹œ์ž‘์ (๋ฒ ์ด์Šค ๋ชจ๋ธ)์˜ ํ’ˆ์งˆ์ด ์ถฉ๋ถ„ํžˆ ์ข‹์•„์•ผ RL์„ ํ•ด๋„ ๋น›์„ ๋ฐœํ•œ๋‹คโ€๋Š” ๊ฒƒ์ด๋‹ค. ๋ฒ ์ด์Šค ๋ชจ๋ธ์ด ์ž‘์„์ˆ˜๋ก, ๋Œ€๊ทœ๋ชจ RL ์ž์ฒด๊ฐ€ ์‹ค์ต์ด ํฌ์ง€ ์•Š์Œ์„ ํ™•์ธํ–ˆ๋‹ค.

๋ณด์ƒ์˜ ๋ช…ํ™•์„ฑ์ด ๊ณง ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ ์ขŒ์šฐํ•œ๋‹ค

DeepSeek-R1 ์—ฐ๊ตฌ์ง„์€ ํ›ˆ๋ จ ํŒŒ์ดํ”„๋ผ์ธ์„ ๋ถˆํ•„์š”ํ•˜๊ฒŒ ๋ณต์žกํ•˜๊ฒŒ ๋งŒ๋“ค์ง€ ์•Š์•˜๋‹ค. ์ฆ‰, โ€œ์˜ค๋‹ต/์ •๋‹ต, ํฌ๋งท ์ค€์ˆ˜ ์—ฌ๋ถ€โ€ ๋“ฑ ๋ช…ํ™•ํžˆ ํŒ๋‹จ ๊ฐ€๋Šฅํ•œ ์ง€ํ‘œ๋งŒ์œผ๋กœ ๋ณด์ƒ์„ ์„ค๊ณ„ํ–ˆ๋‹ค.
๋ณต์žกํ•œ PPO or PRM(Process Reward Model)๋ณด๋‹ค๋Š”, โ€œ๋”ฑ ๋งž๋ƒ ์•„๋‹ˆ๋ƒโ€๋กœ ๊ฒฐ์ •๋˜๋Š” ์ง์ ‘ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋‹ต์•ˆ ์œ„์ฃผ๋กœ RL์„ ์‹ค์‹œํ–ˆ๋‹ค.
์ด๋Š” ์žฅํ™ฉํ•œ ๋ณด์ƒ ์„ค๊ณ„(MCTS+Value Model, ์„ธ๋ฐ€ํ•œ ์ค‘๊ฐ„ ๋‹จ๊ณ„ ์ฑ„์  ๋“ฑ)๋ณด๋‹ค ๋” ํšจ๊ณผ์ ์ด์—ˆ๊ณ , โ€œ์ด ๋ฌธ์ œ๋ฅผ ๋งžํ˜”๋Š”๊ฐ€? / ์ง€์ •๋œ ํ˜•์‹์„ ์ง€์ผฐ๋Š”๊ฐ€?โ€๋ผ๋Š” ๋ช…ํ™•ํ•œ ๋ณด์ƒ๋งŒ์œผ๋กœ๋„ ์Šค์Šค๋กœ Reasoning ๋Šฅ๋ ฅ์„ ๋ฐœ์ „์‹œ์ผฐ๋‹ค.


Stage 1: (R1-Zero) Base ๋ชจ๋ธ + RL (SFT ์—†์ด)

DeepSeek-V3 Base๋ฅผ ๋ฐ”๋กœ RL ํ›ˆ๋ จ์— ํˆฌ์ž… โ†’ ์ •๋‹ต ์—ฌ๋ถ€, ํ˜•์‹ ์ค€์ˆ˜ ์—ฌ๋ถ€๋กœ๋งŒ ํ‰๊ฐ€(์ •ํ™•๋„๊ฐ€ ๊ณง ๋ณด์ƒ).
๋Œ€๊ทœ๋ชจ ์Šคํ…์„ ๊ฑฐ์น˜๋ฉฐ Reasoning ๋Šฅ๋ ฅ์ด ์Šค์Šค๋กœ ์ƒ๊ฒจ๋‚จ(๊ทธ ์™ธ ์–ธ์–ด ํ’ˆ์งˆ ๋ฌธ์ œ๋Š” ๊ณ ๋ ค X).

Stage 2: Cold Start ๋ฐ์ดํ„ฐ ์ƒ์„ฑ + SFT ํ›„ RL (R1)

R1-Zero๋กœ๋ถ€ํ„ฐ ์ƒ์„ฑ๋œ ๊ธด CoT ์ค‘ โ€œ์ฝ๊ธฐ ์‰ฌ์šด ํ˜•์‹โ€์˜ ์˜ˆ์‹œ๋งŒ ์ˆ˜์ฒœ ๊ฑด ๋ชจ์•„์„œ, ์ธ๊ฐ„์ด ์กฐ๊ธˆ ๋‹ค๋“ฌ์–ด Cold Start ์šฉ SFT ์‹œํ–‰.
์ด ์ดˆ๊ธฐ ๋ชจ๋ธ๋กœ ๋‹ค์‹œ Reasoning ์ „์šฉ RL ์ˆ˜ํ–‰ โ†’ ์–ธ์–ด ํ’ˆ์งˆ ๋ฌธ์ œ(ํ˜ผ์šฉ์–ดยท๊ฐ€๋…์„ฑ) ์ผ๋ถ€ ํ•ด๊ฒฐ & ์„ฑ๋Šฅ ํ–ฅ์ƒ.
ํ•„์š”ํ•˜๋‹ค๋ฉด, RL ๋งˆ์ง€๋ง‰ ๋‹จ๊ณ„์—์„œ Rejection Sampling์œผ๋กœ ์ •ํ™•ํ•œ ์‘๋‹ต๋งŒ ๊ณจ๋ผ ์ƒˆ๋กœ SFT ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“  ๋’ค, ์ „ ๋ฒ”์œ„ RL์„ ์žฌ์‹คํ–‰ ํ•œ๋‹ค.

Stage 3: Rejection Sampling์œผ๋กœ ์–ป์€ ๋ฐ์ดํ„ฐ + ์ถ”๊ฐ€ ๋„๋ฉ”์ธ(SFT)

์ด์ „ RL ๊ฒฐ๊ณผ๋ฌผ์„ ๋ฐ”ํƒ•์œผ๋กœ ์•ฝ 60๋งŒ ๊ฑด์˜ Reasoning ๋ฐ์ดํ„ฐ + 20๋งŒ ๊ฑด์˜ ์ผ๋ฐ˜๋ฌธ์„œ(์ž‘๋ฌธ, QA, ์ž๊ธฐ์†Œ๊ฐœ ๋“ฑ)๋ฅผ ๋ชจ์•„์„œ, ์ตœ์ข… SFT ์ˆ˜ํ–‰.
์ด๋กœ์จ โ€œReasoningโ€๊ณผ โ€œ์ผ๋ฐ˜ ์งˆ์˜์‘๋‹ต, ์ž‘์„ฑ๋Šฅ๋ ฅโ€์„ ๋ชจ๋‘ ์–ด๋А ์ •๋„ ์ปค๋ฒ„ํ•˜๋Š” ๋ชจ๋ธ ์™„์„ฑ.

Stage 4: Distillation (์ž‘์€ ๋ชจ๋ธ๋กœ ์ „์ด)

์œ„ ๊ณผ์ •์—์„œ ํƒ„์ƒํ•œ R1์˜ Reasoning ๋…ธํ•˜์šฐ๊ฐ€ ๋‹ด๊ธด 80๋งŒ ์ƒ˜ํ”Œ์„, Qwen-32B, Llama-70B ๋“ฑ์˜ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์— โ€œ๋‹จ์ˆœ Fine-Tuningโ€๋งŒ ์ ์šฉํ•ด๋„ ๋†€๋ผ์šด ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ํ™•์ธ๋จ.
RL ์—†์ด๋„ ์†Œํ˜• ๋ชจ๋ธ๋“ค์ด Reasoning์„ ์ƒ๋‹นํžˆ ์Šต๋“ํ•จ.
๋ฐ˜๋ฉด, ์ด ์†Œํ˜• ๋ชจ๋ธ๋“ค์— ์ง์ ‘ RL์„ ์ ์šฉํ•˜๋ฉด ๋†’์€ ๊ณ„์‚ฐ ๋น„์šฉ ๋Œ€๋น„ ํšจ์œจ์ด ๋–จ์–ด์ง(์‹คํ—˜์ƒ ์„ฑ๋Šฅ ์ƒ์Šน์ด ๋ฏธ๋ฏธ).


1. ์‹œ์ž‘์ (๋ฒ ์ด์Šค ๋ชจ๋ธ)์ด ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค

ํฐ ๋ชจ๋ธ์—๋‹ค RL์„ ์ ์šฉํ•ด์•ผ โ€˜์Šค์Šค๋กœ CoT๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋Š”โ€™ ๋น„์•ฝ์  ๋ฐœ์ „์ด ๋‚˜ํƒ€๋‚œ๋‹ค. ์ž‘์€ ๋ชจ๋ธ๋กœ๋Š” ๊ฐ™์€ RL ํˆฌ์ž๋ฅผ ํ•ด๋„ ํšจ๊ณผ๊ฐ€ ํ›จ์”ฌ ๋–จ์–ด์ง„๋‹ค.

๋ณด์ƒ์„ ๊ฐ„๋‹จํ•˜๊ฒŒ, ๋ช…ํ™•ํ•˜๊ฒŒ ์„ค์ •ํ•˜๋ผ

โ€œ๋‹ต์ด ๋งž๋Š”๊ฐ€, ํ˜•์‹์ด ๋งž๋Š”๊ฐ€?โ€ ์ •๋„๋กœ๋„ ์ถฉ๋ถ„ํžˆ ์ง€๋„ํ•™์Šต(ํ˜น์€ RL) ํšจ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ๋‹ค.
๋ณต์žกํ•œ ์ค‘๊ฐ„ ๋‹จ๊ณ„ ๋ณด์ƒ(์˜ˆ: PRM, MCTS+Value Model)์€ ๋งŽ์€ ๋ฆฌ์†Œ์Šค์™€ ๋ฆฌ์Šคํฌ(Reward Hacking)๋ฅผ ์œ ๋ฐœํ•˜์ง€๋งŒ ์ตœ์ข…์  ์‹ค์ต์ด ํฌ์ง€ ์•Š์•˜๋‹ค.
๋‹จ์ˆœ CoT ์ƒ์„ฑ ๋Šฅ๋ ฅ์ด ๋ชฐ๊ณ  ์˜จ โ€˜์ž๋ฐœ์  ์ž๊ธฐ์ •์ •(Reflection), Aha Momentโ€™

์Šค์Šค๋กœ ์ƒ๊ฐ์„ ์žฌํ‰๊ฐ€ํ•˜๊ณ (Reflection), ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์œผ๋กœ ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์‹œ๋„ํ•˜๋ฉฐ(Aha Moment) Reasoning ๋Šฅ๋ ฅ์„ ๊ธ‰๊ฒฉํžˆ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ํ˜„์ƒ์ด RL ์ค‘๊ฐ„์—์„œ ํฌ์ฐฉ๋˜์—ˆ๋‹ค.

Future Works
Language Mixing ํ•ด๊ฒฐ: ํ˜„์žฌ๋Š” ์˜์–ดยท์ค‘๊ตญ์–ด์— ์ตœ์ ํ™”.
ํ”„๋กœ์ ํŠธ ๊ทœ๋ชจ ํ™•์žฅ: ๋” ๋ฐฉ๋Œ€ํ•œ ๋ฌธ์ œ ๋„๋ฉ”์ธ(์˜ˆ: SW ์—”์ง€๋‹ˆ์–ด๋ง, ๊ตฌ์กฐ์  ์ถœ๋ ฅ, ๋Œ€ํ™”ํ˜• ์‹œ์Šคํ…œ ๋“ฑ)์„ ์ปค๋ฒ„ํ•˜๊ธฐ ์œ„ํ•œ RL/๋ฐ์ดํ„ฐ์…‹ ํ™•์žฅ์ด ๊ฐ€๋Šฅ.
Prompt Engineering ์—ฐ๊ตฌ: R1 ๊ณ„์—ด์€ few-shot prompt๋ณด๋‹ค zero-shot prompt์— ์ตœ์ ํ™”๋˜๋Š” ๊ฒฝํ–ฅ. ์ถ”ํ›„ ์ด์— ๋งž์ถฐ ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„๋ฅผ ์žฌ๊ฒ€ํ† ํ•  ํ•„์š”๊ฐ€ ์žˆ๋‹ค.
โค1
DeepSeek์—์„œ ๋‚˜์˜จ ํ…Œํฌ๋‹ˆ์ปฌ ๋ฆฌํฌํŠธ๋“ค์— ๋Œ€ํ•œ ๊ธ€์€ ์ด์ „์— ์“ด ์ ์ด ์žˆ์—ˆ๋‹ค. (https://rosinality.substack.com/p/deepseek-llm) ์ง€๊ธˆ DeepSeek-V3๊ฐ€ ๋‚˜์˜จ ์‹œ์ ์—์„œ ๋“œ๋Š” ์ƒ๊ฐ์ด ์žˆ์–ด ๊ทธ๊ฑธ ์จ๋ณผ๊นŒ ํ•œ๋‹ค.
์ข‹์€ LLM์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ฌด์—‡์ด ํ•„์š”ํ• ๊นŒ? ์ข‹์€ ์•„ํ‚คํ…์ฒ˜์™€ ํ•™์Šต ๊ธฐ๋ฒ•, ์ข‹์€ ๋ฐ์ดํ„ฐ, ์ข‹์€ ์ธํ”„๋ผ์ผ ๊ฒƒ์ด๋‹ค.
์ข‹์€ ์•„ํ‚คํ…์ฒ˜๋Š” ๋ฌด์—‡์ผ๊นŒ? ์ผ๋‹จ ์ถ”๋ก ์€ ๋…ผ์™ธ๋กœ ํ•˜๋ฉด ๊ฐ™์€ ์—ฐ์‚ฐ๋Ÿ‰์—์„œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์— ๋„๋‹ฌํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด ๋ฌธ์ œ์—์„œ ํŠธ๋žœ์Šคํฌ๋จธ์—์„œ ๊ฐ€์žฅ ๊ฐ€๋Šฅ์„ฑ ์žˆ๋Š” ๋ฐฉํ–ฅ ์ค‘ ํ•˜๋‚˜๊ฐ€ MoE์ด๋‹ค. ๊ทธ๋ž˜์„œ MoE ์—ฐ๊ตฌ๋ฅผ ํ–ˆ๊ณ  (https://arxiv.org/abs/2401.06066) MoE์˜ ์ด์Šˆ ์ค‘ ํ•˜๋‚˜์ธ ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ ๋ฌธ์ œ์— ๋Œ€ํ•œ ๊ฐœ์„ ์„ ํ–ˆ๋‹ค. (https://arxiv.org/abs/2408.15664) DeepSeekMoE์˜ Fine grained Expert์€ ์ด์ œ ํ‘œ์ค€์ ์ด๋‹ค.
์ถ”๋ก ์—์„œ ๊ฐ€์žฅ ํฐ ๋ฌธ์ œ๋Š” ๋ฌด์—‡์ผ๊นŒ? Key/Value ์บ์‹œ์˜ ํฌ๊ธฐ์ผ ๊ฒƒ์ด๋‹ค. ๊ทธ๋ž˜์„œ MLA๋ฅผ ๊ฐœ๋ฐœํ–ˆ๋‹ค. (https://arxiv.org/abs/2405.04434)
์ด๋Ÿฐ ํ˜•ํƒœ์˜ ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์„ ์„ ์‚ฌ์šฉํ•˜๋ฉด ์ผ๋ฐ˜์ ์ธ Llama์™€๋Š” ํ˜ธํ™˜๋˜์ง€ ์•Š๊ฒŒ ๋œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ Llama ์•„ํ‚คํ…์ฒ˜์™€์˜ ํ˜ธํ™˜์„ฑ์„ ํ†ตํ•ด์„œ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์„ (์ถ”๋ก  ์—”์ง„์šฉ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜๋Š” ๋“ฑ) ์ง์ ‘ ํ•œ๋‹ค๋ฉด ์•„ํ‚คํ…์ฒ˜์˜ ๊ฐœ์„ ์œผ๋กœ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ์ด์ต์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. ์ด๋ฅผ ๋’ค์ง‘์œผ๋ฉด ์ฝ”๋“œ ์ž‘์„ฑ์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด์„œ ํ˜ธํ™˜์„ฑ์„ ์ถ”๊ตฌํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์•„ํ‚คํ…์ฒ˜์˜ ์—ด์œ„๋ฅผ ์„ ํƒํ•˜๊ณ  ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.
ํ•™์Šต ๊ธฐ๋ฒ•์— ๋Œ€ํ•ด์„œ๋Š” GRPO ๊ฐ™์€ ์ •๋ ฌ๊ณผ ํƒ์ƒ‰ ๋ฐฉ๋ฒ•๋“ค. (https://arxiv.org/abs/2402.03300, https://arxiv.org/abs/2312.08935, https://arxiv.org/html/2408.08152), ๊ทธ๋ฆฌ๊ณ  DeepSeek-V3์—์„œ์˜ Multi Token Prediction ๊ฐ™์€ ๋ฐฉ๋ฒ•.
๊ทธ๋ฆฌ๊ณ  ์š”์ฆ˜ ๋˜ํ•œ ์ธ๊ธฐ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ธ Scaling Law๋ฅผ ํ†ตํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ถ”์ •๋„ DeepSeek LLM์—์„œ ๋“ฑ์žฅํ–ˆ๋‹ค.
์ข‹์€ ๋ฐ์ดํ„ฐ๋Š”? DeepSeek LLM์—์„œ๋ถ€ํ„ฐ Common Crawl์„ ์ง์ ‘ ์ฒ˜๋ฆฌํ–ˆ๊ณ  (https://arxiv.org/abs/2401.02954) DeepSeek-Coder์—์„œ๋Š” ์ฝ”๋“œ ๋ฐ์ดํ„ฐ๋ฅผ ์ง์ ‘ ์ฒ˜๋ฆฌํ•˜๊ณ  Dependency ๊ธฐ๋ฐ˜ ์ •๋ ฌ์„ ๋„์ž…ํ–ˆ์œผ๋ฉฐ (https://arxiv.org/abs/2401.14196) DeepSeekMath์—์„œ๋Š” ์ด์ œ ๊ฑฐ์˜ ํ‘œ์ค€์ ์ธ ๋ฐฉ๋ฒ•์ธ Common Crawl์—์„œ ์ˆ˜ํ•™ ๊ด€๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€ ์ˆ˜์ง‘ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๊ฐœ๋ฐœํ–ˆ๋‹ค. (https://arxiv.org/abs/2402.03300) ๊ทธ๋ฆฌ๊ณ  DeepSeek-V2๋ฅผ ๊ฑฐ์น˜๋ฉด์„œ ๋ฐ์ดํ„ฐ์˜ ๊ทœ๋ชจ๋„ ๊ณ„์† ์ฆ๊ฐ€ํ–ˆ๋‹ค.
ํ•™์Šต ์ธํ”„๋ผ์— ๋Œ€ํ•ด์„œ๋Š”? DeepSeek-V2์—์„œ Zero-Bubble Pipeline Parallel์„ ์ด๋ฏธ ๋„์ž…ํ–ˆ๊ณ  (https://arxiv.org/abs/2401.10241) DeepSeek-V3์—์„œ๋Š” Pipeline Parallel ์Šค์ผ€์ค„, MoE๋ฅผ ์œ„ํ•œ All-to-All ํ†ต์‹ ์˜ ์ตœ์ ํ™”, FP8 ํ•™์Šต์„ ์œ„ํ•œ Quantization ๋ฐฉ๋ฒ•์˜ ๊ฐœ์„  ๋“ฑ์ด ํฌํ•จ๋˜์—ˆ๋‹ค.
๊ทธ๋ฆฌ๊ณ  ์ด๋Ÿฐ ๊ณผ์ •๋“ค์„ ๊ฑฐ์ณ DeepSeek-V3๊ฐ€ ๋“ฑ์žฅํ–ˆ๋‹ค. ์‚ฌ์‹ค DeepSeek LLM์€ ํ…Œํฌ๋‹ˆ์ปฌ ๋ฆฌํฌํŠธ์˜ ํ€„๋ฆฌํ‹ฐ์™€๋Š” ๋ณ„๊ฐœ๋กœ ๊ทธ ์‹œ์ ์—์„œ Mistral 7B ๊ฐ™์€ ๋ชจ๋ธ์— ๋น„ํ•ด ๊ทธ๋ ‡๊ฒŒ ๊ณ ์„ฑ๋Šฅ์ธ ๋ชจ๋ธ์€ ์•„๋‹ˆ์—ˆ๋‹ค. Llama 1 ์ •๋„์˜ ๋ชจ๋ธ์ด์—ˆ๊ธฐ ๋•Œ๋ฌธ์—.

๊น€์„ฑํ˜„๋‹˜
์ด์ „์— ์–ธ๊ธ‰ํ–ˆ๋˜ ๊ฒƒ์ฒ˜๋Ÿผ ์ง€๊ธˆ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋ฌธ์ œ๋Š” o1์— ์‚ฌ์šฉ๋œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์œ„ํ•œ ๋ฐฉ๋ฒ•์„ ์•Œ์•„๋‚ด๋Š” ๊ฒƒ์ด์—ˆ๋‹ค. ๋ฌผ๋ก  o1์˜ ๋ฐฉ๋ฒ•์ด ๋ฌด์—‡์ธ์ง€๋Š” ๊ธฐ๋ฐ€์ด๋‹ˆ ์—ฌ์ „ํžˆ ์ •ํ™•ํžˆ ์•Œ ์ˆ˜๋Š” ์—†๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ o1๊ณผ ๋™๋“ฑํ•œ ์ˆ˜์ค€์˜ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์€ ์ด์ œ ์•Œ๋ ค์กŒ๋‹ค. ๊ทธ๊ฒƒ๋„ ํ•˜๋ฃจ๋งŒ์— ๋‘ ๊ฐ€์ง€ ์‚ฌ๋ก€๋กœ.
https://github.com/deepseek-ai/DeepSeek-R1
https://github.com/MoonshotAI/Kimi-k1.5
ํฅ๋ฏธ๋กœ์šด ๊ฒƒ์€ ์ด ๋‘ ๊ฐ€์ง€ ์‚ฌ๋ก€ ๋ชจ๋‘ ๊ณตํ†ต๋œ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ–ˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ์ € ๋ชจ๋ธ์˜ ์ตœ์ข… ์ถœ๋ ฅ ๊ฒฐ๊ณผ์˜ ์ •๋‹ต ์—ฌ๋ถ€๋งŒ์œผ๋กœ (์ˆ˜ํ•™์ด๋ผ๋ฉด ์ •๋‹ต๊ณผ์˜ ์ผ์น˜ ์—ฌ๋ถ€, ์ฝ”๋”ฉ์ด๋ผ๋ฉด ์ปดํŒŒ์ผ๋Ÿฌ๋ฅผ ํ†ตํ•œ ์œ ๋‹› ํ…Œ์ŠคํŠธ ํ”ผ๋“œ๋ฐฑ ๋“ฑ) RL์„ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ง€๊ธˆ๊นŒ์ง€ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์œ„ํ•œ ๋งŽ์€ ์‹œ๋„๋“ค์ด ๋‚˜์™”๊ณ  ์ด ์‹œ๋„๋“ค์€ ๋Œ€์ฒด๋กœ Process Reward Model (PRM)์„ ์‚ฌ์šฉํ•ด์„œ CoT์˜ ๊ฐ ์Šคํ…์— ๋Œ€ํ•ด Reward๋ฅผ ์ฃผ๊ฑฐ๋‚˜ MCTS๋ฅผ ํ•˜๋Š” ๊ฒƒ์ด ์ฃผ๋ฅ˜์˜€๋‹ค.
๊ทธ๋Ÿฐ๋ฐ ๊ทธ๋Ÿฐ ์ ˆ์ถฉ์ ์ธ ๋ฐฉ๋ฒ•์ด๋‚˜ ๋ช…์‹œ์ ์ธ ํƒ์ƒ‰์„ ์ „ํ˜€ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  ๊ฒฐ๊ณผ ๋ณด์ƒ(Outcome Reward)๋งŒ์œผ๋กœ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ชจ๋ธ์— ์ฃผ์ž…ํ•˜๋Š”๋ฐ ์„ฑ๊ณตํ•œ ๊ฒƒ์ด๋‹ค.
์‚ฌ์‹ค o1์ด MCTS ๊ฐ™์€ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ–ˆ๋Š”๊ฐ€๋Š” ๊ณ„์†ํ•ด์„œ ๋…ผ์Ÿ์ ์ธ ๋ฌธ์ œ์˜€๋‹ค. TรœLU 3์—์„œ ์ •๋‹ต์„ ๊ธฐ๋ฐ˜ํ•œ RL์„ (RLVR) ํ†ตํ•ด ์ฐฝ๋ฐœ์ ์ธ ๋Šฅ๋ ฅ์ด ๋‚˜ํƒ€๋‚œ ์‚ฌ๋ก€๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํƒ์ƒ‰์ด ์•„๋‹ˆ๋ผ Outcome Reward๋ฅผ ํ†ตํ•ด ์ถ”๋ก  ๋Šฅ๋ ฅ์ด ๋“ฑ์žฅํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ฃผ์žฅ๋„ ์žˆ์—ˆ๊ณ  (https://www.interconnects.ai/.../openais-o1-using-search...) ํƒ์ƒ‰์€ ๋‹ต์ด ์•„๋‹ˆ๋ผ๋Š” ๋ง๋„ ์žˆ์—ˆ์ง€๋งŒ (https://x.com/denny_zhou/status/1870551510741811644) ์–ด์จŒ๋“  ์ง€๊ธˆ๊นŒ์ง€ ๊ฐ€์žฅ ์ธ๊ธฐ ์žˆ์—ˆ๋˜ ๋ฐฉ๋ฒ•์€ ํƒ์ƒ‰์ด์—ˆ๋‹ค. (https://arxiv.org/abs/2501.04682)
๊ทธ๋ ‡๋‹ค๋ฉด ์™œ Outcome Reward ๊ธฐ๋ฐ˜์˜ ๋ฐฉ๋ฒ•์ด ์ฃผ๋ชฉ์„ ๋ฐ›์ง€ ๋ชปํ–ˆ์„๊นŒ? ์ด๋Š” ์ด ๋ฐฉ๋ฒ•์ด ์„ฑ๊ณต์ ์ด๊ธฐ ์œ„ํ•ด์„  ๋ฒ ์ด์Šค ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ์ถฉ๋ถ„ํžˆ ๋†’์•„์•ผ ํ•˜๊ณ  ์ถฉ๋ถ„ํ•œ ๋‚œ์ด๋„์™€ ์–‘์˜ ๋ฌธ์ œ-์ •๋‹ต ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์ผ ๊ฒƒ์ด๋‹ค.
๋”ฅ ๋Ÿฌ๋‹์—์„œ ํ”ํ•˜๊ฒŒ ์ผ์–ด๋‚˜๋Š” ๋ฌธ์ œ, ์ฆ‰ ์ •๊ตํ•œ ๋ฐฉ๋ฒ•์ด ๊ทœ๋ชจ๋ฅผ ํ‚ค์šด ๋‹จ์ˆœํ•œ ๋ฐฉ๋ฒ•์— ๋ฐ€๋ฆฌ๋Š” ํ˜„์ƒ์˜ ๋ฐ˜๋ณต์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๊ฒ ๋‹ค.
PRM์˜ ๋ฌธ์ œ๋Š” ๋ฌด์—‡์ผ๊นŒ? ์ผ๋‹จ PRM์„ ์ ์šฉํ•˜์ž๋ฉด CoT์—์„œ Process๊ฐ€ ๋  ๋‹จ์œ„๋ฅผ ์„ค์ •ํ•ด์•ผ ํ•œ๋‹ค. ์ด ์Šคํ…๋“ค์— ๋Œ€ํ•œ ํ•™์Šต ๋ ˆ์ด๋ธ” ๋˜ํ•œ ํ•„์š”ํ•˜๋‹ค. ์ด ๋ ˆ์ด๋ธ” ๊ตฌ์ถ•์€ ์•„์ฃผ ์–ด๋ ค์šด ์ž‘์—…์ด๊ธฐ์— ์ •๋‹ต ์—ฌ๋ถ€๋ฅผ ํ†ตํ•ด ๋ ˆ์ด๋ธ”์„ ๋ถ€์—ฌํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์ธ๊ธฐ๋ฅผ ์–ป์—ˆ์ง€๋งŒ ์ด๋ ‡๊ฒŒ ํ•™์Šตํ•œ ๋ชจ๋ธ์€ ํ•™์Šต ๋„๋ฉ”์ธ ๋ฐ–์œผ๋กœ ๋„˜์–ด๊ฐ€๋ฉด ์„ฑ๋Šฅ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค. (https://arxiv.org/abs/2501.07301) ๋˜ํ•œ ์• ์ดˆ์— ๋ชจ๋ธ ๊ธฐ๋ฐ˜์ด๊ธฐ์— ๋ชจ๋ธ์˜ ๋ถ€์ •ํ™•์„ฑ ๋˜ํ•œ ๋ฌธ์ œ๊ฐ€ ๋œ๋‹ค.
MCTS๋Š” ์–ด๋–จ๊นŒ? MCTS๋ฅผ ์œ„ํ•ด์„  ์ •ํ™•ํ•œ Value ๋ชจ๋ธ์ด ํ•„์š”ํ•˜๊ณ  ์ด๋ฅผ ํ™•๋ณดํ•˜๋Š” ๊ฒƒ์ด ๋ฌธ์ œ๊ฐ€ ๋œ๋‹ค.
PRM๊ณผ MCTS ๋ชจ๋‘ CoT์— ์ผ์ •ํ•œ ๊ตฌ์กฐ๋ฅผ ๋ถ€์—ฌํ•˜๊ฒŒ ๋œ๋‹ค. PRM์—์„œ๋Š” Reward์˜ ๋‹จ์œ„๊ฐ€ ๋˜๋Š” ์Šคํ…๋“ค์ด ์ •ํ•ด์ ธ์•ผ ํ•˜๊ณ  MCTS๋Š” ํƒ์ƒ‰ ๊ณต๊ฐ„์ด ์„ค์ •๋˜์–ด์•ผ ํ•œ๋‹ค.
๊ทธ๋ฆฌ๊ณ  ๋”ฅ ๋Ÿฌ๋‹์˜ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๊ตํ›ˆ์€ ๋ฌธ์ œ์— ๋Œ€ํ•œ ํ•ด๊ฒฐ ๋ฐฉ๋ฒ•์— ๊ตฌ์กฐ๋ฅผ ๋ถ€์—ฌํ•ด์„œ๋Š” ์•ˆ ๋œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.
๋ฌผ๋ก  ์•ž์œผ๋กœ๋„ PRM์ด๋‚˜ MCTS๊ฐ€ ๋„์›€์ด ๋˜์ง€ ์•Š์„ ๊ฒƒ์ด๋ผ๊ณ  ๋งํ•  ์ˆ˜๋Š” ์—†๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋‹จ์ˆœํ•œ ๋ฐฉ๋ฒ•์„ Scaling ํ•˜๋Š” ๊ฒƒ์ด ํ•ด์•ผ ํ•  ์ฒซ ๋‹จ๊ณ„์ธ ๊ฒƒ๋„ ์‚ฌ์‹ค์ด๋‹ค.
์ด๋Ÿฐ ์ถ”๋ก  ๋ชจ๋ธ๋“ค์„ ํ†ตํ•ด ๋ฒ ์ด์Šค ๋ชจ๋ธ์„ ๋” ๊ฐ•ํ™”ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€, ๊ทธ๋ฆฌ๊ณ  ์ง€๊ธˆ ์ •๋‹ต์„ ์•Œ ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ๋“ค์— ๋Œ€ํ•ด ํ•™์Šตํ•œ ๋ชจ๋ธ์ด ์šฐ๋ฆฌ๊ฐ€ ๋ชฉํ‘œํ•˜๋Š” ์ •๋‹ต์„ ์•„์ง ๋ชจ๋ฅด๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๊ฒƒ์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€ ๋“ฑ ์ƒ๊ฐํ•˜๊ณ  ์—ฐ๊ตฌํ•  ๋ฌธ์ œ๋“ค์€ ๋งŽ์ด ์žˆ๋‹ค. ์‹ค์šฉ์ ์œผ๋กœ๋Š” ๋” ๋‹ค์–‘ํ•œ ๊ณผ์ œ๋“ค์— ๋Œ€ํ•ด ์ •๋‹ต ์—ฌ๋ถ€๋ฅผ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฒƒ๋„ ์ค‘์š”ํ•˜๋‹ค.
๊ทธ๋Ÿฌ๋‚˜ ์ผ๋‹จ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๊ฒƒ์„ ํ™•์ธํ–ˆ๋‹ค๋ฉด ๊ทธ ์ง€์ ์—์„œ ๋‚˜์•„๊ฐ€๋Š” ๊ฒƒ์€ ํ•œ๊ฒฐ ์‰ฝ๋‹ค.
#
DeepSeek-R1 ๋ฆฌํฌํŠธ์—์„œ ๋งํ•˜๋“ฏ Distillation์€ ๋ชจ๋ธ์— ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ถ€์—ฌํ•˜๋Š” ์•„์ฃผ ์†์‰ฌ์šด ๋ฐฉ๋ฒ•์ด๋‹ค. ์‚ฌ์‹ค o1์„ ์žฌํ˜„ํ–ˆ๋‹ค๊ณ  ์ฃผ์žฅํ•œ ๋งŽ์€ ์‹œ๋„๋“ค์ด Distillation์— ์˜์กดํ•˜๊ณ  ์žˆ๋‹ค.
(๋‚˜๋Š” ์™ธ๋ถ€ ๋ชจ๋ธ์˜ ๊ฒฐ๊ณผ๋ฅผ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์„ Distillation์ด๋ผ๊ณ  ๋ถ€๋ฅด๋Š” ๊ฒƒ์— ๋ฐ˜๋Œ€ํ•˜๊ณ  ์‹ถ์ง€๋งŒ ์ด๋ฏธ ๋„ˆ๋ฌด ๊ด‘๋ฒ”์œ„ํ•œ ์šฉ๋ฒ•์ด ๋˜์–ด๋ฒ„๋ ธ์œผ๋‹ˆ ์–ด์ฉ” ์ˆ˜ ์—†์„ ๋“ฏ ์‹ถ๋‹ค.)
์‚ฌ์‹ค ์ž‘์€ ๋ชจ๋ธ์—์„œ๋Š” RL๋ณด๋‹ค Distillation์ด ๋” ํšจ๊ณผ์ ์ด๋ผ๊ณ  ์–ธ๊ธ‰ํ•˜๊ณ  ์žˆ๊ธฐ๋„ ํ•˜๋‹ค. RL์ด ์ œ๋Œ€๋กœ ์ž‘๋™ํ•˜๋ ค๋ฉด ๊ฐ•๋ ฅํ•œ ๋ฒ ์ด์Šค ๋ชจ๋ธ์ด ๋’ท๋ฐ›์นจ๋˜์–ด์•ผ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋ฆฌํฌํŠธ์—์„œ ์–ธ๊ธ‰ํ•˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ์˜ ๊ฒฝ๊ณ„๋ฅผ ํ™•์žฅํ•˜๋ ค๋ฉด ๋” ๊ฐ•๋ ฅํ•œ ๋ฒ ์ด์Šค ๋ชจ๋ธ๊ณผ ๋Œ€๊ทœ๋ชจ RL์„ ํ†ตํ•  ์ˆ˜๋ฐ–์— ์—†๋‹ค. ๋”ฐ๋ผ์„œ ์ง„์ •์œผ๋กœ ํฅ๋ฏธ๋กœ์šด ๊ฒƒ์€ ๊ทธ ๊ฒฝ๊ณ„๋ฅผ ํ™•์žฅํ•˜๋Š” ์ž‘์—…๊ณผ ๊ทธ ์˜์—ญ์— ์žˆ๋‹ค.
#
DeepSeek์˜ ์ฐฝ๋ฆฝ์ž๊ฐ€ ์ธํ„ฐ๋ทฐ์—์„œ AGI์— ๋„๋‹ฌํ•˜๊ธฐ ์œ„ํ•œ ๊ธฐ์ˆ ์  ํ˜์‹ ์— ๋Œ€์‹  ํ˜„์žฌ์˜ ๊ธฐ์ˆ ์„ ํ†ตํ•œ ์‘์šฉ์ด๋‚˜ ์ด์œค ์ฐฝ์ถœ์— ์ง‘์ค‘ํ•  ์ƒ๊ฐ์€ ์—†๋‹ค๋Š” ์‹์œผ๋กœ ์–ธ๊ธ‰ํ•œ ์ ์ด ์žˆ๋‹ค. (https://www.chinatalk.media/.../deepseek-ceo-interview...) ์ด ๊ธฐ์ˆ ์  ํ˜์‹ ์— ๋Œ€ํ•œ ์ง‘์ค‘์ด ์ง€๊ธˆ DeepSeek์ด ๊ณต๊ฐœํ•˜๊ณ  ์žˆ๋Š” ์„ฑ๊ณผ์˜ ๋™๋ ฅ์ด์—ˆ์œผ๋ฆฌ๋ผ๊ณ  ์ƒ๊ฐํ•œ๋‹ค.
๊ทธ๋ฆฌ๊ณ  ์ด๊ฒƒ์ด ์˜คํžˆ๋ ค ํ•ฉ๋ฆฌ์ ์ธ ์„ ํƒ์ผ ์ˆ˜ ์žˆ๋‹ค. ํ˜„์žฌ ์ˆ˜์ค€์˜ LLM์˜ ๋Šฅ๋ ฅ์€ ์ œํ•œ์ ์ด๊ณ  ๋”ฐ๋ผ์„œ ๊ทธ๊ฒƒ์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ถ„์•ผ์™€ ์ฐฝ์ถœํ•  ์ˆ˜ ์žˆ๋Š” ์ด์œค ๋˜ํ•œ ์ œํ•œ์ ์ผ ์ˆ˜๋ฐ–์— ์—†๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ์ง€๊ธˆ ๊ฐ€๋Šฅํ•œ ์˜์—ญ์—์„œ ์ด์œค์„ ์งœ๋‚ด๋ ค ์‹œ๋„ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค๋Š” ๊ฐ€๋Šฅํ•œ ์˜์—ญ์„ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ์— ์ง‘์ค‘ํ•˜๋Š” ๊ฒƒ์ด ๋‚˜์„ ์ˆ˜ ์žˆ๋‹ค.
์ด ์˜์—ญ์˜ ๋ฐœ์ „ ์†๋„๋ฅผ ๊ณ ๋ คํ–ˆ์„ ๋•Œ ์ด ๊ธฐ์ˆ ์ด ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์œ„์— ๋Œ€ํ•ด ๊ฐ€๋Š ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜๊ธฐ๊นŒ์ง€ ๊ฑธ๋ฆด ์‹œ๊ฐ„์€ ๊ทธ๋ฆฌ ๋งŽ์ง€ ์•Š๋‹ค. ์ฆ‰ ๊ต‰์žฅํžˆ ์žฅ๊ธฐ์ ์ธ ํˆฌ์ž๊ฐ€ ํ•„์š”ํ•˜์ง€๋Š” ์•Š์„ ๊ฒƒ์ด๋ผ๋Š” ์˜๋ฏธ์ด๋‹ค. (๋ฌผ๋ก  ๋น„์šฉ์€ ํด ์ˆ˜ ์žˆ๋‹ค.) ๊ทธ๋ ‡๋‹ค๋ฉด ๊ตณ์ด ์ง€๊ธˆ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ์กฐ๊ธˆ์˜ ์ด์œค์„ ์œ„ํ•ด ์กฐ๋ฐ”์‹ฌ์„ ๋‚ผ ํ•„์š”๋Š” ์—†๋‹ค.

๊น€์„ฑํ˜„๋‹˜
https://youtu.be/kYWUEV_e2ss

๋ฌธ์ œ ์ •์˜: โ€œ์ธ๊ฐ„์ด ์ž์„ธํžˆ ๊ฐ€๋ฅด์น˜๋Š” ๊ฒƒ vs. ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ํ•™์Šตํ•˜๋„๋ก ๋™๊ธฐ๋ฅผ ๋ถ€์—ฌํ•˜๋Š” ๊ฒƒโ€

โ€ข ๊ธฐ์กด ์ ‘๊ทผ๋ฒ•: ์ธ๊ฐ„ ํƒ‘๋‹ค์šด ์‚ฌ๊ณ ๋ฐฉ์‹(์ˆ˜์ž‘์—… ๊ตฌ์กฐยท์ธ๊ฐ„ ์ง๊ด€)์— ๊ธฐ๋ฐ˜ํ•ด ๋ชจ๋ธ์— โ€œ์–ธ์–ดํ•™ยท๋…ผ๋ฆฌโ€ ๋“ฑ์„ ๋ช…์‹œ์ ์œผ๋กœ ๊ฐ€๋ฅด์น˜๋ ค ๋“ฆ.
ํ•œ๊ณ„: ์‚ฌ๋žŒ์ด โ€˜์–ด๋–ป๊ฒŒ ์ƒ๊ฐํ•˜๋Š”์ง€โ€™๋ฅผ ์™„๋ฒฝํžˆ ์ดํ•ดํ•œ ๊ฒƒ๋„ ์•„๋‹ˆ๊ณ , ์ด๊ฒƒ์ด ๊ณง ๋ชจ๋ธ์˜ ์ตœ์  ํ•ด๋ฒ•๊ณผ ์ผ์น˜ํ•˜์ง€๋„ ์•Š์Œ.

โ€ข ๋Œ€์•ˆ(First Principle): โ€œ๋ชจ๋ธ์ด ๋‹ค๋ฃฐ ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์™€ ๋†’์€ ๊ณ„์‚ฐ๋ ฅ(Compute)์„ ์ด์šฉํ•ด, ๊ทธ ์ž์ฒด๋ฅผ '์•ฝํ•œ ์‹œ๊ทธ๋„(Weak Incentive)'๋กœ ์‚ผ์•„ โ€˜์Šค์Šค๋กœ ์‚ฌ๊ณ ยทํ•™์Šตโ€™์„ ์ด‰์ง„.โ€

์˜ˆ: โ€œ๋‹ค์Œ ํ† ํฐ ์˜ˆ์ธกโ€์ด๋ผ๋Š” ๋‹จ์ˆœ ๋ชฉํ‘œ๋งŒ ๋˜์ ธ์ฃผ๋˜(๊ต์ˆ˜ X), ์ˆ˜์‹ญ์–ตยท์ˆ˜์กฐ ๊ฐœ ๋ฌธ๋งฅ์„ ํ•ด๊ฒฐํ•˜๋ ค ์• ์“ฐ๊ฒŒ ํ•˜๋ฉด, ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์–ธ์–ด ์ดํ•ด/์ถ”๋ก /์ž‘๋ฌธ ๋“ฑ์ด ์ƒ๊ฒจ๋‚จ(์ธ์„ผํ‹ฐ๋ธŒ O).

โ€œ๋ฌด์ œํ•œ Scalabilityโ€๊ฐ€ ์ „์ œ๊ฐ€ ๋˜๋Š” ํ˜„์žฌ ํ™˜๊ฒฝ

์ „์ œ ์กฐ๊ฑด:

ํ•˜๋“œ์›จ์–ด/์ปดํ“จํŒ…์ด ์ง€์ˆ˜์ ์œผ๋กœ ๋ฐœ์ „(๋น„์šฉ ์ ˆ๊ฐ์†๋„ ๋˜ํ•œ ์—„์ฒญ๋‚จ).
๊ธฐ์กด๋ฌผ๋ฆฌ(์‚ฌ๋žŒ๊ณผ ๊ฐ™์€ ์‹œ๊ฐ„์  ์ œ์•ฝ)๋Š” โ€œ์ด๋ก ์ƒ XXโ€ ์ˆ˜์ค€์œผ๋กœ ์™„ํ™”.

ํ–‰๋™ ์ง€์นจ:
(1) โ€œํ›จ์”ฌ ๋งŽ์€ computeโ€๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์†Œํ™”ํ•˜๋„๋ก, ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ตœ์†Œ์˜ ์‚ฌ์ „๊ฐ€์ •(Structure)์œผ๋กœ ์œ ์ง€.
(2) ์‚ฌ๋žŒ์ด โ€œ๋ฌธ์ œ ํ•ด๊ฒฐ ๋‹จ์„œโ€๋ฅผ ์ง์ ‘ ์„ค๊ณ„ํ•˜์ง€ ๋ง ๊ฒƒ(์ˆซ์ž๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ๊ทธ ์‚ฌ์ „๊ฐ€์ •์ด ๋ณ‘๋ชฉ์ด ๋จ).
(3) โ€œ์ธ๊ฐ„ ์ง€์‹โ€ ๋Œ€์‹ , ๋ชจ๋ธ์ด โ€œ๋ฐ์ดํ„ฐ์™€ ๋ชฉํ‘œ(์˜ˆ:๋‹ค์Œ ํ† ํฐ ์˜ˆ์ธก, ์„ฑ๊ณต ์—ฌ๋ถ€ ๋ณด์ƒ ๋“ฑ)โ€๋ฅผ ๋ฐœํŒ์‚ผ์•„ ์ž๋ฐœ์ ์œผ๋กœ ์ผ๋ฐ˜ํ™”๋œ(General) ๋Šฅ๋ ฅ์„ ์ฐพ๋„๋ก.

โ€œNext Token Predictionโ€์ด ์–ด๋–ป๊ฒŒ ์ผ๋ฐ˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋‚ณ๋Š”๊ฐ€

ํ˜•ํƒœ: ์›น ์Šค์ผ€์ผ(์ˆ˜์‹ญ์–ต~์ˆ˜์กฐ ๋ฌธ์žฅ), ๊ฐ ๋ฌธ์žฅ์—์„œ ๋งค ๋‹ค์Œ ํ† ํฐ์„ ๋งžํžˆ๋Š” ๊ฒƒ์ด ์ „๋ถ€.
๊ฒฐ๊ณผ:

(1) ์–ธ์–ดํ•™์  ์ง€์‹๋ถ€ํ„ฐ, ์ˆ˜ํ•™ยท์ฝ”๋”ฉยท๋…ผ๋ฆฌ๊นŒ์ง€ โ€œํ•™์Šต์ž๊ฐ€ ์Šค์Šค๋กœ ๊ฐ€์žฅ ์œ ๋ฆฌํ•œโ€ ์ผ๋ฐ˜๊ธฐ์ˆ ์„ ํ„ฐ๋“.
(2) ์ธ๊ฐ„์ด ๋ณ„๋„ ๊ต๊ณผ๊ณผ์ • ์—†์ด๋„, โ€œ์ˆ˜๋งŽ์€ ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•ด์•ผ ํ•˜๋Š” ์ธ์„ผํ‹ฐ๋ธŒโ€ ๋•Œ๋ฌธ์— ์ €์ ˆ๋กœ ๋ณต์žกํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ๋ ฅ(โ€œEmergent Abilityโ€) ํš๋“.
(3) ์ž‘์€ ๋ชจ๋ธ๋กœ๋Š” ๋ถˆ๊ฐ€๋Šฅํ•˜์ง€๋งŒ, ์ผ์ • ๊ทœ๋ชจ ๋„˜์œผ๋ฉด(์ฒซ ์›๋ฆฌ ์ฐจ์›์—์„œ โ€œ์ถฉ๋ถ„ํ•œ ๊ณ„์‚ฐ ์ž์›+๋ฐ์ดํ„ฐ=๊ฐ€๋Šฅโ€) ์ƒ๋‹นํ•œ ์ง€์  ๋Šฅ๋ ฅ์ด โ€˜๋Œ์—ฐโ€™ ์ถœํ˜„.

โ€œEmergent Abilityโ€์™€ ์Šค์ผ€์ผ๋ง: ์ปค์ง€๋Š” ๋ชจ๋ธ์— โ€˜์•ฝํ•œโ€™ ๋ชฉํ‘œ๋งŒ ๋˜์ ธ๋„ ๋ณ„๋‚œ ๋Šฅ๋ ฅ์ด ์ƒ๊ธฐ๋Š” ์ด์œ 

โ€œ์ž‘์€ ๋ชจ๋ธ ๊ธฐ์ค€โ€์—์„œ ๋ณด๋ฉด, ์‚ฌ๋žŒ์€ ๊ทธ ๋ชจ๋ธ ํ•œ๊ณ„ ์œ ํšจ ๋ฒ”์œ„๋งŒ ๋ชฉ๊ฒฉํ•˜๊ณ ๋Š” โ€œ์•ˆ ๋œ๋‹คโ€๊ณ  ๊ฒฐ๋ก ๋ƒ„.
โ€ข ํ•˜์ง€๋งŒ ์ปดํ“จํŒ… ์ž์›์ด ๋Š˜๋ฉด์„œ, ์ „ํ˜€ ๋‹ค๋ฅธ ๋ฒ”์œ„(scales)์—์„œ ์ž„๊ณ„์ ์„ ๋„˜์œผ๋ฉด, โ€˜์ž์—ฐ๋ฐœ์ƒ ์ถ”๋ก  ๋Šฅ๋ ฅโ€™ ํญ์ฆ.

๋น„์œ : ๋ฌผ๋ฆฌ ์‹คํ—˜์ด๋ผ๋ฉด โ€œ๋ช‡ ๋…„ ํ›„ ๋ฐ”๋€” ๋ฒ•์น™์€ ์—†๋‹ค.โ€ โ†’ AI๋Š” โ€œํ•˜๋“œ์›จ์–ด ์ถ•์ โ€์ด ๋ฒ•์น™ ์ž์ฒด๋ฅผ ๋ฐ”๊พธ๋Š” ๊ฒฉ.
๋”ฐ๋ผ์„œ ๋น ๋ฅธ โ€˜๊ด€์„ฑ ์—†์ดโ€™ ์‚ฌ๊ณ ์ „ํ™˜(โ€œUnlearning ๊ธฐ์กด ๊ฐ€์ •โ€)์ด ํ•„์š”.

์•ž์œผ๋กœ์˜ ๋ฐฉํ–ฅ: โ€œ๋ชจ๋“  ๋ฌธ์ œ๋ฅผ ์ธ์„ผํ‹ฐ๋ธŒ๋กœ ์ •์˜ํ•˜๋ผโ€

Next Token Prediction โ†’ ์ผ์ข…์˜ โ€œ์•ฝํ•œ ๋ณด์ƒโ€์œผ๋กœ ์–ธ์–ดยท์ถ”๋ก  ์ง€์‹ ํ•™์Šตํ–ˆ๋˜ ๊ฒƒ์ฒ˜๋Ÿผ, โ€œ์ •ํ™• ์‘๋‹ตโ€ยทโ€œ์‚ฌ์‹ค ๊ฒ€์ฆโ€ ๋“ฑ ๋‹ค๋ฅธ ๋ชฉํ‘œ๋“ค๋„ ์•ฝํ•˜์ง€๋งŒ ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ์„ค์ • ๊ฐ€๋Šฅ.
โ€ข ๊ฑฐ๋Œ€๋ชจ๋ธ ์‹œ๋Œ€: ๊ณผ๊ฑฐ์—” โ€œํ•™์Šต๋น„์šฉ์ด ๋„ˆ๋ฌด ์ปค์„œโ€ ๋น„ํšจ์œจ์ด ๋ฌธ์ œ์˜€์ง€๋งŒ, ์ด์ œ๋Š” ์ปดํ“จํŒ…์ด ๋ฌด์ œํ•œ์ ์œผ๋กœ ์ฆ๊ฐ€ ๊ฐ€๋Šฅ โ†’ ์ด ๋ฐฉ๋ฒ•์ด ์˜คํžˆ๋ ค ํšจ์œจ์ .

โ€ข ๊ฒฐ๋ก : โ€œ์•ˆ ๋  ๊ฒƒ ๊ฐ™์•„ ๋ณด์ด๋Š” ๋‹จ์ˆœ ๋ณด์ƒ ๊ตฌ์กฐโ€ + โ€œ๋” ํฐ ๋ชจ๋ธ/๋ฐ์ดํ„ฐโ€ = ๋ชจ๋ธ์ด ๋ณธ์งˆ์ ์œผ๋กœ ํ›จ์”ฌ ๊นŠ์€ ๊ธฐ์ˆ (์˜ˆ: ์ž๊ธฐ๋ฐ˜์˜, ์ˆ˜ํ•™, ์น˜๋ฐ€์ถ”๋ก  ๋“ฑ)์„ ์ฐพ์„ ํ† ์–‘์ด ๋จ.
โค1
https://arxiv.org/abs/2501.12599
โ€œPretraining ๋ฐ์ดํ„ฐ ํ•œ๊ณ„ โ†’ RL ๊ธฐ๋ฐ˜ โ€˜์ƒˆ๋กœ์šด ์ถ•โ€™์„ ์—ด์–ด๋ณผ ์ˆ˜ ์žˆ์„๊นŒ?โ€

โ€ข ๊ธฐ์กด LLM ํ™•์žฅ์„ฑ: ๋ณดํ†ต โ€œ๋‹ค์Œ ํ† ํฐ ์˜ˆ์ธกโ€(next token prediction)์œผ๋กœ ๊ฑฐ๋Œ€ ๋ฐ์ดํ„ฐ์…‹์— ๋งž์ถฐ ์‚ฌ์ „ํ•™์Šต์„ ์ง„ํ–‰.
ํ•œ๊ณ„: ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฒฐ๊ตญ ์ œํ•œ๋  ์ˆ˜๋ฐ–์— ์—†์Œ.

โ€ข ๋Œ€์•ˆ(First Principle): โ€œ๋ชจ๋ธ์ด ๋ณด์ƒ(reward)์„ ํ†ตํ•ด ์Šค์Šค๋กœ ํƒ์ƒ‰(explore)ํ•˜๋Š” ์ถ•โ€โ€”์ฆ‰, RL์„ ๋Œ€๊ทœ๋ชจ LLM์— ๋„์ž…ํ•˜๋ฉด, ๋” ์ด์ƒ ์ •์  ๋ฐ์ดํ„ฐ์—๋งŒ ์˜์กดํ•˜์ง€ ์•Š์•„๋„ ๋จ.
๋ฌธ์ œ: ์ง€๊ธˆ๊นŒ์ง€ RL+LLM ์„ฑ๊ณผ๊ฐ€ ๊ฒฝ์Ÿ๋ ฅ์ด ๋†’์ง€ ์•Š์•˜์Œ.

โ€œKimi k1.5โ€๊ฐ€ ์ด ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ๋ชฉํ‘œ: โ€œ๋„“๊ณ  ๊ธด ์ปจํ…์ŠคํŠธ์—์„œ, RL๋กœ ์ฆ‰๊ฐ์  ํƒ์ƒ‰๊ณผ ์ž๊ธฐ-์ˆ˜์ • ๋Šฅ๋ ฅ์„ ํ•™์Šตํ•˜๋„๋ก ํ•˜์—ฌ, ๊ฒฐ๊ณผ์ ์œผ๋กœ OpenAI o1 ๋“ฑ ์ตœ์‹  ๊ฑฐ๋Œ€๋ชจ๋ธ๊ณผ ๊ฒฌ์ค„ ๋งŒํ•œ ๊ฐ•๋ ฅํ•œ Reasoning ๋ชจ๋ธ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋Š”๊ฐ€?โ€

โ€œLong Context + Policy Optimization ๊ฐ„๋‹จํ™”๊ฐ€ ๊ด€๊ฑดโ€

Long context scaling

์•„์ด๋””์–ด: โ€œ๋ฌธ์ œ๋ฅผ ํ’€ ๋•Œ, ์ถฉ๋ถ„ํžˆ ๊ธด ๋งฅ๋ฝ(128K ํ† ํฐ ๋“ฑ)์„ ์ฃผ๋ฉด, ๊ฑฐ์˜ โ€˜ํ”Œ๋ž˜๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜โ€™์ฒ˜๋Ÿผ ๋ชจ๋ธ์ด ์ž๋ฐœ์ ์œผ๋กœ ๊ผฌ๋ฆฌ์— ๊ผฌ๋ฆฌ๋ฅผ ๋ฌด๋Š” ์ถ”๋ก ์„ ํ•  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?โ€
๋ฌธ์ œ: ๊ธธ์ด๊ฐ€ ๋„ˆ๋ฌด ๊ธธ๋ฉด RL ๊ณผ์ •์ด ๋น„ํšจ์œจ์ ์ด๊ฑฐ๋‚˜ โ€œ์˜ค๋ฒ„-์”ฝํ‚น(์‘๋‹ต์ด ๋„ˆ๋ฌด ๊ธธ์–ด์ง€๋Š” ํ˜„์ƒ)โ€์ด ๊ฑฑ์ •๋จ. โ†’ ์ด๋ฅผ ์œ„ํ•œ โ€œpartial rolloutโ€ ๋“ฑ ์ „๋ฌธ ์ตœ์ ํ™”๊ฐ€ ํ•„์š”.


Simplistic RL framework (๊ฐ„๋‹จํ•œ ์ •์ฑ… ์ตœ์ ํ™” ๊ธฐ๋ฒ•)

๊ธฐ์กด์˜ MCTS(่’™ํ…Œ์นด๋ฅด๋กœ ํŠธ๋ฆฌ์„œ์น˜), Value ํ•จ์ˆ˜, Process Reward๋ฅผ ์•ˆ ์“ฐ๊ณ ๋„ ์ถฉ๋ถ„ํžˆ ํ™•์žฅ ๊ฐ€๋Šฅํ•จ์„ ์‹œ๋„.
โ€œ์˜คํ”„-ํด๋ฆฌ์‹œ ์ƒ˜ํ”Œ๋ง + relative entropy ์ •๊ทœํ™”โ€ โ†’ ๊ฑฐ๋Œ€ํ•œ LLM์—๋„ ์ ํ•ฉํ•œ โ€œmirror descentโ€ ๋ฐฉ์‹์„ ์‰ฝ๊ฒŒ ๊ตฌํ˜„.

๊ฐ„๋‹จํ™” ์žฅ์ : ๋ณต์žกํ•œ ๋ณด์กฐ ๋ชจ๋“ˆ ์—†์ด๋„ ์ถฉ๋ถ„ํžˆ โ€œ๋‹ค์–‘ํ•œ ํƒ์ƒ‰โ€๊ณผ โ€œ์ •๋‹ต๋ฅ โ€์„ ๋™์‹œ์— ๋†’์ž„.


์ž๋ฃŒ ๊ตฌ์„ฑ, ๋ชจ๋ธ ๊ตฌ์กฐ, ํ•™์Šต ๋ ˆ์‹œํ”ผ: ์—ฌํƒ€ ์˜คํ”ˆ์†Œ์Šค์™€ ๋‹ค๋ฅธ ์ 

์‚ฌ์ „ํ•™์Šต(Pretraining)์€ ๊ธฐ์กด์ฒ˜๋Ÿผ ๊ฑฐ๋Œ€ ํ…์ŠคํŠธยท์ฝ”๋“œยท์ˆ˜ํ•™ยท๋น„์ „(์ด๋ฏธ์ง€) ๋ฐ์ดํ„ฐ๋ฅผ ํ˜ผํ•ฉ


๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ(์‚ฌ์ง„+๊ธ€) ์ž…๋ ฅ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ โ†’ ์ด๋•Œ๋„ โ€œ๊ธธ์ด ํ™•์žฅโ€๊ณผ โ€œํ’ˆ์งˆ ๋†’์€ ํ•„ํ„ฐ๋งโ€์ด ์ค‘์š”

โ€œVanilla SFT(์ง€๋„ํ•™์Šต)โ€ ํ›„, โ€œLong-CoT Supervised Fine-Tuningโ€์„ ์ถ”๊ฐ€๋กœ ๋„์ž…
์ฒซ ๋‹จ๊ณ„์—์„  ์ผ๋ฐ˜ ๋ชฉ์  SFT๋กœ ๊ธฐ์ดˆ ์‚ฌ์šฉ์ž ์‘๋‹ต ํ˜•ํƒœ ํ™•๋ณด โ†’ ๋‹ค์Œ ๋‹จ๊ณ„์—์„œ ๊ธธ๊ณ  ์ •๊ตํ•œ ์ฒด์ธ์˜ค๋ธŒ์˜ํŠธ(CoT)๋ฅผ ๋ฐ์ดํ„ฐ๋กœ ๋งŒ๋“  ํ›„ ๋‹ค์‹œ ํŒŒ์ธํŠœ๋‹.

RL ๋‹จ๊ณ„ โ†“
์ƒˆ๋กœ ๋งŒ๋“  RL PromptSet(์—„์„ ๋œ ์งˆ์˜๋“ค)
Long-CoT Warmup(์†Œ๋Ÿ‰์ด์ง€๋งŒ ์‚ฌ๋žŒ ์ˆ˜์ค€์œผ๋กœ ๊น”๋”ํ•˜๊ณ  ๊ธด ์ถ”๋ก ๊ฒฝ๋กœ ์˜ˆ์‹œ๋ฅผ ์ฃผ์ž…)
์‹ค์ œ RL Policy Optimization: off-policy ์ถ”๊ฐ€ ์ƒ˜ํ”Œ(+๋งˆ์ด๋„ˆ์Šค ๋ณด์ƒ๋ถ€)์„ ๋ชจ๋‘ ์ด์šฉ, โ€œrejection sampling / partial rollout / length penaltyโ€ ๋“ฑ ์ตœ์ ํ™” ๊ธฐ๋ฒ• ๊ฒฐํ•ฉ.

โ€œ๋ถ€๋ถ„ ๋กค์•„์›ƒ(Partial Rollout)โ€: ๋„ˆ๋ฌด ๊ธด ๋‹ต๋ณ€์„ ํ•œ ๋ฒˆ์— ์ „๋ถ€ ์ƒ์„ฑํ•˜์ง€ ์•Š๊ณ  ์ž˜๊ฒŒ ๋‚˜๋ˆ , ์ค‘๊ฐ„๋‹จ๊ณ„(์ด์ „ ํ•™์Šต๊ฒฐ๊ณผ) ์žฌํ™œ์šฉ.
ํ•™์Šต ์Šค์ผ€์ค„ ํšจ์œจ์„ ๋†’์—ฌ โ€œ๊ธด ํ•ด์„ค ์ƒ์„ฑโ€๋„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ฆ.

โ€œ๋‹จ์ˆœํ•œ RL๊ณผ ๋กฑ-์ปจํ…์ŠคํŠธ๋งŒ์œผ๋กœ๋„ ์ตœ์ฒจ๋‹จ ์ˆ˜์ค€ ๋‹ฌ์„ฑโ€

Kimi k1.5 Long-CoT

์ˆ˜ํ•™(MATH 500) 96.2 / AIME 77.5 ๋“ฑ, OpenAI o1๊ณผ ๋Œ€๋“ฑ.
LiveCodeBench, Codeforces ๋“ฑ ์ฝ”๋”ฉ ๊ฒฝ์Ÿ ์ง€ํ‘œ๋„ ์šฐ์ˆ˜.
๋น„์ „(MathVista, MMMU) ํฌํ•จํ•ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ reasoning ์„ฑ๋Šฅ STOA ๊ธฐ๋ก.

Kimi k1.5 Short-CoT

Long-CoT ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ํ† ํฐ ๋งŽ์ด ์“ฐ๋Š” ๋ฌธ์ œ(โ€œ์˜ค๋ฒ„์”ฝํ‚นโ€) โ†’ โ€œLong2Shortโ€ ๊ธฐ๋ฒ•(๋ชจ๋ธ ์••์ถ•, DPO, ์งง์€ ์‘๋‹ต ์„ ๋ณ„ ๋“ฑ)์œผ๋กœ ์งง์€ CoT๋งŒ์œผ๋กœ๋„ ๊ธฐ์กด GPT-4o/Claude3.5๋ณด๋‹ค ํ›จ์”ฌ ์ข‹์€ ๊ฒฐ๊ณผ.
AIME 2024์˜ Pass@1์ด 60.8 ๋“ฑ ๊ด„๋ชฉํ•  ๋งŒํ•œ ํ–ฅ์ƒ.

โ€œRL+LongCont = ๋˜ ๋‹ค๋ฅธ ์Šฌ๋กœํ”„ ์—ด๋ ธ๋‹ค, ๊ณ„์† ํ™•์žฅ ๊ฐ€๋Šฅโ€

โ€œ์ •์  ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์ด ์•„๋‹ˆ๋ผ, ๋ชจ๋ธ์ด ์ž์ฒด์ ์œผ๋กœ ๋ณด์ƒ์„ ํ†ตํ•ด explorationํ•˜๋Š” ์ถ•์ด ์ƒˆ๋กญ๊ฒŒ ์—ด๋ฆผ โ†’ ๋ฐ์ดํ„ฐ ํ•œ๊ณ„๋ฅผ ๋„˜์„ ์ˆ˜ ์žˆ๋‹ค.โ€
โ€ข ๋‚œ์  ํ•ด๊ฒฐ: ๋„ˆ๋ฌด ๊ธธ๊ณ  ๋ณต์žกํ•œ rollouts ์ฒ˜๋ฆฌ ์œ„ํ•ด โ€œpartial rollout / length penalty / simplistic mirror descentโ€ ๋“ฑ ํ†ตํ•ฉ.
โ€ข ์‹คํ—˜ ์ฆ๋ช…: ์—ฌํƒ€ ๋ณต์žกํ•œ(๊ฐ€๋ น Monte Carlo tree search, Value function) ์—†์ด๋„ simple RL ์ฒด๊ณ„์™€ ๊ธธ์–ด์ง„ ์ปจํ…์ŠคํŠธ๋งŒ์œผ๋กœ o1๊ธ‰ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ ๊ฐ€๋Šฅ.
โ€ข ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ถ„์•ผ์—์„œ๋„ ์ ์šฉ ๊ฐ€๋Šฅ: ์‹œ๊ฐ+ํ…์ŠคํŠธ ์œตํ•ฉ๋œ ๋Œ€๊ทœ๋ชจ RL์ด, ๊ธฐ์กด LLM ํ•œ๊ณ„๋ฅผ ๋„˜์–ด ์ƒˆ๋กœ์šด Reasoning ํŒจ๋Ÿฌ๋‹ค์ž„ ์‹œ๋„.


๋ฐ์ดํ„ฐ:
์–ธ์–ด(ํ…์ŠคํŠธ) ๋ฐ์ดํ„ฐ

์˜์–ดโ€ง์ค‘๊ตญ์–ด ํ…์ŠคํŠธ, ์ฝ”๋“œ, ์ˆ˜ํ•™/์ถ”๋ก , ์ง€์‹(ํ•™์ˆ  ์ž๋ฃŒ ๋“ฑ)์„ ํฌํ•จํ•œ 5๊ฐ€์ง€ ์˜์—ญ์„ ์ค‘์ ์ ์œผ๋กœ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
์ค‘๋ณต ๋ฌธ์„œ๋ฅผ ์ œ๊ฑฐํ•˜๊ณ (with ์ž„๋ฒ ๋”ฉ ์œ ์‚ฌ๋„ ๋ถ„์„), ๊ธ€์ž ๊นจ์ง, ํ˜•์‹ ์˜ค๋ฅ˜, ์ŠคํŒธ์„ฑ ํ…์ŠคํŠธ ๋“ฑ์„ ๊ฑธ๋Ÿฌ๋‚ด๋Š” ๊ทœ์น™ ๊ธฐ๋ฐ˜ ํ•„ํ„ฐ๋ง ๊ณผ์ •์„ ๊ฑฐ์นฉ๋‹ˆ๋‹ค.
FastText, LLM ๊ธฐ๋ฐ˜ ์Šค์ฝ”์–ด๋ง ๋“ฑ์„ ์ˆ˜ํ–‰ํ•ด, ๊ฐ ๋ฌธ์„œ์˜ ์–ธ์–ด์  ํ’ˆ์งˆ๊ณผ ์ฃผ์ œ ์ ํ•ฉ๋„๋ฅผ ํ‰๊ฐ€ํ•œ ๋’ค, ์ค‘์š”ํ•œ ๋ฌธ์„œ๋ฅผ ์—…์ƒ˜ํ”Œ๋ง(up-sampling), ๋‚ฎ์€ ํ’ˆ์งˆ ๋ฌธ์„œ๋ฅผ ๋‹ค์šด์ƒ˜ํ”Œ๋ง(down-sampling) ํ•ฉ๋‹ˆ๋‹ค.
์ฝ”๋“œ ๋ฐ์ดํ„ฐ

๋‹ค์–‘ํ•œ ๊ณต๊ฐœ ์ €์žฅ์†Œ(์˜ˆ: Git ๋ฆฌํฌ์ง€ํ† ๋ฆฌ)์—์„œ ์ถ”์ถœํ•œ ์†Œ์Šค์ฝ”๋“œ๋ฅผ ์ •์ œํ•ด ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
JSON, YAML ๋“ฑ ๋งˆํฌ์—… ์–ธ์–ด๋Š” ๋น„์ค‘์„ ์ค„์ด๊ณ , PythonยทC++ยทJava ๋“ฑ ๋Œ€ํ‘œ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด๋ฅผ ๊ณจ๊ณ ๋ฃจ ํฌํ•จํ•˜๋„๋ก ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค.
์ˆ˜ํ•™ยท์ถ”๋ก  ๋ฐ์ดํ„ฐ

์ˆ˜ํ•™ ๋…ผ๋ฌธยทํ•™์ˆ  ์ž๋ฃŒยท์ˆ˜ํ•™ ๋ฌธ์ œ(์˜ˆ: ๋Œ€ํšŒ ๋ฌธ์ œ) ๋“ฑ์„ ์ˆ˜์ง‘ํ•˜๊ณ , ์ˆ˜์‹, ํŠน์ˆ˜๊ธฐํ˜ธ ๋“ฑ์ด ์ •ํ™•ํžˆ ์ธ์‹๋˜๋„๋ก ๋งž์ถคํ˜• OCR ๋ชจ๋ธ์„ ์ถ”๊ฐ€ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.
๋‘ ๋‹จ๊ณ„ ํ•„ํ„ฐ๋ง์„ ๊ฑฐ์ณ(1) ๊ฐ„๋‹จํ•œ FastText ๋ถ„๋ฅ˜๊ธฐ๋กœ ๋Œ€๋žต ๋ถˆํ•„์š” ๋ฌธ์„œ ์ œ๊ฑฐ, (2) ์ •์ œ๋œ LLM์œผ๋กœ ์„ธ๋ถ€ ํ’ˆ์งˆ ๊ฒ€์‚ฌ), ๋‚œ์ด๋„ ๋†’๊ณ  ์˜๋ฏธ ์žˆ๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ–ˆ์Šต๋‹ˆ๋‹ค.
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ(์ด๋ฏธ์ง€+ํ…์ŠคํŠธ) ๋ฐ์ดํ„ฐ

์บก์…˜(caption) ๋ฐ์ดํ„ฐ(์ด๋ฏธ์ง€ ๊ธฐ์ˆ ), ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๊ฐ€ ์„ž์ธ(interleaving) ๋ฐ์ดํ„ฐ, OCR(๊ธ€์ž ์˜์—ญ์ด ํฌํ•จ๋œ ์ด๋ฏธ์ง€) ๋ฐ์ดํ„ฐ, ์‹œ๊ฐโ€ง์ง€์‹ ๊ด€๋ จ ์ž๋ฃŒ ๋“ฑ์„ ํญ๋„“๊ฒŒ ์ˆ˜์ง‘ํ–ˆ์Šต๋‹ˆ๋‹ค.
ํ•„์š”ํ•œ ๊ฒฝ์šฐ, ์ด๋ฏธ์ง€๋‚˜ ์ฐจํŠธยท์ˆ˜์‹ ์ด๋ฏธ์ง€ ๋“ฑ์„ OCR ๋ชจ๋ธ๋กœ ๋‹ค์‹œ ์ถ”์ถœํ•ด ํ…์ŠคํŠธ ํ˜•ํƒœ๋„ ํ•จ๊ป˜ ํ•™์Šตํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค.
์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๊ฐ€ ๊ธด ๋งฅ๋ฝ์—์„œ ์„œ๋กœ ๊ต์ฐจ ์—ฐ๊ฒฐ๋˜๋Š”(interleaved) ์˜ˆ์‹œ๋“ค์„ ์ถฉ๋ถ„ํžˆ ํฌํ•จํ•˜์—ฌ, ๊ธด ์‹œ๊ฐ์  ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

ํ•™์Šต ๋ฐฉ์‹

Kimi k1.5๋Š” ํฌ๊ฒŒ ๋‹ค์Œ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ ํ•™์Šตํ•˜๋ฉฐ, ์ตœ์ข…์ ์œผ๋กœ โ€œ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ RL(๊ฐ•ํ™”ํ•™์Šต)โ€ ๊ธฐ๋ฐ˜์˜ ๋กฑ ์ฒด์ธ์˜ค๋ธŒ์†Œ๋“œ(long-CoT) ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•ด ๋ชจ๋ธ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ™•์žฅ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

1/ ๊ธฐ๋ณธ ์‚ฌ์ „ ํ•™์Šต(Pretraining)

์•ž์„œ ๊ตฌ์ถ•๋œ ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธยท์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์–ธ์–ด๋ชจ๋ธ(๋””์ฝ”๋” Transformer) ๊ธฐ๋ฐ˜์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค.

(1) ํ…์ŠคํŠธ ์ค‘์‹ฌ ํ•™์Šต โ†’ (2) ์‹œ๊ฐยท์–ธ์–ด ์œตํ•ฉ(vision-language) โ†’ (3) ๊ธด ๋งฅ๋ฝ ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ ํ™œ์„ฑํ™”(์ตœ๋Œ€ 128k ํ† ํฐ) ์ˆœ์œผ๋กœ ์ ์ง„์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
์ด๋•Œ RoPE(๊ฐ๊ฐ์˜ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์„ ํฌ๊ฒŒ ํ™•์žฅํ•˜๋Š”) ๊ธฐ๋ฒ•, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ๋ณ„๋„ ๋น„์ „ ํƒ€์›Œ(freezing & unfreezing), 32kโ†’128k ํ† ํฐ์œผ๋กœ ์ ์ง„์  ๋งฅ๋ฝ ๊ธธ์ด ํ™•์žฅ ๋“ฑ์ด ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.

2/ ์Šˆํผ๋ฐ”์ด์ฆˆ๋“œ ํŒŒ์ธํŠœ๋‹(SFT) ๋ฐ ๋กฑ-CoT ์‚ฌ์ „ ํ•™์Šต

์„ ํƒ๋œ ๊ณ ํ’ˆ์งˆ ๋ฌธ์ œโ€ง๋ฌธ๋‹ต์Œ ๋“ฑ์— ๋Œ€ํ•ด ๋ชจ๋ธ ์ถœ๋ ฅ์„ ๋ฐ›์•„, ์‚ฌ๋žŒ์ด ์ง์ ‘ ํ‰๊ฐ€ํ•˜๊ฑฐ๋‚˜(์˜คํ”ˆํ˜• QA) ๋ฃฐ๋ฒ ์ด์Šคยทํ…Œ์ŠคํŠธ์ผ€์ด์Šค๋กœ ์ž๋™ ๊ฒ€์ฆํ•˜๋Š”(์ฝ”๋“œยท์ˆ˜ํ•™ ๋ฌธ์ œ) โ€˜๊ฑฐ๋ถ€ ์ƒ˜ํ”Œ๋ง(rejection sampling)โ€™์œผ๋กœ ์ •๋‹ต๋ฅ  ๋†’์€ ์˜ˆ์‹œ๋ฅผ ํ™•๋ณดํ•ฉ๋‹ˆ๋‹ค.
์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ๋ธ์„ ์ถ”๊ฐ€ ๋ฏธ์„ธ์กฐ์ •ํ•œ ๋’ค, ํŠนํžˆ โ€œ๊ธธ๊ณ  ์ž์„ธํ•œ ๋‹จ๊ณ„์  ์ถ”๋ก โ€(Long-CoT)์„ ๋”ฐ๋กœ ํ•™์Šต์‹œ์ผœ ์ค‘๊ฐ„ ์‚ฌ๊ณ  ๊ณผ์ •(PlanningยทReflectionยทBacktracking ๋“ฑ)์„ ์ž˜ ํ‘œํ˜„ํ•˜๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค.

3/๊ฐ•ํ™”ํ•™์Šต(RL) ๋‹จ๊ณ„
โค1
์‹ค์ œ RL ํ›ˆ๋ จ์—์„œ, (๋ฌธ์ œยท๋‹ต๋ณ€) ์Œ์— ๋Œ€ํ•œ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ •์˜ํ•ด(์ฝ”๋“œ: ํ…Œ์ŠคํŠธ์ผ€์ด์Šค ํ†ต๊ณผ ์—ฌ๋ถ€, ์ˆ˜ํ•™: ์ •๋‹ต๊ฒ€์ฆ ๋ชจ๋ธ ๋“ฑ) ๋ชจ๋ธ์ด ๋‹ต์„ ์ƒ์„ฑํ•˜๋ฉด ๊ทธ ์„ฑ๋Šฅ์„ ์ฆ‰์‹œ ๋ณด์ƒ์œผ๋กœ ํ™˜์‚ฐํ•ฉ๋‹ˆ๋‹ค.
์˜คํƒˆ์ž๊ฐ€ ์žˆ๋Š” ์ค‘๊ฐ„ ๋‹จ๊ณ„๋ผ๋„, ์ตœ์ข…์ ์œผ๋กœ ๋‹ต์„ ๋งž์ถ”๋ฉด ํŒจ๋„ํ‹ฐ ๋Œ€์‹  ํ•™์Šต์— ํ•„์š”ํ•œ ๋‹ค์–‘ํ•œ โ€˜์‹œ๋„ ๊ณผ์ •โ€™์„ ๊ฐ€์ ธ๊ฐ€๋Š” ์‹์œผ๋กœ ์„ค๊ณ„ํ•ด, ๋ชจ๋ธ์ด ์—ฌ๋Ÿฌ ๊ฒฝ๋กœ๋ฅผ ์‹คํ—˜ํ•˜๊ณ  ์ ์ฐจ ๊ฐœ์„ ํ•˜๋„๋ก ์žฅ๋ คํ•ฉ๋‹ˆ๋‹ค.
์ •์ฑ… ์ตœ์ ํ™”๋Š” ๊ธฐ์กด โ€œ์˜จ๋ผ์ธ ๋ฏธ๋Ÿฌ ๋””์„ผํŠธ(online mirror descent)โ€ ๋ณ€ํ˜• ๋ฐฉ์‹์„ ์“ฐ๋˜, ์˜คํ”„ํด๋ฆฌ์‹œ(off-policy) ์ƒ˜ํ”Œ๋ง, ๊ธธ์ด ํŒจ๋„ํ‹ฐ(length penalty), ์ปค๋ฆฌํ˜๋Ÿผ ์ƒ˜ํ”Œ๋ง(์‰ฌ์šด ๋ฌธ์ œโ†’์–ด๋ ค์šด ๋ฌธ์ œ ์ˆœ) ๋“ฑ์„ ๋„์ž…ํ•ด ํšจ์œจ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค.
ํŠนํžˆ ๋กฑ-CoT ๊ฐ•ํ™”ํ•™์Šต ์‹œ, ๋งฅ๋ฝ ๊ธธ์ด๊ฐ€ ๋งค์šฐ ๊ธธ์–ด์ง€๋ฏ€๋กœ โ€œPartial Rollout(๋ถ€๋ถ„ ๋กค์•„์›ƒ)โ€์ด๋ผ๋Š” ๋ฐฉ์‹์„ ์จ์„œ ์ด์ „์— ์ƒ์„ฑํ•œ ๊ธด ํ† ํฐ ์‹œํ€€์Šค ์ค‘ ์žฌํ™œ์šฉ ๊ฐ€๋Šฅํ•œ ๊ตฌ๊ฐ„์„ ๋นผ๋‚ด ์žฌ์ƒ˜ํ”Œ๋งํ•˜๋Š” ์‹์œผ๋กœ ์‹œ์Šคํ…œ ์ž์›์„ ์ ˆ์•ฝํ•ฉ๋‹ˆ๋‹ค.

4/Long2short ๊ธฐ๋ฒ•(ํ† ํฐ ํšจ์œจํ™”)

์ตœ์ข…์ ์œผ๋กœ ์•Œ๋งž์€ ๊ธธ์ด(Short-CoT)๋กœ๋„ ๋†’์€ ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•˜๋„๋ก, โ€œlong-CoT๋กœ ํ•™์Šต๋œ ๋ฒ ์ด์Šค ๋ชจ๋ธโ€์„ ๋‹ค์‹œ โ€˜์งง์€ ์ถ”๋ก ์šฉโ€™์œผ๋กœ ์••์ถ• ์ •๋ จํ•˜๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.
๊ธธ์ด ํŽ˜๋„ํ‹ฐ์™€ ๋ชจ๋ธ ๋ณ‘ํ•ฉ(merge), DPO, Rejection Sampling ๋“ฑ์„ ๋ณ‘ํ–‰ํ•˜์—ฌ, ๊ฐ€๋Šฅํ•œ ํ•œ ๊ฐ„๊ฒฐํ•œ ํ† ํฐ ์‚ฌ์šฉ์œผ๋กœ๋„ ๋†’์€ ์ •๋‹ต๋ฅ ์„ ๋‚ด๋ ค ํ•ฉ๋‹ˆ๋‹ค.
Continuous Learning_Startup & Investment
https://arxiv.org/abs/2501.12599 โ€œPretraining ๋ฐ์ดํ„ฐ ํ•œ๊ณ„ โ†’ RL ๊ธฐ๋ฐ˜ โ€˜์ƒˆ๋กœ์šด ์ถ•โ€™์„ ์—ด์–ด๋ณผ ์ˆ˜ ์žˆ์„๊นŒ?โ€ โ€ข ๊ธฐ์กด LLM ํ™•์žฅ์„ฑ: ๋ณดํ†ต โ€œ๋‹ค์Œ ํ† ํฐ ์˜ˆ์ธกโ€(next token prediction)์œผ๋กœ ๊ฑฐ๋Œ€ ๋ฐ์ดํ„ฐ์…‹์— ๋งž์ถฐ ์‚ฌ์ „ํ•™์Šต์„ ์ง„ํ–‰. ํ•œ๊ณ„: ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฒฐ๊ตญ ์ œํ•œ๋  ์ˆ˜๋ฐ–์— ์—†์Œ. โ€ข ๋Œ€์•ˆ(First Principle): โ€œ๋ชจ๋ธ์ด ๋ณด์ƒ(reward)์„ ํ†ตํ•ด ์Šค์Šค๋กœ ํƒ์ƒ‰(explore)ํ•˜๋Š” ์ถ•โ€โ€”์ฆ‰โ€ฆ
1. ๋ชฉํ‘œ์™€ ์ „์ œ: ์„ฑ๋Šฅ์ด ์ตœ์šฐ์„ ์ด๋‹ค

โ€œLong CoT(๊ธด ์ฒด์ธ ์˜ค๋ธŒ ์†ŒํŠธ)โ€๋ฅผ ํ™œ์šฉํ•œ LLM ๊ฐ•ํ™”ํ•™์Šต(RL)์œผ๋กœ ๋” ๋†’์€ ๋ฌธ์ œ ํ•ด๊ฒฐ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๊ณ ์ž ํ•จ.
๋น„์šฉ๊ณผ ์†๋„(ํ† ํฐ ์‚ฌ์šฉ ์ฆ๊ฐ€ ๋“ฑ)๋Š” ๊ถ๊ทน์ ์œผ๋กœ ๋ฌด์–ด์˜ ๋ฒ•์น™ ๋“ฑ์œผ๋กœ ํ•ด๊ฒฐ ๊ฐ€๋Šฅํ•˜๋ฏ€๋กœ, โ€œ์šฐ์„  ์„ฑ๋Šฅ์„ ์ตœ๊ณ ๋กœ ๋Œ์–ด์˜ฌ๋ฆฐ๋‹คโ€๊ฐ€ ์ตœ์ƒ์œ„ ์›์น™.

2. ๋ฌธ์ œ์˜ ๊ทผ๋ณธ ๊ตฌ์กฐ ํŒŒ์•…

๊ธฐ์กด ์งง์€ ์ถ”๋ก (CoT)๋ณด๋‹ค ๊ธด ์ถ”๋ก (Long CoT)์ด ํ•„์š” โ†’ โ€œ์ž์œ ๋กญ๊ฒŒ ์ƒ๊ฐํ•˜๋Š” ๊ณผ์ •์„ ๋ชจ๋ธ์—๊ฒŒ ๋งก๊ธฐ๋˜, ์ •๋‹ต์„ ์ œ๋Œ€๋กœ ๋งž์ถ”๋Š”์ง€ ์—ฌ๋ถ€๋งŒ ๋ช…ํ™•ํžˆ ํŒ๋‹จโ€ํ•œ๋‹ค๋Š” ์ ์ด ํ•ต์‹ฌ.
๋ช…ํ™•ํ•œ ์ •๋‹ต์ด ์ œ๊ณต๋˜๋Š”(๋˜๋Š” ์ •ํ™•ํžˆ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ) ๊ณผ์ œ(์˜ˆ: ์ˆ˜ํ•™, ์ฝ”๋”ฉ ๋“ฑ)์—์„œ RL์„ ์ ์šฉํ•ด์•ผ ์˜ฌ๋ฐ”๋ฅธ ๋ณด์ƒ์„ ์ค„ ์ˆ˜ ์žˆ์Œ.
๋ชจ๋ธ์ด ์Šค์Šค๋กœ โ€œ๊ฒ€์ƒ‰(Search) ๊ณผ์ •โ€์„ ์ˆ˜ํ–‰ํ•˜๋„๋ก ํ•ด์•ผ ํ•˜๋ฉฐ, ์ธ์œ„์ ์œผ๋กœ โ€œMCTS๋‚˜ Agentic ๊ตฌ์กฐโ€ ๊ฐ™์€ ์—„๊ฒฉํ•œ ํ‹€์„ ๊ฐ•์ œํ•˜๋ฉด ์˜คํžˆ๋ ค ๋ชจ๋ธ ์—ญ๋Ÿ‰์„ ์ œํ•œํ•จ.

3. ๊ทผ๋ณธ ํ•ด๋ฒ•: In-Context RL + Exploration

๊ธธ๊ณ  ์ž์œ ๋กœ์šด ์‚ฌ๊ณ  ๊ณผ์ •์„ โ€œํ•œ ๋ฒˆ์˜ ๋ฉ”์‹œ์ง€(ํ˜น์€ ๋ฌธ๋งฅ)โ€ ์•ˆ์— ๋‹ด์•„, ๊ณง๋ฐ”๋กœ ๋ณด์ƒ์„ ํ”ผ๋“œ๋ฐฑ๋ฐ›๋Š” ๊ตฌ์กฐ โ†’ ์ธ์ปจํ…์ŠคํŠธ RL.
๋ชจ๋ธ์ด ์ค‘๊ฐ„์— ์‹ค์ˆ˜ํ•ด๋„, ์ตœ์ข…์ ์œผ๋กœ ๋‹ต์„ ๋งž์ถ”๋ฉด(์ฆ‰, โ€œํ•™์Šต ๊ณผ์ •์—์„œ ์‹ค์ˆ˜๋Š” ํ—ˆ์šฉ, ๊ฒฐ๊ณผ๋ฌผ๋งŒ ์ •ํ™•ํ•˜๋‹ค๋ฉด ๋ณด์ƒโ€) ๊ทธ๊ฒƒ์œผ๋กœ ์ถฉ๋ถ„ํ•˜๋‹ค๋Š” โ€œ๋งฅ๋ฝ ๋ฐด๋””ํŠธ(Contextual Bandit)โ€ ๊ด€์ .
๊ฐ€์น˜ํ•จ์ˆ˜(๋ฐธ๋ฅ˜ ํ•จ์ˆ˜)๋‚˜ ๋ณต์žกํ•œ ๊ตฌ์กฐ ์—†์ด, โ€œ๋‹ต์ด ๋งž์œผ๋ฉด +, ํ‹€๋ฆฌ๋ฉด โ€“โ€ ์‹์˜ REINFORCE๋ฅ˜ ์ ‘๊ทผ์ด ์ž์—ฐ์Šค๋Ÿฝ๊ณ , ๊ตฌ์กฐ์ ์ธ ๊ฐ•์ œ(์˜ˆ: MCTS)๋Š” ์ง€์–‘.

4. Long CoT๊ฐ€ ์Šค์Šค๋กœ ํ™•์žฅ๋˜๋Š” ์ด์œ 

RL ๊ณผ์ •์„ ์ง„ํ–‰ํ•˜๋ฉด, ๋ชจ๋ธ์€ ์ •ํ™•๋„๋ฅผ ์˜ฌ๋ฆฌ๊ธฐ ์œ„ํ•ด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ ์  ๋” ๊ธด ์‚ฌ๊ณ  ๊ณผ์ •์„ ํ™œ์šฉ โ†’ ํ† ํฐ ๊ธธ์ด๊ฐ€ ํ•™์Šต ๊ณผ์ • ์ค‘์— ์ž๋ฐœ์ ์œผ๋กœ ์ฆ๊ฐ€ํ•จ.
โ€œ๋ชจ๋ธ์ด ์„ฑ๋Šฅ์„ ์˜ฌ๋ฆฌ๋Š” ๋ฐ ํ•„์š”ํ•œ ๋งŒํผโ€ ์Šค์Šค๋กœ ๋” ๊ธธ๊ฒŒ ํƒ์ƒ‰ํ•˜๊ณ  ๋ฐ˜์„ฑ(reflection)ํ•˜๋ฉฐ, ์ž˜๋ชป๋œ ์‹œ๋„์—์„œ ๋ฐฐ์šฐ๋Š” ํŒจํ„ด์„ ํ•™์Šต.

5. ์ฃผ์š” ํ…Œ์ดํฌ์–ด์›จ์ด

๋†’์€ ์„ฑ๋Šฅ(Performance)์€ ๋ฌด์—‡๋ณด๋‹ค ์šฐ์„ ํ•œ๋‹ค. ๋น„์šฉ๊ณผ ์†๋„ ๋ฌธ์ œ๋Š” ํ›„์ˆœ์œ„๋กœ ํ•ด๊ฒฐ ๊ฐ€๋Šฅ.
๋ณด์ƒ์ด ์ •ํ™•ํ•ด์•ผ ํ•œ๋‹ค(์‹ค์ œ ์ •๋‹ต์„ ์•„๋Š” ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃฌ๋‹ค).
๋ชจ๋ธ์ด ์ƒ๊ฐ์˜ ๊ตฌ์กฐ๋ฅผ โ€˜๋‚ด์žฌ์  ํƒ์ƒ‰โ€™ ํ˜•ํƒœ๋กœ ์ž์œ ๋กญ๊ฒŒ ํŽผ์น  ์ˆ˜ ์žˆ๊ฒŒ ํ•œ๋‹ค(Structured Planningโ€งMCTS๋Š” ์ œํ•œ์ ).
ํ•™์Šต์€ โ€œ์‹ค์ˆ˜๊ฐ€ ์ผ์–ด๋‚  ์ˆ˜ ์žˆ์Œโ€์„ ์ „์ œ๋กœ โ†’ ์ตœ์ข… ์ •๋‹ต์ด ๋งž์œผ๋ฉด ๊ทธ ๊ณผ์ •์„ ๋ชจ๋‘ ์ธ์ •ํ•œ๋‹ค๋Š” ์‹์œผ๋กœ ๋‹จ์ˆœํ™”ํ•œ๋‹ค.
๋ชจ๋ธ์ด ์Šค์Šค๋กœ โ€œ๊ฒ€์ƒ‰(Search)+์ž๊ธฐ๋น„ํŒ(Self-Critique)โ€์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค.
https://youtu.be/snkOMOjiVOk

์ถ”๋ก ์ด๋ผ๊ณ  ๋ถ€๋ฅผ ์ˆ˜๋„ Inference time Scaling์ด๋ผ๊ณ  ๋ถ€๋ฅผ ์ˆ˜๋„ ์žˆ๊ฒ ์ง€๋งŒ ๋ณธ์งˆ์ ์œผ๋กœ๋Š” ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋Œ€๊ทœ๋ชจ RL์„ ํ–ˆ์„ ๋•Œ ๋‚˜ํƒ€๋‚˜๋Š” ์ฐฝ๋ฐœ์ ์ธ ํ˜„์ƒ์ด๋ผ๋Š” ๊ฒƒ. ๊ณผ์ •์ด ์–ด๋– ํ•ด์•ผ ํ•˜๋Š”๊ฐ€๋ฅผ ๊ธฐ์ˆ ํ•˜๋Š” ๋Œ€์‹  ๋ชจ๋ธ์ด ๊ทธ๊ฒƒ์„ ์Šค์Šค๋กœ ์ฐพ๊ฒŒ ํ•ด์•ผ ํ•œ๋‹ค๋Š” ๋”ฅ ๋Ÿฌ๋‹์˜ ์‚ฌ๊ณ ๋ฐฉ์‹์œผ๋กœ ๋‹ค์‹œ ๋Œ์•„๊ฐ€์•ผ ํ•˜๋Š” ์ˆœ๊ฐ„. ๊น€์„ฑํ˜„๋‹˜

์ถ”๋ก (Reasoning) ๋ชจ๋ธ, RL ์ ‘๋ชฉ ์ „๋ง

ํƒ€์‚ฌ ๋ชจ๋ธ(์˜ˆ: OpenAI)๊ณผ์˜ ๋น„๊ต

์งˆ๋ฌธ์ž๋Š” โ€œOpenAI์—์„œ ๋ชจ๋ธ๋ณ„๋กœ Reasoning ๋ชจ๋“œ๊ฐ€ ์กด์žฌํ•œ๋‹ค๋Š”๋ฐ, Anthropic์—๋„ ๋น„์Šทํ•œ ๋ชจ๋ธ์ด ์žˆ๋ƒโ€๊ณ  ์งˆ๋ฌธ.
ํ™”์ž๋Š” Anthropic ์ธก ์ ‘๊ทผ์€ โ€œ์ด๋ถ„๋ฒ•์ ์œผ๋กœ ์ถ”๋ก  ๋ชจ๋ธ vs. ์ผ๋ฐ˜ ๋ชจ๋ธโ€๋กœ ๊ตฌ๋ถ„ํ•˜๊ธฐ๋ณด๋‹ค, RL(๊ฐ•ํ™”ํ•™์Šต)์„ ํ†ตํ•ด ๋ชจ๋ธ์ด ๋” ๊นŠ๊ฒŒ ์‚ฌ๊ณ ยท๋ฐ˜์„ฑ(reflection)ยทํƒ์ƒ‰(search)ํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๋ฐฉํ–ฅ์ด๋ผ ์„ค๋ช….
๊ฒฐ๋ก ์ ์œผ๋กœ โ€˜์ƒ๊ฐํ•˜๋Š” ๋ชจ๋ธโ€™๊ณผ โ€˜๊ทธ๋ƒฅ ๋น ๋ฅด๊ฒŒ ๋‹ต๋ณ€ํ•˜๋Š” ๋ชจ๋ธโ€™์„ ๋ณ„๋„๋กœ ๋‘๊ธฐ๋ณด๋‹ค, ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ชจ๋ธ์ด ์ƒํ™ฉ์— ๋”ฐ๋ผ ์†์‰ฝ๊ฒŒ ์ถ”๋ก ํ•˜๋Š” ์ชฝ์„ ์ง€ํ–ฅ.
๊ฐ•ํ™”ํ•™์Šต(RL) ๋Œ€๊ทœ๋ชจ ๋„์ž…

Anthropic์€ ์•ž์œผ๋กœ ์ ์  ๋” ๋งŽ์€ RL ๊ธฐ๋ฒ•์„ ๋ชจ๋ธ ํ•™์Šต์— ํ™œ์šฉํ•  ๊ฒƒ์ด๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์ด โ€œ์Šค์Šค๋กœ ์‚ฌ๊ณ  ๊ณผ์ •์„ ์ ๊ฒ€โ€ํ•˜๊ณ  ํ’ˆ์งˆ ๋†’์€ ๋‹ต๋ณ€์„ ๋„์ถœํ•˜๊ฒŒ ๋งŒ๋“ค ๊ฒƒ.
โ€œํ…Œ์ŠคํŠธ ์‹œ๊ฐ„(Test-Time) ์ปดํ“จํŠธโ€ ํ˜น์€ โ€œ์ถ”๋ก  ์‹œ๊ฐ„ ์„ค๊ณ„โ€์— ๋Œ€ํ•œ ๋…ผ์˜๊ฐ€ ์žˆ์ง€๋งŒ, Anthropic์€ โ€œ๊ฒฐ๊ตญ ๋Œ€๊ทœ๋ชจ RL ๊ธฐ๋ฐ˜์œผ๋กœ ๋ชจ๋ธ ์Šค์Šค๋กœ ์‚ฌ๊ณ ๋ฅผ ๊ฐ•ํ™”โ€ํ•˜๋Š” ๋ฐฉ์‹์ด ๋” ์ž์—ฐ์Šค๋Ÿฝ๋‹ค๊ณ  ๋ด„.


2017~2018๋…„ ์ดํ›„ Scaling Laws ๊ด€์ฐฐ

ํ™”์ž๋Š” ์ด๋ฏธ 2017๋…„ ๋ฌด๋ ต๋ถ€ํ„ฐ โ€œ๊ณ„์‚ฐ ์ž์›์„ ๊ณ„์† ๋Š˜๋ฆฌ๋ฉด ๋ชจ๋ธ ์„ฑ๋Šฅ์ด ์ „๋ฐฉ์œ„๋กœ ํ–ฅ์ƒ๋œ๋‹คโ€๋ผ๋Š” ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์„ ๋ฏฟ์–ด ์™”์Œ.
๊ณผ๊ฑฐ์—๋Š” ์ผ์ • ์ˆ˜์ค€ ๋ถˆํ™•์‹ค์„ฑ์ด ์žˆ์—ˆ์œผ๋‚˜, ์ตœ๊ทผ 3~6๊ฐœ์›” ์‚ฌ์ด ๊ทธ ๋ถˆํ™•์‹ค์„ฑ์ด ํฌ๊ฒŒ ์ค„์—ˆ๊ณ , ์‹ค์ œ๋กœ ์—ฌ๋Ÿฌ ์ง€ํ‘œ์—์„œ ๋ชจ๋ธ์ด ์‚ฌ๋žŒ๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ๋‹จ๊ณ„๊ฐ€ ๊ฐ€๊นŒ์›Œ์ง€๊ณ  ์žˆ๋‹ค๊ณ  ์ง„๋‹จ.

โ€œAI ๋ฐœ์ „์ด ์ƒ๊ฐ๋ณด๋‹ค ๋น ๋ฅด๋‹คโ€

ํ™”์ž๋Š” AI ๋ฐœ์ „์ด ๊ทน๋„๋กœ ๋น ๋ฅด๋ฉฐ, ํ–ฅํ›„ 2~3๋…„ ๋‚ด์— ๊ฑฐ์˜ ๋ชจ๋“  ์ง€์‹ยทํŠน์ • ์ž‘์—…์—์„œ ์ธ๊ฐ„๋ณด๋‹ค ์šฐ์›”ํ•ด์งˆ ๋ชจ๋ธ์ด ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋‹ค๊ณ  ์„ค๋ช….
์ด์— ๋Œ€ํ•œ ๊ธ์ •์  ํšจ๊ณผ์™€ ๋ถ€์ •์  ๋ฆฌ์Šคํฌ ๋ชจ๋‘๊ฐ€ ์ปธ๊ธฐ์—, โ€œAI ์—…๊ณ„๊ฐ€ ์ด๋ฅผ ์ œ๋Œ€๋กœ ์ธ์‹ํ•˜๊ณ  ์†”์งํžˆ ์†Œํ†ตํ•ด์•ผ ํ•œ๋‹คโ€๊ณ  ๊ฐ•์กฐ.


๋…ธ๋™์‹œ์žฅ ์˜ํ–ฅ (๋‹จ๊ธฐ vs ์žฅ๊ธฐ)

๋‹จ๊ธฐ์  ๊ด€์ (1~3๋…„ ์ •๋„)

์ƒˆ๋กœ์šด ๊ธฐ์ˆ ์€ ๊ธฐ์กด ์ผ์ž๋ฆฌ๋ฅผ ๋Œ€์ฒดํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๋ฐ˜๋Œ€๋กœ โ€œ๊ธฐ์ˆ  ํ™œ์šฉ ๋Šฅ๋ ฅ์ด ์žˆ๋Š” ์ธ๋ ฅโ€์˜ ์ƒ์‚ฐ์„ฑ์„ ํฌ๊ฒŒ ๋†’์—ฌ โ€˜๋ณด์™„์žฌ(Complementary)โ€™ ์—ญํ• ์„ ํ•  ์ˆ˜๋„ ์žˆ์Œ.
Anthropic์€ ์ด์ „ ๊ธฐ์ˆ ํ˜์‹  ์‚ฌ๋ก€์ฒ˜๋Ÿผ, โ€œ์ง๋ฌด ์ผ๋ถ€๋ฅผ AI๊ฐ€ ๋Œ€์‹ ํ•˜๋ฉด, ์‚ฌ๋žŒ์ด ๋” ์ฐฝ์˜์ ยท๊ณ ์ฐจ์›์  ๋ถ€๋ถ„์— ์ง‘์ค‘ํ•ด ์—…๋ฌด ํšจ์œจ์„ ๋†’์ผ ์ˆ˜ ์žˆ๋‹คโ€๋Š” โ€˜๋น„๊ต์šฐ์œ„โ€™ ๊ด€์ ์„ ๊ฐ•์กฐ.
๋‹ค๋งŒ ๊ธฐ์—…๋“ค์ด AI๋ฅผ ์–ด๋–ป๊ฒŒ ๋„์ž…ํ•˜๋А๋ƒ(๋Œ€์ฒด vs. ๋ณด์™„)์— ๋”ฐ๋ผ ๊ฒฐ๊ณผ๊ฐ€ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์œผ๋ฉฐ, Anthropic์€ โ€œ๋ณด์™„ํ˜• ํŒŒํŠธ๋„ˆ์‹ญโ€ ๋ฐฉํ–ฅ์„ ์ง€์ง€.


์žฅ๊ธฐ์  ๊ด€์ 

ํ™”์ž๋Š” โ€œ๊ฒฐ๊ตญ์—๋Š” AI๊ฐ€ ์ธ๊ฐ„๋ณด๋‹ค ๋” ๋›ฐ์–ด๋‚œ ๋‹จ๊ณ„, ์‹ฌ์ง€์–ด ๋กœ๋ด‡๊ณผ ๊ฒฐํ•ฉํ•ด ๋ฌผ๋ฆฌ ๋…ธ๋™๊นŒ์ง€ ๋Œ€์ฒดํ•˜๋Š” ์‹œ์ โ€์ด ์˜ฌ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ(์‹œ์  ๋ถˆ๋ช…, ๋‹ค๋งŒ 2027๋…„ ์ „ํ›„ ๊ฐ€๋Šฅ์„ฑ ์–ธ๊ธ‰).
๊ทธ๋•Œ๋Š” โ€œ์ธ๊ฐ„์˜ ์ž์กด๊ฐ, ๊ฐ€์น˜, ๊ฒฝ์ œ ์ฒด๊ณ„, ๋ถ„๋ฐฐ ๋ฐฉ์‹โ€ ๋“ฑ์— ๊ทผ๋ณธ์ ์ธ ์žฌ์„ค๊ณ„๊ฐ€ ํ•„์š”.
๋ชจ๋“  ์ธ๊ฐ„์—๊ฒŒ ์ ์šฉ๋˜๋Š” ์ƒํ™ฉ์ด๋ผ๋ฉด โ€œ์ „(ๅ…จ) ์ธ๋ฅ˜๊ฐ€ ๊ฐ™์€ ๋ฐฐ๋ฅผ ํƒ”๋‹ค๊ณ  ๋ณผ ์ˆ˜๋„ ์žˆ์ง€๋งŒ, ๋งŒ์ผ 30%๋งŒ ๋Œ€์ฒด๋˜๊ณ  70%๋Š” ๊ทธ๋Œ€๋กœ๋ผ๋ฉด ํฐ ์‚ฌํšŒ ๊ฐˆ๋“ฑ์ด ์ƒ๊ธธ ๊ฒƒโ€์ด๋ผ๊ณ  ์šฐ๋ ค.
๐Ÿ‘1