낭랑화의 경제이야기
4.37K subscribers
1.16K photos
13 videos
39 files
1.11K links
https://m.blog.naver.com/economicrypto
Ultimate long at Ai & crypto / IQ0 house

문의 : alalal5411@gmail.com
TG : @Neonview12
Download Telegram
터보퀀트는 메모리 사용량을 줄일까?
[삼성증권 반도체, IT/이종욱]


어제 구글이 블로그를 통해 터보퀀트(TurboQuant) 기술을 소개했고, 마이크론 주가 하락(-3.4%)에 영향을 미친 것으로 보입니다.

1. 터보퀀트가 무엇일까
TurboQuant는 Transformer의 핵심 병목인 KV cache를 이론적 최적 수준으로 압축(양자화)하는 알고리즘입니다.
KV는 벡터값인데, 이 값을 바꾸는 것이 아니라 이 값을 읽은 기준선(좌표계) 바꿔서, 압축 손실을 최소화하는 최적의 좌표계를 찾는 방식입니다.

2. 터보퀀트가 메모리에 미치는 영향
계산량이 추가되고 캐시메모리 사용량을 줄이는 트레이드오프가 있긴 하지만, 현재 AI 속도의 병목은 캐시메모리이기 때문에 전체 속도를 높이고, 곧 AI 추론 비용을 낮출수 있습니다. 따라서 메모리를 덜 사용하면서 같은 성능을 낼 수 있는 AI 기술이라고 할수 있습니다.

3. 제본의 역설?
딥시크 이후로, 반도체 사용량을 최적화하려는 AI모델의 개선 노력은 계속되어 왔습니다. 그러나 효율적인 AI 모델은 오히려 전체 비용을 낮춰 더 많은 AI 계산 수요를 불러오고 있습니다. 최적화 모델들은 반도체 수요를 낮추는 것이 아니라 같은 반도체 자원으로 더 높은 성능의 AI 서비스를 구현하는데 사용되고 있습니다.

4. 무엇이 메모리 사용량을 결정할까
제일 말씀드리고 싶은 것이 이것입니다. 그럼 AI 메모리 수요에 영향을 미치는 인자는 무엇이 있을까요? 지금은 인프라 선점효과가 필요한 구간이기 때문에 보통의 가격과 수급 사이의 관계는 크지 않습니다(낮은 가격탄력성). 오히려 비즈니스 구조와 전략적 선택의 문제(생존문제)로 접근해야 합니다.
- AI 메모리 수요 감소요인은 주로 AI 기능이 고착화되는 지점에서 나타날 것입니다: AI서비스 개선 속도 둔화, AI 모델 기업끼리의 경쟁 구도 완화, AI산업 TAM 성장 둔화
- 다음과 같은 것은 수요에 영향을 미치지 않습니다: 디램과 반도체 가격, 데이터센터 비용, AI모델이나 클라우드 기업의 수익성, AI모델의 최적화와 비용절감

결론적으로 AI 업체들이 비용경쟁이 아니라 성능 경쟁을 하는한 비용 최적화는 반도체 수요에 영향을 미치지 않습니다. 우리가 걱정해야 할 순간은 AI로 더 할수 있는 기능이 별로 없거나 AI 업체들이 경쟁을 멈출때입니다. 

감사합니다.

(2026/3/26 공표자료)
3👍1
전닉 사고 출국합니다
역대 출국시 루나, FTX, 트럼프빔 등 각종 폭탄 터진 이력있음 주의
💯144🔥2🐳2
낭랑화의 경제이야기
전닉 사고 출국합니다 역대 출국시 루나, FTX, 트럼프빔 등 각종 폭탄 터진 이력있음 주의
악시오스 보도에 따르면 미 국방부는 이란에 대한 "최후의 일격"을 가하기 위한 군사적 방안을 검토 중이며, 여기에는 지상군 투입과 대규모 폭격 작전이 포함될 수 있습니다
...살려다오
🔥41
전쟁은 언젠가 끝나긴 할 노이즈.
다만 현재의 정세가 앞으로 심화될 때, 돈을 어디에 투자해야하는가 생각해보는 건 좋은 것 같음
https://m.blog.naver.com/cr2875/224232261543
10👍4
Forwarded from 루팡
1. 시장의 치명적 오해와 TurboQuant의 실체

① 과장된 '6배 압축'의 맹점
구글 논문은 AI가 답변을 생성할 때 사용하는 임시 메모장인 'KV 캐시'를 16비트에서 3~4비트 수준으로 압축해 최대 6배, 8배의 성능 향상을 이루었다고 주장합니다. 하지만 실제 2026년 현재 vLLM, SGLang 등 주류 AI 서빙 프레임워크는 이미 8비트(FP8)를 기본으로 사용하고 있습니다. 즉, 16비트가 아닌 실전 8비트를 기준으로 계산하면 실질적인 압축 이득은 약 2.7배에 불과합니다. 게다가 중국 DeepSeek의 MLA 아키텍처는 이미 28배 압축을 선보인 바 있어 혁명적인 수치는 아닙니다.

② 1년 전의 낡은 '뉴스'
시장이 공포에 빠진 이 알고리즘은 이미 2025년 4월 논문으로 공개되었으며, 심지어 핵심 기초 연구자는 2년 전에 구글을 떠났습니다. 이 기술은 프론티어 AI 연구소들에게 이미 '소화가 완료된 점진적 개선'의 영역입니다.

③ 온디바이스 AI 시대의 개막
그럼에도 이 기술이 산업적으로 의미가 있는 이유는 무손실에 가까운 초강력 압축을 실전으로 끌고 왔다는 점입니다. 실제로 개발자들이 테스트한 결과, 파인튜닝 없이도 캐시 용량을 최대 4.9배 줄이거나, USB 충전기 크기의 소형 기기(NVIDIA GB10)에서 무려 400만 개의 토큰(책 수십 권 분량)을 구동하는 데 성공했습니다. 이는 모바일 기기에서의 장문맥 추론 장벽을 허물어 AI의 배치 표면적을 기하급수적으로 넓힙니다.


2. 기술적 이면: '수학 세금'과 실리콘의 역설
① 공짜 점심은 없다: 연산 비용으로 치환되는 메모리 절감
TurboQuant는 무작정 용량을 줄이는 것이 아니라 데이터 분포를 균일화(PolarQuant)하고 잔차를 처리(QJL)하는 복잡한 수학적 과정을 거칩니다. 3~4비트로 압축된 데이터를 연산에 쓰려면 다시 읽고, 해석하고, 복원해서 투입해야 하는 '수학 세금(Math Tax)'을 치러야 합니다. 즉, 메모리 사용량을 줄인 대신 GPU/TPU가 초당 수백만 번 더 바쁘게 스위칭하며 발열과 연산 압박을 견뎌야 합니다.

② 엔비디아 생태계에서의 호재
이 기술은 구글 TPU 전용이 아니며, 논문의 주요 벤치마크도 엔비디아 H100 GPU에서 수행되어 8배의 속도 향상을 입증했습니다. 데이터 크기가 줄어들면 HBM 용량만 절약되는 것이 아니라, 칩 내부의 L1/L2 초고속 캐시(SRAM)에 데이터를 훨씬 많이 올릴 수 있어 메모리 계층 구조 전체의 성능이 대폭 향상됩니다.

③ 구글의 역설적인 칩 운용 전략
구글은 데이터센터의 칩을 오래 아껴 쓰는 자산이 아니라, 시스템 최대 처리량을 뽑아내기 위해 강하게 혹사시키는 소모품으로 간주합니다. TurboQuant로 메모리 병목이 완화되면, 구글은 남는 공간에 더 많은 에이전트를 빽빽하게 밀어 넣어 칩 활용률을 극한으로 끌어올립니다. 이는 칩 교체 주기를 단축하고 반도체 구조적 수요 확대로 이어지는 '실리콘의 역설'을 만듭니다.


3. 제본스의 역설 2.0: 2026년 3월의 최전선 현실비용 효율성이 좋아지면 자원 사용량이 오히려 폭발적으로 증가한다는 '제본스의 역설'은 지금 이 순간에도 증명되고 있습니다.

-앤트로픽의 인프라 비명: Claude는 주간 30%씩 성장하며, DAU가 단 한 달 만에 600만 명에서 1,600만 명으로 폭증했습니다. 이로 인해 인프라가 수요를 따라가지 못해 결국 유료 구독자(Pro/Max)들의 세션 한도를 조정해야 한다는 직원의 증언까지 나왔습니다.

-OpenAI, Sora를 포기하다: OpenAI는 연간 55억 달러의 GPU를 태우던 비디오 생성 AI 'Sora'를 공식 종료하고, 해당 자원을 코딩 에이전트(Codex)와 차세대 모델 사전학습에 전면 재배치했습니다. 만약 TurboQuant가 정말 컴퓨팅 비용을 유의미하게 낮춰주었다면, 샘 알트만은 황금알을 낳는 거대한 숏폼 비디오 시장을 경쟁자(xAI의 Grok)에게 내어주지 않았을 것입니다.

효율화 기술이 이미 세상에 존재함에도 컴퓨팅 자원이 절대적으로 턱없이 부족하다는 가장 명백한 증거입니다.


4. 결정적 팩트: '학습'과 '추론' 메모리의 넘을 수 없는 벽

시장의 가장 큰 착각은 TurboQuant가 AI의 전체 메모리를 줄인다고 믿는 것입니다. 이 기술은 철저히 임시 메모장인 '추론(Inference)' 단계의 KV 캐시 최적화에만 국한됩니다.

반면, HBM 수요의 진정한 본체인 '학습(Training)' 단계는 압축이 불가능한 4가지 거대한 데이터 덩어리를 HBM에 품고 있어야 합니다.

-가중치(Weights): 약 200GB (16비트 기준). 이를 3비트로 압축하면 AI는 개념을 구분하지 못하고 백치가 됩니다.
-기울기(Gradients): 약 200GB. 극한의 소수점 값을 3비트로 반올림하면 학습이 영원히 정지하는 '기울기 소실'이 발생합니다.
-옵티마이저 상태(Optimizer States): AdamW 기준 무려 1.2TB. 가중치 1개당 모멘텀과 분산을 측정하기 위해 파라미터 크기의 6배에 달하는 메모리가 필요합니다.

역전파를 위해 순전파 때의 모든 중간 계산 결과물을 쥐고 있어야 하므로 수 TB가 요구됩니다.

인공지능 신경망의 특성상 초기 가중치의 0.000001의 미세한 오차가 나비효과처럼 증폭되기 때문에 훈련 단계에서는 손실 압축을 허용할 수 없습니다.

즉, 추론 단계의 배달통 크기는 줄여도, AI 지능을 주조하는 훈련용 HBM의 가마솥 크기는 1g도 줄일 수 없습니다.


5. 구글의 진짜 엔드게임: 시맨틱 검색

인프라구글 AI 수장 제프 딘은 현재의 100만~200만 토큰 문맥을 넘어 "수조(Trillions) 개의 토큰"을 한 번에 다뤄 인터넷 전체와 개인의 일생 기록을 실시간으로 전부 뒤져보는 것을 목표로 합니다.이를 구현하기 위해서는 키워드 매칭이 아닌, 의미를 고차원 벡터로 변환해 찾는 '시맨틱 벡터 검색'이 필수입니다.

기존 양자화 방식(PQ 등)은 데이터를 일일이 분석해 코드를 만드느라 인덱싱에 며칠이 걸리는 끔찍한 병목이 있었습니다. 하지만 TurboQuant의 무작위 회전 방식은 이 인덱싱 시간을 '사실상 제로'로 만들어 줍니다.

즉, 이 논문은 단순한 메모리 절감 기술이 아니라 구글이 AI 검색 패권을 영구히 쥐기 위해 구축하는 '초고속 검색 물리 인프라'의 뼈대입니다.


6. 요약 및 결론이 상황은 1년 전, 저비용 고효율 AI인 'DeepSeek R1 쇼크' 때 시장이 "GPU 수요가 끝났다"며 엔비디아 시가총액을 증발시켰던 사건의 완벽한 데자뷰입니다. 그 이후 빅테크의 설비투자는 오히려 폭증했고, 주가와 반도체 랠리는 역사적 신고가를 경신했습니다.

결론적으로 TurboQuant는 HBM을 덜 쓰게 만드는 기술이 아니라, 오히려 같은 HBM으로 더 많은 작업을 혹사시키도록 유도하여 메모리 계층 전체의 사용량을 키우는 촉매제입니다. 추론 비용이 저렴해지면 에이전트와 데이터 생성이 폭발하고, 기존 단순 창고 역할이던 기업용 SSD(eSSD)마저 AI 연산을 돕는 '액티브 스토리지(Active Storage)'로 격상되면서 HBM, DRAM, NAND를 아우르는 구조적 슈퍼사이클은 더 견고해질 것입니다.

(26.3.27 미래에셋)
8👍1
Forwarded from 야자반 - Y.Z. stock
급속도로 상승해온 디램가격의 상승기울기가 둔화될 예정이다

더불어 최근 현물가 조정 이슈도 있다

제2의 딥시크이슈도 나타났다

전쟁이라는 매크로 악재도 출현

이러한 것들이 모여서 메모리 주가 하락을 유발할수있을것이다 (물론 지금도 전닉기준 20% 안팍 하락)

더불어 아주 단기적으로는 전닉 실발에서 이보다 더 좋은 실적은 앞으론 힘들다 라는 피크아웃론이 나올수도 있을것이다

ai성장이 꺽이지않는 시점까지라는 가정하에서는

그러나 이런 현상들이 과거처럼 메모리가격이 반토막이상 나는 다운사이클로 연결될것인가

ai 수요는 1년안에 꺽인다고 보기힘들며, 증설은 과거보다 좀더 수요기반으로 진행될것이라, 과거와 같은 큰폭의 잉여가 나오기 힘들다는 점을 감안시

사이클 축소 내지는 플랫해지는 사이클, 혹은 상승사이클의 연장이 실현된다면, 글로벌리 가장 돈잘버는 기업들의 밸류리레이팅이 실현될수 있는 조건이 될수있다

https://blog.naver.com/valparaiso/224233322951
2
260330_Memory sector outlook: UK and Europe marketing feedback - CLSA

(1) 일부 회의론에도 불구하고, 투자자들은 메모리 주가가 더 오를 여지가 있다고 판단

(2) 지난주 우리는 영국 및 유럽의 투자자들을 만나 한국 IT 섹터에 대해 논의

(3) 연초 이후 한국 메모리 주식은 1) 지정학적 우려, 2) 전례 없이 높은 가격으로 인한 잠재적 수요 훼손 가능성, 3) 증가하는 CAPEX, 4) 그리고 최근 구글의 TurboQuant가 수요에 미칠 영향에 대한 우려로 인해 외국인 투자자들의 상당한 매도세를 겪음

(4) 그러나 AI 추론과 에이전틱 AI로 인한 큰 폭의 수요 성장 덕분에, 우리는 메모리 수급이 '27년뿐 아니라 '28년 상반기까지도 타이트한 상태를 유지할 것으로 예상

(5) 또한 메모리 공급업체들이 주요 고객들과 3~5년 공급 계약을 협상 중인 점은 이익 가시성을 높일 것으로 보이며, 이는 해당 종목들의 밸류에이션 리레이팅으로 이어질 가능성이 있음

(6) 이에 따라 우리는 삼성전자와 SK하이닉스에 대한 긍정적 시각을 유지

(6) 장기 공급계약에 대한 일부 회의론은 있으나, 장기적으로는 리레이팅 요인 우리는 최근 메모리 업계의 변화에 대해 투자자들의 상당한 관심을 재확인

(7) 현재는 분기 단위, 일부의 경우 연 단위 계약이 일반적이지만, 공급업체들은 이를 법적 구속력이 있는 3~5년 공급 계약으로 전환하려 하고 있음

(8) 아직 공급업체들이 이런 계약의 세부 내용을 공개하지는 않았지만, 우리가 파악한 바에 따르면 이러한 계약에는 1) 연간 최소 구매 물량 보장, 2) 경우에 따라 고정 가격[또는 가격 하한선], 3) 상당한 선급금 지급 조건이 포함됨

(9) 우리는 이런 계약이 수요 가시성을 제공함으로써 공급업체들이 CAPEX를 보다 유연하게 조정할 수 있게 하고, 결과적으로 가격 하락을 완화하며 이익 가시성을 높일 것으로 예상합

(10) 현재 이런 계약은 미국과 중국의 주요 클라우드 하이퍼스케일러들과 협상 중이며, 향후에는 스마트폰 및 PC 제조업체들까지 확대될 것으로 예상

(11) 한편 중동 전쟁으로 인해 메모리 공급업체들의 생산 차질이 발생할 가능성에 대해서도 투자자들은 우려를 나타냄

(12) 전 세계 헬륨 공급의 약 3분의 1이 카타르에서 나오며, 한국 메모리 공급업체들은 필요 물량의 65%를 그곳에서 조달하고 있기 때문

(13) 다만 한국 공급업체들은 현재 6개월치 헬륨 재고를 보유하고 있으며, 공급망을 다변화하려고 노력하고 있음

(14) 우리의 채널 체크 결과, 헬륨 공급업체들은 비우선 고객에 대한 배정을 줄이는 대신, 팹과 같은 대량 수요 고객을 우선 지원하고 있는 것으로 파악

(15) 이는 현재 재고의 지속 기간을 더 늘려줄 것으로 예상

(16) 구글 TurboQuant에 대한 오해 관련해서는, 장기 수요에는 오히려 긍정적

(17) KV 캐시 관리는 LLM 추론에서 가장 큰 병목 중 하나이며, 이를 효율적으로 압축하면 긴 컨텍스트 작업에서 처리량을 최적화할 수 있음

(18) 이는 AI 추론을 더 경제적이고, 더 확장 가능하며, 더 낮은 지연시간으로 만들 수 있고, 그 결과 기존에는 비용 장벽을 넘지 못했던 새로운 애플리케이션의 등장을 촉진하거나 에이전틱 AI의 도입 속도를 높일 수 있음

(19) 따라서 이는 중장기적으로 메모리 수요를 오히려 더욱 강하게 만들 수 있음

(20) 마지막으로 DRAM 제품의 OPM이 이미 80%에 도달한 점을 고려할 때, 투자자들은 공급업체들이 얼마나 공격적으로 가격을 더 올릴 수 있을지에 대해 확신하지 못하고 있는 상태

(21) 또한 ASP 상승폭이 둔화될 경우 주가 모멘텀에도 영향을 줄 수 있다는 우려도 존재

(22) 우리는 ASP 상승폭의 크기가 주가 성과를 좌우하는 중요한 요인이라는 점에는 동의. 다만, 상승폭이 다소 둔화되더라도 ASP가 계속 상승하는 흐름만 유지된다면 주가는 여전히 긍정적으로 반응할 가능성이 높다고 판단

(23) 신규 팹의 증설과 가동 확대에는 시간이 걸리기 때문에, 강한 HBM 수요가 공급업체들의 전체 DRAM 생산 능력을 계속 흡수할 것으로 예상되는 만큼, 수급 부족이 '27년 이후까지 이어질 가능성도 존재하기 때문
6
이번주 내 저점 나오지 않을까라는 막연한 생각으로 기술적 소설 읽기. 롤 하기 중. 반등강한 애들 찾기 연습이나 해볼까요..찾으시면 댓글로 고고 일단 효성중공업
25
클로드 코드의 소스 코드가 유출되었다. 덕분에 AI에 이거 넣고 티키타카 해보면서 앤트로픽의 디테일을 파고들 수 있게 되었다.

그리고 재밌었던 코멘트: "Anthropic is now officially more open than OpenAI"

https://x.com/Fried_rice/status/2038894956459290963
1🔥1
급반등하니까 주말지나면 또 내릴까봐 물렸던 기억에 싸던말던 그냥 익절박고싶은 개미 개추
일단 저부터...
👍374
음음 고소당하기 싫어서 말은 아낄게요~
👍2810
W를 찾아서..
사태 발발 1개월 이후 시점부턴 해당 지정학적 쇼크와 무관한 주가 흐름이 전개


》퀀트(통계)의 위력
》공교롭게도 정확히 사태발발 1개월차
2