3주전 애플 뉴욕본사의 고객관리 의 최전선인 고객 총괄 담당 매니저와 화상회의 를 한적이 있다. 회의 도중 당연히 AI를 빼놓을 수 없고 여러가지 사안을 감안하여 AI 관련 사항은 많은 자제를 하였다.
익히 알려진바와같이 애플사는 nVidia 사와 결별한지 오래되었고 그동안의 AI 가 발전하는 동안 어떤면에서는 사과사는 참패하였다. 그래서 굳이 그런 애기를 할 필요는 없었지만 AI 와 클라우드가 대세가 되어버린 지금 이야기는 자연스레 AI 이용관련 고객관리 와 서비스로 이어져 갔다.
하네스 코딩이라던가 AI Agent , cli 등등 하지만 사과사가 개발중인? 인텔리전스? 라는 제품으로 대화를 맥락없이 무리하게 진행해 갈려는 의도적인 시도를 하였다. 순간순간 오 그렇군요. 장단을 맞추기는 하였지만,,,,,
솔직하게 난 맥미니 하나로 AI 데이타선타를 관리하는 제품을 개발중이었고 실제로 macOS 중심 중앙집중적인 데이타센타 관리가 가능했다. 물론 관리대상은 윈도우즈. macOS, Linux 등이다.
그런데 그들의 이야기는 사과의 두터운 껍질에서 좀처럼 나오질 못했다.
AI 데이타센타에 macOS 는 그닥 많지 않다. 나의 의도는 macOS 를 관리하는 것은 기본적이어야 하고 윈도우즈, Linux 까지 관리를 해야하고 난 이미그렇게 사용중이다.
그들이 관심있는 macOS 에서 macOS 만 just only macOS 만 관리하는 것이 아니라 윈도우즈,Linux, Unix 그리고 rtOS 등 기타 OS 까지포함해야 한다는 것이 나의 의견이었다.
대략 3-40분동안 사과는 macOS 에서 벗어나질 못했다.
과연 사과사는 AI 시대에 아래 기사처럼 순풍을 탈 수 있을까?
나는 아니올시다 라고 본다.
그러면서 동시에 사과사가 eGPU 사용을 허가한다는 기사도 나왔다.
나는 추가하여 nVidia 사와의 관계도 회복하고 nVidia 사의 개발키트도 Linux 처럼 자연스레 macOS 에서 서비스되었으면 하는 개인적인 바램이 있다.
#########################
AI 지능의 상품화가 가속되면서, 모든 기업이 최고 모델 경쟁에 뛰어든 사이 막대한 현금을 비축한 Apple이 오히려 유리한 위치를 확보 중
OpenAI는 $300B 밸류에이션에도 불구하고 Sora 서비스 중단, Stargate Texas 취소 등 수익 모델 없는 인프라 투자의 위험성이 현실화
25억 대의 활성 기기와 온디바이스 처리 구조 덕분에 Apple은 개인 맥락 데이터와 프라이버시 중심 설계를 해자로 보유
오픈 웨이트 모델 Gemma 4가 Claude Sonnet 4.5 Thinking과 동급 성능을 보이며, 노트북에서도 실행 가능한 수준으로 모델 격차가 급격히 축소
Apple Silicon의 통합 메모리 구조는 대형 모델의 로컬 실행을 가능하게 하며, MLX 프레임워크를 통해 생태계 확장 기반 형성
전략이든 우연이든, Apple은 AI 시대에 최적화된 하드웨어·소프트웨어 기반 위에서 새로운 경쟁 우위를 확보한 상태
AI 경쟁에서 "패배"한 Apple의 ‘우연한 해자’
지능이 상품화되는 추세에서, 기업들이 더 나은 모델을 만들수록 경쟁사 모델도 빠르게 따라잡는 구조 형성
대규모 학습 투자로 이전 세대 모델의 비용이 낮아지고, 프론티어 모델과 오픈소스 모델 간 격차가 급속히 축소
Gemma4, Kimi K2.5, GLM 5.1 등 최신 오픈 모델이 개인 하드웨어에서도 충분히 작동 가능한 수준에 도달
반면 OpenAI 등은 막대한 비용 구조와 불안정한 수익 모델로 인해 지속 가능성에 의문 제기
이러한 변화는 ‘AI 패배자’로 불리던 Apple에 유리하게 작용
Apple은 Siri를 누구보다 먼저 보유했지만, ChatGPT 출시 이후 플래그십 프론티어 모델도 없고 $500B 규모의 컴퓨트 투자 약속도 없어 "AI 패배자"로 분류됨
다른 AI 랩과 빅테크가 최신 벤치마크 1위를 차지하기 위해 막대한 자금을 소진하는 동안, Apple은 미사용 현금을 쌓으며 자사주 매입까지 확대하여 선택지를 넓힘
OpenAI의 과도한 지출과 리스크
OpenAI는 $300B 밸류에이션으로 자금을 조달한 뒤, Sora 비디오 서비스를 일일 비용 약 $15M 대비 수익 $2.1M으로 운영하다 결국 서비스를 중단
Disney는 Marvel, Pixar, Star Wars 캐릭터 콘텐츠 생성을 위해 Sora 3년 라이선스 계약을 체결하고 OpenAI에 $1B 지분 투자를 추진 중이었으나, Sora 중단으로 $1B 투자가 무산
인프라 측면에서 OpenAI는 Samsung, SK Hynix와 월 최대 90만 장 DRAM 웨이퍼(글로벌 생산량의 약 40%)에 대한 비구속적 의향서를 체결
Micron은 이 수요 신호를 보고 29년 된 Crucial 소비자 메모리 브랜드를 폐쇄하고 AI 고객용으로 전환했으나, Stargate Texas가 취소되면서 수요가 사라지고 Micron 주가가 폭락
벤치마크 성적이나 인프라 규모와 무관하게, 예상 수익의 작은 오차 하나로 게임에서 탈락할 수 있는 구조
지능에서 역량으로의 전환
AI 랩들의 핵심 가정은 원시 모델 역량(지능) 과 이를 운영할 인프라가 희소 자원으로 남을 것이라는 전제였으나, 덜 강력한 모델이 이전 프론티어 모델 수준으로 빠르게 성장 중
Google의 오픈 웨이트 모델 Gemma 4는 휴대폰에서 실행 가능하며, MMLU Pro에서 85.2% 를 기록하고 Arena 리더보드에서 Claude Sonnet 4.5 Thinking과 동급
첫 주에 200만 다운로드 달성
18개월 전 SOTA였던 모델이 이제 노트북에서 실행 가능하고 분기마다 성능 향상
AMD Ryzen AI Max+에서 Gemma 4를 직접 실행한 결과, 토큰/초 성능과 지능 수준이 뛰어나 개인 도구의 백엔드를 이 모델로 출력 품질 저하 없이 전환 완료
Anthropic은 이 흐름을 인지하고 Claude Code, Claude Cowork, Claude Managed Sessions 등 실용 도구를 빠르게 출시하여 사용자를 자사 생태계에 락인하는 전략 추진 중
핵심 논리: 모델 자체가 해자가 되지 못하면, 사용 레이어를 장악하고 전환 비용을 높여야 함
한 분석에 따르면 Max 요금제($200) 구독자가 $27,000 상당의 컴퓨트를 소비하는 구조로, 랩들이 수요를 보조금으로 유지하는 형태
Apple은 AI 인프라와 사용자 토큰 소비 보조에 거의 비용을 쓰지 않아, 다른 기업보다 더 큰 선택지와 레버리지를 확보
컨텍스트가 핵심 자원
지능이 풍부해지면 컨텍스트가 희소 자원이 됨
모든 것을 추론할 수 있지만 사용자에 대해 아무것도 모르는 모델은 범용 도구에 불과
AI가 일상에서 진정으로 유용하려면 추론 능력 + 개인 컨텍스트(메시지, 캘린더, 코드, 건강 데이터, 사진, 습관 등)가 필요
Apple은 25억 대 활성 기기를 통해 이 컨텍스트를 이미 보유
Apple Watch의 건강 데이터, iPhone 사진, 메모, 메시지, 위치 기록, 앱 행동, 이메일, 기기 센서를 통한 환경 인식
온디바이스 처리를 통해 데이터를 기기 밖으로 내보내지 않으면서 모델에 전체 컨텍스트를 제공하는 구조가 가능
"Privacy. That's iPhone" 포지셔닝이 단순 PR이 아닌 핵심 가치 제안으로 전환 가능
OpenAI에 의료 기록과 15년치 사진을 넘기는 것과, 기기 내에서만 동작하는 모델에 접근을 허용하는 것은 근본적으로 다른 문제
Apple이 Google과 체결한 Gemini 딜($1B) 은 클라우드급 추론이 필요한 쿼리를 위한 것으로, OpenAI의 주간 컴퓨트 비용 대비 반올림 수준의 비용
Apple이 내부에 유지한 것: 컨텍스트 레이어, 온디바이스 스택, 모든 것을 중재하는 운영체제
Apple Silicon이 AI에 적합한 이유
OpenClaw 출시 이후 Mac Mini 열풍이 보여주듯, Apple Silicon은 AI용이 아닌 효율성·배터리·열 성능·하드웨어/소프트웨어 통합 설계용으로 개발되었지만, 로컬 모델 실행에 최적의 아키텍처로 판명
핵심 설계: 통합 메모리(Unified Memory)
기존 아키텍처는 CPU와 GPU가 별도 칩·별도 메모리 풀로 구성되어 데이터 이동이 느리고 전력 소모가 큼
Nvidia GPU는 행렬 연산에 빠르지만 PCIe 버스를 통한 CPU-GPU 간 데이터 전달이 병목
Apple M시리즈/A시리즈는 CPU, GPU, Neural Engine을 동일 다이에 배치하고 하나의 고대역 메모리 풀을 공유, 버스 교차·전송 오버헤드·레이턴시 없음
LLM 추론은 현재 컴퓨트가 아닌 메모리 대역폭에 병목이 있음
핵심은 모델 가중치를 메모리에서 연산 유닛으로 스트리밍하는 속도와, KV 캐시를 저장할 메모리 크기
Apple의 통합 메모리 풀은 모든 연산 유닛에 동시에 고대역 직접 접근을 제공
LLM in a Flash 기법이 Apple 하드웨어에서 특히 효과적
M3 Max Mac에서 Qwen 397B(209GB 모델)를 활성 RAM 5.5GB만으로 ~5.7 토큰/초에 실행한 사례
가중치는 SSD에 저장되어 ~17.5 GB/s로 스트리밍, MoE(Mixture-of-Experts) 아키텍처 덕분에 각 토큰이 전문가 레이어의 일부만 활성화
이 실행을 위한 ~5,000줄의 Objective-C와 Metal 셰이더를 Claude가 작성
플랫폼 다이내믹과 App Store 유비
App Store처럼 Apple이 앱을 만든 것이 아니라 앱이 가장 잘 실행되는 플랫폼을 구축하고 생태계가 따라온 구조
개발자는 Apple이 요청해서가 아니라, 사용자 기반·도구·일관된 하드웨어 때문에 iOS를 타겟
로컬 추론에서도 동일한 현상이 발생할 가능성
MLX가 이미 온디바이스 AI의 사실상 표준 프레임워크로 부상
Gemma, Qwen, Mistral 등 주요 모델 아키텍처가 MLX를 지원
Apple이 모델 경쟁에서 이기지 않더라도 모델(또는 에이전트)이 실행되는 사실상의 플랫폼이 될 수 있음
OpenClaw 바이럴 이후 Mac Mini 열풍이 이 가능성을 보여주는 사례
전략인가, 행운인가
Apple의 하드웨어/소프트웨어 통합 설계 전략은 수년간 핵심 초점이었으며, 프라이버시 포지셔닝, 온디바이스 처리 집중, 업계가 Nvidia·Intel에 의존할 때 자체 실리콘 개발 결정 모두 상업적으로 위험한 선택이었음
이 결정들은 AI가 아닌 비용과 거버넌스를 위해 내려졌지만, 결과적으로 AI 시대에 유리하게 작용
Apple이 예측하지 못했을 수 있는 것:
통합 메모리 아키텍처가 LLM에 완벽히 적합한 점
오픈 웨이트 모델이 이토록 빠르게 발전한 점
400B 파라미터 모델을 SSD에서 스트리밍하는 것이 실제로 작동하는 점
일부는 행운이지만, 올바른 기반을 구축한 기업에게 찾아오는 종류의 행운
나머지 업계가 3년간 최고 모델 경쟁에 매진하는 동안, Apple은 사이드라인에서 자사 기기와 생태계가 이 미래에 어떻게 맞아들어갈지 관망
Siri의 한계 등 불완전한 부분은 남아 있으나
25억 대 기기, 전체 개인 컨텍스트, 전용 실리콘에서의 로컬 모델 실행, 고난이도 쿼리를 위한 Gemini 온콜
고정 CAPEX가 아닌 변동 비용 기반 추론 구조가 AI 보편화 시대에 불리한 포지션이라고 보기 어려움
결론적으로, Apple은 AI 중심 미래에서도 여전히 중요한 위치를 차지할 가능성이 있음
전략이든 우연이든, 올바른 기반 위에 서 있다는 점이 핵심