Part I: 피지컬AI 제조업 혁명 — 플랫폼과 전략

Chapter 1: 피지컬AI란 무엇인가 — 2025년 제조업의 새로운 패러다임

집필일: 2026-04-28 최종수정일: 2026-04-28

"다음 물결은 피지컬AI다. 인지하고, 추론하고, 계획하고, 행동하는 AI." — Jensen Huang, NVIDIA CEO, CES 2025 키노트 ^[1]

2025년 1월 6일 라스베이거스. NVIDIA CEO Jensen Huang은 90분 간의 CES 키노트를 "피지컬AI(Physical AI)"라는 단어로 마무리했다. 그는 이 단어가 향후 10년 동안 컴퓨팅 산업의 중심이 될 것이라고 단언했다. 같은 달 21일 다보스에서 세계경제포럼(WEF)과 보스턴컨설팅그룹(BCG)은 Physical AI: Powering the New Age of Industrial Operations라는 백서를 발표했다 ^[5]. 두 주일 뒤에는 Top 10 Emerging Technologies 2025에 피지컬AI가 정식으로 등재되었다 ^[4]. 같은 패러다임이 같은 분기에 세 곳에서 동시에 정의된 것이다.

이 챕터는 피지컬AI가 무엇인지, 왜 2025년이 변곡점인지, 그리고 왜 제조업이 그 첫 전장이 되었는지를 정리한다. 코스맥스 임원으로서 이 질문에 답할 수 있어야 다음 챕터들의 플랫폼·전략 논의가 의미를 갖는다.

Figure 1.1 — 디지털AI 의사결정 보조에서 피지컬AI 폐루프 공장 실행으로 넘어가는 패러다임 전환도. illustration by author (AI-assisted)

1.1 디지털AI의 한계 — 왜 지금 피지컬AI인가

지난 5년 동안 인공지능은 두 단계의 거대한 도약을 거쳤다. 1단계는 ChatGPT(2022)로 대표되는 언어 AI, 2단계는 Stable Diffusion·Sora·Veo로 대표되는 멀티모달 생성 AI다. 두 단계의 공통점은 출력이 디지털 비트라는 것이다. 텍스트 토큰, 픽셀, 오디오 샘플 — 모두 클라우드에서 연산되어 화면 위에서 끝난다.

문제는 인류가 만들어내는 가치의 대부분이 화면 밖에 있다는 점이다. WEF가 2025년에 추정한 글로벌 제조·물류 산업 규모는 50조 달러 이상이다 ^[1]. 이 가치는 컨테이너를 옮기고, 분말을 칭량하고, 캡을 닫고, QR을 검사하는 물리적 동작에서 만들어진다. 디지털AI는 이 영역을 보조할 수는 있어도(예: 작업지시서 생성) 직접 수행할 수는 없다. 사람의 손이 여전히 마지막 1m를 채우고 있다.

피지컬AI는 이 마지막 1m를 AI가 직접 채우게 하려는 시도다. Yann LeCun은 LLM이 본질적으로 "이산 토큰의 자기회귀 예측기"이기에 연속적인 물리 세계의 동역학을 표현할 수 없다고 비판해 왔다 ^[2]. 그가 2026년 3월 출범시킨 AMI Labs는 $3.5B 사전가치 평가에서 시드 $1.03B을 모집했고(유럽 최대 시드 라운드 기록), 그 자금을 LLM이 아닌 JEPA(Joint Embedding Predictive Architecture) 기반 연속 세계 모델에 투입했다. 즉 1세대 LLM 패러다임을 만든 사람들 중 일부는 이미 다음 패러다임으로 자본을 옮기고 있다.

코스맥스 시사점: 화장품 ODM의 핵심 가치는 충전·포장·검사 같은 물리 작업의 정밀도와 속도다. 디지털AI는 이 가치 영역에 직접 닿지 못한다. 피지컬AI를 검토하는 것은 "트렌드 따라잡기"가 아니라 "본업의 자동화 수준을 한 단계 끌어올리는 일"이다.

1.2 피지컬AI의 정의와 구성 요소

피지컬AI에 대한 단일 표준 정의는 아직 없다. 그러나 2025년 1분기에 발표된 세 권위 있는 정의가 거의 일치한다.

출처	정의
Jensen Huang, CES 2025 ^[1]	"인지·추론·계획·실행이 가능한 AI"
WEF·BCG 백서 ^[5]	"AI·센서·하드웨어가 결합되어 지각·학습·복잡 환경 대응이 가능한 산업용 로봇"
WEF·BCG AI Agents 보고서 ^[6]	"Embodied AI agents — 로봇 + 인지가 결합된 시스템"

세 정의를 추리면 피지컬AI는 다음 3대 구성요소의 결합으로 정리할 수 있다.

인식(Perception): 카메라·LiDAR·촉각 센서·마이크 등으로 물리 세계의 상태를 디지털 표현으로 변환하는 능력. 2D/3D 비전, 점군 처리, 멀티모달 융합이 핵심이다.
추론(Reasoning): 인식된 상태를 바탕으로 다음 행동을 결정하는 능력. 대규모 언어모델(LLM)과 비전·언어·행동 모델(VLA)이 이 층을 담당하며, 최근에는 NVIDIA Cosmos 같은 세계 기반 모델(World Foundation Model)이 물리 법칙을 학습한 추론 엔진으로 부상하고 있다 ^[3].
행동(Action): 결정을 모터·그리퍼·이동 베이스로 옮겨 실제 환경을 변화시키는 능력. 산업 매니퓰레이터, AMR(자율이동로봇), 휴머노이드, 그리고 점차 양손 협업 로봇이 이 층을 채운다.

이 3층은 디지털 트윈, 엣지 AI, 클라우드라는 인프라 3축 위에서 작동한다. 디지털 트윈은 시뮬레이션 데이터를 공급하고, 엣지 AI는 ms 단위 제어 루프를 책임지며, 클라우드는 fleet 학습과 모델 업데이트를 담당한다. 2장에서 NVIDIA의 Omniverse·Isaac·Jetson 3계층이 정확히 이 인프라 3축에 대응함을 보게 될 것이다.

Figure 1.2 — 인식·추론·행동 계층과 디지털트윈·엣지·클라우드 인프라가 만나는 3x3 실행 매트릭스. illustration by author (AI-assisted)

코스맥스 시사점: "AI 도입"을 단일 솔루션 구매로 보면 실패한다. 피지컬AI는 6개 셀(3 × 2)의 매트릭스 위에 설계해야 하는 시스템이다. 충전 라인 한 곳에 적용한다 해도 인식 카메라, 추론 모델, 행동 로봇, 디지털트윈, 엣지 PC, 클라우드 학습 — 6가지를 모두 결정해야 한다.

1.3 제조업이 피지컬AI의 첫 번째 전장이 된 이유

피지컬AI의 잠재 시장은 가정·의료·국방·소매 등 광범위하지만, 2025년 현재 가장 빠르게 도입되는 곳은 제조와 물류다. 이유는 세 가지다.

첫째, 환경의 구조성. 공장은 가정과 달리 고정된 레이아웃, 일정한 조명, 정해진 SKU 집합을 갖는다. 이는 AI 학습에 필요한 "데이터 분포의 좁음"을 의미한다. 동일 라인에서 동일 작업을 반복하므로 수억 회의 데모를 누적할 수 있다. Amazon은 이미 300곳의 풀필먼트 센터에서 100만 대 이상의 로봇을 가동 중이며, 그로부터 생성되는 데이터로 fleet 단위 학습을 진행하고 있다 ^[5].

둘째, 가치의 크기. WEF·BCG는 Amazon 사례에서 Sequoia·Sparrow·Proteus 시스템 도입으로 풀필먼트 효율 25%, 모바일 로봇 fleet 운영으로 이동 효율 10% 개선을 보고했다 ^[5]. Huang이 제시한 50조 달러는 제조 + 물류만의 추정이다 ^[1]. 1% 효율만 개선해도 5,000억 달러다. 이 배율 앞에서는 로봇 1대당 수억 원의 자본 투자가 합리화된다.

셋째, 노동력 구조의 압박. 미국·독일·일본·한국에서 동시에 제조업 노동력 부족이 심화되고 있다. WEF·BCG의 AI Agents 보고서는 경영진의 82%가 1–3년 내 AI 에이전트 도입을 계획한다고 보고했다 ^[6]. 도입 의지는 이미 임계점을 넘었다.

기존 자동화와 피지컬AI의 차이는 "학습"의 유무다. 기존 PLC 기반 자동화는 엔지니어가 명시적으로 코딩한 시퀀스를 반복한다. SKU가 바뀌면 재프로그래밍이 필요하다. 피지컬AI는 시연·시뮬레이션·강화학습으로 새로운 작업에 적응한다. 코스맥스처럼 수천 SKU에 단기 배치를 돌리는 ODM에는 이 적응성이 결정적이다.

코스맥스 시사점: 화장품 ODM은 다품종 소량 생산이라 기존 자동화의 ROI가 낮았다. 피지컬AI의 재학습 비용 곡선이 평탄해질수록 SKU별 자동화 손익분기가 한꺼번에 무너진다. "우리 제품은 너무 다양해서 자동화가 어렵다"는 명제가 2026–2028년 사이에 깨질 가능성이 높다.

1.4 2025년 현재 — 무엇이 달라졌는가

2015년에도 산업용 로봇은 있었고, 2020년에도 컴퓨터비전은 있었다. 그런데 왜 2025년에야 "패러다임"이라는 단어가 붙었을까. 네 가지 기술 변곡점이 동시에 도달했기 때문이다.

(1) Sim-to-Real의 성숙. Omniverse·Isaac Sim·MuJoCo XLA 같은 GPU 가속 시뮬레이터가 실제 물리에 근접한 시뮬레이션을 초당 수만 프레임으로 돌릴 수 있게 되었다. 시뮬레이션에서 학습한 정책이 실제 로봇에 zero-shot 또는 few-shot 이전되는 사례가 양산되고 있다. 이는 데이터 수집 비용을 1/100 이하로 떨어뜨린다.

(2) LLM × 로봇의 결합. 2024년 등장한 RT-2, OpenVLA 류의 비전·언어·행동(VLA) 모델은 자연어 지시("저 빨간 캡을 집어")를 직접 모터 명령으로 변환한다. 작업 지시 인터페이스가 코드에서 자연어로 바뀌는 순간 비프로그래머도 로봇 작업을 정의할 수 있게 된다.

(3) 세계 기반 모델의 등장. NVIDIA가 2025년 1월 6일 CES에서 발표한 Cosmos는 텍스트·이미지·비디오·로봇 센서 데이터를 입력받아 물리 기반 비디오를 생성하는 World Foundation Model이다 ^[3]. Apache-2.0과 유사한 permissive 라이선스로 오픈 가중치를 공개했고, 1X·Figure·Agility·XPENG 등 14곳 이상이 초기 도입사로 합류했다 ^[1]. 2025년 3월에는 reasoning 기능이, 9월 CoRL 2025에서는 텍스트·이미지·비디오 prompt를 통한 다양한 데이터 생성이 추가되어 분기마다 갱신되고 있다 ^[3]. 자율주행이 ImageNet으로 도약했듯, 피지컬AI는 Cosmos급 기반 모델로 도약할 전망이다.

(4) 권위 있는 인증. WEF는 2025년 Top 10 Emerging Technologies에 피지컬AI를 정식 등재했다 ^[4]. 동일 리스트에는 structural battery composites, advanced nuclear, generative watermarking 등이 함께 올랐다. 컨설팅·정책·자본 시장이 동일 어휘로 같은 카테고리를 가리키기 시작했다는 신호다. WEF·BCG의 Frontier Technologies in Industrial Operations 보고서는 이를 "virtual AI agents + embodied AI agents의 2-way 분류"로 정식화했다 ^[6].

코스맥스 시사점: 네 변곡점 중 어느 하나라도 빠졌다면 도입을 미룰 수 있었다. 그러나 시뮬레이션·VLA·세계모델·표준화가 같은 분기에 정렬됐다. 2025–2026년에 PoC를 시작하지 않은 기업과 2027년에 시작한 기업의 격차는 단순한 1년이 아니라 데이터 격차의 누적 곡선 차이가 된다.

Figure 1.3 — 센싱, 모델링, 시뮬레이션, 실행, 감사가 반복되는 공장 운영 폐루프. illustration by author (AI-assisted)

실행 관점에서 피지컬AI는 'AI를 어디에 도입할 것인가'의 문제가 아니라 운영 폐루프를 어디까지 닫을 것인가의 문제다. 센서가 라인 상태를 읽고, 모델이 원인을 추정하며, 디지털트윈이 변경안을 시험하고, 엣지 제어가 실제 설비에 반영한 뒤, 품질·수율 데이터가 다시 학습으로 돌아와야 한다. 코스맥스가 지금 점검해야 할 첫 항목은 모델 성능이 아니라 이 다섯 단계 중 어느 링크가 종이·엑셀·수작업 승인으로 끊겨 있는지다.

1.5 이 서베이를 읽는 법 — 코스맥스 임원을 위한 안내

이 책은 9개 챕터로 구성된다. Part I (1–4장)은 피지컬AI 자체의 정의와 플랫폼 구도를 다룬다. NVIDIA(2장), Siemens·Rockwell·ABB(3장), McKinsey·BCG·Deloitte·PwC의 컨설팅 시각(4장)이 차례로 등장한다. Part II (5–8장)는 산업별 도입 사례를 추적한다. 제약·화학(5장), 화장품·뷰티(6장), 식품·음료(7장), 의류·소비재(8장) 순이다. Part III (9장)는 코스맥스에 특화된 전략 제언으로 마무리된다.

읽는 동안 빠지기 쉬운 함정이 두 가지 있다.

함정 1: "우리 산업과는 다른 이야기". 자동차 OEM이나 Amazon의 사례를 보면서 "우리는 화장품이라 다르다"고 결론짓기 쉽다. 그러나 피지컬AI의 가치 동학은 산업이 아니라 공정 유형으로 결정된다. 충전·라벨링·검사·팔레타이징 같은 공정은 자동차 부품이든 립스틱이든 본질적으로 동일하다. 6장에서 L'Oréal·P&G·Shiseido가 어떻게 이 공정 동질성을 활용해 자동차에서 검증된 기술을 가져왔는지 살펴볼 것이다.

함정 2: "기술이 더 성숙한 다음에". 피지컬AI는 학습 곡선의 가파른 구간에 있다. 늦게 시작할수록 데이터·운영 노하우의 격차가 누적된다. Amazon이 100만 대 이상의 로봇 운영 데이터를 갖고 있는 동안 후발 주자는 1만 대 데이터로 출발한다. 이 격차는 시간이 줄여주지 않는다.

핵심 질문 세 가지를 머릿속에 두고 읽기를 권한다.

언제 시작할 것인가 — 2026년 PoC, 2027년 라인 1개, 2028년 다공장 확장의 보편 로드맵이 코스맥스에도 적합한가?
어디서 시작할 것인가 — 충전·포장·검사·연구실 자동화 중 어느 공정이 코스맥스의 ROI 곡선에서 가장 높이 있는가?
어떻게 시작할 것인가 — NVIDIA Omniverse 기반 디지털트윈 우선인가, Siemens 기반 OT 통합 우선인가, 컨설팅 주도 로드맵 우선인가?

다음 챕터에서 NVIDIA가 어떻게 이 세 질문에 대한 첫 번째 통합 답변을 만들어왔는지부터 시작한다.

참고문헌

Huang, Jensen (2025). CES 2025 Keynote: Physical AI and the Next Wave of Computing. NVIDIA Blog. https://blogs.nvidia.com/blog/ces-2025-jensen-huang/
LeCun, Yann (2026). Yann LeCun's AMI Labs Raises $1.03B to Build World Models. TechCrunch. https://techcrunch.com/2026/03/09/yann-lecuns-ami-labs-raises-1-03-billion-to-build-world-models/
NVIDIA Research (2025). Cosmos World Foundation Model Platform for Physical AI. arXiv:2501.03575. https://arxiv.org/abs/2501.03575
WEF (2025). Top 10 Emerging Technologies of 2025. World Economic Forum, Frontiers, Dubai Future Foundation. https://reports.weforum.org/docs/WEF_Top_10_Emerging_Technologies_of_2025.pdf
WEF and BCG (2025a). Physical AI: Powering the New Age of Industrial Operations. World Economic Forum White Paper. https://reports.weforum.org/docs/WEF_Physical_AI_Powering_the_New_Age_of_Industrial_Operations_2025.pdf
WEF and BCG (2025b). Frontier Technologies in Industrial Operations: The Rise of AI Agents. World Economic Forum Report. https://reports.weforum.org/docs/WEF_Frontier_Technologies_in_Industrial_Operations_2025.pdf