
[시큐리티팩트=최석윤 기자] 컴퓨터 칩 제조사로 알려진 엔비디아가 대담한 움직임으로 인공지능(AI) 연구의 경계를 확장하고 있다. 1일(현재 시각) 외신 보도에 따르면, 엔비디아는 자율주행차, 로봇공학, 음성 처리 분야를 혁신할 수 있는 개방형 물리 및 디지털 AI 모델 출시를 발표했다.
엔비디아는 세계 최고의 AI 콘퍼런스 중 하나인 NeurIPS(신경정보처리시스템학회)에서 이러한 획기적인 성과를 공개했다. 이는 오픈소스 AI 개발의 새로운 시대를 여는 행보다. 엔비디아의 칩은 AI 개발의 핵심 역할을 한다. 이 힘으로 회사는 시가총액 세계 1위 기업으로 올라섰다. 하지만 엔비디아는 동시에 광범위한 소프트웨어 연구 조직을 유지하고 있다. 팔란티어 테크놀로지스(Palantir Technologies) 같은 다른 기업들이 채택할 수 있는 오픈소스 AI 코드를 적극적으로 공개하고 있다.
이번 발표의 핵심은 '추론(Inference)' 기술이다. 이는 AI가 단순한 데이터 분석을 넘어 인간처럼 생각하고 판단하는 능력이다.
주요 특징 중 하나는 자율주행을 위한 세계 최초의 개방형 추론 시각-언어-행동(VLA, Vision-Language-Action) 모델인 알파마요-R1(AR1)이다.
'알파마요'는 등정하기 까다로운 페루의 산봉우리를 의미한다. 이 이름처럼 AR1은 까다로운 도로 상황을 스스로 돌파하는 돌파구를 마련했다. AR1은 사고의 사슬 추론(Chain-of-Thought Reasoning)과 경로 계획을 결합하도록 설계되었다. 이 모델은 차량이 인간과 유사한 판단력으로 복잡한 상황을 헤쳐나갈 수 있도록 지원한다.
엔비디아는 "AR1은 시나리오를 세분화하고 각 단계를 추론함으로써 이를 달성한다"고 밝혔다. 기존 대부분의 자율주행차 소프트웨어는 특정 길을 선택한 이유에 대해 설명하는 방식이 제한적이었다. 이는 엔지니어들이 차량을 더 안전하게 만들기 위해 어떤 부분을 수정해야 하는지 이해하기 어렵게 만들었다.
AR1은 이 문제를 해결한다. 예를 들어, 차량이 자전거용 길을 보면 그 길을 보고 있다는 점을 메모리에 기록한다. 그리고 방향 조절을 하고 있다는 점까지 서술식으로 설명한다. 이를 통해 엔지니어들은 AI의 판단 과정을 투명하게 이해할 수 있다.
이 모델은 가능한 경로를 평가한다. 상황 데이터를 사용하여 가장 안전한 경로를 선택한다. 보행자로 붐비는 교차로나 이중 주차 차량, 혹은 차선 폐쇄가 임박한 상황에서도 문제없이 주행할 수 있도록 지원한다.
오픈 액세스는 엔비디아 전략의 핵심이다. 엔비디아는 자율주행 기술의 표준을 장악하려 한다. AR1은 NVIDIA Cosmos Reason을 기반으로 구축되었다. 이 모델은 연구자들이 비상업적 용도에 맞게 맞춤 설정할 수 있다.
‘강화 학습 후 훈련’ 결과, 사전 훈련된 모델에 비해 모델의 추론 능력이 크게 향상되었다. AR1은 NVIDIA Physical AI Open Datasets(엔비디아 물리 AI 공개 데이터 세트)의 일부 학습 데이터와 함께 깃허브(GitHub) 및 허깅 페이스(Hugging Face)에서 제공된다. 연구원들은 AlpaSim 프레임워크를 활용하여 모델 성능을 평가할 수도 있다.
NVIDIA의 Cosmos 플랫폼은 AR1 외에도 물리 AI 개발을 위한 다양한 도구를 제공한다.
△ LidarGen(라이다젠): AV(자율주행차) 시뮬레이션을 위한 라이더 데이터를 생성한다.
△ Omniverse NuRec Fixer(옴니버스 뉴렉 픽서): 신경망 재구성을 지원한다.
△ Cosmos Policy(코스모스 정책): 로봇 행동 규칙을 생성한다.
△ ProtoMotions3(프로토모션3): 현실적인 시뮬레이션 환경에서 휴머노이드 로봇을 훈련시킨다.
전 세계 개발자와 연구자들이 이미 이러한 모델을 실험하고 있다. Voxel51(복셀51), 1X, Figure AI(피규어 AI), Foretellix(포르텔릭스), Gatik(가틱), Oxa(옥사), PlusAI(플러스AI), X-Humanoid(엑스-휴머노이드)와 같은 엔비디아 생태계 파트너들이 코스모스 기반 모델을 자율주행 및 로봇 프로젝트에 적용 중이다. ETH 취리히(스위스 연방 공과대학교) 연구원들도 3D 장면을 만드는 데 Cosmos를 사용하고 있다. 그 연구 결과는 NeurIPS에서 발표됐다.
디지털 측면에서 엔비디아는 Nemotron(네모트론) 툴킷을 강화하고 있다. 이는 로봇 음성 처리나 실시간 분석에 핵심이다.
주요 기능으로는 다중 화자 자동 음성 인식 모델인 MultiTalker Parakeet(멀티토커 패러킷)이 있다. 실시간 화자 분석을 수행하는 Sortformer(솔트포머)도 있다. Nemotron은 또한 강화 학습과 도메인별 AI 개발을 위한 추론 기반 AI 안전 모델을 소개한다. 합성 데이터 세트도 포함된다.
기타 주목할 만한 업데이트로는 음성, 음악, 사운드 전반에 걸쳐 추론이 가능한 대규모 오디오 언어 모델인 Audio Flamingo 3(오디오 플라밍고 3)가 있다. 성능 저하 없이 하이브리드 모델을 압축하는 Minitron-SSM(미니트론-SSM)도 공개되었다. 엔비디아 연구진은 효율적인 언어 모델 추론과 지연 시간에 최적화된 Jet-Nemotron(젯-네모트론)과 Nemotron-Flash(네모트론-플래시)도 선보였다.
엔비디아는 장기 강화 학습(ProRL, Progressive Reinforcement Learning) 기술을 설명했다. 이 방법론은 모델 학습을 더 오랜 기간 동안 확장한다. 이 방법론은 추론 성능에서 기본 모델보다 지속적으로 우수한 성능을 보이는 모델을 생성한다.
제품 마케팅 매니저 카티 워샤버(Karthie Warshauer)는 로이터(Reuters)에 말했다. "이 오픈소스를 만든 전체적인 동기 중 하나는 개발자와 연구자들이 모델 작동 방식을 이해하는 것이다." 그는 "업계 전체가 이 모델의 성능을 평가하는 표준화된 방법을 내놓기 위한 것"이라고 덧붙였다.
이러한 발표를 통해 엔비디아는 오픈소스 AI를 새로운 차원으로 끌어올리고 있다. 연구자, 개발자, 자율 시스템 혁신가 모두에게 힘을 실어주는 도구를 제공하고 있다. 엔비디아의 노력은 Artificial Analysis(아티피셜 애널리시스)에서 인정을 받았다. 엔비디아의 Nemotron 제품군은 AI 생태계에서 가장 개방적인 제품군 중 하나로 평가받았다.