새로 개조 된 Genie 3은 텍스트 문의에서 가상 환경을 만들 수 있습니다.

Lee Hana 이하나 Aug 05, 2025 Aug 05, 2025 1 min read

Google Deepmind는 오늘날 간단한 텍스트 지침에서 몰입되고 대화식 가상 환경을 생성 할 수있는 새로운 “전세계”범용 인 Genie 3을 발표했습니다. Genie 3은 초당 720p 및 24 프레임 해상도의 실시간 내비게이션을 지원하여 몇 분 동안 시각적으로나 물리적으로 일관된 세계를 생성합니다. 대조적으로, 그의 전임자 인 Genie 2는 해상도에서 10 초에서 20 초의 짧은 상호 작용 만 지원했습니다.

“세계 이벤트에서 벗어나”라는 기능을 통해 사용자는 한 세대 후에 장면을 조정할 수 있습니다. 비, 동물 산란 또는 비행 중에 품목 소개와 같은 시간 효과를 추가합니다. Genie 3은 변화하고 민감한 환경에서 정적 세계에서 변형되어 연구에 이상적입니다. Google의 블로그 게시물에 표시된 클립은 인상적인 실제 장면을 보여줍니다.

Deepmind는 Genie 3을 화신 AI 요원 (환경과 의사 소통하는 로봇 및 가상 어시스턴트)의 기본으로 간주합니다. 연구 책임자 인 Shlomi Fruchter는 창고 제작을위한 시뮬레이션 에이전트 또는 다음 복잡한 지침과 같은 작업에 적합한 모델 “최초의 대화식 세계 모델”이라고 불렀습니다. 현재 Genie 3은 소규모 학자 및 제작자 그룹으로 제한된 연구에 대한 통제 된 조사로 묘사되어 Deepmind에게 보안 편견을 평가하고 기회를 지정할 수있는 기회를 제공합니다.

Genie 3은 탐색, 수정 및 기억할 수있는 세계를 생성 할 수있게하는 Genie 3은 실제 구체화 된 AI를 향해 단계를 취합니다. 실제 세계에서 행동하기 전에 추론, 실험 및 계획을 세울 수 있습니다. 연구원 AGI에게는 강력한 새로운 도구입니다. 최종 사용자, 특히 게임의 교사 및 디자이너의 경우 Genie 3은 새로운 기회를 열어줍니다. 예를 들어, 교육자들은 그것을 사용하여 몰입 된 교육 환경을 만들 수 있습니다. 게임 아티스트와 개발자는 즉시 레벨, 캐릭터 또는 시나리오를 프로토 타입 할 수 있습니다. 그리고 매일 사용자는 뉴질랜드의 말이든 바다를 보든 간단한 설명에서 개인화 된 가상 공간을 만들어 상상력을 탐구 할 수 있습니다. 실시간 문의에서 모델링 모델은 디지털 창의성, 스토리 텔링 또는 대화식 학습에 관심이있는 사람을위한 강력한 도구입니다.

“오늘 우리는 전례없는 다양한 대화식 환경을 만들 수있는 범용 모델 인 Genie 3을 발표합니다. 텍스트 문의를 감안할 때 Genie 3은 초당 24 프레임으로 실시간으로 움직일 수있는 역동적 인 세계를 생성하여 720p 해상도로 몇 분을 유지할 수 있습니다.” “Google Deepmind에서, 개방형 학습 및 로봇 공학을위한 시뮬레이션 된 환경을 개발하기 위해 훈련 에이전트에서 실시간 전략 게임에 이르기까지 수십 년 동안 시뮬레이션 된 환경에서의 선구적인 연구를 개척했습니다.이 작업은 AI 시스템의 개발에 동기를 부여했습니다.

DeepMind는 이미 Genie 3을 사용하여 가상 창고의 특정 객체에 대한 탐색과 같은 여러 단계 작업을 수행 한 SIMA 에이전트 (확장 가능한 유도 가능 다중 버드 에이전트)를 훈련 시켰습니다. 세계 모델은 목표를 “알지 못했지만”SIMA는 독립적 인 시뮬레이션을 계획함으로써 성공을 거두었습니다. 그러나 제한은 여전히 남아 있습니다. 에이전트의 범위는 여전히 좁아지고 시뮬레이션의 지속 시간은 몇 분으로 제한되며 여러 에이전트 간의 모델링 상호 작용은 여전히 어려운 일입니다. 또한 쿼리에 명시 적으로 포함되지 않는 한 환경 내의 텍스트 표시는 부정확합니다.

참조