MolmoAct 2는 Ai2가 개발한 오픈 멀티모달 AI 모델로, 시각과 행동을 결합합니다. 이미지를 이해하고, 지시를 따르며, 디지털 및 물리적 환경에서 작업을 수행하여 자율 에이전트 및 로보틱스 연구를 가능하게 합니다.
Free
사용 방법 MolmoAct 2?
MolmoAct 2는 연구자와 개발자가 시각 데이터를 해석하고 작업을 실행하는 AI 에이전트를 구축하는 데 사용될 수 있습니다. GUI 상호작용 자동화, 시각적 단서를 통한 로봇 제어, 이미지와 명령을 모두 학습하는 시스템 생성 등 인식과 행동 간의 격차를 해소하는 문제를 해결합니다.
MolmoAct 2 의 주요 기능
투명한 연구와 맞춤화를 위해 시각 및 행동 기능을 결합한 오픈소스 멀티모달 모델.
복잡한 시각적 장면을 이해하고 자연어 지시를 따라 작업을 수행합니다.
다양한 응용을 위해 디지털 환경(예: 웹 인터페이스)과 물리적 로봇을 모두 지원합니다.
Ai2의 오픈 우선 원칙을 기반으로 구축되어 글로벌 연구 커뮤니티의 접근성을 보장합니다.
인터페이스를 탐색하고, 객체를 조작하며, 다단계 계획을 실행할 수 있는 자율 에이전트를 가능하게 합니다.