Forge CLI는 NVIDIA GPU 커널 개발을 위해 특별히 설계된 AI 기반 코드 편집기 및 최적화 도구입니다. 스마트 프로파일링, 자동화된 벤치마킹, 하드웨어 인식 AI 제안을 통합하여 CUDA, Triton 및 PyTorch 코드를 최고 성능으로 작성, 테스트, 최적화하는 과정을 획기적으로 가속화합니다.
Freemium
사용 방법 Forge CLI?
Forge CLI를 설치하고 개발 워크플로우에 통합하세요. 편집기에서 GPU 커널 코드(CUDA, Triton, PyTorch)를 작성하세요. AI가 타이핑하는 동안 인라인 성능 메트릭과 제안을 제공합니다. 프로파일링 터미널을 사용해 병목 현상을 분석하고, 다양한 GPU 구성에서 자동으로 벤치마킹하며, 실제로 소유하지 않은 하드웨어를 에뮬레이션하여 호환성과 성능을 테스트하세요.
Forge CLI 의 주요 기능
인라인 프로파일링 및 메트릭: 별도의 프로파일링 실행 없이도 코드 편집기에서 타이핑하는 동안 실행 시간, 메모리 사용량, 점유율과 같은 커널 성능 메트릭을 바로 확인하세요.
하드웨어 인식 AI: AI는 특정 GPU 아키텍처(A100, H100 등)를 이해하고 메모리 레이아웃, 블록 크기, 정밀도를 포함하여 사용자의 정확한 하드웨어에 맞춤화된 최적화 제안을 제공합니다.
GPU 에뮬레이터: 실제 물리적 하드웨어가 없어도 2% 미만의 오차로 50종 이상의 다양한 GPU 아키텍처(H100, A100 등)에서 커널을 테스트하여 광범위한 호환성 테스트를 가능하게 합니다.
로컬 LLM 지원: Ollama, vLLM 또는 LM Studio를 통해 AI 모델을 로컬에서 실행하여 독점 코드를 완전히 비공개로 유지하고 기기를 벗어나지 않도록 하여 데이터 보안을 보장합니다.
자동화된 벤치마킹 및 스위핑: 가장 빠른 설정을 찾기 위해 다양한 구성(블록 크기, 스레드 수, 메모리 레이아웃)을 자동으로 탐색하고 시간 경과에 따른 성능 회귀를 추적합니다.
자연어 프로파일링: 평범한 영어로 프로파일링하고 싶은 내용을 설명하면 Forge CLI가 즉시 올바르고 복잡한 Nsight Compute 명령어를 생성하여 플래그를 외울 필요가 없습니다.
멀티 GPU 비교 및 분석: 여러 GPU에서 동시에 커널 성능을 비교(Pro에서는 최대 6개, Enterprise에서는 무제한)하여 워크로드에 가장 적합한 하드웨어를 식별하고 규모에 맞게 최적화하세요.
Forge CLI 의 사용 사례
GPU 커널 개발자: 즉각적인 피드백과 AI 기반 제안을 제공하여 고성능 CUDA 및 Triton 커널의 개발과 최적화를 가속화하고 디버깅 시간을 수 시간에서 수 분으로 단축합니다.
ML 엔지니어 및 연구원: 특정 GPU 하드웨어에 맞게 PyTorch 모델 훈련 및 추론 루프를 최적화하고, 혼합 정밀도, 커널 퓨전, 메모리 관리 개선 사항을 자동으로 제안하여 실험 속도를 높입니다.
하드웨어 검증 엔지니어: GPU 에뮬레이터를 사용하여 하드웨어를 사용 가능하거나 구매하기 전에 광범위한 NVIDIA 아키텍처에서 소프트웨어 호환성과 성능을 테스트하여 배포 위험을 줄입니다.
HPC 애플리케이션 개발자: 멀티 GPU 설정에서 복잡한 과학 컴퓨팅 애플리케이션을 프로파일링 및 벤치마킹하고 병목 현상을 식별하며 데이터센터 규모 배포를 효율적으로 최적화합니다.
AI 인프라 팀: 맞춤형 AI 모델과 프레임워크가 특정 데이터센터 GPU 플릿(H100 클러스터 등)에 최적으로 조정되도록 보장하여 고가의 하드웨어 활용도와 ROI를 극대화합니다.
학생 및 교육자: 실시간 피드백과 설명으로 GPU 프로그래밍을 배울 수 있는 접근성 높은 통합 환경을 제공하여 병렬 컴퓨팅 개념에 대한 진입 장벽을 낮춥니다.
Forge CLI 의 가격
FREE
$0/mo
개인 개발자를 위한 플랜입니다. 단일 GPU 개발, 무제한 프로파일링 및 벤치마킹, CodeLens 성능 메트릭, GPU 가상화, 로컬 LLM 지원, 월 1 Forge 크레딧이 포함됩니다.
PRO
$29/mo
전문 팀을 위한 플랜입니다. Free 플랜의 모든 기능에 GPU 에뮬레이터 접근(50종 이상 GPU), 멀티 GPU 비교(최대 6개), 자연어 프로파일링, 월 10 Forge 크레딧, 무제한 자동완성, GPU 최적화 제안, 우선순위 이메일 지원이 추가됩니다.
ENTERPRISE
Custom Pricing
대규모 조직을 위한 플랜입니다. Pro 플랜의 모든 기능에 100개 이상의 GPU 클러스터, 데이터센터 최적화, 온프레미스 배포, 맞춤형 실리콘 지원, 무제한 Forge 크레딧, 맞춤형 모델 파인튜닝, SLA 기반 전담 24/7 지원이 추가됩니다.
PAY AS YOU GO
from $112.50
AI 기반 커널 최적화를 위한 에이전트 크레딧입니다. 성능이 torch.compile(mode='max-autotune')을 능가하지 않을 경우 크레딧이 환불됩니다. 데이터센터 GPU(B200, H100, H200) 접근이 포함됩니다.