Forge Agent는 NVIDIA GPU 커널 개발을 위해 특별히 설계된 AI 기반 코드 편집기이자 최적화 도구입니다. 실시간 프로파일링, 자동화된 벤치마킹, 하드웨어 인식 AI 제안을 통합하여 CUDA, Triton, PyTorch 코드 생성과 최대 성능을 위한 최적화를 간소화합니다.
Freemium
사용 방법 Forge Agent?
Forge Agent는 특수화된 IDE로 개발 워크플로에 통합됩니다. CUDA, Triton 또는 PyTorch 코드를 작성하면 이 도구는 인라인 성능 메트릭과 AI 제안을 제공합니다. 프로파일링 터미널을 사용해 병목 현상을 식별하고, 다양한 GPU 구성에서 자동으로 벤치마킹하며, AI를 활용해 최적화된 커널 코드를 생성하거나 A100, H100과 같은 특정 GPU 아키텍처에 맞게 기존 구현을 리팩터링할 수 있습니다.
Forge Agent 의 주요 기능
GPU 커널 코드를 입력하는 동안 실시간 인라인 성능 프로파일링 및 메트릭 표시를 제공하는 AI 기반 코드 편집기입니다.
특정 GPU 아키텍처(예: A100, H100)를 이해하고 그 코어와 메모리 계층 구조에 맞춤화된 최적화 제안을 제공하는 하드웨어 인식 AI입니다.
자동화된 벤치마킹 및 구성 검색으로 여러 GPU 설정에서 블록 크기, 스레드 수, 메모리 레이아웃을 테스트하여 가장 빠른 구현을 찾습니다.
개발자가 실제 하드웨어를 소유하지 않고도 50종 이상의 다양한 GPU 아키텍처(예: H100, A100)에서 커널을 테스트하고 프로파일링할 수 있는 GPU 에뮬레이터로, 오차율은 2% 미만입니다.
평범한 영어로 프로파일링하고 싶은 내용을 설명하면 도구가 즉시 정확하고 복잡한 Nsight Compute 명령어를 생성하는 자연어 프로파일링 인터페이스입니다.
프라이버시를 위한 로컬 LLM 지원으로, Ollama 또는 vLLM을 통해 로컬에서 실행되는 모델을 사용한 코드 분석 및 제안이 가능하여 귀사의 독점 코드가 기기를 벗어나지 않도록 보장합니다.
실시간 GPU 메트릭을 표시할 뿐만 아니라 성능 문제를 진단하고 커널 효율성을 개선하기 위한 구체적인 해결책을 제안하는 스마트 프로파일링 터미널입니다.
Forge Agent 의 사용 사례
GPU 커널 개발자는 성능 저하에 대한 즉각적인 피드백과 AI 지원 리팩터링으로 CUDA/C++ 코드를 신속하게 프로토타이핑하고 최적화할 수 있습니다.
대규모 모델을 학습하는 ML 엔지니어는 다중 GPU 비교 및 에뮬레이터를 사용하여 PyTorch 데이터 파이프라인과 맞춤형 레이어가 목표 배포 하드웨어에 최적화되었는지 확인할 수 있습니다.
고성능 컴퓨팅 연구자는 수백 가지 커널 구성을 자동으로 검색하여 새로운 GPU 아키텍처에서 새로운 알고리즘에 대한 최적의 설정을 찾을 수 있습니다.
하드웨어 인식 AI 개발자는 특정 GPU 사양(텐서 코어, 메모리 대역폭)에 대한 도구의 이해를 활용하여 최대 처리량을 위해 커널을 수동 또는 자동으로 튜닝할 수 있습니다.
GPU 클러스터를 관리하는 DevOps 엔지니어는 데이터센터 전체 최적화를 위한 엔터프라이즈 기능을 사용하여 대규모 배포에서 일관된 성능을 보장할 수 있습니다.
Forge Agent 의 가격
FREE
$0/mo
개인 개발자를 위한 플랜입니다. 단일 GPU 개발, 무제한 프로파일링 및 벤치마킹, CodeLens 메트릭, GPU 가상화, 로컬 LLM 지원, 월 1 Forge 크레딧이 포함됩니다.
PRO
$29/mo
전문 팀을 위한 플랜입니다. Free 플랜의 모든 기능에 더해, GPU 에뮬레이터 접근(50종 이상 GPU), 다중 GPU 비교(최대 6개), 자연어 프로파일링, 월 1000 AI 에이전트 크레딧, 무제한 자동완성, GPU 최적화 제안, 우선순위 이메일 지원이 포함됩니다.
ENTERPRISE
Custom Pricing
대규모 조직을 위한 플랜입니다. Pro 플랜의 모든 기능에 더해, 100개 이상의 GPU 클러스터, 데이터센터 최적화, 온프레미스 배포, 맞춤형 실리콘 지원, 무제한 Forge 크레딧, 맞춤형 모델 파인튜닝, 전담 지원팀, 24/7 SLA, 99.95% 가동 시간 보장이 포함됩니다.
FORGE CLI (Pay-as-you-go)
From $112.50 for 10 credits
AI 기반 커널 최적화를 위한 에이전트 크레딧입니다. 성능이 torch.compile을 능가하지 않을 경우 크레딧이 환불됩니다. 데이터센터 GPU 접근, 고속 추론 스케일링, 32개 병렬 스웜 에이전트, 고급 커널 데이터베이스 검색이 포함됩니다.