디지오 인프라

AI 모델 및 GPU

지금 관리형 프론티어 모델에서 에이전트를 실행하거나 GPU 용량을 임대하고, 자체 가중치를 배포하고, Digio 작업을 동일한 작업 공간의 프라이빗 엔드포인트로 라우팅하세요.

클로드, GPT, 제미니 에이전트별 모델 선택 GPU 임대 및 BYOM
관리형 모델

현재 Digio에서 사용 가능한 모델

에이전트별로 기본 모델을 할당하거나 작업별로 재정의합니다. 사용량은 에이전트가 Sonnet, GPT-4o 또는 Gemini Flash를 호출하든 동일한 지갑인 계획 잔액에서 Digio 토큰으로 측정됩니다.

인류애적인 클로드

  • Claude Opus 4.7 주요 추론, 긴 맥락, 아키텍처 및 전략 작업.
  • Claude Opus 4.6 안정적인 고품질 분석을 위한 이전 세대 Opus입니다.
  • Claude Sonnet 4.6 일일 드라이버 - 코딩, 쓰기 및 다단계 에이전트 루프.
  • Claude Sonnet 4.5 / 4 지원되는 워크로드에 대한 즉각적인 캐싱을 갖춘 Fast Sonnet 계층.
  • Claude Haiku 4.5 지연 시간이 짧은 초안, 분류 및 대용량 하위 작업.

오픈AI

  • GPT-5.5 / GPT-5.4 / GPT-5.2 일반 및 에이전트 워크로드를 위한 최신 GPT-5 제품군입니다.
  • GPT-4.1 & GPT-4o 프로덕션 에이전트를 위한 안정적인 다중 모드 채팅 및 도구 사용.
  • GPT-4o mini 요약 및 간단한 단계를 위한 비용 효율적인 라우팅입니다.
  • o3 / o3-pro / o3-mini / o4-mini 수학, 계획, 검증을 위한 추론 중심 모델입니다.
  • GPT-5.3 Codex & Codex mini 코드 생성, 리팩터링 및 리포지토리 인식 에이전트 기술.

구글 제미니

  • Gemini 2.5 Pro 장기 상황 조사 및 구조화된 추출.
  • Gemini 2.5 Flash 경쟁력 있는 토큰 요율로 처리량이 높은 에이전트 단계입니다.
  • Gemini 2.0 Flash 구문 분석, 태그 지정 및 일괄 작업을 위한 초고속 패스입니다.

개방형 및 전문 API

  • DeepSeek Chat & Reasoner 채팅 및 사고방식 스타일 작업에 대한 강력한 가치.
  • Mistral Large 다국어 상담사 팀을 위한 유럽 호스팅 옵션입니다.
  • Llama 3.3 70B API를 통한 개방형 가중치 클래스 모델 - 프라이빗 GPU와 잘 어울립니다.
  • Grok 3 뉴스 및 소셜 모니터링 에이전트를 위한 실시간 지향 모델입니다.
  • Sonar Pro 연구 대리인을 위한 검색 기반 답변.
  • Command R+ RAG 친화적인 기업 채팅 및 검색 작업 흐름.

Model list and token economics evolve with provider releases. Your workspace shows live options when you assign a model to an agent; Digio Tokens debit from the same balance as in pricing.

용법

상담원이 모델을 선택하는 방법

코디네이터는 작업 유형에 따라 Sonnet, Opus 및 더 저렴한 플래시 모델을 추천할 수 있습니다. 고급 사용자는 Sonnet에 대한 연구, Opus에 대한 최종 검토, Haiku 또는 Gemini Flash에 대한 대량 태그 지정 등 상담원 역할별로 기본값을 설정합니다.

  • Per agent — default model in agent settings; override in To do or chat when needed.

  • Metered fairly — input, output, and cached tokens map to Digio Token charges (see usage in your wallet).

  • Skills stay the same — tools and integrations work across models; only latency and cost profile change.

  • Plan limits — more agents and monthly Digio Tokens on higher tiers; top up anytime on the pricing page.

GPU 임대

GPU를 임대하고 자신만의 모델을 실행해보세요

미세 조정, 에어갭 체크포인트 또는 예측 가능한 추론 가격이 필요합니까? Digio 작업 공간에 전용 GPU 용량을 추가하고, 원하는 서비스 스택을 설치하고, 프라이빗 엔드포인트에 에이전트를 지정하세요.

전용 인스턴스

테넌트에 연결된 시간별 또는 월별 GPU 노드(A100, H100, L40S 클래스) - 다른 고객과 격리됩니다.

당신의 체중

safetensors, GGUF를 업로드하거나 레지스트리에서 가져옵니다. Llama, Mistral, Qwen 및 맞춤형 미세 조정을 실행하세요.

표준 게재

유지 관리하는 vLLM, TGI, Ollama 또는 컨테이너 이미지 - Digio 에이전트는 OpenAI 호환 기본 URL을 호출합니다.

동일한 오케스트레이션

이를 위해서는 팀 채팅, 기술 및 협업이 변경되지 않습니다. 추론 백엔드만 귀하의 것입니다.

하이브리드 라우팅

민감한 단계를 비공개 GPU로 보내고 Claude 또는 GPT를 사용하여 하나의 워크플로에서 공개 연구를 수행하세요.

엔터프라이즈 제어

규제 대상 팀을 위한 VPC 피어링, 정적 송신, 감사 로그 및 모델 허용 목록.

자신의 모델을 가져와

커스텀 모델 설치 및 연결

0부터 엔드포인트를 호출하는 에이전트까지의 일반적인 설정:

  1. GPU 예약

    VRAM, 지역 및 가동 시간(버스트 대 상시 켜짐)을 선택합니다. 무게를 위한 스토리지는 인스턴스와 함께 배송되거나 버킷에 마운트됩니다.

  2. 스택 배포

    제공 이미지 또는 SSH를 시작하고 CUDA 드라이버를 설치하고 체크포인트를 로드합니다. 상태 확인을 통해 모델이 준비되었는지 확인합니다.

  3. 엔드포인트 등록

    작업공간 설정에 기본 URL, API 키, 모델 ID를 추가하세요. Digio는 라이브로 전환하기 전에 대기 시간과 토큰 형식을 검증합니다.

  4. 상담원에게 할당

    선택한 에이전트의 기본값으로 개인 모델을 선택하세요. 관리형 Claude/GPT 모델은 계속해서 나란히 사용할 수 있습니다.

GPU 임대 비용은 Digio 요금제 구독과 별도로 청구됩니다. 용량 계획, SLA, 기존 추론 클러스터에서의 마이그레이션에 대해서는 당사에 문의하세요.

B2B SaaS 웹사이트 UI 라벨. natural ko로 번역: FAQ

모델 및 GPU 질문

Digio에서 관리형 API와 자체 호스팅 추론을 선택합니다.

요금제와 API를 두 번 지불해야 합니까?

Digio 구독에는 인프라, 에이전트 및 포함된 Digio 토큰이 포함됩니다. 관리형 모델 사용량은 실제 입력/출력 토큰을 기준으로 토큰 균형을 차감합니다. GPU 임대는 귀하가 제어하는 ​​시스템에 대한 추가 기능입니다.

에이전트마다 서로 다른 모델을 사용할 수 있나요?

예. 각 에이전트에는 고유한 기본값이 있을 수 있습니다. 전역 기본값을 변경하지 않고 단일 실행에 대해 작업 및 채팅을 재정의할 수 있습니다.

소네트와 Opus의 차이점은 무엇입니까?

Opus는 더 어려운 추론과 더 오랫동안 일관된 계획을 위해 조정되었습니다. Sonnet은 일상적인 에이전트 루프에 대해 더 빠르고 저렴합니다. 하이쿠 및 플래시 클래스 모델은 볼륨 하위 작업에 가장 적합합니다.

자체 모델만 실행하고 클라우드 API를 차단할 수 있나요?

엔터프라이즈 작업 영역은 아웃바운드 모델 공급자를 제한하고 모든 에이전트 트래픽을 GPU 엔드포인트로 라우팅할 수 있습니다. 하이브리드 모드는 대부분의 팀에서 기본값입니다.

어떤 GPU 크기를 사용할 수 있나요?

제품은 지역과 수요에 따라 다릅니다. 일반적으로 7B~70B 클래스 모델의 경우 24~80GB VRAM 계층이고 더 큰 스택의 경우 다중 GPU 노드입니다. 매개변수 수와 양자화를 통해 VRAM 크기를 조정하는 데 도움을 드립니다.

개인 GPU 사용량은 여전히 ​​Digio 토큰을 소비합니까?

오케스트레이션(에이전트, 작업, 스토리지)은 계획대로 유지됩니다. GPU에 대한 추론은 GPU 시간으로 청구됩니다. 내부 지불 거절을 위해 선택적으로 토큰 형태의 사용량을 측정할 수 있습니다.

관리형 모델을 선택하거나 GPU를 가져오세요

지금 Claude와 GPT를 시작하고, 동일한 에이전트, 동일한 작업, 추론 등 사용자 지정 가중치를 호스팅할 준비가 되면 전용 GPU를 추가하세요.