Runway 2.0 개선 기획안

01 — PROBLEM DEFINITION

문제 정의

Runway 2.0의 주요 기능을 실제 사용자 관점에서 검토하여 보완이 필요한 3가지 핵심 영역을 도출했습니다.

P0 — CRITICAL

카탈로그가 "서비스 선택 도구"가 아닌 "Helm Chart 문서 뷰어"

현상

카탈로그 상세 페이지가 Helm Chart의 GitHub README를 그대로 렌더링합니다. "Kubernetes Chart for Chroma AI application database"라는 제목, helm repo add 설치 명령어, values.yaml 설정 예시, Chart Configuration Values 테이블 등 인프라 엔지니어 대상의 기술 문서가 사용자(ML 엔지니어, 데이터 사이언티스트)에게 그대로 노출됩니다.

사용 예시 — 벡터 DB 선택 시나리오

ML 엔지니어 김 연구원이 RAG 파이프라인을 위한 벡터 DB를 선택하려 합니다. 카탈로그에는 Chroma DB, Milvus, Qdrant 3개가 나열되어 있으나:

세 제품의 차이점 비교가 불가능 — 각각 클릭해서 Helm README를 읽어야 함
Milvus와 Qdrant의 설명이 동일 — "Cloud-native vector database built for scalable similarity search and AI applications"
각 DB가 어떤 상황에 적합한지, 성능/비용/기능 트레이드오프 정보가 전무
결국 개인 리서치에 2~3시간 소요 후에야 기술 선택 가능

구체적 문제점

아이콘·시각적 구분 없음 — 6개 카드가 모두 동일한 흰색 박스에 텍스트만 존재
카테고리·태그 미지원 — 벡터DB 3개, 개발도구 2개, 워크플로우 도구 1개가 평면적으로 나열
상태 정보 없음 — 서비스 가용 여부, 현재 버전, 리소스 요구사항 표시 없음
"+ 애플리케이션 생성" 버튼의 기대값 불명 — 누르면 무엇이 생기는지, 얼마나 걸리는지, 비용은 얼마인지 사전 정보 없음
WARNING 무맥락 표시 — "Chroma 1.0.0-1.0.10은 인증 미지원"이라는 경고가 있으나, 현재 제공 버전과의 관계 설명 없음

P1 — HIGH

모델 서빙의 경직된 아키텍처

현상

추론 엔드포인트에서 서빙 런타임(Triton/MLServer)을 생성 후 변경할 수 없고, 트래픽 분배 시 모든 모델 이름을 default로 통일해야 하는 제약이 있습니다. A/B 테스트, 카나리 배포, 섀도우 테스트 등 프로덕션 필수 기능이 빠져 있습니다.

사용 예시 — 모델 업데이트 시나리오

이상 탐지 모델을 XGBoost(MLServer)로 서빙 중, PyTorch 모델로 교체하려 합니다.

런타임 변경 불가 → 기존 엔드포인트 삭제 후 Triton으로 재생성 필요
재생성 동안 서비스 다운타임 발생
새 모델을 10% 트래픽으로 먼저 테스트하고 싶지만 → 카나리 배포 미지원
기존/신규 모델 성능을 실시간 비교하고 싶지만 → A/B 테스트 미지원
결국 "빅뱅 배포"(한 번에 전환)만 가능 → 장애 위험 감수

구체적 문제점

런타임 락인 — 초기 선택이 영구 고정. 모델 프레임워크 변경 시 엔드포인트 재생성 필수
모델명 통일 강제 — 트래픽 분배 시 모든 모델을 default로 명명해야 함. 모델 식별·관리 어려움
점진적 배포 불가 — 카나리, 블루-그린, 롤링 업데이트 등 안전한 배포 전략 미지원
오토스케일링 부재 — Scale-to-zero(비용 절감), 트래픽 기반 자동 스케일링 미지원
추론 그래프 미지원 — 전처리→모델→후처리 파이프라인 구성 불가

P1 — HIGH

모니터링이 "현황판"에 머물러 있음

현상

모니터링 페이지에서 CPU·메모리·스토리지·GPU의 할당률과 사용 추이를 볼 수 있으나, 알림·비용 추적·모델 성능 모니터링이 전혀 없어 문제를 사후에만 인지할 수 있습니다.

사용 예시 — GPU 리소스 고갈 시나리오

15개 GPU 중 14개가 할당된 상태에서 신규 학습 작업을 제출합니다.

GPU 할당률이 93%인데 알림이 오지 않음 — 관리자가 수시로 모니터링 페이지를 확인해야 함
어떤 프로젝트/사용자가 GPU를 많이 쓰는지 프로젝트별 breakdown 미제공
유휴 GPU(할당은 됐지만 실제 사용률 0%)를 식별할 수 없음
월별 GPU 사용 비용을 팀/프로젝트별로 배분할 수 없음 (FinOps 불가)
추론 엔드포인트의 지연 시간, 에러율, 모델 성능 드리프트 모니터링 불가

구체적 문제점

알림 시스템 부재 — 리소스 임계치 도달, 서비스 장애, 성능 저하에 대한 알림 없음
비용 가시성 제로 — GPU 시간, 스토리지, 네트워크 등 리소스 비용 추적·배분 불가
모델 특화 메트릭 없음 — 추론 지연, 처리량, 에러율, 데이터 드리프트 등 ML 운영 필수 지표 미제공
애플리케이션별 상세 뷰 없음 — 워크스페이스 전체 집계만 보임, 개별 워크로드 분석 불가
히스토리 분석 부족 — 최대 1주일 추이만 제공, 장기 용량 계획 어려움

02 — MARKET ANALYSIS

시장 조사 내역

Runway와 직접 경쟁하는 ML 플랫폼 6개 제품의 기능 제공 현황을 분석했습니다.

경쟁 제품 포지셔닝

🔵 Kubeflow (Google/CNCF)

오픈소스 E2E ML 플랫폼. 파이프라인 중심. 커스터마이징 자유도 최고, 진입 장벽 최고

🟢 Run:ai (NVIDIA 인수)

GPU 오케스트레이션 특화. Fractional GPU(분할)로 활용률 2~3배 향상. GPU FinOps 선두

🟣 Domino Data Lab (Enterprise)

엔터프라이즈 MLOps. 모델 거버넌스, 환경 마켓플레이스, 비용 추적. Fortune 100 고객 다수

🟡 BentoML (OSS + Cloud)

모델 서빙 특화. Python 데코레이터로 서빙 시작, Adaptive Batching, LLM 최적화

🔴 Seldon Core (K8s Native)

K8s 모델 서빙. Multi-Armed Bandit A/B 테스트, 추론 그래프, Alibi Detect 드리프트 감지

⚪ Backstage (Spotify/CNCF)

개발자 포털 표준. Software Catalog, Golden Path 템플릿, 200+ 플러그인 생태계

카탈로그 UX 베스트 프랙티스 — 업계 선두 제품 분석

🚀

AWS SageMaker JumpStart

300+ 모델을 카드 레이아웃으로 표시. 모델명, 제공자 로고, 프레임워크 아이콘, 태스크 태그가 카드에 직접 노출. "Deploy" 버튼이 카드 위에 바로 있어 2클릭으로 엔드포인트 생성. 상세 페이지에서 인스턴스 유형 선택 시 예상 비용/시간이 즉시 표시됨.

🌐

Google Vertex AI Model Garden

3단 분류: Foundation Models / Fine-tunable / Task-specific. 좌측에 다중 필터(Modality, Task, Publisher, License). 일부 모델에 인라인 "Try it" 플레이그라운드가 카드에 내장되어 즉시 테스트 가능. "Deploy" / "Open in Studio" / "Open Notebook" 3가지 진입점을 숙련도별 제공.

📦

Domino Data Lab Environments

Global(관리자 공인) vs Custom(사용자 정의) 탭 분리. 관리자 지원 환경에 "Supported" 녹색 뱃지 표시. 환경 선택이 프로젝트 생성 워크플로우에 통합. Docker 이미지 빌드 히스토리로 버전 간 diff 확인 가능. "Domino Standard Environment"가 기본값으로 즉시 시작 가능.

비교 1 — 서비스 카탈로그 / 마켓플레이스

제품	카탈로그 유형	시각적 구분	비교·추천	온보딩 위자드	성숙도
Runway 2.0	Helm Chart README 뷰어	없음	없음	없음	낮음
SageMaker JumpStart	300+ 모델, 카드+Deploy 버튼 내장	로고+아이콘+태그	유스케이스+비용 표시	2-click 배포	최고
Vertex AI Model Garden	3단 분류 + 다중 필터	모달리티 아이콘	인라인 Try it	3가지 진입점	최고
Backstage	Software Catalog + 관계 그래프	있음	플러그인	Golden Path	높음
Domino	Environment Marketplace + Project Hub	Supported 뱃지	Quick Start	프로젝트 위자드	높음
Kubeflow	파이프라인 컴포넌트 (YAML)	없음	없음	없음	낮음

비교 2 — 모델 서빙 역량

제품	A/B 테스트	카나리 배포	오토스케일링	Scale-to-Zero	런타임 변경	추론 그래프
Runway 2.0	미지원	미지원	미지원	미지원	불가	미지원
Seldon Core	MAB 자동최적화	지원	커스텀 메트릭	외부 연동	가능	DAG 지원
KServe	지원	트래픽 % 지정	Knative 기반	네이티브	가능	지원
BentoML	코드 레벨	BentoCloud	Adaptive Batch	지원	프레임워크 무관	Runner 체인
Domino	챔피언/챌린저	지원	HPA 기반	부분	가능	미지원

비교 3 — 모니터링 / 옵저버빌리티

제품	인프라 메트릭	모델 드리프트	알림	비용 추적	특화 기능
Runway 2.0	기본	없음	없음	없음	—
Domino	자체 제공	내장	Slack/PD	모델 ROI	바이어스/공정성 모니터링
Run:ai	GPU 특화	없음	기본	GPU FinOps	GPU 활용률 vs 할당률 분석
Seldon	Prometheus	Alibi Detect	자체+연동	없음	이상치/적대적 공격 감지
BentoML	OTLP 네이티브	외부 연동	BentoCloud	부분	OpenTelemetry 표준 지원

비교 4 — 온보딩 UX / FinOps

제품	첫 방문 가이드	인앱 튜토리얼	비용 추적	비용 최적화 추천
Runway 2.0	없음	없음	없음	없음
Datadog	체크리스트+진행률	Guided Walkthrough	사용량 대시보드	부분
Vercel	3단계 위자드	What's Next 카드	프로젝트별	부분
Domino	Quick Start 프로젝트	프로젝트 위자드	실행 단위 비용 태깅	유휴 자동 종료
Run:ai	UI 위자드	부분	GPU-hours 차지백	유휴 GPU 감지
Kubecost (통합)	설치 가이드	없음	Pod별 실시간 비용	Efficiency Score

온보딩 UX 모범 사례 — Datadog & Vercel

🐕

Datadog — Getting Started 체크리스트

첫 로그인 시 중앙에 체크리스트 대시보드 표시. Agent 설치→첫 메트릭→대시보드 생성→알림 설정 순서. 각 단계에 예상 소요 시간(2분, 5분)이 표시됨. 완료 시 진행률 바 업데이트. 현재 페이지에 맞는 가이드를 자동 추천하는 Learning Center가 우하단에 상주. 컨텍스트 툴팁으로 새 기능 출시 시 해당 UI 요소에 파란 점 표시.

▲

Vercel — 자동 감지 위자드

Git 연결→리포 선택→Framework 자동 감지(package.json 분석)→Deploy 3단계. 빌드 명령어와 출력 디렉토리가 자동 설정됨. 첫 배포 후 "What's Next?" 카드로 도메인 연결→환경변수→Analytics 순서 안내. 에러 시 "Learn how to fix this" 링크가 인라인으로 포함.

핵심 인사이트: Runway는 현재 모든 비교 항목에서 경쟁 제품의 최소 수준에도 미치지 못합니다. 특히 모델 서빙 영역에서 경쟁 제품들이 이미 표준으로 제공하는 카나리 배포, 오토스케일링, A/B 테스트를 전혀 지원하지 않아 엔터프라이즈 고객 확보에 심각한 장벽이 됩니다. 카탈로그 UX는 SageMaker JumpStart의 "2클릭 배포", Vertex AI의 "인라인 Try it"과 비교하면 세대 차이 수준의 격차가 존재합니다. 온보딩과 FinOps 영역도 Datadog/Vercel의 인터랙티브 가이드, Run:ai/Kubecost의 GPU FinOps와 비교해 기능 자체가 부재한 상태입니다.

03 — SOLUTIONS

솔루션 제시

시장 조사를 기반으로 경쟁 제품 대비 차별화할 수 있는 3가지 전략과 구체적 사용자 시나리오를 제시합니다.

SOLUTION 01

지능형 서비스 카탈로그 — "Smart Catalog"

Helm README 뷰어에서 의사결정 지원 도구로 전환. Backstage의 Software Catalog + Domino의 Environment Marketplace를 결합하되, ML 워크로드에 특화된 추천 엔진으로 차별화합니다.

차별화 전략

Backstage는 범용 개발자 포털이고, Domino는 환경 선택에 초점합니다. Runway는 "ML 유스케이스 기반 추천"이라는 고유 가치를 제공합니다. 사용자가 "RAG 파이프라인"이라고 입력하면 벡터DB + 임베딩 모델 + 오케스트레이션 도구를 스택으로 추천하는 것은 현재 어떤 경쟁 제품에도 없는 기능입니다.

→ 유스케이스 기반 스택 추천 — "이상 탐지", "RAG 파이프라인", "이미지 분류" 등 목적을 선택하면 필요한 서비스 조합을 자동 추천. SageMaker JumpStart의 "태스크 유형별 분류"를 넘어, 복수 서비스 조합까지 추천하는 것이 차별점
→ 동일 카테고리 서비스 비교표 — Chroma vs Milvus vs Qdrant의 성능/확장성/GPU 요구사항/비용을 한 눈에 비교. Vertex AI Model Garden의 다중 필터(Modality, Task, Publisher) 패턴 차용
→ 프로비저닝 미리보기 — SageMaker JumpStart처럼 "이 서비스를 생성하면 CPU 2코어, 메모리 4GB가 할당됩니다. 예상 비용: GPU 시간당 $X. 현재 여유 리소스: 충분" 정보를 사전 제공
→ Datadog 스타일 인터랙티브 온보딩 — 첫 방문 시 Getting Started 체크리스트 표시. "무엇을 하고 싶으세요?" 위자드 → 각 단계에 예상 소요 시간 표시 → 완료 시 진행률 바 업데이트. 현재 페이지에 맞는 가이드를 자동 추천하는 Learning Center 상주
→ 서비스 상태 뱃지 — Domino의 "Supported" 뱃지 패턴 차용. 가용/점검중/Beta 상태, 현재 버전, 관리자 공인 마크를 카드에 표시. 아이콘/로고로 시각적 구분

👩‍🔬

김 연구원 ML Engineer · 입사 2주차

카탈로그 진입 — 첫 방문을 감지하여 "무엇을 하고 싶으세요?" 온보딩 위자드 표시. "RAG 파이프라인 구축"을 선택

스택 추천 — 시스템이 "Qdrant(벡터DB) + JupyterLab(개발) + Langflow(오케스트레이션)" 조합을 추천하고, 각 서비스가 왜 필요한지 한줄 설명 제공

비교 검토 — "벡터DB 다른 옵션 보기" 클릭 → Chroma/Milvus/Qdrant 비교표 확인. 프로젝트 규모(소/중/대)별 추천이 표시됨. 소규모이므로 Chroma 선택

리소스 미리보기 — "총 CPU 4코어, 메모리 8GB 필요. 현재 할당 가능 리소스: CPU 8코어, 메모리 24GB ✅" 확인 후 원클릭 생성

결과 — 기존 2~3시간 → 15분만에 기술 선택 + 환경 구성 완료. 인프라 팀에 별도 문의 없이 자기주도적으로 시작

SOLUTION 02

프로덕션 그레이드 모델 서빙 — "Smart Serving"

경직된 런타임 고정 모델에서 유연한 프로덕션 배포 플랫폼으로 전환. KServe의 트래픽 관리 + Seldon의 A/B 테스트를 내재화하되, 노코드 배포 전략 설정으로 차별화합니다.

차별화 전략

Seldon과 KServe는 강력하지만 YAML CRD를 직접 작성해야 합니다. Runway는 GUI 기반 배포 전략 빌더를 제공하여, ML 엔지니어가 Kubernetes/Istio 지식 없이도 카나리 배포와 A/B 테스트를 설정할 수 있게 합니다. 이는 "인프라 추상화"라는 Runway의 핵심 가치와 정확히 일치합니다.

→ 런타임 마이그레이션 — MLServer↔Triton 간 무중단 전환. 기존 엔드포인트 URL 유지하면서 런타임을 교체하는 마이그레이션 위자드 제공. BentoML처럼 프레임워크에 무관한 서빙이 궁극적 목표
→ 비주얼 트래픽 분배 — Seldon의 SeldonDeployment traffic 필드를 GUI 슬라이더로 추상화. 모델 A에 90%, 모델 B에 10% 할당. 실시간 성능 비교 대시보드 함께 제공
→ 자동 카나리 배포 — Seldon+Flagger 방식의 progressive delivery를 내장. "에러율 5% 초과 시 즉시 이전 모델로 복구" 규칙을 GUI로 설정. Prometheus 메트릭 기반 자동 프로모션
→ Scale-to-Zero — KServe/Knative 방식의 요청 기반 스케일링. minReplicas: 0으로 추론 요청이 없으면 파드를 0으로 축소. GPU 비용 절감의 핵심. Concurrency/RPS 기반 스케일링 정책 GUI 제공
→ 추론 파이프라인 빌더 — KServe InferenceGraph의 Sequence/Switch/Ensemble/Splitter 노드 타입을 드래그앤드롭으로 구성. 전처리→모델→후처리 DAG를 YAML 없이 시각적으로 구축
→ Shadow 배포 (미러링) — Seldon의 shadow 패턴 차용. 프로덕션 트래픽 복사본을 새 모델로 전송하되 응답은 사용자에게 반환하지 않음. 실트래픽 검증을 무위험으로 수행

👨‍💻

박 엔지니어 MLOps Engineer · 모델 업데이트 담당

새 모델 등록 — 이상 탐지 v2 모델(PyTorch)을 기존 v1(XGBoost) 엔드포인트에 추가 등록. 런타임이 다르지만 "런타임 자동 감지"로 하나의 엔드포인트에서 관리

카나리 배포 설정 — GUI에서 "v2에 10% 트래픽 할당" 슬라이더 조정. 자동 롤백 조건: "P95 지연 > 200ms 또는 에러율 > 3%" 설정

실시간 비교 모니터링 — v1 vs v2의 지연 시간, 정확도, 에러율이 나란히 표시. v2가 정확도 12% 향상, 지연 시간 동등 확인

점진적 승격 — 10% → 30% → 50% → 100%로 단계적으로 트래픽 이전. 각 단계마다 자동 검증 통과 후 다음 단계 진행

결과 — 기존 "빅뱅 배포 + 다운타임" → 무중단 점진적 전환. 장애 위험 제거, 모델 교체 시간 수일 → 수시간

SOLUTION 03

통합 운영 센터 — "Ops Center"

리소스 현황판에서 프로액티브 운영 플랫폼으로 전환. Run:ai의 GPU FinOps + Seldon의 드리프트 감지를 결합하되, ML 워크로드에 최적화된 통합 대시보드로 차별화합니다.

차별화 전략

Run:ai는 GPU 비용에, Seldon은 모델 성능에, Domino는 거버넌스에 각각 특화되어 있습니다. Runway는 인프라 비용 + 모델 성능 + 운영 알림을 하나의 대시보드에서 통합 제공합니다. "GPU를 많이 쓰는 모델이 실제로 좋은 성능을 내고 있는가?"라는 질문에 한 화면에서 답할 수 있는 것은 현재 어떤 단일 제품에서도 불가능합니다.

→ GPU FinOps 대시보드 — Run:ai 방식의 GPU-hours 기반 팀별 차지백. 할당 vs 실사용률, 유휴 GPU 시간, 월별 비용 추이를 프로젝트별로 집계. Over-quota 사용(빌려 쓴 GPU)은 별도 단가 적용. 히트맵으로 시간대별 GPU 사용 패턴 시각화
→ 스마트 알림 — 리소스 임계치(70%/90%), 서비스 장애, 모델 성능 저하 감지 시 Slack/이메일/웹훅 알림. Kubecost 방식으로 일일 비용 임계값 초과 시에도 알림. 알림 규칙을 GUI로 설정
→ 추론 엔드포인트 메트릭 — BentoML의 OTLP 네이티브 방식 차용. 요청 수, P50/P95/P99 지연, 에러율, 처리량을 엔드포인트별로 실시간 제공. OpenTelemetry 표준으로 외부 도구(Grafana, Datadog) 연동
→ 데이터 드리프트 감지 — Seldon의 Alibi Detect 통합 방식 차용. KS test, MMD, Chi-squared 등으로 입력 데이터 분포 변화를 자동 탐지. 이상치/적대적 공격 감지까지 확장. 모델 재학습 시점을 자동 추천
→ 리소스 최적화 추천 — Kubecost의 Efficiency Score 패턴 차용. 요청 리소스 대비 실제 사용률을 0-100 점수로 표시. "프로젝트 A의 GPU 3개 중 1개는 72시간 유휴 상태입니다. 회수 시 월 $800 절감" 자동 추천
→ 비용 예측 — Kubecost 방식의 현재 사용 패턴 기반 월말 예상 비용 추정. Domino처럼 각 실행(Run)에 비용을 태깅하여 "이 실험에 $X가 소요됨" 직접 확인 가능. 월간 비용 트렌드 MoM 비교 차트 제공

👨‍💼

이 팀장 ML Platform Admin · 리소스 관리 담당

Slack 알림 수신 — "⚠️ GPU 할당률 90% 도달. 프로젝트별 현황: 프로젝트 Alpha(GPU 8), 프로젝트 Beta(GPU 5), 여유 2개"

Ops Center 확인 — 프로젝트 Alpha의 GPU 8개 중 3개가 "할당됨/미사용" 상태(72시간+). 시스템이 "GPU 3개 회수 추천" 표시

비용 분석 — 월간 GPU 비용 리포트에서 프로젝트 Alpha가 전체 비용의 60% 차지. 유휴 GPU 비용만 월 $2,400 낭비 확인

조치 — 프로젝트 Alpha 담당자에게 알림 발송, 유휴 GPU 회수 후 프로젝트 Beta에 재할당. 자동 스케일링 정책 설정으로 재발 방지

결과 — GPU 활용률 40% → 85% 향상. 월간 GPU 비용 30% 절감. 수동 모니터링 → 자동 알림 기반 운영

기대 효과

-80%

신규 사용자 온보딩 시간
(3시간 → 30분)

Zero

모델 교체 시 다운타임
(카나리 배포)

-30%

GPU 인프라 비용
(유휴 자원 최적화)

GPU 활용률 향상
(40% → 85%)

핵심 요약

문제 1: 카탈로그 UX

문제 2: 모델 서빙 경직성

문제 3: 운영 가시성 부족

문제 정의

카탈로그가 "서비스 선택 도구"가 아닌 "Helm Chart 문서 뷰어"

현상

구체적 문제점

모델 서빙의 경직된 아키텍처

현상

구체적 문제점

모니터링이 "현황판"에 머물러 있음

현상

구체적 문제점

시장 조사 내역

경쟁 제품 포지셔닝

🔵 Kubeflow (Google/CNCF)

🟢 Run:ai (NVIDIA 인수)

🟣 Domino Data Lab (Enterprise)

🟡 BentoML (OSS + Cloud)

🔴 Seldon Core (K8s Native)

⚪ Backstage (Spotify/CNCF)

카탈로그 UX 베스트 프랙티스 — 업계 선두 제품 분석

AWS SageMaker JumpStart

Google Vertex AI Model Garden

Domino Data Lab Environments

비교 1 — 서비스 카탈로그 / 마켓플레이스

비교 2 — 모델 서빙 역량

비교 3 — 모니터링 / 옵저버빌리티

비교 4 — 온보딩 UX / FinOps

온보딩 UX 모범 사례 — Datadog & Vercel

Datadog — Getting Started 체크리스트

Vercel — 자동 감지 위자드

솔루션 제시

지능형 서비스 카탈로그 — "Smart Catalog"

차별화 전략

프로덕션 그레이드 모델 서빙 — "Smart Serving"

차별화 전략

통합 운영 센터 — "Ops Center"

차별화 전략

기대 효과

구현 로드맵

1~2개월

3~4개월

5~6개월