Phase 1 | Notion

Step 1: 데이터 다운로드

목적 : Google Cluster Trace 2019 데이터를 Google Drive에 저장

과정

출력: data/raw/instance_usage-*.json.gz

목적 : 데이터 구조와 분포 파악

과정

발견

→ 구글 클러스터는 효율적으로 운영되거나 과잉 프로비저닝됨

목적 : 원본 JSON → 모델 학습용 피처 생성

과정

핵심 부분

df['power_w'] = 200 + (df['cpu'] * 300) + (df['memory'] * 50)
df['energy_kwh'] = df['power_w'] * (df['duration'] / 3600) / 1000

출력 : data/processed/instance_usage_full_processed.parquet