목적 : Google Cluster Trace 2019 데이터를 Google Drive에 저장
과정
출력: data/raw/instance_usage-*.json.gz
목적 : 데이터 구조와 분포 파악
과정
발견
→ 구글 클러스터는 효율적으로 운영되거나 과잉 프로비저닝됨
목적 : 원본 JSON → 모델 학습용 피처 생성
과정
200 + cpu×300 + memory×50power × duration / 3600 / 1000핵심 부분
df['power_w'] = 200 + (df['cpu'] * 300) + (df['memory'] * 50)
df['energy_kwh'] = df['power_w'] * (df['duration'] / 3600) / 1000
출력 : data/processed/instance_usage_full_processed.parquet