Step 1: 데이터 다운로드

목적 : Google Cluster Trace 2019 데이터를 Google Drive에 저장

과정

  1. Google Storage에서 instance_usage 파일 다운로드
  2. 이미 있는 파일은 스킵 (재시작 가능)
  3. Google Drive에 저장 (영구 보관)

출력: data/raw/instance_usage-*.json.gz


Step 2: 탐색적 데이터 분석

목적 : 데이터 구조와 분포 파악

과정

  1. 데이터 형태 확인 (행/열 수, 컬럼명)
  2. 결측값 확인
  3. CPU/메모리 사용률 분포 시각화
  4. 이상치 탐지

발견

→ 구글 클러스터는 효율적으로 운영되거나 과잉 프로비저닝됨


Step 3: 전처리

목적 : 원본 JSON → 모델 학습용 피처 생성

과정

  1. JSON에서 CPU/메모리 추출 (nested dict 파싱)
  2. 시간 변환 (마이크로초 → 초)
  3. duration 계산 (end_time - start_time)
  4. hour 피처 생성 (0~23)
  5. 전력(W) 계산: 200 + cpu×300 + memory×50
  6. 에너지(kWh) 계산: power × duration / 3600 / 1000
  7. Parquet 형식으로 저장

핵심 부분

df['power_w'] = 200 + (df['cpu'] * 300) + (df['memory'] * 50)
df['energy_kwh'] = df['power_w'] * (df['duration'] / 3600) / 1000

출력 : data/processed/instance_usage_full_processed.parquet