머신러닝 모델을 위한 데이터 준비

머신러닝 모델을 위한 데이터 준비
March 2, 2017

Data Profiling

모델 작성을 시작하기 전에 편견이나 정보 누락을 피하기 위해 데이터세트의 형태를 빠르게 요약합니다. 누락된 데이터, 0 값, 텍스트 및 데이터의 시각적 분포는 데이터 처리시 자동으로 시각화됩니다.

Summary Statistics

요약 통계로 데이터를 시각화하여 데이터세트의 평균, 표준 편차, 최소, 최대, 카디널리티, 분위(quantile) 및 미리보기를 가져옵니다.

Aggregate, Filter, Bin, and Derive Columns

그룹 함수, 필터링, Binning 및 파생열을 사용하여 고유한 뷰를 작성합니다.

Slice, Log Transform, and Anonymize

데이터를 올바른 모양으로 모델링하기 위해 정규화, 익명화 및 파티션 작업을 수행합니다.

Variable Creation

고도의 사용자 정의가 가능한 변수값 생성 기능으로 모델링할 주요 데이터의 특성을 향상시킵니다.

PCA

Principal Component Analysis(주성분분석, PCA)는 사용하기 쉬운 인터페이스와 표준 입력 값으로 쉽게 기능을 선택하도록 합니다.

Training and Validation Sampling Plan

모델 트레이닝과 스코어링을 위한 데이터세트를 생성하기 위해 랜덤 또는 층별 샘플링 계획을 설계합니다.