Beverage Sales (Clustering & Classification)

Proyek ini bertujuan untuk menerapkan teknik unsupervised learning dan supervised learning dalam mengeksplorasi dan memprediksi pola dari suatu dataset. Dua pendekatan utama yang digunakan adalah Clustering (dengan PCA sebagai teknik reduksi dimensi) dan Classification menggunakan tiga model yang berbeda.
Clustering
Metode
- Principal Component Analysis (PCA) digunakan untuk mereduksi dimensi data, memvisualisasikan distribusi data, dan membantu proses clustering.
- K-Means Clustering digunakan untuk mengelompokkan data ke dalam beberapa grup berdasarkan kemiripan fitur.
Langkah-langkah
- Preprocessing Data: Normalisasi dan encoding data numerik dan kategorikal.
- Dimensionality Reduction: Menggunakan PCA untuk mengurangi kompleksitas dan memudahkan visualisasi.
- Clustering: Menerapkan K-Means dan menentukan jumlah cluster optimal dengan Elbow Method dan Silhouette Score.
- Interpretasi: Analisis karakteristik dari masing-masing cluster setelah dilakukan inverse transform ke data asli.
Classification
Model yang Digunakan
- Random Forest Classifier
- Logistic Regression
- Gradient Boosting Classifier
Langkah-langkah
- Preprocessing:
- Encoding data kategorikal (One-Hot atau Label Encoding)
- Normalisasi fitur numerik
- Pembagian data menjadi training dan testing
- Training Model: Melatih ketiga model klasifikasi di atas dengan data training.
- Evaluasi:
- Evaluasi dilakukan menggunakan metrik Accuracy, Precision, Recall, dan F1-Score pada data training dan testing.
Hasil
Ketiga model klasifikasi menunjukkan performa yang sangat tinggi dengan hasil evaluasi sebagai berikut:
- Accuracy: 100%
- Precision: 100%
- Recall: 100%
- F1-Score: 100%