Implementasi Data Mining dalam Prediksi Diabetes Menggunakan Random Forest dan XGBoost

Fst.umsida.ac.id – Diabetes mellitus merupakan salah satu masalah kesehatan global yang terus meningkat setiap tahunnya. Penyakit ini terjadi karena gangguan metabolisme yang ditandai dengan kadar gula darah tinggi akibat gangguan produksi atau respons tubuh terhadap insulin. Kondisi ini, jika tidak ditangani dengan baik, dapat memicu komplikasi serius seperti kerusakan pembuluh darah, gagal ginjal, hingga penyakit kardiovaskular. Oleh karena itu, upaya deteksi dini menjadi sangat penting untuk mengurangi dampak buruk yang ditimbulkan.

Dalam menjawab kebutuhan tersebut, penerapan teknologi dalam dunia medis, khususnya teknik data mining, menjadi solusi yang menarik. Dengan kemampuan menganalisis data dalam jumlah besar secara efisien, data mining memungkinkan prediksi penyakit seperti diabetes menjadi lebih akurat. Penelitian yang dilakukan oleh Muhammad Salsabil, Nuril Lutvi Azizah, dan Ade Eviyanti dari Universitas Muhammadiyah Sidoarjo mencoba memanfaatkan metode Random Forest dan XGBoost untuk memprediksi penyakit diabetes. Penelitian ini bertujuan untuk mengevaluasi efektivitas kedua metode tersebut dalam menghasilkan model prediktif yang andal.

Baca Juga: Sekolah Pusat Keunggulan: Umsida FST Terima Hibah SMK PK untuk Pendampingan

Tahapan Penelitian: Preprocessing hingga Evaluasi Model Prediksi Diabetes

Sumber: Freepik

Penelitian ini menggunakan dataset yang diambil dari Kaggle, yang terdiri atas 768 data pasien dengan sembilan indikator klinis dan biokimia terkait diabetes. Indikator tersebut mencakup jumlah kehamilan, kadar glukosa, tekanan darah, ketebalan kulit, insulin, indeks massa tubuh (BMI), fungsi keturunan diabetes, usia, dan hasil diagnosis (positif atau negatif diabetes). Untuk memastikan kualitas data, penelitian ini melalui tahapan preprocessing yang sangat penting.

Tahap pertama adalah penanganan nilai hilang (missing values). Karena algoritma machine learning tidak dapat memproses data yang tidak lengkap, nilai-nilai yang hilang diisi menggunakan metode imputasi rata-rata. Selanjutnya, dilakukan penanganan outliers menggunakan Z-score. Data yang memiliki nilai ekstrem di luar batas normal dihapus untuk menghindari pengaruh negatif terhadap model. Setelah itu, normalisasi data dilakukan menggunakan skala min-max agar nilai antar variabel berada dalam rentang yang sama, yaitu 0 hingga 1. Langkah ini penting untuk memastikan perbandingan variabel dilakukan secara adil. Dari total 768 data awal, hanya 688 data yang tersisa setelah preprocessing.

Pemodelan dilakukan menggunakan dua algoritma, yaitu Random Forest dan XGBoost. Random Forest membangun sejumlah pohon keputusan untuk menghasilkan prediksi yang stabil dan mengurangi risiko overfitting, sehingga cocok untuk dataset besar. Sementara itu, XGBoost bekerja dengan metode ensemble learning, di mana model secara bertahap memperbaiki kesalahan prediksi sebelumnya, menjadikannya lebih akurat. Untuk mengoptimalkan parameter model, teknik GridSearchCV diterapkan dengan validasi silang (cross-validation). Dataset dibagi menjadi dua bagian, yaitu 80% untuk pelatihan dan 20% untuk pengujian. Proses ini memastikan bahwa model diuji pada data yang belum pernah dilihat sebelumnya, memberikan evaluasi performa yang lebih akurat.

Hasil Penelitian dan Implikasi

Sumber: Freepik

Hasil penelitian menunjukkan bahwa kedua metode memiliki performa yang baik dalam memprediksi diabetes, dengan XGBoost menunjukkan hasil yang lebih unggul dibandingkan Random Forest. Random Forest menghasilkan akurasi sebesar 74%, dengan nilai presisi rata-rata 0,74, recall 0,70, dan F1-score 0,71. Sementara itu, XGBoost memberikan akurasi sebesar 76%, dengan presisi rata-rata 0,77, recall 0,72, dan F1-score 0,73. Evaluasi ini menunjukkan bahwa XGBoost mampu menangkap lebih banyak pola yang relevan dalam data dibandingkan Random Forest.

Hasil ini memberikan wawasan penting bagi dunia medis, khususnya dalam mendukung deteksi dini penyakit diabetes. Kedua metode terbukti mampu menangani dataset yang kompleks dengan baik, memungkinkan prediksi yang lebih akurat. Dengan pendekatan ini, tenaga medis dapat membuat keputusan yang lebih tepat waktu dalam menentukan langkah pencegahan atau pengobatan.

Penelitian ini juga menegaskan bahwa preprocessing data adalah tahap yang sangat penting. Penanganan missing values, outliers, dan normalisasi data terbukti berkontribusi signifikan terhadap peningkatan kualitas model. Selain itu, penggunaan validasi silang untuk memilih parameter optimal memastikan bahwa model yang dihasilkan tidak hanya akurat tetapi juga mampu bekerja dengan baik pada data baru.

Dari segi aplikasi, metode Random Forest dan XGBoost tidak hanya relevan untuk prediksi diabetes, tetapi juga memiliki potensi besar untuk diterapkan pada penyakit lain. Dengan memanfaatkan teknologi ini, institusi kesehatan dapat meningkatkan efisiensi dan efektivitas layanan mereka, sekaligus mempercepat diagnosis penyakit.

Potensi Masa Depan

Penelitian ini membuktikan bahwa data mining adalah alat yang sangat berguna dalam menghadapi tantangan kesehatan global. Dengan menggunakan Random Forest dan XGBoost, prediksi penyakit diabetes dapat dilakukan secara lebih akurat dan efisien. Hasil penelitian menunjukkan bahwa XGBoost memiliki sedikit keunggulan dibandingkan Random Forest dalam hal akurasi dan metrik evaluasi lainnya.

Keberhasilan penelitian ini membuka peluang untuk aplikasi data mining yang lebih luas di berbagai bidang medis. Dengan dataset yang lebih besar dan variabel tambahan, model prediksi dapat terus ditingkatkan. Penelitian serupa dapat dikembangkan untuk mendukung diagnosis berbagai penyakit lain, seperti kanker, hipertensi, atau gangguan jantung. Selain itu, integrasi dengan teknologi lain seperti Internet of Things (IoT) dan kecerdasan buatan (AI) dapat semakin meningkatkan kualitas prediksi dan pengambilan keputusan medis.

Baca Juga : Deteksi Dini Gangguan Kecemasan dengan Aplikasi Moodlify: Solusi Berbasis Naïve Bayes

Dengan kontribusi yang signifikan ini, data mining tidak hanya membantu memperbaiki kualitas hidup pasien, tetapi juga mendukung upaya global dalam meningkatkan pelayanan kesehatan berbasis teknologi. Penelitian ini menjadi bukti bahwa teknologi dapat menjadi mitra strategis dalam upaya mencegah dan mengelola penyakit kronis seperti diabetes.

Sumber: Muhammad Salsabil, Nuril Lutvi Azizah, dan Ade Eviyanti. Implementasi Data Mining dalam Melakukan Prediksi Penyakit Diabetes Menggunakan Metode Random Forest dan XGBoost.

Penulis: Ifa

Bertita Terkini

Perjalanan Panjang Prof Dr Ir Sutarman MP Dari Keluarga Sederhana hingga Meraih Gelar Guru Besar
December 18, 2024By
Generasi Peduli Pangan: Workshop Umsida Tingkatkan Kesadaran Konsumsi Halal dan Aman
December 16, 2024By
Energi Hijau: Sinergi UMSIDA dan BRIN dalam Penelitian Terbarukan
December 12, 2024By
Deteksi Dini Gangguan Kecemasan dengan Aplikasi Moodlify: Solusi Berbasis Naïve Bayes
December 9, 2024By
Tim Abdimas Umsida Gelar Pelatihan Pengembangan dan Pengelolaan Website untuk IGABA Kab Sidoarjo
December 6, 2024By
Inovasi Baru: Alat Deteksi Kematangan Pepaya Berbasis Arduino
December 4, 2024By
Tanaman Sawi Pagoda: Solusi Pupuk Organik untuk Hasil Panen Maksimal
December 3, 2024By
Kombucha dari Kulit Nanas: Inovasi Probiotik Ramah Lingkungan
December 2, 2024By

Prestasi

Warek 1 Sekaligus Dosen Teknik Industri Umsida, Prof Dr Hana Catur Wahyuni, Resmi Raih Gelar Guru Besar
December 19, 2024By
Yudisium FST Umsida: Prestasi Gemilang dengan IPK Tertinggi Fakultas dan Program Studi
October 16, 2024By
Jenggolo Team UMSIDA: Perjalanan Penuh Semangat dalam Kompetisi Mobil Hemat Energi
March 6, 2024By
IMEI Creativity: Melaju Gemilang di Sirkuit Ancol, Namun Drama Kegagalan Mewarnai Perjalanan Menuju Puncak!
March 6, 2024By
Persembahan Gemilang: Tim IMEI Umsida Memborong Prestasi di Kompetisi Mobil Listrik Internasional Shell Eco Marathon 2023
March 5, 2024By
Prestasi Gemilang Tim Pencak Silat Umsida di Pomprov Jatim 2023: Raih Emas dan Perunggu, Masuk Posisi Ke-8 dari 108 Universitas
January 12, 2024By
Tim Punakawan Universitas Muhammadiyah Sidoarjo (UMSIDA) Juara Kompetisi Nasional Robotik Antar-Universitas di UIN Sunan Gunung Djati
December 18, 2023By