Implementasi Data Mining dalam Prediksi Diabetes Menggunakan Random Forest dan XGBoost

Fst.umsida.ac.id – Diabetes mellitus merupakan salah satu masalah kesehatan global yang terus meningkat setiap tahunnya. Penyakit ini terjadi karena gangguan metabolisme yang ditandai dengan kadar gula darah tinggi akibat gangguan produksi atau respons tubuh terhadap insulin. Kondisi ini, jika tidak ditangani dengan baik, dapat memicu komplikasi serius seperti kerusakan pembuluh darah, gagal ginjal, hingga penyakit kardiovaskular. Oleh karena itu, upaya deteksi dini menjadi sangat penting untuk mengurangi dampak buruk yang ditimbulkan.

Dalam menjawab kebutuhan tersebut, penerapan teknologi dalam dunia medis, khususnya teknik data mining, menjadi solusi yang menarik. Dengan kemampuan menganalisis data dalam jumlah besar secara efisien, data mining memungkinkan prediksi penyakit seperti diabetes menjadi lebih akurat. Penelitian yang dilakukan oleh Muhammad Salsabil, Nuril Lutvi Azizah, dan Ade Eviyanti dari Universitas Muhammadiyah Sidoarjo mencoba memanfaatkan metode Random Forest dan XGBoost untuk memprediksi penyakit diabetes. Penelitian ini bertujuan untuk mengevaluasi efektivitas kedua metode tersebut dalam menghasilkan model prediktif yang andal.

Baca Juga: Sekolah Pusat Keunggulan: Umsida FST Terima Hibah SMK PK untuk Pendampingan

Tahapan Penelitian: Preprocessing hingga Evaluasi Model Prediksi Diabetes

Sumber: Freepik

Penelitian ini menggunakan dataset yang diambil dari Kaggle, yang terdiri atas 768 data pasien dengan sembilan indikator klinis dan biokimia terkait diabetes. Indikator tersebut mencakup jumlah kehamilan, kadar glukosa, tekanan darah, ketebalan kulit, insulin, indeks massa tubuh (BMI), fungsi keturunan diabetes, usia, dan hasil diagnosis (positif atau negatif diabetes). Untuk memastikan kualitas data, penelitian ini melalui tahapan preprocessing yang sangat penting.

Tahap pertama adalah penanganan nilai hilang (missing values). Karena algoritma machine learning tidak dapat memproses data yang tidak lengkap, nilai-nilai yang hilang diisi menggunakan metode imputasi rata-rata. Selanjutnya, dilakukan penanganan outliers menggunakan Z-score. Data yang memiliki nilai ekstrem di luar batas normal dihapus untuk menghindari pengaruh negatif terhadap model. Setelah itu, normalisasi data dilakukan menggunakan skala min-max agar nilai antar variabel berada dalam rentang yang sama, yaitu 0 hingga 1. Langkah ini penting untuk memastikan perbandingan variabel dilakukan secara adil. Dari total 768 data awal, hanya 688 data yang tersisa setelah preprocessing.

Pemodelan dilakukan menggunakan dua algoritma, yaitu Random Forest dan XGBoost. Random Forest membangun sejumlah pohon keputusan untuk menghasilkan prediksi yang stabil dan mengurangi risiko overfitting, sehingga cocok untuk dataset besar. Sementara itu, XGBoost bekerja dengan metode ensemble learning, di mana model secara bertahap memperbaiki kesalahan prediksi sebelumnya, menjadikannya lebih akurat. Untuk mengoptimalkan parameter model, teknik GridSearchCV diterapkan dengan validasi silang (cross-validation). Dataset dibagi menjadi dua bagian, yaitu 80% untuk pelatihan dan 20% untuk pengujian. Proses ini memastikan bahwa model diuji pada data yang belum pernah dilihat sebelumnya, memberikan evaluasi performa yang lebih akurat.

Hasil Penelitian dan Implikasi

Sumber: Freepik

Hasil penelitian menunjukkan bahwa kedua metode memiliki performa yang baik dalam memprediksi diabetes, dengan XGBoost menunjukkan hasil yang lebih unggul dibandingkan Random Forest. Random Forest menghasilkan akurasi sebesar 74%, dengan nilai presisi rata-rata 0,74, recall 0,70, dan F1-score 0,71. Sementara itu, XGBoost memberikan akurasi sebesar 76%, dengan presisi rata-rata 0,77, recall 0,72, dan F1-score 0,73. Evaluasi ini menunjukkan bahwa XGBoost mampu menangkap lebih banyak pola yang relevan dalam data dibandingkan Random Forest.

Hasil ini memberikan wawasan penting bagi dunia medis, khususnya dalam mendukung deteksi dini penyakit diabetes. Kedua metode terbukti mampu menangani dataset yang kompleks dengan baik, memungkinkan prediksi yang lebih akurat. Dengan pendekatan ini, tenaga medis dapat membuat keputusan yang lebih tepat waktu dalam menentukan langkah pencegahan atau pengobatan.

Penelitian ini juga menegaskan bahwa preprocessing data adalah tahap yang sangat penting. Penanganan missing values, outliers, dan normalisasi data terbukti berkontribusi signifikan terhadap peningkatan kualitas model. Selain itu, penggunaan validasi silang untuk memilih parameter optimal memastikan bahwa model yang dihasilkan tidak hanya akurat tetapi juga mampu bekerja dengan baik pada data baru.

Dari segi aplikasi, metode Random Forest dan XGBoost tidak hanya relevan untuk prediksi diabetes, tetapi juga memiliki potensi besar untuk diterapkan pada penyakit lain. Dengan memanfaatkan teknologi ini, institusi kesehatan dapat meningkatkan efisiensi dan efektivitas layanan mereka, sekaligus mempercepat diagnosis penyakit.

Potensi Masa Depan

Penelitian ini membuktikan bahwa data mining adalah alat yang sangat berguna dalam menghadapi tantangan kesehatan global. Dengan menggunakan Random Forest dan XGBoost, prediksi penyakit diabetes dapat dilakukan secara lebih akurat dan efisien. Hasil penelitian menunjukkan bahwa XGBoost memiliki sedikit keunggulan dibandingkan Random Forest dalam hal akurasi dan metrik evaluasi lainnya.

Keberhasilan penelitian ini membuka peluang untuk aplikasi data mining yang lebih luas di berbagai bidang medis. Dengan dataset yang lebih besar dan variabel tambahan, model prediksi dapat terus ditingkatkan. Penelitian serupa dapat dikembangkan untuk mendukung diagnosis berbagai penyakit lain, seperti kanker, hipertensi, atau gangguan jantung. Selain itu, integrasi dengan teknologi lain seperti Internet of Things (IoT) dan kecerdasan buatan (AI) dapat semakin meningkatkan kualitas prediksi dan pengambilan keputusan medis.

Baca Juga : Deteksi Dini Gangguan Kecemasan dengan Aplikasi Moodlify: Solusi Berbasis Naïve Bayes

Dengan kontribusi yang signifikan ini, data mining tidak hanya membantu memperbaiki kualitas hidup pasien, tetapi juga mendukung upaya global dalam meningkatkan pelayanan kesehatan berbasis teknologi. Penelitian ini menjadi bukti bahwa teknologi dapat menjadi mitra strategis dalam upaya mencegah dan mengelola penyakit kronis seperti diabetes.

Sumber: Muhammad Salsabil, Nuril Lutvi Azizah, dan Ade Eviyanti. Implementasi Data Mining dalam Melakukan Prediksi Penyakit Diabetes Menggunakan Metode Random Forest dan XGBoost.

Penulis: Ifa

Bertita Terkini

Umsida dan BPS Gelar Ngulik 16.0 Bahas Isu Lingkungan dan Pengelolaan Sampah
September 12, 2025By
Tri Mahendra Mahasiswa Umsida Raih Medali di Kejuaraan Taekwondo Indonesia Expo Battle Piala DPR RI 2025
September 6, 2025By
Pelatihan Koding untuk Guru SMK Muhammadiyah Sumberrejo Bojonegoro
August 29, 2025By
Workshop Web Design untuk Siswa SMK Muhammadiyah Sumberrejo Bojonegoro
August 27, 2025By
Road show FST Umsida Perkenalkan Program Studi Unggulan di SMK Muhammadiyah Sumberrejo Bojonegoro
August 26, 2025By
Analisis dan AI dalam Workshop Statistik
Generasi Melek Data Belajar Analisis dan AI dalam Workshop Statistik Umsida
August 24, 2025By
Workshop Statistik Sektoral Seri 11 Bahas Eksplorasi Data di Umsida
August 22, 2025By
Open House Kedua S2 MIST Umsida Perkenalkan Inovasi untuk Masa Depan
August 18, 2025By

Prestasi

Perjuangan Dini Oktabiyanti Mahasiswa Umsida Berbuah Juara di Kejuaraan Pencak Silat Nasional
September 7, 2025By
Nauval Akhiri Perjalanan Pencak Silat dengan Medali Emas di Kejuaraan Kanjuruhan Fighter 2025
September 2, 2025By
Husein Qiyamuddin Sabet Juara 2 Pencak Silat Malang Championship 5
August 10, 2025By
Aris Buktikan Mahasiswa Kupu-Kupu Bisa Jadi Wisudawan Terbaik
July 29, 2025By
Roby, Mahasiswa Agroteknologi Umsida, Raih Juara 2 Pomprov Jatim 2025 Cabang Jujitsu
June 9, 2025By
Perjuangan Dua Bulan Terbayar, Rifqi Juara Tiga Kyorugi Senior U-58
June 7, 2025By
Mahasiswa Teknik Mesin Umsida Raih Medali Perunggu Taekwondo di Pomprov III Jawa Timur 2025
June 5, 2025By
Dosen Teknik Industri Umsida Raih Gelar Doktor dari ITS, Siap Kontribusi dalam Pengembangan Riset dan Pendidikan
May 29, 2025By