Implementasi Data Mining dalam Prediksi Diabetes Menggunakan Random Forest dan XGBoost

Fst.umsida.ac.id – Diabetes mellitus merupakan salah satu masalah kesehatan global yang terus meningkat setiap tahunnya. Penyakit ini terjadi karena gangguan metabolisme yang ditandai dengan kadar gula darah tinggi akibat gangguan produksi atau respons tubuh terhadap insulin. Kondisi ini, jika tidak ditangani dengan baik, dapat memicu komplikasi serius seperti kerusakan pembuluh darah, gagal ginjal, hingga penyakit kardiovaskular. Oleh karena itu, upaya deteksi dini menjadi sangat penting untuk mengurangi dampak buruk yang ditimbulkan.

Dalam menjawab kebutuhan tersebut, penerapan teknologi dalam dunia medis, khususnya teknik data mining, menjadi solusi yang menarik. Dengan kemampuan menganalisis data dalam jumlah besar secara efisien, data mining memungkinkan prediksi penyakit seperti diabetes menjadi lebih akurat. Penelitian yang dilakukan oleh Muhammad Salsabil, Nuril Lutvi Azizah, dan Ade Eviyanti dari Universitas Muhammadiyah Sidoarjo mencoba memanfaatkan metode Random Forest dan XGBoost untuk memprediksi penyakit diabetes. Penelitian ini bertujuan untuk mengevaluasi efektivitas kedua metode tersebut dalam menghasilkan model prediktif yang andal.

Baca Juga: Sekolah Pusat Keunggulan: Umsida FST Terima Hibah SMK PK untuk Pendampingan

Tahapan Penelitian: Preprocessing hingga Evaluasi Model Prediksi Diabetes

Sumber: Freepik

Penelitian ini menggunakan dataset yang diambil dari Kaggle, yang terdiri atas 768 data pasien dengan sembilan indikator klinis dan biokimia terkait diabetes. Indikator tersebut mencakup jumlah kehamilan, kadar glukosa, tekanan darah, ketebalan kulit, insulin, indeks massa tubuh (BMI), fungsi keturunan diabetes, usia, dan hasil diagnosis (positif atau negatif diabetes). Untuk memastikan kualitas data, penelitian ini melalui tahapan preprocessing yang sangat penting.

Tahap pertama adalah penanganan nilai hilang (missing values). Karena algoritma machine learning tidak dapat memproses data yang tidak lengkap, nilai-nilai yang hilang diisi menggunakan metode imputasi rata-rata. Selanjutnya, dilakukan penanganan outliers menggunakan Z-score. Data yang memiliki nilai ekstrem di luar batas normal dihapus untuk menghindari pengaruh negatif terhadap model. Setelah itu, normalisasi data dilakukan menggunakan skala min-max agar nilai antar variabel berada dalam rentang yang sama, yaitu 0 hingga 1. Langkah ini penting untuk memastikan perbandingan variabel dilakukan secara adil. Dari total 768 data awal, hanya 688 data yang tersisa setelah preprocessing.

Pemodelan dilakukan menggunakan dua algoritma, yaitu Random Forest dan XGBoost. Random Forest membangun sejumlah pohon keputusan untuk menghasilkan prediksi yang stabil dan mengurangi risiko overfitting, sehingga cocok untuk dataset besar. Sementara itu, XGBoost bekerja dengan metode ensemble learning, di mana model secara bertahap memperbaiki kesalahan prediksi sebelumnya, menjadikannya lebih akurat. Untuk mengoptimalkan parameter model, teknik GridSearchCV diterapkan dengan validasi silang (cross-validation). Dataset dibagi menjadi dua bagian, yaitu 80% untuk pelatihan dan 20% untuk pengujian. Proses ini memastikan bahwa model diuji pada data yang belum pernah dilihat sebelumnya, memberikan evaluasi performa yang lebih akurat.

Hasil Penelitian dan Implikasi

Sumber: Freepik

Hasil penelitian menunjukkan bahwa kedua metode memiliki performa yang baik dalam memprediksi diabetes, dengan XGBoost menunjukkan hasil yang lebih unggul dibandingkan Random Forest. Random Forest menghasilkan akurasi sebesar 74%, dengan nilai presisi rata-rata 0,74, recall 0,70, dan F1-score 0,71. Sementara itu, XGBoost memberikan akurasi sebesar 76%, dengan presisi rata-rata 0,77, recall 0,72, dan F1-score 0,73. Evaluasi ini menunjukkan bahwa XGBoost mampu menangkap lebih banyak pola yang relevan dalam data dibandingkan Random Forest.

Hasil ini memberikan wawasan penting bagi dunia medis, khususnya dalam mendukung deteksi dini penyakit diabetes. Kedua metode terbukti mampu menangani dataset yang kompleks dengan baik, memungkinkan prediksi yang lebih akurat. Dengan pendekatan ini, tenaga medis dapat membuat keputusan yang lebih tepat waktu dalam menentukan langkah pencegahan atau pengobatan.

Penelitian ini juga menegaskan bahwa preprocessing data adalah tahap yang sangat penting. Penanganan missing values, outliers, dan normalisasi data terbukti berkontribusi signifikan terhadap peningkatan kualitas model. Selain itu, penggunaan validasi silang untuk memilih parameter optimal memastikan bahwa model yang dihasilkan tidak hanya akurat tetapi juga mampu bekerja dengan baik pada data baru.

Dari segi aplikasi, metode Random Forest dan XGBoost tidak hanya relevan untuk prediksi diabetes, tetapi juga memiliki potensi besar untuk diterapkan pada penyakit lain. Dengan memanfaatkan teknologi ini, institusi kesehatan dapat meningkatkan efisiensi dan efektivitas layanan mereka, sekaligus mempercepat diagnosis penyakit.

Potensi Masa Depan

Penelitian ini membuktikan bahwa data mining adalah alat yang sangat berguna dalam menghadapi tantangan kesehatan global. Dengan menggunakan Random Forest dan XGBoost, prediksi penyakit diabetes dapat dilakukan secara lebih akurat dan efisien. Hasil penelitian menunjukkan bahwa XGBoost memiliki sedikit keunggulan dibandingkan Random Forest dalam hal akurasi dan metrik evaluasi lainnya.

Keberhasilan penelitian ini membuka peluang untuk aplikasi data mining yang lebih luas di berbagai bidang medis. Dengan dataset yang lebih besar dan variabel tambahan, model prediksi dapat terus ditingkatkan. Penelitian serupa dapat dikembangkan untuk mendukung diagnosis berbagai penyakit lain, seperti kanker, hipertensi, atau gangguan jantung. Selain itu, integrasi dengan teknologi lain seperti Internet of Things (IoT) dan kecerdasan buatan (AI) dapat semakin meningkatkan kualitas prediksi dan pengambilan keputusan medis.

Baca Juga : Deteksi Dini Gangguan Kecemasan dengan Aplikasi Moodlify: Solusi Berbasis Naïve Bayes

Dengan kontribusi yang signifikan ini, data mining tidak hanya membantu memperbaiki kualitas hidup pasien, tetapi juga mendukung upaya global dalam meningkatkan pelayanan kesehatan berbasis teknologi. Penelitian ini menjadi bukti bahwa teknologi dapat menjadi mitra strategis dalam upaya mencegah dan mengelola penyakit kronis seperti diabetes.

Sumber: Muhammad Salsabil, Nuril Lutvi Azizah, dan Ade Eviyanti. Implementasi Data Mining dalam Melakukan Prediksi Penyakit Diabetes Menggunakan Metode Random Forest dan XGBoost.

Penulis: Ifa

Bertita Terkini

Menilik Serunya Selebrasi FST Umsida Lepas Wisudawan 2025
July 28, 2025By
Mengungkap Rahasia Sukses Moch. Siddiq Hamid, Wisudawan Terbaik FST Informatika
July 26, 2025By
E-NOVTECH EXPO 2025 Mahasiswa Elektro Umsida Buktikan Inovasi Berbasis Solusi Nyata
July 24, 2025By
Kaprodi Teknologi Pangan Umsida Paparkan Inovasi Kombucha Kulit Nanas dan Kukis Ubi Ganyong di Seminar Riset
July 16, 2025By
Pelatihan Koding dan Kecerdasan Artifisial: Mempersiapkan Pendidik di Era Digital
July 15, 2025By
Yudisium Fakultas Sains dan Teknologi Umsida Warnai Perjalanan Akhir Mahasiswa Menuju Gelar Sarjana
July 14, 2025By
Dosen Teknik Elektro Umsida Jadi Penguji Tamu TA di Electrical Engineering Days 2025 ITB
June 29, 2025By
Pendampingan PSAT 2025 Wujud Nyata Dorong Sidoarjo Menuju Pangan Sehat dan Aman
June 22, 2025By

Prestasi

 Aris Buktikan Mahasiswa Kupu-Kupu Bisa Jadi Wisudawan Terbaik
July 29, 2025By
Roby, Mahasiswa Agroteknologi Umsida, Raih Juara 2 Pomprov Jatim 2025 Cabang Jujitsu
June 9, 2025By
Perjuangan Dua Bulan Terbayar, Rifqi Juara Tiga Kyorugi Senior U-58
June 7, 2025By
Mahasiswa Teknik Mesin Umsida Raih Medali Perunggu Taekwondo di Pomprov III Jawa Timur 2025
June 5, 2025By
Dosen Teknik Industri Umsida Raih Gelar Doktor dari ITS, Siap Kontribusi dalam Pengembangan Riset dan Pendidikan
May 29, 2025By
Dr Lukman Hudi Raih Gelar Doktor, Berkontribusi dalam Pengembangan Agroindustri Berkelanjutan
April 30, 2025By
Dr Atikha Sidhi Cahyana Raih Gelar Doktor, Kontribusi Besar untuk Pengelolaan Food Waste di Perkotaan
April 24, 2025By
Prodi Informatika Umsida Raih Akreditasi Unggul, Pencapaian yang Membanggakan
April 23, 2025By