PENGGABUNGAN K-NEAREST NEIGHBORS DAN LIGHTGBM UNTUK PREDIKSI DIABETES PADA DATASET PIMA INDIANS: MENGGUNAKAN PENDEKATAN EXPLORATORY DATA ANALYSIS

Arvi Pramudyantoro
Ema Utami
Dhani Ariatmanto


DOI: https://doi.org/10.29100/jipi.v9i3.4966

Abstract


Diabetes Melitus merupakan masalah kesehatan yang signifikan di seluruh dunia. Dengan menggabungkan algoritma K-Nearest Neighbors (KNN) dan Light Gradient Boosting Machine (LightGBM),penelitian ini menyajikan pendekatan baru untuk meningkatkan prediksi diabetes. Kumpulan data Indian Pima, yang terkenal dengan intrik dan signifikansinya dalam penelitian diabetes, menjadi subjek penelitian ini. Untuk menyelidiki pola dan hubungan dalam data, penelitian ini menggunakan analisis data eksploratif, atau EDA. Pra-pemrosesan data yang komprehensif, yang mencakup pengkodean, normalisasi, dan penanganan nilai yang hilang, adalah yang berikutnya. Karena KNN dan LightGBM cocok dengan fitur kumpulan data ini, maka keduanya dipilih. Performa model dioptimalkan melalui penggunaan teknik pengoptimalan seperti Pencarian Acak dan Pencarian Grid untuk mengubah hyperparameter. Metrik seperti skor F1, kurva ROC, analisis presisi-recall, dan akurasi-presisi digunakan untuk menilai model. Hasilnya menunjukkan peningkatan signifikan dalam keakuratan prediksi diabetes, yang menunjukkan bahwa penggunaan LightGBM bersama dengan KNN dan EDA secara hati-hati dapat meningkatkan akurasi prediksi. Khususnya bila dipertimbangkan dalam konteks data kesehatan yang rumit, temuan ini secara signifikan memajukan deteksi penyakit kronis. Menggunakan kumpulan data Pima Indians, algoritma KNN dan LightGBM bekerja sama untuk mencapai akurasi tertinggi sebesar 90,6%.

Keywords


Diabetes Mellitus, KNN (K-Nearest Neighbors), EDA (Exploratory Data Analysis), LightGBM, Pima Indians Diabetes.

Full Text:

PDF

Article Metrics :

References


“Diabetes,” World Health Organization. [Online]. Available: https://www.who.int/news-room/fact-sheets/detail/diabetes. [Accessed: Nov. 22, 2023].

A. Perdana, A. Hermawan, and D. Avianto, “Analyze Important Features of PIMA Indian Database For Diabetes Prediction Using KNN,” Jurnal SISFOKOM (Sistem Informasi dan Komputer), vol. 12, no. 1, pp. 70-75, 2022. [Online]. Available: https://doi.org/10.32736/sisfokom.v12i1.1598.

M. Bergeron et al., “Episodic-Memory Performance in Machine Learning Modeling for Predicting Cognitive Health Status Classification,” Journal of Alzheimer’s Disease, vol. 70, no. 1, pp. 277-286, Jul. 2019. https://doi.org/10.3233/JAD-190165.

G. Kaur et al., “Diagnostic accuracy of tests for type 2 diabetes and prediabetes: A systematic review and meta-analysis,” Journal of PLoS ONE, vol. 15, no. 11, Art. no. e0242415, 2020. [Online]. Available: https://doi.org/10.1371/journal.pone.0242415.

H. Naz and S. Ahuja, “Deep learning approach for diabetes prediction using PIMA Indian dataset,” Journal Diabetes Metab Disord, vol. 19, no. 1, pp. 391-403. [Online]. Available: https://doi.org/10.1007/s40200-020-00520-5.

A. Elsaddawy et al., “Predictive Analysis of Diabetes-Risk with Class Imbalance,” Journal Comput Intell Neurosci, Oct. 2022. [Online]. Available: https://doi.org/10.1155/2022/3078025

M. Hassan, S. Mollick, and F. Yasmin, “An unsupervised cluster-based feature grouping model for early diabetes detection,” Healthcare Analytics, vol. 2, pp. 1-12, 2020. [Online]. Available: https://doi.org/10.1016/j.health.2022.100112.

S. Uddin et al., “Comparative performance analysis of K‑nearest neighbour (KNN) algorithm and its different variants for disease prediction,” Journal Scientific reports, vol. 12, Art. no. 6256, 2022. [Online]. Available: https://doi.org/10.1038/s41598-022-10358-x.

H. Wang, P. Xu, and J. Zhao, “Improved KNN Algorithm Based on Preprocessing of Center in Smart Cities,” Journal of Hindawi Wiley, pp. 1-10, 2022. [Online]. Available: https://doi.org/10.1155/2021/552438.

D. D. Rufo et al., “Diagnosis of Diabetes Mellitus Using Gradient Boosting Machine (LightGBM),” Jurnal Diagnostics, vol. 11, no. 9, Art. no. 1714, Sep. 2019. [Online]. Available: https://doi.org/10.3390/diagnostics11091714.

A. Rajkomar, J. Dean, and I. Kohane, “Machine learning in medicine,” New England Journal of Medicine, vol. 80, no. 14, pp. 1347-1358, 2019. [Online]. Available: https://doi.org/10.1056/NEJMra1814259.

S. Bhargava, M. K. Ali, and T. Rustagi, “Machine learning techniques for diabetes,” in Machine Learning Techniques for Bioinformatics, pp. 83-1305, 2019. [Online]. Available: https://doi.org/10.1016/j.ejmech.2020.112457.

I. Contreras and J. Vehi, “Artificial Intelligence for Diabetes Management and Decision Support: Literature Review,” Journal of Medical Internet Research, vol. 20, no. 5, May 2018. [Online]. Available: https://doi.org/10.2196/10775.

R. Saxena, D. D. Khumar, and M. Gupta, “Role of K-Nearest Neighbour in detection of Diabetes Mellitus,” Turkish Journal of Computer and Mathematics Education, vol. 12, no. 10, pp. 373

M. Nishom, “Perbandingan Akurasi Euclidean Distance, Minkowski Distance, dan Manhattan Distance pada Algoritma KMeans Clustering Berbasis Chi-Square,” Jurnal Pengembangan IT (JPIT), vol. 4, no. 1, pp. 20-24, 2019. [Online]. Available: https://10.30591/jpit.v4i1.1253

J. Peng, W. Wu, B. Lockhart, and B. Song, “DataPrep.EDA: Task-Centric Exploratory Data Analysis for Statistical Modeling in Python,” in Proc. 2021 Int. Conf. on Management of Data, 2021. [Online]. Available: https://doi.org/10.1145/3448016.3457330.

V. Chang, J. Bailey, A. Xu, and Z. Sun, “Pima Indians diabetes mellitus classification based on machine learning (ML) algorithms,” Neural Computing and Applications, vol. 35, pp. 16147-16173, 2020. [Online]. Available: https://doi.org/10.1007/s00521-022-07049-z.

Susilowati, A. A., & Waskita, K. N. (2019). Pengaruh Pola Makan Terhadap Potensi Resiko Penyakit Diabetes Melitus. Jurnal Mandala Pharmacon Indonesia, 5(01), 43–47. https://doi.org/10.35311/jmpi.v5i01.43

Ridwan, A. M., & Setyawan, G. D. (2023). Perbandingan Berbagai Model Machine Learning Untuk Mendeteksi Diabetes. Teknokom, 6(2), 127–132. https://doi.org/10.31943/teknokom.v6i2.152

V. Khoirunnisa. (2023). IMPLEMENTASI KLASIFIKASI KEHAMILAN BERESIKO DENGAN METODE NAIVE BAYES PADA PUSKESMAS KELURAHAN MALAKA JAYA. Jurnal Indonesia: Manajemen Informatika Dan Komunikasi. 4(2),540–551.

R. Rousiyati, A. N. Rais, N. Hasan, R. F. Amir, W. Warijono, "Komparasi Adaboost dan Bagging Dengan Naïve Bayes Pada Dataset Bank Direct Marketing," Bianglala Informatika, 2021. https://doi.org/10.31294/bi.v9i1.9890.g4731

A. J. Taufiq, T. Pinandita, Susiyadi, & J. Juanita. (2023) Deteksi Suhu Tubuh dan Masker untuk Kendali Portal Otomatis Menggunakan Machine Learning. Techno. Jurnal Fakultas Teknik, Universitas Muhammadiyah Purwokerto, 109-116. https://10.30595/techno.v24i2.19267.