Pengaruh Komposisi Split data Terhadap Performa Klasifikasi Penyakit Kanker Payudara Menggunakan Algoritma Machine Learning
Main Article Content
Abstract
Hasil klasifikasi kanker payudara yang tidak tepat dan memiliki akurasi rendah berpotensi membahayakan nyawa pasien. Rasio split data training dan testing mempengaruhi akurasi klasifikasi. Pemilihan rasio split data yang tidak tepat dapat menurunkan akurasi model. Penelitian ini bertujuan menemukan komposisi data terbaik untuk hasil klasifikasi kanker payudara yang baik. Metode yang digunakan adalah holdout dan k-fold cross validation. Algoritma klasifikasi yang dibandingkan adalah SVM, Random Forest, dan Naïve Bayes. Hasil penelitian menunjukkan performa akurasi yang berbeda pada ketiga algoritma tergantung pada metode validasi. Skema holdout validation dengan rasio 75%:25% menghasilkan akurasi terbaik untuk SVM, yaitu 98.89%. Algoritma Random Forest mencapai akurasi terbaik pada rasio split data 55%:45%, yaitu 95.85%. Namun, Naïve Bayes memiliki performa akurasi yang lebih baik saat menggunakan k-fold cross validation dengan akurasi 93.85%. Metode holdout dengan rasio 75:25 terbukti menghasilkan akurasi terbaik untuk klasifikasi data kanker payudara menggunakan SVM. Penelitian selanjutnya dapat menggunakan algoritma deep learning dan memperluas penelitian ke jenis kanker lainnya untuk meningkatkan hasil klasifikasi.
Article Details
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
References
N. P. W. P. Sari, “Women Living With Breast and Cervical Cancer in the Community: The Face of Surabaya Nowadays,” Indones. J. ofr Cancer, vol. 12, no. 4, pp. 116–122, 2018, doi: https://doi.org/10.33371/ijoc.v12i4.605.
Komite Penanggulangan Kanker Nasional, Panduan Penatalaksanaan Kanker Payudara. Kementerian Kesehatan Republik Indonesia.
A. M. Widodo, N. Anwar, B. Irawan, A. Wisnujati, and L. Meria, “Komparasi Performansi Algoritma Pengklasifikasi KNN, Bagging Dan Random Forest Untuk Prediksi Kanker Payudara,” Proceeding KONIK (Konferensi Nas. Ilmu Komputer), vol. 5, pp. 367–372, 2021.
Globocan, “Breast Cancer Fact Sheet,” 2020.
A. Ed-daoudy and K. Maalmi, “Breast cancer classification with reduced feature set using association rules and support vector machine,” Netw. Model. Anal. Heal. Informatics Bioinforma., vol. 9, no. 1, 2020, doi: https://doi.org/10.1007/s13721-020-00237-8.
R. Erwandi and S. Suyanto, “Klasifikasi Kanker Payudara Menggunakan Residual Neural Network,” Indones. J. Comput., vol. 5, no. 1, pp. 45–52, 2020, doi: https://doi.org/10.34818/INDOJC.2020.5.1.373.
D. T. Artha, S. Adinugroho, and P. P. Adikara, “Klasifikasi Pengidap Kanker Payudara Menggunakan Metode Voting Based Extreme Learning Machine (V-ELM),” J. Pengemb. Teknol. Inf. dan Ilmu Komput., vol. 3, no. 3, pp. 2180–2186, 2019.
V. R. Joseph, “Optimal ratio for data splitting,” Stat. Anal. Data Min. ASA Data Sci. J., vol. 15, no. 4, pp. 531–538, 2022, doi: https://doi.org/10.1002/sam.11583.
B. N. Azmi, A. Hermawan, and D. Avianto, “Analisis Pengaruh Komposisi Data Training dan Data Testing pada Penggunaan PCA dan Algoritma Decision Tree untuk Klasifikasi Penderita Penyakit Liver,” JTIM J. Teknol. Inf. dan Multimed., vol. 4, no. 4, pp. 281–290, 2023, doi: https://doi.org/10.35746/jtim.v4i4.298.
M. A. Jabbar, E. Hasmin, Sunardi, C. Susanto, and W. Musu, “Komparasi Algoritma Decision Tree, Naive Bayes dan KNN dalam Klasifikasi Kanker Payudara,” Comput. Sci. Res. Its Dev. J., vol. 14, no. 3, pp. 258–270, 2022, doi: https://doi.org/10.22303/csrid.14.3.2022.258-270.
S. Adi and A. Wintarti, “Komparasi Metode Support Vector Machine (SVM), K-Nearest Neighbors (KNN), dan Random Forest (RF) Untuk Prediksi Penyakit Gagal Jantung,” MATHunesa J. Ilm. Mat., vol. 10, no. 2, pp. 258–268, 2022, doi: https://doi.org/10.26740/mathunesa.v10n2.p258-268.
V. R. Sari, F. Firdausi, and Y. Azhar, “Perbandingan Prediksi Kualitas Kopi Arabika dengan Menggunakan Algoritma SGD, Random Forest dan Naive Bayes,” Edumatic J. Pendidik. Inform., vol. 4, no. 2, pp. 1–9, 2020, doi: https://doi.org/10.29408/edumatic.v4i2.2202.
M. G. Pradana, P. H. Saputro, and D. P. Wijaya, “Komparasi Metode Support Vector Machine Dan Naïve Bayes Dalam Klasifikasi Peluang Penyakit Serangan Jantung,” Indones. J. Bus. Intell., vol. 5, no. 2, pp. 87–91, 2022, doi: http://dx.doi.org/10.21927/ijubi.v5i2.2659.
N. M. Putry, “Komparasi Algoritma KNN Dan Naïve Bayes Untuk Klasifikasi Diagnosis Penyakit Diabetes Mellitus,” Evolusi J. Sains Dan Manaj., vol. 10, no. 1, pp. 45–57, 2022, doi: https://doi.org/10.31294/evolusi.v10i1.12514.
N. B. Putri and A. W. Wijayanto, “Analisis Komparasi Algoritma Klasifikasi Data Mining Dalam Klasifikasi Website Phishing,” Komputika J. Sist. Komput., vol. 11, no. 1, pp. 59–66, 2022, doi: https://doi.org/10.34010/komputika.v11i1.4350.
D. P. Utomo and M. Mesran, “Analisis Komparasi Metode Klasifikasi Data Mining dan Reduksi Atribut Pada Data Set Penyakit Jantung,” J. Media Inform. Budidarma, vol. 4, no. 2, pp. 437–444, 2020, doi: http://dx.doi.org/10.30865/mib.v4i2.2080.
C. Chazar and B. Erawan, “Machine Learning Diagnosis Kanker Payudara Menggunakan Algoritma Support Vector Machine,” Inf. (Jurnal Inform. Dan Sist. Informasi), vol. 12, no. 1, pp. 67–80, 2020.
P. D. Kusuma, Machine Learning Teori, Program, dan Studi Kasus. Sleman: Deepublish, 2020.
A. Nurhopipah and U. Hasanah, “Dataset Splitting Techniques Comparison For Face Classification on CCTV Images,” IJCCS (Indonesian J. Comput. Cybern. Syst., vol. 14, no. 4, pp. 341–352, 2020, doi: https://doi.org/10.22146/ijccs.58092.
A. Yasin, A. Yuniarti, and Y. A. Nugroho, “Efektifitas Algoritma Data Mining dalam Menentukan Pendonor Darah Potensial,” Syntax J. Inform., vol. 11, no. 01, pp. 12–22, 2022, doi: https://doi.org/10.35706/syji.v11i01.6595.
F. Tempola, R. Rosihan, and R. Adawiyah, “Holdout Validation for Comparison Classfication Naïve Bayes and KNN of Recipient Kartu Indonesia Pintar,” IOP Conf. Ser. Mater. Sci. Eng., vol. 1125, no. 1, 2021, doi: https://dx.doi.org/10.1088/1757-899X/1125/1/012041.
P. I. Nainggolan, D. S. Prasvita, and D. S. Bukit, “Klasifikasi Informasi Kesehatan Pada Data Media Sosial Menggunakan Support Vector Machine dan K-Fold Cross Validation,” Malikussaleh J. Mech. Sci. Technol., vol. 5, no. 2, pp. 34–38, 2021, doi: https://doi.org/10.29103/mjmst.v5i2.6317.
M. Syukron, R. Santoso, and T. Widiharih, “Perbandingan Metode Smote Random Forest Dan Smote Xgboost Untuk Klasifikasi Tingkat Penyakit Hepatitis C Pada Imbalance Class Data,” J. Gaussian, vol. 9, no. 3, pp. 227–236, 2020, doi: https://doi.org/10.14710/j.gauss.9.3.227-236.
M. N. Akbar, N. A. S. Yusuf, Nasrullah, and Mubarak, “Analisis Sentimen Pengguna Indihome dengan Metode Klasifikasi Support Vector Machine (SVM),” J. Software, Hardw. Inf. Technol., vol. 2, no. 1, pp. 13–21, 2022, doi: https://doi.org/10.24252/shift.v2i1.18.
U. Erdiansyah, A. I. Lubis, and K. Erwansyah, “Komparasi Metode K-Nearest Neighbor dan Random Forest Dalam Prediksi Akurasi Klasifikasi Pengobatan Penyakit Kutil,” J. Media Inform. Budidarma, vol. 6, no. 1, pp. 208–214, 2022, doi: http://dx.doi.org/10.30865/mib.v6i1.3373.
L. W. Astuti, I. Saluza, F. Faradilla, and M. F. Alie, “Optimalisasi Klasifikasi Kanker Payudara Menggunakan Forward Selection pada Naive Bayes,” J. Inform. Glob., vol. 11, no. 2, pp. 63–67, 2021, doi: https://doi.org/10.36982/jiig.v11i2.1235.
A. P. Ayudhitama and U. Pujianto, “Analisa 4 Algoritma Dalam Klasifikasi Liver Menggunakan Rapidminer,” J. Inform. Polinema, vol. 6, no. 2, pp. 1–9, 2020, doi: https://doi.org/10.33795/jip.v6i2.274.
D. S. Suparno, “Pengenalan Pola Untuk Mengetahui Jumlah Target Pengunjung Mall Berdasarkan Usia, Gender, Pendapatan Pertahun, Pengeluaran, Tujuannya Untuk Mempermudah Mengetahui Target Pasar Menggunakan Metode EDA, K-Means, Hierarchial Clustering, Confusion Matrix,” Sains, Apl. Komputasi dan Teknol. Inf., vol. 3, no. 2, pp. 61–69, 2023, doi: http://dx.doi.org/10.30872/jsakti.v3i2.4445.
W. Wolberg, O. Mangasarian, N. Street, and W. Street, “Breast Cancer Wisconsin (Diagnostic).” UCI Machine Learning Repository, 1995, doi: https://doi.org/10.24432/C5DW2B.
T. Hidayat, M. Priyatna, A. Sutanto, A. Al Khudri, and R. Komaruddin, “Informasi Sebaran Titik Panas Berbasis WebGIS untuk Pemantauan Kebakaran Hutan dan Lahan di Indonesia,” J. Teknol. Lingkung., vol. 20, no. 1, pp. 105–112, 2019.
S. Widaningsih, “Penerapan Data Mining untuk Memprediksi Siswa Berprestasi dengan Menggunakan Algoritma K Nearest Neighbor,” JATISI (Jurnal Tek. Inform. dan Sist. Informasi), vol. 9, no. 3, pp. 2598–2611, 2022, doi: https://doi.org/10.35957/jatisi.v9i3.859.