Penerapan dan Perbandingan Tiga Metode Analisis Pohon Keputusan pada Klasifikasi Penderita Kanker Payudara

Jody Alwin Irawadi, Siti Sunendiari

Abstract


Abstract. Today there is a considerable amount of work dealing with decision trees, especially in survival analysis (Ibrahim et al, 2008). Cases classified as survival analysis, like cancer patients.  This study discusses the application of data mining which is to obtain diagnostic results.  The classification technique uses information obtained from medical records of breast cancer patients in Yugoslavia.  A method for answering these problems through decision tree analysis using the CHAID, Exhaustive CHAID and CART methods.  Empirically aiming to compare performance of three decision tree classification methods so that the best method is obtained.  It was concluded that best method used in applying to the classification of breast cancer sufferers was the CART method because it was able to get the most significant variables at most four, namely inv-node, tumor size, deg-malig and breast parts.  Then it has a total accuracy rate with highest value of 84.9 percent and has a total error rate with lowest value of 15.1 percent.

Keywords: CHAID, Exhaustive CHAID, CART, classification, breast cancer.

Abstrak. Dewasa ini ada cukup banyak pekerjaan yang berurusan dengan pohon keputusan, terutama dalam analisis survival (Ibrahim dkk, 2008). Kasus yang tergolong analisis survival seperti penderita penyakit kanker. Penelitian ini membahas mengenai penerapan data mining yang digunakan untuk mendapatkan hasil diagnostik. Pendekatan teknik klasifikasi dengan menggunakan informasi yang diperoleh pada rekam medis data penderita kanker payudara di Yugoslavia. Salah satu metode untuk menjawab permasalahan tersebut melalui analisis pohon keputusan dengan metode CHAID, Exhaustive CHAID dan CART. Secara empiris bertujuan untuk membandingkan kinerja tiga metode pengklasifikasi pohon keputusan agar didapatkan metode manakah yang terbaik. Maka disimpulkan bahwa metode terbaik yang digunakan dalam penerapan pada klasifikasi penderita kanker payudara adalah metode CART sebab mampu mendapatkan variabel signifikan yang paling banyak ada empat, yakni inv-node, ukuran tumor, deg-malig dan bagian payudara. Kemudian memiliki tingkat akurasi total dengan nilai tertinggi sebesar 84.9 persen dan memiliki total tingkat kesalahan dengan nilai yang terendah sebesar 15.1 persen.

Kata Kunci: CHAID, Exhaustive CHAID, CART, klasifikasi, kanker payudara.


Keywords


CHAID, Exhaustive CHAID, CART, klasifikasi, kanker payudara

References


Agresti, A. 1990. Categorical Data Analysis. USA: University of Florida.

Alamundi, A., Wigena, A. H. & Aunuddin. 1998. Eksplorasi Struktur Data Menggunakan Metode CHAID. Forum Statistika dan Komputasi. Institut Pertanian Bogor. ISSN: 08538115.

Breiman, L., Friedman, J., Olshen, R. & Stone, C. 2009. Classification and Regression Trees. New York – London: Chapman Hall.

Cho, V. & Ngai, E. 2003. Data Mining for Selection of Insurance Sales Agents. Expert Systems, 20, 123-132, doi: 10.1111/1468-0394.00235.

Delen, D., Walker, G. & Kadam, A. 2004. Predicting Breast Cancer Survivability: A Comparison of Three Data Mining Methods. Artifical Intelligence in Medicine,1-15, doi: 10.1016/j.artmed.2004.07.002.

Departemen Kesehatan. 2019. Hari Kanker Sedunia 2019 (Online), (https://depkes.go.id /article/view/19020100003/hari-kanker-sedunia-2019.html, diakses 20 Oktober 2019).

Fayyad, U. 1996. Advances in Knowledge Discovery and Data Mining. MIT Press.

Globocan. 2018. Cancer Tomorrow (Online), (https://gco.iarc.fr/, diakses 20 Oktober 2019).

Halodoc. 2019. Kanker Payudara (Online), (https://halodoc.com/kesehatan/kanker-payudara diakses 30 Oktober 2019).

Ibrahim, N. A., Kudus, A., Daud, I. & Abu Bakar, M. R. 2008. Decision Tree for Competing Risks Survival Probability in Breast Cancer Study. International Journal of Biomedical Sciences,3(1):25-29.

Kass, G. V. 1980. An Exploratory Technique For Large Quantities For Categorical Analysis Data. App Statis. 29, No 2 : 119 – 127.

Larose, D. T. 2005. Discovering Knowledge in Data: An Introduction to Data Mining. John Willey & Sons, Inc.

Nazar, R. R. 2018. Penerapan Metode CHAID (Chi-Squared Automatic Interaction Detection) dan CART (Classification And Regression Trees) Pada Klasifikasi Preeklampsia. Skripsi S1 Program Studi Statistika, Universitas Islam Indonesia.

Nugraha, J. 2016. Pengantar Analisis Data Kategorik. Yogyakarta: Deepublish.

Soemartojo, S. M. 2002. Kajian Metoda CHAID dan CHAID Exhaustive Sebagai Analisa Pohon Bestruktur. Tesis S2 Program Studi Statistika, Institut Pertanian Bogor.

Sumartini, S. H. & Purnami, S. W. 2015. Penggunaan Metode Classification and Regression Tree (CART) untuk Klasifikasi Rekurensi Pasien Kanker Serviks. Jurnal Sains dan Seni ITS Vol. 4, No. 2, (2015) 2337-3520 (2301-928X Print).

Susanti, Y., Zukhronah, E., Pratiwi, H., Respatiwulan. & Handayani, S. 2017. Analysis of Chi-square Automatic Interaction Detection (CHAID) and Classification and Regression Tree (CRT) for Classification of Corn Production. International Conference on Science and Applied Science, 909, doi:10.1088/1742-6596/909/1/012041.

UCI Machine Learning Repository. Breast Cancer (Online), (https://archive.ics. uci.edu/ml/datasets/Breast+Cancer, diakses 19 Juli 2019).

Venkatesan, E. & Velmurugan, T. 2015. Performance Analysis of Decision Tree Algorithms for Breast Cancer Classification. Indian Journal of Science and Technology,8(29):1-8, doi: 10.17485/ijst/2015/v8i29/84646.

Widiastuti, A. 2001. Penelusuran Karakteristik Kepemilikan Kartu Kredit Dengan Metode CHAID dan Metode CHAID Exhaustive. Skripsi S1 Departemen Statistika, Institut Pertanian Bogor.

Widyanastyah, Y. 2015. Penentuan Penciri Keragaman Konsumsi Pangan Rumah Tangga Rawan Pangan Dengan Metode CHAID dan Exhaustive CHAID. Skripsi S1 Departemen Statistika, Institut Pertanian Bogor.

World Health Organization. 2019. Cancer (Online), (https://www.who.int/health-topics/cancer, diakses 20 Oktober 2019).

Yunindya, R. 2017. Model Credit Scoring Menggunakan Metode Classification and Regression Trees (CART) pada Data Kartu Kredit. Skripsi S1 Program Studi Statistika, Universitas Islam Bandung.

Zhang, J., Yu, B. & Chikaraisih, M. 2014. Interdepenendces Household Residential and Car Ownership Behavior: A Life History Analysis. Journal of Transport Geography 34 (2014) 165-174.




Flag Counter