Identifikasi Faktor–Faktor yang Mempengaruhi Perilaku Seksual pada Remaja Menggunakan Metode Regresi Random Forest

Nurul Ratna Gumilang, Lisnur Wachidah

Abstract


Abstract. The Random Forest regression method is an expansion of the Classification and Regression Tree (CART) technique by applying Bagging and Random Feature Selection (RFS) (Breiman, 2001). Random forest generates hundreds or even thousands of decision trees, which act as regression functions on their own, and the final output of the RF regression is the average of the outputs of all decision trees. This method will be applied to data from the 2017 Indonesian Demographic and Health Survey (IDHS) to identify ten independent variables that are considered as factors that influence sexual behavior in adolescents. Based on the results of predictions show the predicted value approached the observed value with 9554 predictions showing risky sexual behavior and 8273 predictions indicating non-risky sexual behavior. The accuracy results obtained is MSE = 38.11; MAE = 4.46; RMSE = 6.17; and R2 = 0.335. R2 value means that the factors studied affect sexual behavior by 33.5% while the remaining 66.5% is influenced by other factors. Factors that influence sexual behavior sequentially are smoking, alcohol and narcotics; age; knowledge and experience of the reproductive system; gender; HIV/AIDS; point of view about marriage and children; last education; the role of family, school and society; domicile; and school history.

Keywords:   Classification and Tree Regression (CART), Random Forest Regression, IDHS 2017, Sexual Behavior.

Abstrak. Metode regresi Random Forest merupakan perluasan dari teknik Classification and Regression Tree (CART) dengan menerapkan Bagging dan Random Feature Selection (RFS) (Breiman, 2001). Random Forest menghasilkan ratusan atau bahkan ribuan decision tree yang bertindak sebagai fungsi regresi itu sendiri, dan hasil akhir dari regresi Random Forest adalah rata-rata dari output semua decision tree.  Metode ini akan diterapkan pada data hasil Survei Demografi dan Kesehatan Indonesia (SDKI) tahun 2017 untuk mengidentifikasi sepuluh variabel independent yang diduga merupakan faktor–faktor yang mempengaruhi perilaku seksual pada remaja. Berdasarkan hasil prediksi menunjukkan bahwa nilai prediksi mendekati nilai yang diamati dengan 9554 prediksi menunjukkan perilaku seksual berisiko dan 8273 prediksi menunjukkan perilaku seksual tidak berisiko. Hasil akurasi yang diperoleh adalah MSE = 38,11; MAE = 4,46; RMSE = 6,17; dan R2 = 0,335. Nilai R2 mengandung arti bahwa faktor–faktor yang diteliti berpengaruh terhadap perilaku seksual sebesar 33,5% sedangkan sisanya 66,5% dipengaruhi oleh faktor lain. Faktor–faktor yang mempengaruhi perilaku seksual secara berurutan adalah pengalaman mengenai rokok, alkohol, dan narkotika; usia; pengetahuan dan pengalaman mengenai sistem reproduksi; jenis kelamin; pengetahuan dan pengalaman mengenai HIV/AIDS; pendapat mengenai perkawinan dan anak; pendidikan terakhir; peran keluarga, sekolah dan masyarakat mengenai pengetahuan kesehatan reproduksi; daerah tempat tinggal; dan riwayat sekolah.

Kata Kunci: Classification and Regression Tree (CART), Regresi Random Forest, SDKI 2017, Perilaku Seksual.


Keywords


Classification and Regression Tree (CART), Regresi Random Forest, SDKI 2017, Perilaku Seksual

References


Adnyana, I M. B. (2015). Prediksi Lama Studi Mahasiswa dengan Metode Random Forest. CSRID Journal, 8(3), 201–208.

Badan Kependudukan dan Keluarga Berencana Nasional. (2017). Survei Demografi dan Kesehatan Indonesia (Online). (http://sdki.bkkbn.go.id, diakses 25 Juli 2019).

Badan Kependudukan dan Keluarga Berencana Nasional. (2018). Survei Demografi dan Kesehatan Indonesia 2017. Jakarta: Badan Kependudukan dan Keluarga Berencana Nasional.

Breiman, L. (2001). Random Forest. Machine Learning, 45, 5–32.

Breiman, L. (2002). Manual on Setting Up, Using, and Understanding Random Forest V3.1 (Online). (https://www.stat.berkeley.edu/~breiman/Using_random_forests_V3.1.pdf, diakses 1 Oktober 2019).

Breiman, L., Friedman J., Olshen R., dan Stone C. (1984). Classification and Regression Trees. Wadsworth Books, 258.

Cutler, A., Cutler, D. R., dan Stevens, J. R. (2011). Random Forest. Machine Learning, 45, 157–176.

Gong, H., Sun Y., Shu X., dan Huang B. (2018). Use of Random Forest Regression for Predicting IRI of Asphalt Pavements. Elsevier Construction and Building Materials, 189, 890–897.

Hand, David, Mannila, Heikki, dan Smyth, Padhraic (2001). Priciples of Data Mining. The MIT Press.

Li, Y., Zou C., Berecibar M., Maury E.N., Chan J.C.W., Bossche P.v.d., Mierlo J.V., dan Omar N. (2018). Random Forest Regression for Online Capacity Estimation of Lithium–Ion Batteries. Elsevier Applied Energy, 232, 197–210.

Liaw, A., dan Wiener M. (2002). Classification and Regression by Random Forest. R News. 2, 18–22.

Mubarok, M. I. (2018). Classification and Regression Tree (CART) (Online). (http://muhammadilhammubarok19.blogspot.com/2018/06/classification-and-regression-tree-cart.html, diakses pada 7 November 2019).

Welling, S.H. (2015). In a Random Forest, is Larger %IncMSE Better or Worse? (Online) (https://stats.stackexchange.com/questions/162465/in-a-random-forest-is-larger-incmse-better-or-worse, diakses pada 14 Desember 2019).

Winham, J. S., Freimuth R. R., dan Biernacka J. M. (2013). A Weighted Random Forest Approach to Improve Predictive Performance. NIH Public Access: Stat Anal Data Min. 6(6), 496–505.




Flag Counter