Analisa Perbandingan Stemming Dokumen Teks Berbahasa Jawa dengan Algoritma Levenshtein Distance Dan Jaro-Winkler

Wachid Daga Suryono - [ https://orcid.org/0000-0002-3806-8874 ]
Ema Utami
Dhani Ariatmanto


DOI: https://doi.org/10.29100/jipi.v10i1.6092

Abstract


Bahasa Jawa merupakan salah satu bahasa yang paling banyak digunakan di Indonesia, namun penelitian terkait bahasa Jawa dalam bidang informatika masih terbilang terbatas. Penelitian ini bertujuan untuk membandingkan kinerja algoritma Levenshtein Distance dan Jaro-Winkler dalam proses stemming dokumen teks berbahasa Jawa. Stemming adalah proses penting untuk pemrosesan teks yang bertujuan untuk mengubah kata-kata menjadi bentuk dasarnya. Bahasa Jawa memiliki tantangan tersendiri karena keterbatasan sumber daya. Dalam penelitian ini, kami menggunakan dataset dokumen teks bahasa Jawa yang telah melalui tahap pre-processing sebelumnya serta kamus bahasa Jawa sebagai acuan. Kedua algoritma diterapkan untuk melakukan stemming pada dokumen teks, dan hasilnya dievaluasi berdasarkan akurasi. Hasil penelitian menunjukkan bahwa rata-rata akurasi keduanya adalah 43%. Penelitian ini memberikan kontribusi dalam pengembangan algoritma stemming bahasa Jawa dan dapat menjadi landasan untuk penelitian lebih lanjut dalam meningkatkan kinerja stemming bahasa Jawa. Selain itu, penelitian ini juga memberikan wawasan baru dalam pemrosesan teks berbahasa Jawa yang dapat bermanfaat dalam berbagai aplikasi NLP dan pengolahan bahasa alami lainnya

Keywords


NLP, stemming, bahasa jawa, levenshtein distance, jaro-winkler

Full Text:

PDF

Article Metrics :

References


Badan Pengembangan dan Pembinaan Bahasa, Kementerian Pendidikan dan Kebudayaan Republik Indonesia. (2017). Kamus Besar Baha-sa Indonesia (KBBI) Online. Diperoleh dari https://kbbi.kemdikbud.go.id

Adnan Nur, M. (2021). Perbandingan Levenshtein Distance Dan Jaro-Winkler Distance Untuk Koreksi Kata Dalam Preprocessing Analisis Sentimen Pengguna Twitter. Jurnal Fokus Elektroda : Energi Listrik, Telekomunikasi, Komputer, Elektronika Dan Kendali), 6(2), 88–93. https://doi.org/10.33772/JFE.V6I2.17751

Agusta, L., & Harjoko, A. (2009). Algoritma stemming untuk dokumen teks Bahasa Jawa. http://etd.repository.ugm.ac.id/penelitian/detail/41269

Amin, F., & Purwaningtyas. (2016). Stemmer Bahasa Jawa Ngoko dengan Metode Affix Removal Stemmers(Rule Based Approach). Jurnal Teknologi Informasi DINAMIK, 21, 16–24. https://www.unisbank.ac.id/ojs/index.php/fti1/article/view/6076/1943

Asian, J., Williams, H. E., Tahaghoghi, S. M. M., Nazief, B., & Adriani, M. (2005). Stemming Indonesian : A Confix-Stripping Approach. Conferences in Research and Practice in Information Technology Series, 38, 307–314. https://doi.org/10.1145/1316457.1316459

Bacchin, M., Ferro, N., & Melucci, M. (2005). A probabilistic model for stemmer generation. Information Processing and Management, 41(1), 121–137. https://doi.org/10.1016/j.ipm.2004.04.006

Cahyani, D. E., Utami, L. M. T., & Setiadi, H. (2019). Clustering of Javanese News in Krama Alus Level with Javanese Stemming. ICOIACT, 462–467.

Damerau Levenshtein dan Jaro-Winkler, K. (2020). Kombinasi Damerau Levenshtein dan Jaro-Winkler Distance Untuk Koreksi Kata Bahasa Inggris. Jurnal Teknik Informatika Dan Sistem Informasi, 6(2), 2443–2229. https://doi.org/10.28932/JUTISI.V6I2.2493

Indriyono, B. V. (2020). Kombinasi Damerau Levenshtein dan Jaro-Winkler Distance Untuk Koreksi Kata Bahasa Inggris. Jurnal Teknik Informatika Dan Sistem Informasi, 6(2). https://doi.org/10.28932/jutisi.v6i2.2493

Julian Tannga, M., & Rahman, S. (2017). ANALISIS PERBANDINGAN ALGORITMA LEVENSHTEIN DISTANCE DAN JARO WINKLER UNTUK APLIKASI DETEKSI PLAGIARISME DOKUMEN TEKS. JTRISTE, 4(1), 44–54.

Kartika, H. C., & Suharso, W. (2013). PENERAPAN TEKNIK STEMMING PADA BAHASA JAWA NGOKO BERBASIS ALGORITMA PORTER.

Kastowo, D., Saputra, A., Suryono, W. D., & Setyowati, E. (2022). Comparative analysis of the Nazief Adriani and Levenshtein Distance algorithms to measure the level of similarity of Javanese news using Rabin Krap. JNANALOKA, 3(1), 1–10. https://doi.org/10.36802/JNANALOKA.2022.V3-NO1-1-10

(Bentuk dan Struktur Bahasa Jawa). https://staffnew.uny.ac.id/upload/132006198/penelitian/Morfologi%20Bahasa%20Jawa.pdf

Nq, M. A., Manik, L. P., & Widiyatmoko, D. (2020). Stemming Javanese: Another Adaptation of the Nazief-Adriani Algorithm. 2020 3rd International Seminar on Research of Information Technology and Intelligent Systems, ISRITI 2020, 627–631. https://doi.org/10.1109/ISRITI51436.2020.9315420

Sugiarto, Diyasa, I. G. S. M., & Diana, I. N. (2020). Levenshtein distance algorithm analysis on enrollment and disposition of letters ap-plication. Proceeding - 6th Information Technology International Seminar, ITIS 2020, 198–202. https://doi.org/10.1109/ITIS50118.2020.9321030

Sumarlam. (2004). Aspektualitas bahasa jawa : kajian morfologi dan sintaksis. Surakarta Pustaka Cakra.

Uhlenbeck, E. M. (1949). The structure of the Javanese morpheme. Lingua, 2(C), 239–270. https://doi.org/10.1016/0024-3841(49)90027-3

Uhlenbeck, E. M. (1982). Kajian Morfologi Bahasa Jawa (1982) (4th ed., Vol. 4). Pusat Pembinaan dan Pengembangan Bahasa Departe-men Pendidikan dan Kebudayaan. Aspektualitas bahasa Jawa: kajian morfologi dan sintaksis

Winkler, W. E. (1990). String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage Cleaning and Analyzing Sets of Files View project. https://www.researchgate.net/publication/243772975

Yulianingsih, Y. (2017). Implementasi Algoritma Jaro-Winkler dan Levenstein Distance dalam Pencarian Data pada Database. STRING (Satuan Tulisan Riset Dan Inovasi Teknologi), 2(1), 18–27. https://doi.org/10.30998/STRING.V2I1.1720

]“Leksikon.” Accessed: Mar. 19, 2024. [Online]. Available: https://www.sastra.org/leksikon

M. Fauziyah, “STEMMING BAHASA JAWA MENGGUNAKAN ALGORITMA LEVENSHTEIN DAN ANALISA MORFOLOGI,” Ma-lang, 2019. Accessed: Apr. 07, 2023. [Online]. Available: http://etheses.uin-malang.ac.id/16387/1/12650132.pdf

A. P. Wibawa and M. N. Hakim, “STEMMING BAHASA JAWA MENGGUNAKAN DAMERAU LEVENSHTEIN DISTANCE (DLD),” JURNAL TEKNIK INFORMATIKA, vol. 14, no. 1, pp. 22–27, Sep. 2021, doi: 10.15408/jti.v14i1.15010.

Jizba, R. (2000). Measuring search effectiveness. Creighton University Health Sciences Library and …. http://scholar.google.com/scholar?hl=en&btnG=Search&q=intitle: Measuring+Search+Effectiveness#2

Navarro, G. (2001). A guided tour to approximate string matching. ACM Computing Surveys (CSUR), 33(1), 31-88.

Putra, Rahardyan. (2018). Optimalisasi Stemming Kata Berimbuhan Tidak Baku Pada Bahasa Indonesia Dengan Levenshtein Distance. Jurnal Informatika: Jurnal Pengembangan IT. 3. 200-205. 10.30591/jpit.v3i2.877.

M. Qulub et al., “Stemming Kata Berimbuhan Tidak Baku Bahasa Indonesia Menggunakan Algoritma Jaro-Winkler Distance,” Creative Information Technology Journal, vol. 5, no. 4, pp. 254–263, Mar. 2020, doi: 10.24076/CITEC.2018V5I4.218.