Penerapan Algoritma Boyer Moore yang di Modifikasi untuk stemmer Bahasa Indonesia
Abstract
Proses stemming dalam Natural Language Processing (NLP) adalah tahap penting dalam pra-pemrosesan data untuk mengurai bentuk kata menjadi kata dasar. Dalam konteks bahasa Indonesia, proses ini melibatkan penghapusan imbuhan untuk menemukan kata dasar. Beberapa metode stemming yang umum digunakan termasuk Porter stemmer, Lancaster stemmer, Snowball stemmer, dan Nazief Andriani stemmer. Meskipun banyak penelitian telah dilakukan untuk meningkatkan akurasi stemming, penelitian ini menyoroti peran algoritma string matching, terutama algoritma Boyer Moore, dalam mencocokkan hasil stemming dengan kamus kata. Namun, implementasi langsung algoritma Boyer Moore menghadapi kendala karena mencocokkan pattern pada seluruh teks, yang harusnya hanya pada bagian kanan kata. Oleh karena itu, algoritma ini dimodifikasi agar sesuai dengan kebutuhan dan tetap mempertahankan kinerjanya. Studi terdahulu menunjukkan bahwa algoritma Boyer Moore memiliki kinerja yang lebih cepat dibandingkan dengan beberapa algoritma string matching lainnya seperti Knuth Morris Pratt, Brute Force, dan Rabin Karp. Hasil penelitian ini berhasil mencapai tingkat akurasi sebesar 95,2% dari total 500 kata yang diproses. Hasil dari penilitian ini juga menunjukan kesalahan stemming yang terjadi hanya diakibatkan dari understemming dan beberapa yang kata tidak ter-stemming.
Full Text:
PDFArticle Metrics :
References
A. Prihantini, “Master Bahasa Indonesia: Panduan Tata Bahasa Indonesia Terlengkap”, Sleman, 2015, hal 30-44.
F.H. Rachman, “Buku Ajar Komputasi Bahasa Alami, Media Nusa Creative”, Malang, 2020, hal 14-16.
Y.K. Paskahningrum, E. Utami, and A. Yaqin, (Januray 2023), A Systematic Literature Review of Stemming in Non-Formal Indonesian Language, International Journal of Innovative Science and Research Technology, vol. 8, issue 1, hal 62-69. Tersedia: https://www.researchgate.net/publication- /367530569_A_Systematic_Literature_Review_of_Stemming_in_Non-Formal_Indonesian_Language
M.U. Albab, Y.K. Paskahningrum, and M.N. Fawaiq, (January 2023), Optimization of the Stemming Technique on Text preprocessing President 3 Periods Topic, Jurnal Transformatika, vol. 20, no. 2, hal 1-12. Tersedia: https://journals.usm.ac.id/index.php/transformatika/article/view/5374.
A. Siswandi, A.Y. Permana, and A. Emarilis, (2021), Stemming Analysis Indonesian Languange News Text with Porter Algorithm, Journal of Physics: Conference Series. Tersedia: https://iopscience.iop.org/article/10.1088/1742-6596/1845/1/012019.
F. W. Suci, N. Hayatin, and Y. Munarko, (January 2022), IN-Idris: Modification Of Idris Stemming Algorithm For Indonesian Text, IIUM Engineering Journal, vol. 23, no. 1, hal 82-94. Tersedia: https://www.researchgate.net/publication/357572461_IN-IDRIS_MODIFICATION_OF_IDRIS_STEMM- ING_ALGORITHM_FOR_INDONESIAN_TEXT.
I. B. Wicaksono, I. H. Santi, and F. Febrinita, (September 2022), Penerapan Algoritma Boyer-Moore Terhadap Aplikasi Kamus Teminologi Biomedis Berbasis Android, JATI (Jurnal Mahasiswa Teknik Informatika), vol. 6, no. 2, hal 888-892. Tersedia: https://ejournal.itn.ac.id/index.php/jati/article/- view/5778.
S. R. Cakrawijaya, and B. Kriswantara, (July 2021), Perbandingan Kinerja Algoritma String Matching Boyer-Moore & Knuth-Morris-Pratt Pada Seo Web Server, KOMPUTASI: Jurnal Ilmiah Ilmu Komputer dan Matematika, vol. 18, no. 2, hal 97-102. Tersedia: https://journal.unpak.ac.id/index.php- /komputasi/ article/view/3246.
V. Gupta, M. Singh, and V. K. Bhalla, (September 2014), Pattern Matching Algorithms for Intrusion Detection and Prevention System: A Comparative Analysis, Institute of Electrical and Electronics Engineers, hal 50-54. Tersedia: https://www.researchgate.net/publication/286583557_Pattern- _matching_algorithms_for_intrusion_detection_and_prevention_system_A_comparative_analysis.
S. S. Dwood, and S. A. Barakat, (September 2020), Empirical Performance Evaluation Of Knuth Morris Pratt And Boyer Moore String Matching Algorithms, Journal of University of Duhok, vol. 23. no. 1, hal 134-143. Tersedia: https://journal.uod.ac/index.php/uodjournal/article/view/732.
Sastrawi, oleh A. Librian, (October 2016), Tersedia: https://github.com/sastrawi/sastrawi/wiki/Stemming-Bahasa-Indonesia.
D. Mustikasari, I. Widaningrum, R. Arifin, and W. H. E. Putri, (August 2021), Comparison of Effectiveness of Stemming Algorithms in Indonesian Documents, Atlantis Press, Advances in Engineering Research, vol. 203, Hal 154-158. Tersedia: https://www.atlantis-press.com/proceedings/bis-ste-20- /125959927.
V. Ayumi, H. Noprisson, M. Utami, E.D. Putra, and M. Purba, Konsep Dasar Nutaral Languange Processing (NLP), Sukabumi, 2023, hal 46-47.
N. Pamungkas, E.D. Udayanti, B.V. Indriyono, W. Mahmud, E. Mintorini, A.N.W. Dorroty, and S.Q. Putri, (January 2023), Comparison of Stemming Test Results of Tala Algorithms with Nazief Adriani in Abstract Documents and National News, Inform : Jurnal Ilmiah Bidang T eknologi Informasi dan Komunikasi, vol. 8, no. 1, hal 33-41. Tersedia: https://ejournal.unitomo.ac.id/index.php/inform/article/view/5569.
A. Sinaga, S.P. and Nainggolan, (Juny 2023), Analisis Perbandingan Akurasi dan Waktu Proses Algoritma Stemming Arifin-Setiono dan Nazief-Adriani Pada Dokumen Teks Bahasa Indonesia, Sebatik, vol. 27, no. 1, hal 63-69. Tersedia: https://jurnal.wicida.ac.id/index.php/sebatik/article/view/2072/.
G. N. M. Nata, I. G. N. N. Bagiarta, I. P. Ramayasa, and I. M. A. Santosa, (August 2023), Pengembangan Algoritma Stemmer Bilingual Bali-Indonesia Dengan Rule-Base, Seminar Nasional Corisindo, hal 278-283. Tersedia: https://stmikpontianak.org/ojs/index.php/corisindo/article/view/72.
M. Fikry, and Y. Yusra, (November 2021), Stemmer Bahasa Melayu Riau Berdasarkan Aturan Morfologi, Sntiki, hal 118-124. Tersedia: https://ejournal.uin-suska.ac.id/ index.php/SNTIKI/article/view/14405.
E. Lindrawati, E. Utami, and A. Yaqin, (December 2023), ANoM STEMMER: Nazief & Andriani Modification for Madurese Stemming, Jurnal Resti, vol. 7, no. 6, hal 1341-1346. Tersedia: http://www.jurnal.iaii.or.id/index.php/RESTI/article/view/5086.
N. H. Hrp, M, Fikry, and Y. Yusra, (May 2023), Algoritma Stemming Teks Bahasa Batak Angkola Berbasis Aturan Tata Bahasa, Josyc, vol. 4, no. 3, hal 642-648. Tersedia: https://ejurnal.seminar-id.com/index.php/josyc/article/view/3458.
A. Sutedi, M. R. Nasrullah, and R. Elsen, (December 2022), Multi Rule-based and Corpus-based for Sundanese Stemmer, Join, vol. 7, no.2, hal 184-192. Tersedia: https://join.if.uinsgd.ac.id/index.php/join/article/view/846