Algoritma Stemming


Algoritma Stemming Sahabat Pustakers, pada kesempatan kali ini Pustaka Sekolah akan share artikel mengenai algoritma stemming. Stemming adalah suatu proses yang menstransformasikan kata-kata yang terdapat dalam suatu dokumen kata dasar (root word) dengan menggunakan aturan-aturan tertentu. Berdasarkan pada asumsi bahwa term-term yang memiliki bentuk dasar (stem) yang sama pada umumnya memiliki makna yang mirip, proses stemming digunakan secara luas dalam Information Retrieval sebagai salah satu cara untuk meningkatkan perfirmansi retrieval.

Algoritma Stemming untuk bahasa yang satu berbeda dengan algoritma stemming untuk bahasa lainnya. Sebagai contoh Bahasa Inggris memiliki morfologi yang berbeda dengan Bahasa Indonesia sehingga algoritma stemming untuk kedua bahasa tersebut juga berbeda. Proses stemming pada teks berbahasa Indonesia lebih rumit karena terdapat variasi imbuhan yang harus dibuang untuk mendapatkan root word. Pada proses bahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia, selain sufiks, prefiks, dan konfiks juga dihitung . Didalam Bahasa Jawa Ngoko proses pencarian root word atau pembuangan imbuhan untuk mencari kata dasar hampir sama dengan bahasa Indonesia. Pada proses bahasa Jawa Ngoko juga memerlukan proses sufiks, prefix, dan konfiks. Berikut adalah Algoritma-algoritma dalam teknik Stemming:

stemming

Algoritma Nazief dan Adriani

Algoritma ini mengacu pada aturan morfologi bahasa Indonesia yang mengelompokkan imbuhan, yaitu imbuhan yang diperbolehkan atau imbuhan yang tidak diperbolehkan. Pengelompokan ini termasuk imbuhan di depan (awalan), imbuhan kata di belakang (akhiran), imbuhan kata di tengah (sisipan) dan kombinasi imbuhan pada awal dan akhir kata (konfiks). Algoritma ini menggunakan kamus kata keterangan yang digunakan untuk mengetahui bahwa proses stemming telah mendapatkan kata dasar.

Algoritma Porter

Stemming khusus bahasa Inggris yang ditemukan oleh Martin Porter 1980. Mekanisme algoritma dalam mencari kata dasar suatu kata berimbuhan dengan membuang imbuhan-imbuhan (atau lebih tepatnya akhiran) pada kata–kata bahasa Inggris karena dalam bahasa Inggris tidak mengenal awalan. Karena bahasa Inggris datang dari kelas yang berbeda, beberapa modifikasi telah dilakukan untuk membuat Algoritma Porter sehingga dapat digunakan sesuai dengan bahasa Indonesia. Implementasi Porter Stemmer for Bahasa Indonesia berdasarkan English Porter Stemmer yang dikembangkan oleh W.B. Frakes pada tahun 1992. Karena bahasa Inggris datang dari kelas yang berbeda, beberapa modifikasi telah dilakukan untuk membuat Algoritma Porter dapat digunakan sesuai dengan bahasa Indonesia.



Algoritma Confix Stripping (CS)

Confix stripping (CS) stemmer adalah metode stemming pada Bahasa Indonesia yang diperkenalkan oleh Jelita Asian yang merupakan pengembangan dari metode stemming yang dibuat oleh Nazief dan Adriani (1996). Proses ini berfungsi untuk mengubah bentuk dari suatu kata menjadi bentuk kata dasarnya. Proses perubahan bentuk ini akan menghilangkan kandungan imbuhan seperti awalan dan akhiran pada kata yang bersangkutan, sehingga diharapkan diperoleh bentuk dasarnya. Dalam proses ini digunakan kamus kata dasar untuk menambah tingkat ketelitian, dimana setiap kata yang akan dicari bentuk dasarnya di cek terlebih dulu di kamus.

Algoritma Vega

Perbedaan algoritma Vega ini dibandingkan semua algoritma yang lain adalah pada algoritma Vega tidak menggunakan kamus. Urutan penghilangan imbuhan yang melekat pada kata untuk algoritma Vega ini, sama seperti urutan penghilangan imbuhan yang diterapkan pada algoritma Arifin dan Setiono.

Algoritma Arifin dan Setiono

Arifin and Setiono mengajukan skema algoritma yang sedikit lebih sederhana dibandingkan algoritma Nazief and Adriani tetapi yang menjadi kesamaan diantara kedua algoritma tersebut adalah kedua algoritma tersebut menggunakan kamus dan sama-sama menyediakan fungsi recoding.

Algoritma Enhanded Confix Stripping (ECS)

Algoritma ini perupakan pengembangan dari algoritma Confix stripping (CS). Dalam algoritma Confix stripping (CS) terdapat kelemahan atau tidak dapat mengstemming kata-kata tertentu, pada algoritma ini Menambahkan suatu algoritma tambahan untuk mengatasi kesalahan pemenggalan akhiran yang seharusnya tidak dilakukan.

Algoritma Connected Component

Merupakan algoritma yang memecahkan Permasalahan overstemming dan understemming tidak dapat diselesaikan dengan melakukan stemming dengan hanya melihat kata per kata atau melakukan modifikasi tabel aturan pemenggalan. Penyebabnya adalah hasil dari proses stemming yang dapat berjumlah lebih dari satu kata. Jika menggunakan teknik stemming kata per kata, maka hasil akhir dari stemming bergantung dari algoritma stemming yang digunakan apakah menggunakan pemenggalan semaksimal mungkin atau sebaliknya.[ps]



Tags:


algoritma stemming bahasa indonesia, algoritma stemming untuk dokumen teks bahasa jawa

Artikel Terkait Dengan: "Algoritma Stemming"

Response on "Algoritma Stemming"