Perhitungan Kemiripan Term Co-occurence Berdasarkan Cluster Dokumen Untuk Pengembangan Thesaurus Bahasa Arab
Main Article Content
Abstract
Salah satu cara dalam pembentukan thesaurus adalah dengan cara menghitung nilai kemiripan term. Untuk mendapatkan nilai kemiripan tersebut dapat dilakukan dengan pendekatan co-occurence yaitu melihat frekuensi kemunculan bersama term-term tersebut. Frekuensi tersebut dilihat dari seberapa banyak term tersebut muncul bersama pada dokumen-dokumen corpus. Setiap dokumen-dokumen yang terdapat pada corpus memiliki konten atau topik yang berbeda-beda. Sehingga term-term yang berada pada dokumen suatu topik akan memiliki konteks yang berbeda dengan term-term pada dokumen dengan topik lainnya. Oleh sebab itu, paper ini mengusulkan metode baru dalam perhitungan kemiripan term dengan co-occurence yang memperhatikan cluster dari dokumen pada pengembangan thesaurus Bahasa Arab. Dokumen-dokumen corpus akan di clustering untuk mengelompokkan berdasarkan kedekatan konten dari dokumen tersebut. Untuk mendapatkan nilai kemiripan term dilakukan perhitungan clusterweight dengan memanfaatkan nilai dari inverse class frequency setiap term terhadap cluster yang ada. Thesaurus dibentuk dengan melihat nilai hasil perhitungan kemiripan term tersebut. Thesaurus yang dibentuk dengan metode usulan berhasil meningkatkan relevansi antar term dibuktikan dengan hasil percobaan memiliki nilai precision tertinngi sebesar 63,3%, recall sebesar 78,6% dan f-measure sebesar 50%.
Downloads
Article Details
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
Authors who publish with this journal agree to the following terms:
- Authors retain copyright and grant the journal right of first publication with the work simultaneously licensed under a Creative Commons Attribution License that allows others to share the work with an acknowledgement of the work's authorship and initial publication in this journal.
- Authors are able to enter into separate, additional contractual arrangements for the non-exclusive distribution of the journal's published version of the work (e.g., post it to an institutional repository or publish it in a book), with an acknowledgement of its initial publication in this journal.
- Authors are permitted and encouraged to post their work online (e.g., in institutional repositories or on their website) prior to and during the submission process, as it can lead to productive exchanges, as well as earlier and greater citation of published work
References
[2] Y. Tseng, "Automatic Thesaurus Generation for Chinese Documents," J. Am. Soc. Inf. Sci. Technol., vol. 53, no. September, pp. 1130–1138, 2002.
[3] H. Khafajeh, M. Refai, and N. Yousef, "Building Arabic Automatic Thesaurus Using Co-occurence Technique," in Proceedings of International Conference on Communication, Media, Technology and Design, 2013, pp. 28–32.
[4] P. Li, H. Wang, K. Q. Zhu, Z. Wang, and X. Wu, "Computing term similarity by large probabilistic isA knowledge," Proc. 22nd ACM Int. Conf. Conf. Inf. Knowl. Manag. - CIKM ’13, pp. 1401–1410, 2013.
[5] E. W. Y. Ismail, "Aplikasi Berbasis Web Pendeteksi Plagiarisme Menggunakan Algoritma Himpunan Kata," Infotel, vol. 6, no. 2, pp. 2–7, 2014.
[6] H. Zohar, C. Liebeskind, J. Schler, and I. D. O. Dagan, "Automatic Thesaurus Construction for Cross Generation Corpus," J. Comput. Cult. Herit., vol. 6, no. 1, 2013.
[7] Y. H. Tseng, "Automatic thesaurus generation for Chinese documents," J. Am. Soc. Inf. Sci. Technol., vol. 53, no. 13, pp. 1130–1138, 2002.
[8] M. A. Fauzi et al., "Term Weighting Berbasis Indeks Buku Dan Kelas Untuk Perangkingan Dokumen Berbahasa Arab," Lontar Komput., vol. 5, no. 2, pp. 110–117, 2015.
[9] M. Mahdavi and H. Abolhassani, "Harmony K -means algorithm for document clustering," no. November 2008, pp. 370–391, 2009.
[10] H. Gupta and R. Srivastava, "k-means Based Document Clustering with Automatic ‘ k ’ Selection and Cluster Refinement," Int. J. Comput. Sci. Mob. Appl., vol. 2, no. 5, pp. 7–13, 2014.
[11] S. R. Wardhana, D. R. Yunianto, A. Z. Arifin, and D. Purwitasari, "PEMBOBOTAN KATA BERBASIS PREFERENSI DAN HUBUNGAN SEMANTIK PADA DOKUMEN FIQIH BERBAHASA ARAB," J. Teknol. Inf. dan Ilmu Komput., vol. 2, no. 2, pp. 132–137, 2015.