PEMBOBOTAN KATA BERDASARKAN KLASTER PADA OPTIMISASI COVERAGE, DIVERSITY DAN COHERENCE UNTUK PERINGKASAN MULTI DOKUMEN

Ryfial Azhar; Muhammad Machmud; Hanif Affandi Hartanto; Agus Zainal Arifin; Diana Purwitasari

doi:10.33197/jitter.vol2.iss3.2016.105

Penulis

Ryfial Azhar Institut Teknologi Sepuluh Nopember
Muhammad Machmud Institut Teknologi Sepuluh Nopember
Hanif Affandi Hartanto Institut Teknologi Sepuluh Nopember
Agus Zainal Arifin Institut Teknologi Sepuluh Nopember
Diana Purwitasari Institut Teknologi Sepuluh Nopember

DOI:

https://doi.org/10.33197/jitter.vol2.iss3.2016.105

Kata Kunci:

multy-document summarization, similarity based histogram clustering, coverage, diversity, coherence

Abstrak

[Id]

Peringkasan yang baik dapat diperoleh dengan coverage, diversity dan coherence yang optimal. Namun, terkadang sub-sub topik yang terkandug dalam dokumen tidak terekstrak dengan baik, sehingga keterwakilan setiap sub-sub topik tersebut tidak ada dalam hasil peringkasan dokumen. Pada paper ini diusulkan metode baru pembobotan kata berdasarkan klaster pada optimisasi coverage, diversity dan coherence untuk peringkasan multi-dokumen. Metode optimasi yang digunakan ialah self-adaptive differential evolution (SaDE) dengan penambahan pembobotan kata berdasarkan hasil dari pembentukan cluster dengan metode Similarity Based Histogram Clustering (SHC). Metode SHC digunakan untuk mengklaster kalimat sehingga setiap sub-topik pada dokumen bisa terwakili dalam hasil peringkasan. Metode SaDE digunakan untuk mencari solusi hasil ringkasan yang memiliki tingkat coverage, diversity, dan coherence paling tinggi. Uji coba dilakukan pada 15 topik dataset Text Analysis Conference (TAC) 2008. Hasil uji coba menunjukkan bahwa metode yang diusulkan dapat menghasilkan ringkasan skor ROUGE-1 sebesar 0.6704, ROUGE-2 sebesar 0.2051, ROUGE-L sebesar 0.6271 dan ROUGE-SU sebesar 0.3951.

Kata kunci : peringkasan multi dokumen, similarity based histogram clustering, coverage, diversity, coherence

[En]

Good summary can be obtained with optimizing coverage, diversity, and coherence. Nevertheless, sometime sub-topics wich is contained in the document is not extracted well, so that the representation of each sub-topic is appear in docment summarizarion result. In this paper, we propose new of term weighting based on? cluster in optimizing coverage, diversity, and coherence for multi-document summarization. Optimization method which is used is self-adaptive differential evolution (SaDE) with additional term weighting based on clustering result with Similarity Based Histogram Clustering (SHC). SHC is used to cluster sentence so that every sub-topic in the document can be represented in summarization result. SaDE is used to search summarization result solution which has high coverage, diversity, and coherence level. Experiment is done on 15 topics in Text Analysis Conference (TAC) 2008 dataset. Experimental results show that this proposed method can produce summarization score? ROUGE-1 0.6704, ROUGE-2 0.2051, ROUGE-L 0.6271 and ROUGE-SU 0.3951.

Keywords: multy-document summarization, similarity based histogram clustering, coverage, diversity, coherence.

Unduhan

Data unduhan belum tersedia.

PEMBOBOTAN KATA BERDASARKAN KLASTER PADA OPTIMISASI COVERAGE, DIVERSITY DAN COHERENCE UNTUK PERINGKASAN MULTI DOKUMEN

Penulis

DOI:

Kata Kunci:

Abstrak

Unduhan

Biografi Penulis

Muhammad Machmud, Institut Teknologi Sepuluh Nopember

Unduhan

Diterbitkan

Cara Mengutip

Terbitan

Bagian

Lisensi

Artikel paling banyak dibaca berdasarkan penulis yang sama

detail

Kirim Naskah

cover jitter

template_bahasa_Indonesia_bahasa Inggris

sertifikat_JITTER

indexing

tools

visitor

Bahasa

issn

Informasi

reviewer