OPTICAL CHARACTER RECOGNITION JEPANG MENGGUNAKAN MATRIKS POPULASI PIKSEL DAN L1-METRIC

  • Ade Setiawan Universitas Bunda Mulia
  • Kristien Margi Suryaningrum Universitas Bunda Mulia
Keywords: Hiragana, Katakana, OCR, Pixel Population Matrix, L1-Metric.

Abstract

[Id]

Aksara Hiragana dan Katakana merupakan bahasa yang berasal dari negara Jepang. Bahasa Jepang juga telah menyebar di Indonesia khususnya dalam pembelajaran. Namun dikarenakan bahasa Jepang bukanlah bahasa dari daerah Indonesia dan bukan bahasa Internasional maka bahasa ini sulit dipelajari dan dibaca bagi seorang pemula yang ingin mempelajari bahasa tersebut. Oleh karena itu, diperlukan sebuah sistem yang dapat membaca aksara Jepang. Penelitian ini akan difokuskan pada perancangan aplikasi pengenalan karakter optik aksara Jepang dengan menggunakan fitur matriks populasi piksel dan l1-metric distance dalam melakukan pengenalan pada citra aksara Jepang dimana fitur matriks populasi piksel digunakan untuk mendapatkan fitur dari karakter dan l1-metric distance untuk pengukuran jarak. Serta dalam membangun aplikasi digunakan bahasa pemograman java. ?Proses dalam penelitian ini terdiri dari 4 tahap yaitu pre-processing, segmentasi, ekstrasi fitur, dan pengukuran jarak. Pre-processing dilakukan dengan proses binerisasi. Segmentasi dilakukan dengan segmentasi karakter dalam sebuah kata. Ekstrasi fitur dilakukan untuk mendapatkan fitur dari aksara. Pengukuran jarak dilakukan untuk menghitung selisih antara data yang diuji dengan data yang terdapat dalam basis data lalu membandingkan dimana jarak yang terkecil merupakan data sampel yang mendekati data uji.

Hasil pengujian yang dilakukan dengan fitur matriks populasi piksel dan l1-metric distance menunjukan bahwa 82,61% aksara jepang dengan jenis font yang berbeda dengan data sampel berhasil dikenali. Namun masih 17,39% masih terdapat kegagalan dalam mengenali aksara tersebut. Kegagalan ini dikarenakan proses binerisasi dan segmentasi yang kurang baik dimana proses binerisasi kadang menghilangkan piksel-piksel yang seharusnya tidak hilang dan segmentasi kurang mampu memisahkan per karakter.

[En]

Hiragana and Katakana is a language that comes from Japan. Japanese language has spread in Indonesia especially in learning. But because of Japanese language is not a language from Indonesia and not International language then this language is difficult to learn and read for a beginner who wants to learn the language. Therefore, it takes a system that can read Japanese script. This research will be focused on design application of optical character recognition of Japanese scriptby using pixel population matrix and l1-metric distance in the introduction of Japanese image where pixel population matrix is used to obtain feature of character and l1-metric distance for distance measurement. And in building applications used java programming language. The process in this research consists of 4 stages of pre-processing, segmentation, feature extraction, and distance measurement. Pre-processing is done by binary process. Segmentation is done by segmenting characters in a word. Feature extraction is done to get the feature of the script. Distance measurements are performed to calculate the difference between the data tested and the data contained in the database and then compare where the smallest distance is the sample data close to the test data.

The test results were performed with the pixel population matrix and l1-metric distance indicates that 82.61% japanese characters with different font types with sample data are identified. But still 17.39% there are still failures in recognizing the script. This failure is due to the poor binary and segmentation process where the binary process sometimes removes the pixels that should not be lost and the segmentation is less able to separate per character.

Downloads

Download data is not yet available.
Published
2017-12-15
Section
Articles