Thursday, June 29, 2017

Better OCR Quality & Implementasi untuk Automasi Persiapan Data Latih


Kemarin aku nemu tool bagus yang bisa ngehasilin OCR yang lebih akurat dan lebih robust. Tool ini bisa handle untuk kasus font alay, atau bahkan tulisan tangan. Nama toolnya PDFLib TET. Hasil OCR berupa XML. Dari raw XML kita bisa parse teks beserta lokasinya di mana aja per karakter. Dari sini kita bisa proses teks yang ada jadi training data set. Ini lebih bagus daripada Tesseract, karena Tesseract bahkan hanya punya lokasi per kata, bukan per karakter. Sementara itu, akurasi Tesseract dalam nebak huruf juga masih buruk.

Hari ini waktuku habis untuk bikin XML parser hasil OCR PDFLib supaya ngeconvert dari PDF jadi teks beserta lokasinya. Aku pake library Dom4J buat ngeparse XML. Juga aku bikin supaya format outpu yang diekstrak dari XML parser supaya sesuai dengan format Weka, biar nanti waktu sudah ada data mentah dari Thao, cepet buat ngebikin data training karena programnya sudah ada.

Pulang kerja aku nyoba curry deket stasiun. Enak.

Fried fish curry
Enak! Ketagihan. Dan kayaknya besok bakal makan lagi di sana aja. Sekian. Dah malem! Semangat, bentar lagi weekend.

Related Articles

0 comment:

Post a Comment