OCR Engines
Hi Blogger, belakangan ini saya sedang menekuni Test Software untuk mendeteksi dokumen dan memindahkannya ke sebuah teks file atau mengambil data tersebut sehingga dapat di masukkan ke sebuah database.
Salah satu support Application yang harus di search dan software tester adalah OCR Engine, ada tulisan bagus dari web source
Check ya ;)
OCR Engine
Pengertian OCR
Bermanfaat nih tulisan sebagai bandingan untuk penulis make a sheet of comparison Of dalam pemilihan OCR hhee
Thank You
Adrs
Andina Dyah Ratnasari
andina@axindosecurity.co.id
andinadyahratnasari@gmail.com
andinadyahratnasari@yahoo.com
Salah satu support Application yang harus di search dan software tester adalah OCR Engine, ada tulisan bagus dari web source
Check ya ;)
OCR Engine
OCR (Optical Character Recognition)
Optical Character Recognition, yang biasa disingkat OCRadalah
alat mekanis atau elektronika yang digunakan untuk menerjemahkan tulisan tangan
ataupun naskah ketikan (biasanya dipindai menggunakan pemindai/scanner) menjadi
teks yang dapat diedit kembali dengan suatu aplikasi komputer, seperti
Microsoft Word, dll.
Sehingga dengan adanya OCR kita tidak lagi harus repot untuk
melakukan pengetikan ulang naskah ketikkan yang sangat banyak. Sebagai contoh,
anda akan mengetik ulang buku. Nah terbayang tidak jika anda harus mengetik
ulang kembali buku-buku tersebut ? Pasti anda akan berfikir dua kali untuk
melakukannya bukan ?
Untuk melakukan OCR sendiri harus memerlukan sebuah perangkat
lunak dan perangkat keras. Scanner merupakan salah satu perangkat keras yang
dibutuhkan. Sedangkan untuk perangkat lunaknya dapat menggunakan Omnipage,
Abbyy FineReader, FreeOCR, dll.
Tipe OCR
Jenis/tipe OCR ada 5, yaitu :
1. OCR dengan menggunakan Microsoft OneNote 2007
2. OCR Dengan Menggunakan Microsoft Office Document Imaging
3. OCR Sederhana
4. TopOCR
5. FreeOCR
Contoh-contoh software OCR yaitu :
1.ABBYY FineReader Commercial Windows, Mac OS X.
2.Alt-N Technologies' Commercial WindowsRelayFax Network Fax
Manager.
3.AnyDoc Software OCR for Commercial WindowsAnyDoc.
4.Brainware Commercial Windows.
5.CuneiForm BSD variant Windows, Linux, BSD, MacOSX.
6.CVISION Technologies, Commercial WindowsInc. PdfCompressor
andMaestro Recognition Server.
7.ExperVision TypeReader & Commercial Windows,Mac OS
X,Unix,Linux,OS/2OpenRTK X.
8.GOCR GPL Many (open source).
9.HOCR GPL Linux.
10.Microsoft Office Document Commercial WindowsImaging
Cara Penggunaan OCR dan Gambarnya
1. Microsoft OFFICE ONENOTE 2007
Mengubah Gambar Hasil Scan Dokumen Menjadi Teks yang Bisa
Diedit dengan Menggunakan MICROSOFT OFFICE ONENOTE 2007
Bagi anda yang memiliki Microsoft Office OneNote 2007 di
komputernya, maka anda bisa mamakai cara berikut ini untuk mengubah gambar
dokumen menjadi teks yang bisa anda edit :
1. Buka Microsoft OneNote 2007 melalui Start -> All
Programs -> Microsoft Office -> Microsoft OneNote 2007
2. Setelah Microsoft Office OneNote2007 terbuka, klik Insert
-> Pictures -> From Files
3. Pilih gambar scan dokumen yang anda ingin ambil teks nya dan
klik Insert
4. Setelah gambar dokumen tersebut terbuka, silahkan klik
kanan -> Copy Text from Picture
5. Buka Microsoft Office Word melalui Start -> All Programs
-> Microsoft office -> Microsoft office Word 2007
6. Paste di dokumen microsoft word 2007 anda.
7. Teks tersebut siap untuk anda edit.
2. Legal FreeOCR
Bagi anda yang tidak memiliki Microsoft Office OneNote 2007,
anda bisa menggunakan software gratis dan legal FreeOCR. Untuk mendapatkan dan mengedit
gambar dokumen dengan FreeOCR tersebut, silahkan ikuti langkah – langkah
berikut ini :
Proses download dan instalasi :
Proses download dan instalasi :
1. Download FreeOCR disini
2. Double klik installer tersebut untuk mulai menginstal.
3. Klik next.
4. Centang “I Agree to Terms And Condition” dan klik next.
5. Klik instal dan tunggu hingga proses instalasi selesai.
6. Klik finish Ketika proses instalasi selesai.
Penggunaanya :
7. Buka Program FreeOCR.
8. Klik tombol Open.
9. Pilih hasil scan dokumen yang ingin anda edit teks nya dan
klik open.
10. Klik tanda silang merah kemudian klik tombol OCR.
11. Teks hasil FreeOCR siap untuk anda edit.
Software OCR ini gratis, menggunakan mesin tesseract OCR. OCR
tesseract kode dikembangkan di HP Labs antara tahun 1985 dan 1995 dan saat ini
dengan Google. Fungsi dari mesin ini adalah :
• Mendukung file
gambar dan file TIFF dengan multi-halaman.
• Dapat menangani
format PDF dan juga kompatibel dengan perangkat TWAIN seperti scanner.
• FreeOCR juga
memiliki antarmuka jendela ganda akrab dan mudah untuk memahami pengaturan.
• Sebelum memulai
proses konversi satu klik, Anda dapat menyesuaikan kontras gambar yang lebih
baik untuk dibaca.
3. SimpleOCR / OCR Sederhana
Jika dokumen anda berbahasa Inggris, selain menggunakan
FreeOCR diatas, ada juga software gratis dan legal yang bisa anda gunakan untuk
mengubah gambar scan atau foto dokumen menjadi teks yang bisa anda edit.
Software ini adalah SimpleOCR. Software ini hanya cocok untuk dokumen yang
berbahasa Inggris, karena ketika saya coba menggunakannya untuk dokumen yang
berbahasa Indonesia, hasilnya jauh dari akurat. Untuk mendapatkan dan
menggunakan SimpleOCR ini, silahkan anda ikut langkah berikut ini :
Proses download dan instalasi :
1. Download SimpleOCR disini
2. Double Klik installer yang baru saja anda download.
3. Klik next dan lanjutkan proses instalasi hingga selesai.
4. Klik finish ketika proses instalasi telah selesai.
Penggunaanya :
5. SimpleOCR akan otomatis terbuka, anda bisa memilih Machine
Print untuk dokumen scan hasil print atau anda bisa juga memilih Hand Writing
untuk dokumen hasil tulisan tangan (sayangnya fitur Hand Writing ini cuma trial
14 hari saja)
6. Klik Select untuk masuk ke Dokumen Editor SimpleOCR.
7. Klik Add Page.
8. Pilih sumber dokumen anda.
9. Pilih dokumen yang ingin anda ekstrak teks nya dan klik
open.
10. Klik continue ketika muncul preview box.
11. Klik “convert to text”
12. Setelah proses convert selesai, anda bisa mengubah
kata-kata yang tidak sesuai. Hal ini bisa dilakukan cukup dengan klik kata yang
anda inginkan, kemudian pilih alternatif kata yang muncul di sebelah kanan kata
tersebut.
13. Jika dokumen sudah anda edit, silahkan klik File ->
Save As
14. Simpan di tempat yang anda inginkan.
Kesulitan yang sering dialami dengan pengenalan tulisan tangan
bila menggunakan Microsoft Office, anda dapat menggunkan solusi dengan
menggunakan SimpleOCR. Perangkat lunak ini menyediakan fasilitas :
• Perangkat lunak
ini dapat diatur untuk membaca langsung dari scanner atau dengan menambahkan
halaman (jpg, tiff, format bmp).
• SimpleOCR
menawarkan beberapa kontrol atas konversi melalui seleksi teks, gambar dan teks
mengabaikan pilihan fitur.
• Konversi ke teks
diperlukan proses ke tahapan validasi, pengguna dapat benar perbedaan dalam
teks dikonversi menggunakan mantra built-in-checker.
• File dikonversi
dapat disimpan ke format doc atau txt.
4. TopOCR
TopOCR, software yang memisahkan diri dari perangkat lunak OCR
khas, dirancang khusus untuk kamera digital (setidaknya 3MP) dan ponsel bersama
dengan scanner. Seperti SimpleOCR, ia memiliki dua jendela antarmuka – Image
sumber jendela dan jendela Teks. Gambar bersumber dari kamera atau pemindai di
jendela kiri akan dikonversi ke format teks dalam editor teks di sebelah kanan.
Fungsi editor teks seperti WordPad dan dapat menggunakan Teks Microsoft untuk
Text to Speech.
• Perangkat lunak
ini mendukung JPEG, TIFF, GIF, dan format BMP.
• Pengaturan
Gambar seperti kecerahan, warna, kontras, despeckle, pertajam dll dapat
digunakan untuk meningkatkan kualitas pembacaan pada gambar.
• pengaturan
Kamera penyaring juga dapat dikonfigurasi untuk meningkatkan citra.
• File dikonversi
dapat disimpan dalam berbagai format – PDF, RTF, HTML dan TXT.
• TopOCR berfungsi
dengan baik dengan teks berorientasi lurus tetapi gagal biasa dari OCR dengan
teks berbentuk kolom tetap.
• Perangkat lunak
walaupun, mem-parsing sebuah halaman campuran (teks plus grafis) dengan baik
dan proses teks saja.
• Perangkat lunak
ini bekerja dengan 11 bahasa
5. OCR Dengan Menggunakan Microsoft Office Document Imaging
Alat lain yang digunakan termasuk dari bagian Microsoft
Office. Anda dapat menemukannya dengan mengklik Start => All Program =>
Microsoft Office => Microsoft Office Tools => Microsoft Office Document
Imaging.
Melakukan OCR menggunakan alat imaging dokumen adalah sedikit
terbatas karena hanya menerima format file TIFF (atau MDI). Tapi itu tidak
terlalu mengganggu sebagai aplikasi grafis dapat digunakan untuk mengkonversi
gambar ke TIFF. Anda dapat menggunakan software Adobe Photo Shop untuk
mengkonversi file jpg ke dalam file Tiff atau program menggunakan MS Paint.
• Buka Microsoft
Office Document Imaging kemudian klik- File – Open untu mengambil file Tiff.
• Klik ikon mata
kecil – Recognize Text Using OCR.
• Klik Icon MS
Word – Send Text to Word.
• Sebuah File MS
Word terbuka dengan teks dikonversi dapat diedit.
Atau, Anda juga dapat menggunakan MS Paint untuk memilih
wilayah tertentu dan salin ke clipboard. Buka MS Office Document Imaging –
select Page – Tempel Halaman untuk menyalin pilihan dari OCR.
Kelebihan dan Kelemahan Penggunaan OCR
a. Kelebihan
Dari pencarian cepat untuk menghemat ruang, ada banyak manfaat
untuk memindai dokumen Anda dengan software OCR:
* Tidak ada lagi mengetik ulang
Jika Anda kehilangan atau tidak sengaja menghapus file digital
yang penting, seperti proposal atau faktur, tetapi masih memiliki hard copy,
Anda dapat dengan mudah menggantinya dalam sistem pengarsipan digital Anda
dengan menggunakan software OCR untuk memindai dari dokumen asli
* Quick digital searches
OCR software mengkonversi teks ke dalam file pengolah kata,
memberikan Anda kesempatan untuk mencari dokumen-dokumen tertentu menggunakan
kata kunci (Keyword) atau frase. Misalnya, Anda dengan mudah dapat mencari
ratusan faktur dan menemukan nama tertentu sesuai name list.
* Edit teks
Setelah Anda memindai dokumen Anda menggunakan OCR, Anda
memiliki pilihan untuk mengedit teks dalam program pengolah kata pilihan Anda.
Scan item yang mungkin perlu diperbarui/edit di masa depan untuk membantu
mempercepat proses editing:
-Resep masakan keluarga
-Rental perjanjian
-Resumes/Lam
-Kontrak
*Hemat Tempat
Membebaskan ruang penyimpanan dokumen Anda dengan scan dokumen
dan menyimpan file aslinya ke lemari penyimpanan.
* Accessibility
OCR software memberi Kemudahan Access. Pengguna dapat men-scan
buku-buku, majalah, fax masuk, atau dokumen lain ke dalam program pengolah kata
untuk digunakan dengan voice-over utility.
b. Kelemahan
Ada beberapa kelemahan dari layanan OCR mengenai biaya serta
proses mengenali karakter. Awalnya, biaya pengembangan melalui proses OCR
replika mungkin tampak menguntungkan tapi jika Anda mempertimbangkan biaya
siklus hidup sistem OCR keseluruhan, biaya akan jauh lebih tinggi dari layanan
entri data. Mengoreksi kesalahan OCR jumlah biaya lebih dari menyiapkan format
digital dokumen.
Akurasi yang tinggi perangkat lunak OCR dapat membaca lebih
dari 400 karakter / detik, kira-kira, dan menghasilkan jumlah kurang dari
kesalahan OCR dibandingkan dengan perangkat lunak OCR biasa. Oleh karena itu,
jika Anda mencari proses OCR Anda harus menjaga workstation terpisah untuk
memperbaiki kesalahan OCR.
OCR perangkat lunak tidak efisien dalam mengenali tulisan
tangan dan font, yang cukup mirip dengan tulisan tangan. Dalam kasus seperti
mengetik pengguna memainkan peran yang lebih baik dari proses OCR.Bermanfaat nih tulisan sebagai bandingan untuk penulis make a sheet of comparison Of dalam pemilihan OCR hhee
Thank You
Adrs
Andina Dyah Ratnasari
andina@axindosecurity.co.id
andinadyahratnasari@gmail.com
andinadyahratnasari@yahoo.com
Comments