Abbyy OCR Engine

Beberapa saat ini sedang mendevelop software OCR yaitu ABBYY OCR Engine .

Berikut saya ingin sharing dan berikut ini juga informasi lengkap mengenai ABBYY OCR

ABBYY FineReader Engine




ABBYY FineReader Engine adalah OCR SDK yang handal untuk melakukan integrasi teknologi ABBYY untuk pengenalan dokumen dan konversi dokumen seperti : optical character recognition (OCR), intelligent character recognition (ICR), optical mark recognition (OMR), barcode recognition (OBR), document imaging, dan konversi PDF.

Hingga 92% lebih cepat dengan Enhanced Fast Mode

Mode Fast Mode yang baru didesain untuk optimasi kecepatan proses / keseimbangan akurasi untuk jenis image yang berkualitas baik. Kecepatan pengenalanmeningkat hingga 92% lebih cepat dengan menjaga akurasi*.
Notice: Dukunganarsitektur multicore ABBYY menjamin peningkatan performa mendekati pertumbuhan linier seiring dengan meningkatnya jumlah core processor komputer.Untuk 2 CPU cores akan meningkatkan kecepatan 2x lipat,untuk 4 cores – hampir 3.8 X!

Peningkatan Akurasi Recognition

  • Improved classifier for CJK. Peningkatan akurasi untuk bahasa China/mandarin, Jepang dan Korean naik hingga 40%** karena peningkatan classifier karakter Asia.Saat ini ABBYY OCR SDK memberikan akurasi tertinggi diantara international multi-language OCR technology yang beredar. Kualitas tinggi OCR untuk bahasa Asia dapat digunakan bersamaan dengan bahasa lainnya (198 ) dalam satu SDK.
  • Mode baru untuk resolusi scan yang rendah. Mode istimewa untuk dokumen berkualitas rendah – fax, scan mode resolusi rendah memberikan 20% akurasi lebih tinggi untuk dokumen serupa pada mode standar. Dengan teknologi ini proses  dokumen berkualitas rendah lebih dapat diterima dibandingkan teknologi terdahulu yang menimbulkan banyak error sebelumnya.

API yang handal dan sederhana

  • Profil istimewa untuk skenario yang umum /populer. Banyak pengembang menyebutkan bahwa ABBYY FineReader Engine API adalah yang terhandal dan berfungsi maksimal diantara SDK OCR yang ada. Sekarang teknologi ini bahkan menjadi semakin sederhana dengan disediakannya profil atau template untuk proses yang sering digunakan. Profil ini dilengkapi dengan berbagai parameter yang sudah di atur secara optimal sehingga kualitas OCRnya tinggi tanpa harus melakukan setting secara manual.Dalam hal proses yang mebutuhkan penanganan khusus pengaturan parameter secara manual juga tersedia. Profil ini menghemat waktu pengembang untuk mempelajari seluruh fitur yang ada dengan hanya memilih profil saja maka ABBYY FineReader Engine 10 akan memilih sendiri setting yang optimal dan efisien.
  • API Struktur Dokumen. ABBYY FineReader Engine 10 menyediakan fitur unik untuk mengakses struktur dokumen seperti headings, chapters, page numbers, footnotes, headers, footers dan lainnya.Fungsi-fungsi API baru mendukung ketepatan dan kehati-hatian pada content editing, sekaligus menjaga struktur dokumen yang original.

Kemampuan Rekonstruksi Layout yang unik

Dengan fitur baru dari ABBYY FineReader Engine 10, pengembang dapat dengan hati-hati melakukan rekonstruksi layout awal dokumen dan strukturnya untuk dengan mudah digunakan kembali:
  • Deteksi Struktur Dokumen. ABBYY FineReader Engine 10 secara otomatis mendeteksi headings pada dokumen yang diproses, menentukan tingkatan pada struktur dokumen, menentukan style teks dan merekonstruksi keseluruhan struktur pada dokumen hasil.
  • Rekonstruksi Daftar Isi (Table of Contents (TOC)). Pada dokumen final daftar isi muncul sebagai jalur hubungan atau link terhadap heading atau bab yang ada pada dokumen. Setelah proses edit dokumen daftar isi tersebut dapat menyesuaikan dengan kondisi dokumen baru yang dihasilkan.
  • Deteksi Charts dan diagram. Deteksi otomatis charts dan diagrams diperbaiki pada ABBYY FineReader 10 OCR SDK. Sekarang dimungkinkan untuk mengenali teks yang ada pada diagram tanpa mengganggu diagram tersebut.
  • Proses caption pada gambar dan tabel.  ABBYY FineReader Engine 10 secara otomatis mendeteksi caption pada gambar dan tabel dan mengekspor ke dokumen hasil dalam satu frame bersama dengan gambar dan tabel.
  • Menentukan Document styles . ABBYY FineReader Engine 10 menganalisa jenis font , ukuran, dan penempatannya dan mendeteksi font style untuk setiap teks. Untuk setiap headings pada tiap tingkatan ada styles istimewa,untuk teks umum, untuk daftar isi dan caption pada gambar juga terdapat special styles.
  • “Glossy magazine” processing model. ABBYY OCR SDK Baru dapat merekonstruksi layout yang kompleks yang terdiri dari banyak gambar dan blok teks pada halaman atau termasuk gambar yang sangat besar di keseluruhan halaman.

PDF Export yang lebih maju

  • Ratio kualitas ukuran yang superior untuk File PDF. Ekspor PDF baru bersama dengan kompresi raster MRC (Mixed Raster Content) menjamin kualitas gambar yang tinggi sekaligus ukuran file PDF yang kecil.
  • Profil Ekspor PDF. Terdapat lebih dari 40 parameter untuk PDF. ABBYY FineReader Engine 10 menyediakan  profil dengan nilai optimal untuk jenis-jenis ekspor yang sering digunakan antara lain:
• MaxQuality
• Balanced
• MinSize
• MaxSpeed

Document Image and Photo Processing yang belum tersaingi

  • Fitur terbaru Camera OCRTM. Teknologi Camera OCR  – pengaturan photo dokumen untuk meningkatkan kualitas pengenalan teks yang dilengkapi dengan fitur –fitur unik:
• Automatic correction of 3D perspective distortions
• Blurred image correction
• ISO noise reduction
Kebanyakan dokumen yang dihasilkan kamera memiliki beberapa kekurangan. Dengan fitur baru Camera OCR dari ABBYY FineReader Engine 10 pengembang dapat melakukan perbaikan dan mendapatkan hasil terbaik dari proses Recognition.
  • Binarisasi Baru.  Versi OCR SDK terdahulu memberikan kualitas binarisasi yang tinggi, namun pada kasus tertentu yang sulit , hasilnya sering mengalami error dan kehilangan informasi. Teknologi binarisasi terbaru menjamin keutuhan teks dan mencegah hilangnya informasi terutama pada kasus yang sulit. Binarisasi yang baru memberikan kualitas terbaik dan menjamin terjaganya informasi yang berharga yang berakibat pada akurasi OCR yang lebih baik.
  • Color marks dan stamps filtering. Jika terdapat stempel atau bercak/tanda yang dibuat oleh pensil, spidol atau gambar yang mengganggu teks dan menurunkan hasil OCR, ABBYY FineReader Engine 10 menyediakan fitur istimewa untuk melakukan filter terhadap stempel atau bercak dan meningkatkan kualitas recognition. Ini adalah fitur yang handal untuk keperluan data capture dimana beberapa data sering sulit dibaca karena terhalang bercak atau stempel.

Sistem Proteksi yang Flexible dan handal

Proteksi yang lebih baik. Sistem Proteksi ABBYY OCR SDK memberikan:
  • Delegasi dan kontrol penggunaan SDK pada jaringan lokal
  • Perhitungan dan kontrol  jumlah karakter yang dikenali, halaman, waktu pemakaian dan computing power
  • Tracking dan kontrol penggunaan SDK pada terminal server dan virtual machine

Useful and Clear Developer’s Documentation

Manual Pengembangan yang lebih baik. Panduan pemakaian yang lengkap dengan struktur dan penampilan serta isi yang batu termasuk deskripsi produk secara umum, spesifikasi API, contoh program dan best practice. Hal ini menyebabkan ABBYY FineReader lebih mudah untuk digunakan.
Akurasi dan kecepatan, kehandalan dan kemudahan – apakah ini anda harapkkan dari OCR Engine , namun semuanya terasa bertolak belakang?
Dengan  ABBYY FineReader Engine 10 anda meraih tingkat terbaik dari OCR berkualitas dan mudah digunakan:
  • Gunakan ABBYY FineReader Engine 10 dan anda mendapatkan SDK pemenang banyak penghargaan yang memberikan akurasi yang belum tersaingi, kecepatan proses yang tinggi, fungsionalitas yang mudah dipahami, dan dukungan hingga 198 bahasa.
  • Kenyamanan bekerja dengan API yang komprehensif , mudah diintegrasikan yang disertai dokumentasi yang jelas dilengkapi berbagai contoh code.
  • Terobosan teknologi terbaru termasuk ADRTTM, Camera OCRTM, new binarization, multicore CPU support, PDF MRC.
  • Memperluas pengembangan dengan berbagai platform yang didukung : Windows, Linux, Mac OS dan berbagai embedded platforms.
  • Jaminan Kepercayaan yang diberikan pemimpin-pemimpin industri  yang telah bermitra dengan ABBYY selama beberapa dekade.
ABBYY FineReader Engine 10 –OCR technology yang handal dan nyaman digunakan.

Versi 10 dari ABBYY FineReader Engine untuk Windows menjamin kualitas tinggi recognition dengan pengembangan yang revolusioner meliputi :
  • Peningkatan kecepatan proses hingga 92% untuk bahasa Eropa.
  • Peningkatan akurasi hingga 40% untuk bahasa Asia – Mandarin,Jepang dan Korea.
  • Profil yang optimal yang sudah diatur untuk kebutuhan tertentu
  • Rekor dunia – pengenalan 198 bahasa, termasuk Cina, Jepang, Korea, Vietnam, Thai dan Hebrew.
  • Panduan Penggunaan SDK (Help), saat ini dikenal karena sangat komprehensif dan berguna, diperbaiki lagi dengan peningkatan penampilan dan revisi isi.
Inovasi OCR ABBY software telah dianugerahi berbagai penghargaan oleh pemerintah dan terbitan terkemuka, mengakui kualitas dan sukses dari seluruh produk ABBYY.

Paket Pengenalan Bahasa yang paling komprehensif !

198 bahasa untuk  OCR  dan  113  bahasa  for  ICR termasuk bahasa Indonesia, dengan fitur istimewa pattern training (pelatihan pola pembacaan) untuk bahasa yang belum dikenali.

Dekripsi data yang ada pada kolom:
  • OCR menunjukkan jika Optical Character Recognition tersedia untuk bahasa bersangkutan
  • ICR menunjukkan jika Intelligent Character Recognition tersedia untuk bahasa bersangkutan
  • Full-text dictionary support – jika dukungan kamus tersedia untuk OCR dan ICR
  • Data capture dictionary support – menunjukkan ketersediaan kamus istimewa antara lain format lokal untuk tanggal, alamat, telepon, prefix, mata uang, nama depan dan inisial.

Language OCR ICR Full-text dictionary support Data capture dictionary support
Natural Languages



Abkhaz Yes


Adyghe Yes


Afrikaans Yes Yes

Agul Yes


Albanian Yes Yes

Altai Yes


Arabic (technical preview ) Yes


Armenian (Eastern) Yes
Yes
Armenian (Grabar) Yes
Yes
Armenian (Western) Yes
Yes
Avar Yes


Aymara Yes Yes

Azerbaijani (Cyrillic) Yes


Azerbaijani (Latin) Yes Yes

Bashkir Yes
Yes
Basque Yes Yes

Belarusian Yes


Bemba Yes Yes

Blackfoot Yes Yes

Breton Yes Yes

Bugotu Yes Yes

Bulgarian Yes Yes Yes Yes
Buryat Yes


Catalan Yes
Yes
Cebuano Yes Yes

Chamorro Yes Yes

Chechen Yes


Chinese (Simplified) Yes


Chinese (Traditional) Yes


Chukchee Yes


Chuvash Yes


Corsican Yes Yes

Crimean Tatar Yes Yes

Croatian Yes Yes Yes Yes
Crow Yes Yes

Czech Yes Yes Yes Yes
Dakota (Sioux) Yes Yes

Danish Yes
Yes
Dargwa Yes


Dungan Yes


Dutch (Belgium) Yes Yes Yes
Dutch (Netherlands) Yes Yes Yes
English Yes Yes Yes Yes
Eskimo (Cyrillic) Yes


Eskimo (Latin) Yes


Estonian Yes Yes Yes
Even Yes Yes

Evenki Yes Yes

Faroese Yes


Fijian Yes Yes

Finnish Yes Yes Yes
French Yes Yes Yes Yes
Frisian Yes Yes

Friulian Yes Yes

Gagauz Yes


Galician Yes Yes

Ganda Yes Yes

German Yes Yes Yes Yes
German (Luxembourg) Yes Yes

German (new spelling) Yes Yes Yes
Greek Yes Yes Yes Yes
Guarani Yes Yes

Hani Yes Yes

Hausa Yes


Hawaiian Yes Yes

Hungarian Yes Yes Yes Yes
Icelandic Yes


Indonesian Yes Yes Yes
Ingush Yes


Irish Yes Yes

Italian Yes Yes Yes Yes
Japanese Yes


Jingpo Yes Yes

Kabardian Yes


Kalmyk Yes


Karachay-balkar Yes Yes

Karakalpak Yes


Kasub Yes Yes

Kawa Yes Yes

Kazakh Yes Yes

Khakass Yes


Khanty Yes


Kikuyu Yes


Kirghiz Yes Yes

Kongo Yes Yes

Korean Yes


Koryak Yes


Kpelle Yes Yes

Kumyk Yes Yes

Kurdish Yes Yes

Lak Yes


Latin Yes Yes

Latvian Yes Yes Yes
Lezgi Yes


Lithuanian Yes Yes Yes
Luba Yes Yes

Macedonian Yes


Malagasy Yes Yes

Malay (Malaysian) Yes


Malinke Yes Yes

Maltese Yes


Mansi Yes


Maori Yes Yes

Mari Yes


Maya Yes Yes

Miao Yes Yes

Minangkabau Yes Yes

Mohawk Yes Yes

Moldavian Yes Yes

Mongol Yes Yes

Mordvin Yes Yes

Nahuatl Yes Yes

Nenets Yes


Nivkh Yes Yes

Nogay Yes Yes

Norwegian (Bokmal) Yes
Yes
Norwegian (Nynorsk) Yes
Yes
Nyanja Yes Yes

Ojibway Yes Yes

OldEnglish Yes
Yes
OldFrench Yes Yes Yes
OldGerman Yes Yes Yes
OldItalian Yes Yes Yes
OldSpanish Yes Yes Yes
Ossetian Yes


Papiamento Yes Yes

Polish Yes Yes Yes Yes
Portuguese (Brazil) Yes
Yes
Portuguese (Portugal) Yes
Yes
Provencal Yes


Quechua Yes Yes

Rhaeto-Romanic Yes Yes

Romanian Yes Yes Yes
Romany Yes Yes

Rundi Yes Yes

Russian Yes Yes Yes Yes
Russian (Old Spelling) Yes


Rwanda Yes Yes

Sami (Lappish) Yes Yes

Samoan Yes Yes

Scottish Gaelic Yes Yes

Selkup Yes Yes

Serbian (Cyrillic) Yes


Serbian (Latin) Yes Yes

Shona Yes


Slovak Yes Yes Yes Yes
Slovenian Yes Yes Yes
Somali Yes Yes

Sorbian Yes


Sotho Yes Yes

Spanish Yes Yes Yes Yes
Sunda Yes


Swahili Yes Yes

Swazi Yes Yes

Swedish Yes
Yes
Tabasaran Yes


Tagalog Yes Yes

Tahitian Yes Yes

Tajik Yes Yes

Tatar Yes
Yes
Thai Yes


Tok Pisin Yes Yes

Tongan Yes Yes

Tswana Yes Yes

Tun Yes Yes

Turkish Yes Yes Yes
Turkmen Yes


Tuvinian Yes


Udmurt Yes


Uigur (Cyrillic) Yes


Uigur (Latin) Yes Yes

Ukrainian Yes Yes Yes Yes
Uzbek (Cyrillic) Yes


Uzbek (Latin) Yes


Vietnamese Yes


Welsh Yes


Wolof Yes Yes

Xhosa Yes Yes

Yakut Yes


Zapotec Yes Yes

Zulu Yes


Artificial Languages Yes


Esperanto Yes


Ido Yes Yes

Interlingua Yes Yes

Occidental Yes


Numbers Yes


Arabic numbers Yes Yes

Arabic-Indian numbers Yes Yes


Optimasi performa prosesor multi core

ABBYY FineReader Engine secara otomatis melakukan kombinasi dan eksekusi langkah-langkah distribusi dokumen, koordinasi pengenalan dokumen dan melakukan sintesis. Otomatisasi ini mendukung kemudahan skalabilitas dan pemanfaatan CPU  yang memberikan tambahan hampir 90% kecepatan untuk setiap penambahan core processor dibandingkan penggunaan satu core.

Perhatian: Gambar diatas tidak memperhitungkan fase ekspor dokumen karena hal tersebut dapat bervariasi dari skenario satu dengan yang lain dan tidak dapat dilakukan secara paralel. Kecepatan dapat juga berubah tergantung kompleksitas dokumen. Untuk dokumen yang kompleks membutuhkan waktu lebih lama daripada dokumen yang sederhana, sehingga selisih penggunaan banyak prosesor jauh lebih tinggi daripada single prosesor. Grafik ini juga menunjukkan bahwa semakin banyak halaman dalam dokumen semakin efektif sistem load balancing dan peningkatan performanya.
Angka ini berdasarkan internal testing dari ABBYY.

Kecepatan proses yang ekstrim

Keceparan tinggi sudah secara umum dijadikan parameter kualitas OCR. Tim Pengembang ABBYY selalu meningkatkan kinerja optimasi kecepatan.Tim FineReader Engine 10 telah menghasilkan kecepatan dua kali lebih cepat dari pertumbuhan kecepatan sebelumnya.

Untuk kecepatan recognitionyang tinggi disediakan parameter Fast Recognition mode. Dengan parameter ini kecepatan dapat meningkat 2-3 kali lebih cepat daripada normal mode. Namun kompensasinya adalah berkurangnya tingkat keyakinan sebesar 0.5-1%.
*dibandingkan ABBYY FineReader Engine 9.0yang dirilis pada Oktober 2008. Didasarkan internal ABBYY testing.

Lingkungan Pengembangan :

  • Microsoft Visual Studio.NET (VB.NET, C#);
  • Microsoft Visual Basic 5.0, 6.0;
  • Microsoft Visual C++ 4.x and above;
  • VB Script, and other scripting languages;
  • Borland Delphi 2.0 and above;
Semua lingkungan pengembangan yang mendukung objek COM dan ActiveX.

Kebutuhan Sistem

OCR SDK mendukung standalone dan network installations to PC dengan x86-compatible processor (1 GHz or higher) Microsoft Windows® 7 (32/64bit), Windows Server® 2008 (32/64bit), Windows Vista® (32/64bit), Windows Serve®r 2003 (32/64bit), Windows XP® (32/64bit), Windows® 2000.

Format Input/Output

ABBYY OCR toolkitmendukung banyak format antara lain PDF, BMP, PCX, DCX, JPEG, GIF, TIFF, PNG, DjVu dan beberapa format yang dihasilkan: DOC, RTF, TXT, XML, XLS, PPT, DOCX, XLSX, PPTX, PDF, PDF/A, MRC compression for PDF and PDF/A, CSV, HTML, DBF

Dukungan Bahasa

ABBYY FineReader Engine 10 mengenali 198 bahasa untuk OCR dengan Latin, Cyrillic, Greek, Armenian characters, East Asian languages dan 113 bahasa untuk ICR .

Barcode Types

Barcodes recognition mendukung hampir seluruh tipe  barcode 1D dan 2D .

Add-on Modules

FineReader Engine mengandungbeberapa add-on modules untuk RTLs,meningkatkan fungsionalitas: analisa Invoices, tambahan fitur pengenalan PDF, CJK OCR (Chinese, Japanese, Korean), Thai, Hebrew OCR dan lainnya.

Pesan Bahasa

Dialogue captions, text, error and other program messages are available in English, German, French, Spanish, Italian, Dutch, Portuguese, Russian, Estonian, Polish, Czech, Slovak, Hungarian, Bulgarian, Ukrainian, Swedish, Greek, Lithuanian, and Latvian


Adrs
andinadyahratnasari@gmail.com
andinadyahratnasari@yahoo.com


Comments

Popular Posts