Abbyy OCR Engine
Beberapa saat ini sedang mendevelop software OCR yaitu ABBYY OCR Engine .
Berikut saya ingin sharing dan berikut ini juga informasi lengkap mengenai ABBYY OCR
ABBYY FineReader Engine adalah OCR SDK yang handal untuk melakukan integrasi teknologi ABBYY untuk pengenalan dokumen dan konversi dokumen seperti : optical character recognition (OCR), intelligent character recognition (ICR), optical mark recognition (OMR), barcode recognition (OBR), document imaging, dan konversi PDF.
Berikut saya ingin sharing dan berikut ini juga informasi lengkap mengenai ABBYY OCR
ABBYY FineReader Engine
Mar 21 2012 10:37 PM
ABBYY FineReader Engine adalah OCR SDK yang handal untuk melakukan integrasi teknologi ABBYY untuk pengenalan dokumen dan konversi dokumen seperti : optical character recognition (OCR), intelligent character recognition (ICR), optical mark recognition (OMR), barcode recognition (OBR), document imaging, dan konversi PDF.
Hingga 92% lebih cepat dengan Enhanced Fast Mode
Mode Fast Mode yang baru didesain untuk optimasi kecepatan proses /
keseimbangan akurasi untuk jenis image yang berkualitas baik. Kecepatan
pengenalanmeningkat hingga 92% lebih cepat dengan menjaga akurasi*.
Notice: Dukunganarsitektur multicore ABBYY menjamin peningkatan performa mendekati pertumbuhan linier seiring dengan meningkatnya jumlah core processor komputer.Untuk 2 CPU cores akan meningkatkan kecepatan 2x lipat,untuk 4 cores – hampir 3.8 X!
Notice: Dukunganarsitektur multicore ABBYY menjamin peningkatan performa mendekati pertumbuhan linier seiring dengan meningkatnya jumlah core processor komputer.Untuk 2 CPU cores akan meningkatkan kecepatan 2x lipat,untuk 4 cores – hampir 3.8 X!
Peningkatan Akurasi Recognition
- Improved classifier for CJK. Peningkatan akurasi untuk bahasa China/mandarin, Jepang dan Korean naik hingga 40%** karena peningkatan classifier karakter Asia.Saat ini ABBYY OCR SDK memberikan akurasi tertinggi diantara international multi-language OCR technology yang beredar. Kualitas tinggi OCR untuk bahasa Asia dapat digunakan bersamaan dengan bahasa lainnya (198 ) dalam satu SDK.
- Mode baru untuk resolusi scan yang rendah. Mode istimewa untuk dokumen berkualitas rendah – fax, scan mode resolusi rendah memberikan 20% akurasi lebih tinggi untuk dokumen serupa pada mode standar. Dengan teknologi ini proses dokumen berkualitas rendah lebih dapat diterima dibandingkan teknologi terdahulu yang menimbulkan banyak error sebelumnya.
API yang handal dan sederhana
- Profil istimewa untuk skenario yang umum /populer. Banyak pengembang menyebutkan bahwa ABBYY FineReader Engine API adalah yang terhandal dan berfungsi maksimal diantara SDK OCR yang ada. Sekarang teknologi ini bahkan menjadi semakin sederhana dengan disediakannya profil atau template untuk proses yang sering digunakan. Profil ini dilengkapi dengan berbagai parameter yang sudah di atur secara optimal sehingga kualitas OCRnya tinggi tanpa harus melakukan setting secara manual.Dalam hal proses yang mebutuhkan penanganan khusus pengaturan parameter secara manual juga tersedia. Profil ini menghemat waktu pengembang untuk mempelajari seluruh fitur yang ada dengan hanya memilih profil saja maka ABBYY FineReader Engine 10 akan memilih sendiri setting yang optimal dan efisien.
- API Struktur Dokumen. ABBYY FineReader Engine 10 menyediakan fitur unik untuk mengakses struktur dokumen seperti headings, chapters, page numbers, footnotes, headers, footers dan lainnya.Fungsi-fungsi API baru mendukung ketepatan dan kehati-hatian pada content editing, sekaligus menjaga struktur dokumen yang original.
Kemampuan Rekonstruksi Layout yang unik
Dengan fitur baru dari ABBYY FineReader Engine 10, pengembang dapat
dengan hati-hati melakukan rekonstruksi layout awal dokumen dan
strukturnya untuk dengan mudah digunakan kembali:
- Deteksi Struktur Dokumen. ABBYY FineReader Engine 10 secara otomatis mendeteksi headings pada dokumen yang diproses, menentukan tingkatan pada struktur dokumen, menentukan style teks dan merekonstruksi keseluruhan struktur pada dokumen hasil.
- Rekonstruksi Daftar Isi (Table of Contents (TOC)). Pada dokumen final daftar isi muncul sebagai jalur hubungan atau link terhadap heading atau bab yang ada pada dokumen. Setelah proses edit dokumen daftar isi tersebut dapat menyesuaikan dengan kondisi dokumen baru yang dihasilkan.
- Deteksi Charts dan diagram. Deteksi otomatis charts dan diagrams diperbaiki pada ABBYY FineReader 10 OCR SDK. Sekarang dimungkinkan untuk mengenali teks yang ada pada diagram tanpa mengganggu diagram tersebut.
- Proses caption pada gambar dan tabel. ABBYY FineReader Engine 10 secara otomatis mendeteksi caption pada gambar dan tabel dan mengekspor ke dokumen hasil dalam satu frame bersama dengan gambar dan tabel.
- Menentukan Document styles . ABBYY FineReader Engine 10 menganalisa jenis font , ukuran, dan penempatannya dan mendeteksi font style untuk setiap teks. Untuk setiap headings pada tiap tingkatan ada styles istimewa,untuk teks umum, untuk daftar isi dan caption pada gambar juga terdapat special styles.
- “Glossy magazine” processing model. ABBYY OCR SDK Baru dapat merekonstruksi layout yang kompleks yang terdiri dari banyak gambar dan blok teks pada halaman atau termasuk gambar yang sangat besar di keseluruhan halaman.
PDF Export yang lebih maju
- Ratio kualitas ukuran yang superior untuk File PDF. Ekspor PDF baru bersama dengan kompresi raster MRC (Mixed Raster Content) menjamin kualitas gambar yang tinggi sekaligus ukuran file PDF yang kecil.
- Profil Ekspor PDF. Terdapat lebih dari 40 parameter untuk PDF. ABBYY FineReader Engine 10 menyediakan profil dengan nilai optimal untuk jenis-jenis ekspor yang sering digunakan antara lain:
• MaxQuality
• Balanced
• MinSize
• MaxSpeed
Document Image and Photo Processing yang belum tersaingi
- Fitur terbaru Camera OCRTM. Teknologi Camera OCR – pengaturan photo dokumen untuk meningkatkan kualitas pengenalan teks yang dilengkapi dengan fitur –fitur unik:
• Automatic correction of 3D perspective distortions
• Blurred image correction
• ISO noise reduction
Kebanyakan dokumen yang dihasilkan kamera memiliki beberapa
kekurangan. Dengan fitur baru Camera OCR dari ABBYY FineReader Engine 10
pengembang dapat melakukan perbaikan dan mendapatkan hasil terbaik dari
proses Recognition.- Binarisasi Baru. Versi OCR SDK terdahulu memberikan kualitas binarisasi yang tinggi, namun pada kasus tertentu yang sulit , hasilnya sering mengalami error dan kehilangan informasi. Teknologi binarisasi terbaru menjamin keutuhan teks dan mencegah hilangnya informasi terutama pada kasus yang sulit. Binarisasi yang baru memberikan kualitas terbaik dan menjamin terjaganya informasi yang berharga yang berakibat pada akurasi OCR yang lebih baik.
- Color marks dan stamps filtering. Jika terdapat stempel atau bercak/tanda yang dibuat oleh pensil, spidol atau gambar yang mengganggu teks dan menurunkan hasil OCR, ABBYY FineReader Engine 10 menyediakan fitur istimewa untuk melakukan filter terhadap stempel atau bercak dan meningkatkan kualitas recognition. Ini adalah fitur yang handal untuk keperluan data capture dimana beberapa data sering sulit dibaca karena terhalang bercak atau stempel.
Sistem Proteksi yang Flexible dan handal
Proteksi yang lebih baik. Sistem Proteksi ABBYY OCR SDK memberikan:
- Delegasi dan kontrol penggunaan SDK pada jaringan lokal
- Perhitungan dan kontrol jumlah karakter yang dikenali, halaman, waktu pemakaian dan computing power
- Tracking dan kontrol penggunaan SDK pada terminal server dan virtual machine
Useful and Clear Developer’s Documentation
Manual Pengembangan yang lebih baik. Panduan
pemakaian yang lengkap dengan struktur dan penampilan serta isi yang
batu termasuk deskripsi produk secara umum, spesifikasi API, contoh
program dan best practice. Hal ini menyebabkan ABBYY FineReader lebih
mudah untuk digunakan.
Akurasi dan kecepatan, kehandalan dan kemudahan – apakah ini anda harapkkan dari OCR Engine , namun semuanya terasa bertolak belakang?
Dengan ABBYY FineReader Engine 10 anda meraih tingkat terbaik dari OCR berkualitas dan mudah digunakan:
Versi 10 dari ABBYY FineReader Engine untuk Windows menjamin kualitas tinggi recognition dengan pengembangan yang revolusioner meliputi :
Untuk kecepatan recognitionyang tinggi disediakan parameter Fast Recognition mode. Dengan parameter ini kecepatan dapat meningkat 2-3 kali lebih cepat daripada normal mode. Namun kompensasinya adalah berkurangnya tingkat keyakinan sebesar 0.5-1%.
*dibandingkan ABBYY FineReader Engine 9.0yang dirilis pada Oktober 2008. Didasarkan internal ABBYY testing.
Adrs
andinadyahratnasari@gmail.com
andinadyahratnasari@yahoo.com
Akurasi dan kecepatan, kehandalan dan kemudahan – apakah ini anda harapkkan dari OCR Engine , namun semuanya terasa bertolak belakang?
Dengan ABBYY FineReader Engine 10 anda meraih tingkat terbaik dari OCR berkualitas dan mudah digunakan:
- Gunakan ABBYY FineReader Engine 10 dan anda mendapatkan SDK pemenang banyak penghargaan yang memberikan akurasi yang belum tersaingi, kecepatan proses yang tinggi, fungsionalitas yang mudah dipahami, dan dukungan hingga 198 bahasa.
- Kenyamanan bekerja dengan API yang komprehensif , mudah diintegrasikan yang disertai dokumentasi yang jelas dilengkapi berbagai contoh code.
- Terobosan teknologi terbaru termasuk ADRTTM, Camera OCRTM, new binarization, multicore CPU support, PDF MRC.
- Memperluas pengembangan dengan berbagai platform yang didukung : Windows, Linux, Mac OS dan berbagai embedded platforms.
- Jaminan Kepercayaan yang diberikan pemimpin-pemimpin industri yang telah bermitra dengan ABBYY selama beberapa dekade.
ABBYY FineReader Engine 10 –OCR technology yang handal dan nyaman digunakan.
Versi 10 dari ABBYY FineReader Engine untuk Windows menjamin kualitas tinggi recognition dengan pengembangan yang revolusioner meliputi :
- Peningkatan kecepatan proses hingga 92% untuk bahasa Eropa.
- Peningkatan akurasi hingga 40% untuk bahasa Asia – Mandarin,Jepang dan Korea.
- Profil yang optimal yang sudah diatur untuk kebutuhan tertentu
- Rekor dunia – pengenalan 198 bahasa, termasuk Cina, Jepang, Korea, Vietnam, Thai dan Hebrew.
- Panduan Penggunaan SDK (Help), saat ini dikenal karena sangat komprehensif dan berguna, diperbaiki lagi dengan peningkatan penampilan dan revisi isi.
Paket Pengenalan Bahasa yang paling komprehensif !
198 bahasa untuk OCR dan 113 bahasa for ICR termasuk bahasa
Indonesia, dengan fitur istimewa pattern training (pelatihan pola
pembacaan) untuk bahasa yang belum dikenali.
Dekripsi data yang ada pada kolom:
Dekripsi data yang ada pada kolom:
- OCR menunjukkan jika Optical Character Recognition tersedia untuk bahasa bersangkutan
- ICR menunjukkan jika Intelligent Character Recognition tersedia untuk bahasa bersangkutan
- Full-text dictionary support – jika dukungan kamus tersedia untuk OCR dan ICR
- Data capture dictionary support – menunjukkan ketersediaan kamus istimewa antara lain format lokal untuk tanggal, alamat, telepon, prefix, mata uang, nama depan dan inisial.
Language | OCR | ICR | Full-text dictionary support | Data capture dictionary support |
Natural Languages | ||||
Abkhaz | ||||
Adyghe | ||||
Afrikaans | ||||
Agul | ||||
Albanian | ||||
Altai | ||||
Arabic (technical preview ) | ||||
Armenian (Eastern) | ||||
Armenian (Grabar) | ||||
Armenian (Western) | ||||
Avar | ||||
Aymara | ||||
Azerbaijani (Cyrillic) | ||||
Azerbaijani (Latin) | ||||
Bashkir | ||||
Basque | ||||
Belarusian | ||||
Bemba | ||||
Blackfoot | ||||
Breton | ||||
Bugotu | ||||
Bulgarian | ||||
Buryat | ||||
Catalan | ||||
Cebuano | ||||
Chamorro | ||||
Chechen | ||||
Chinese (Simplified) | ||||
Chinese (Traditional) | ||||
Chukchee | ||||
Chuvash | ||||
Corsican | ||||
Crimean Tatar | ||||
Croatian | ||||
Crow | ||||
Czech | ||||
Dakota (Sioux) | ||||
Danish | ||||
Dargwa | ||||
Dungan | ||||
Dutch (Belgium) | ||||
Dutch (Netherlands) | ||||
English | ||||
Eskimo (Cyrillic) | ||||
Eskimo (Latin) | ||||
Estonian | ||||
Even | ||||
Evenki | ||||
Faroese | ||||
Fijian | ||||
Finnish | ||||
French | ||||
Frisian | ||||
Friulian | ||||
Gagauz | ||||
Galician | ||||
Ganda | ||||
German | ||||
German (Luxembourg) | ||||
German (new spelling) | ||||
Greek | ||||
Guarani | ||||
Hani | ||||
Hausa | ||||
Hawaiian | ||||
Hungarian | ||||
Icelandic | ||||
Indonesian | ||||
Ingush | ||||
Irish | ||||
Italian | ||||
Japanese | ||||
Jingpo | ||||
Kabardian | ||||
Kalmyk | ||||
Karachay-balkar | ||||
Karakalpak | ||||
Kasub | ||||
Kawa | ||||
Kazakh | ||||
Khakass | ||||
Khanty | ||||
Kikuyu | ||||
Kirghiz | ||||
Kongo | ||||
Korean | ||||
Koryak | ||||
Kpelle | ||||
Kumyk | ||||
Kurdish | ||||
Lak | ||||
Latin | ||||
Latvian | ||||
Lezgi | ||||
Lithuanian | ||||
Luba | ||||
Macedonian | ||||
Malagasy | ||||
Malay (Malaysian) | ||||
Malinke | ||||
Maltese | ||||
Mansi | ||||
Maori | ||||
Mari | ||||
Maya | ||||
Miao | ||||
Minangkabau | ||||
Mohawk | ||||
Moldavian | ||||
Mongol | ||||
Mordvin | ||||
Nahuatl | ||||
Nenets | ||||
Nivkh | ||||
Nogay | ||||
Norwegian (Bokmal) | ||||
Norwegian (Nynorsk) | ||||
Nyanja | ||||
Ojibway | ||||
OldEnglish | ||||
OldFrench | ||||
OldGerman | ||||
OldItalian | ||||
OldSpanish | ||||
Ossetian | ||||
Papiamento | ||||
Polish | ||||
Portuguese (Brazil) | ||||
Portuguese (Portugal) | ||||
Provencal | ||||
Quechua | ||||
Rhaeto-Romanic | ||||
Romanian | ||||
Romany | ||||
Rundi | ||||
Russian | ||||
Russian (Old Spelling) | ||||
Rwanda | ||||
Sami (Lappish) | ||||
Samoan | ||||
Scottish Gaelic | ||||
Selkup | ||||
Serbian (Cyrillic) | ||||
Serbian (Latin) | ||||
Shona | ||||
Slovak | ||||
Slovenian | ||||
Somali | ||||
Sorbian | ||||
Sotho | ||||
Spanish | ||||
Sunda | ||||
Swahili | ||||
Swazi | ||||
Swedish | ||||
Tabasaran | ||||
Tagalog | ||||
Tahitian | ||||
Tajik | ||||
Tatar | ||||
Thai | ||||
Tok Pisin | ||||
Tongan | ||||
Tswana | ||||
Tun | ||||
Turkish | ||||
Turkmen | ||||
Tuvinian | ||||
Udmurt | ||||
Uigur (Cyrillic) | ||||
Uigur (Latin) | ||||
Ukrainian | ||||
Uzbek (Cyrillic) | ||||
Uzbek (Latin) | ||||
Vietnamese | ||||
Welsh | ||||
Wolof | ||||
Xhosa | ||||
Yakut | ||||
Zapotec | ||||
Zulu | ||||
Artificial Languages | ||||
Esperanto | ||||
Ido | ||||
Interlingua | ||||
Occidental | ||||
Numbers | ||||
Arabic numbers | ||||
Arabic-Indian numbers |
Optimasi performa prosesor multi core
ABBYY FineReader Engine secara otomatis melakukan kombinasi dan
eksekusi langkah-langkah distribusi dokumen, koordinasi pengenalan
dokumen dan melakukan sintesis. Otomatisasi ini mendukung kemudahan
skalabilitas dan pemanfaatan CPU yang memberikan tambahan hampir 90%
kecepatan untuk setiap penambahan core processor dibandingkan penggunaan
satu core.
Perhatian: Gambar diatas tidak memperhitungkan fase ekspor dokumen karena hal tersebut dapat bervariasi dari skenario satu dengan yang lain dan tidak dapat dilakukan secara paralel. Kecepatan dapat juga berubah tergantung kompleksitas dokumen. Untuk dokumen yang kompleks membutuhkan waktu lebih lama daripada dokumen yang sederhana, sehingga selisih penggunaan banyak prosesor jauh lebih tinggi daripada single prosesor. Grafik ini juga menunjukkan bahwa semakin banyak halaman dalam dokumen semakin efektif sistem load balancing dan peningkatan performanya.
Angka ini berdasarkan internal testing dari ABBYY.
Perhatian: Gambar diatas tidak memperhitungkan fase ekspor dokumen karena hal tersebut dapat bervariasi dari skenario satu dengan yang lain dan tidak dapat dilakukan secara paralel. Kecepatan dapat juga berubah tergantung kompleksitas dokumen. Untuk dokumen yang kompleks membutuhkan waktu lebih lama daripada dokumen yang sederhana, sehingga selisih penggunaan banyak prosesor jauh lebih tinggi daripada single prosesor. Grafik ini juga menunjukkan bahwa semakin banyak halaman dalam dokumen semakin efektif sistem load balancing dan peningkatan performanya.
Angka ini berdasarkan internal testing dari ABBYY.
Kecepatan proses yang ekstrim
Keceparan tinggi sudah secara umum dijadikan parameter kualitas OCR. Tim Pengembang ABBYY selalu meningkatkan kinerja optimasi kecepatan.Tim FineReader Engine 10 telah menghasilkan kecepatan dua kali lebih cepat dari pertumbuhan kecepatan sebelumnya.Untuk kecepatan recognitionyang tinggi disediakan parameter Fast Recognition mode. Dengan parameter ini kecepatan dapat meningkat 2-3 kali lebih cepat daripada normal mode. Namun kompensasinya adalah berkurangnya tingkat keyakinan sebesar 0.5-1%.
*dibandingkan ABBYY FineReader Engine 9.0yang dirilis pada Oktober 2008. Didasarkan internal ABBYY testing.
Lingkungan Pengembangan :
- Microsoft Visual Studio.NET (VB.NET, C#);
- Microsoft Visual Basic 5.0, 6.0;
- Microsoft Visual C++ 4.x and above;
- VB Script, and other scripting languages;
- Borland Delphi 2.0 and above;
Kebutuhan Sistem
OCR SDK mendukung standalone dan network installations to PC dengan
x86-compatible processor (1 GHz or higher) Microsoft Windows® 7
(32/64bit), Windows Server® 2008 (32/64bit), Windows Vista® (32/64bit),
Windows Serve®r 2003 (32/64bit), Windows XP® (32/64bit), Windows® 2000.
Format Input/Output
ABBYY OCR toolkitmendukung banyak format antara lain PDF, BMP, PCX,
DCX, JPEG, GIF, TIFF, PNG, DjVu dan beberapa format yang dihasilkan:
DOC, RTF, TXT, XML, XLS, PPT, DOCX, XLSX, PPTX, PDF, PDF/A, MRC
compression for PDF and PDF/A, CSV, HTML, DBF
Dukungan Bahasa
ABBYY FineReader Engine 10 mengenali 198 bahasa untuk OCR dengan
Latin, Cyrillic, Greek, Armenian characters, East Asian languages dan
113 bahasa untuk ICR .
Barcode Types
Barcodes recognition mendukung hampir seluruh tipe barcode 1D dan 2D .
Add-on Modules
FineReader Engine mengandungbeberapa add-on modules untuk
RTLs,meningkatkan fungsionalitas: analisa Invoices, tambahan fitur
pengenalan PDF, CJK OCR (Chinese, Japanese, Korean), Thai, Hebrew OCR
dan lainnya.
Pesan Bahasa
Dialogue captions, text, error and other program messages are available in English, German, French, Spanish, Italian, Dutch, Portuguese, Russian, Estonian, Polish, Czech, Slovak, Hungarian, Bulgarian, Ukrainian, Swedish, Greek, Lithuanian, and LatvianAdrs
andinadyahratnasari@gmail.com
andinadyahratnasari@yahoo.com
Comments