6 Şubat 2017 Pazartesi

MAC OS üzerine Tesseract OCR (Karakter Tanıma) kütüphanesinin kurulumu


Tesseract açık kaynaklı bir OCR(Optical Character Recognition-Optik Karakter Tanıma) motorudur/kütüphanesidir (https://github.com/tesseract-ocr/tesseract/wiki) Tesseract MAC üzerine MacPorts ya da Homebrew aracılığıyla kurulabilir. Tesseract ı homebrew kullanarak kurmak istiyorsak ;



HomeBrew kurulumu için Terminale yazılacak komut

ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"



HomeBrew kurulumunu tamamladıktan sonra Tesseractı yüklemek için ;

Terminal komutu : brew install tesseract



Daha sonra ise indirdiğimiz Tesseract-OCR kütüphanesini python ile birlikte kullanabilmemiz (yani python ile bağlamamamız ) için pytesseract (https://pypi.python.org/pypi/pytesseract)'ı yüklememiz gerekiyor.

Terminal komutu :  pip install pytesseract



Artık gerekli yüklemeleri yaptık, şimdi uygulamaya geçebiliriz. Birkaç fotoğraf üzerinden Tesseract-OCR 'yi kullanarak yazıları metne çevirmeyi deneyelim. Bunun için yazacağımız kod son derece kısa:





seçilen fotoğraf (a.png)  
Program çıktısı:



seçilen fotoğraf (a.png)  

Program çıktısı:







İkinci fotoğrafta gördüğünüz gibi tüm yazıları tanıyamadı, fakat fotoğrafı biraz daha alt tarafa doğru genişletince kart no yazan kısmı da tanımayı başardı, aynı şekilde üst taraftan tarih yazan kısma kadar fotoğrafı daraltırsak ilk satırı tanımakta da zorlandı. Ben yazıların görüntüde biraz ortalanması gerekebilir sonucuna vardım. Tabi sadece 3-4 fotoğraf üzerinde deneme yaptığımı belirtmemde fayda var. Ayrıca karakterlerin birbirine çok yakın olduğu metinlerde de haliyle başarı oranı fazlasıyla düşüyor. Tesseract, Eğer görüntü işleme ile uğraşıyorsanız fotoğraf üzerinde bazı önişlemler uyguladıktan sonra farklı amaçlar için otomatikleştirilmiş OCR uygulamaları gerçekleştirilmesine altyapı sağlayan güzel bir kütüphane. İlgililere çalışmalarında başarılar dilerim..


Hiç yorum yok:

Yorum Gönder