Sonntag, 12. August 2018

Text aus PDF und Bildern auslesen

Bei PDFs gilt es zuerst herauszufinden, ob Text markiert werden kann. Ist dies nämlich der Fall, lässt sich der Text ganz einfach mit Copy&Paste entnehmen und anderswo einsetzen und bearbeiten; sofern kein Kopierschutz vorhanden ist.

Handelt es sich aber beispielsweise um einen gescannten Text oder um ein Bild mit Text, muss der enthaltene Text mit einer OCR-Software (optical character recognition) extrahiert werden.

Mittlerweile gibt es solche Tools auch online, wo man das PDF hochladen und den Text auslesen lassen kann.

Mit dem Free Online OCR lassen sich neben PDFs auch andere Dateiformate wir JPEG, PNG, GIF, BMP oder TIFF auslesen. Zuerst lädt man die Datei hoch, wählt anschliessend die Zielsprache und grenzt den auszulesenden Bereich ein. Schliesslich führt ein Klick auf den Button "OCR" zum Extrahieren des Textes, der dann gleich unten in einem Fenster angezeigt wird. Und von da geht es dann wieder mit Copy&Paste weiter.

Eine Alternative ist Free OCR API and Online OCR, wobei hier ein Limit für die Dateigrösse (5MB) gilt. Auch beim KOSTENLOSEN ONLINE OCR SERVICE gibt es eine Begrenzung: 15 MB.

Wer das Office-Paket von Microsoft nutzt, braucht keine weitere Software, um Text aus PDFs auszulesen. Hier kommt OneNote zum Einsatz. Ist das PDF als Ausdruck nach OneNote übertragen, gelangt man über das Kontext-Menü zum Auslesen des Textes. Wobei hier nicht wie beim Free Online OCR ein eingegrenzter Bereich bestimmt werden kann.

Keine Kommentare:

Kommentar veröffentlichen