Tech 29. Oct. 2023

Overcoming OCR Challenges: A Deep Dive into Extracting Text from Newspaper Snapshots

In my previous research, I encountered challenges related to extracting text from snapshots of newspaper articles using mobile phones. The primary issues I encountered when using user-friendly OCR software, such as Mac’s Preview, were as follows:

  1. Handling Two-Column Text: Newspaper articles frequently employ a two-column format, which posed a significant challenge for accurate text extraction.

  2. Persistent Hyphens: Hyphens located at the ends of lines remained embedded within the extracted text even after OCR and subsequent text correction, making it especially challenging when dealing with proper names.

For my current research, my objective is to identify a suitable OCR solution that can effectively address these challenges.

As Mac’s Preview already proved insufficiences and is no tool on the long term at all - I will need somethin i can utilize by api - I will start with some other.

For evaluation I will simply use the same examples.

First example: First example

Second example: Second example

Third example: Third example

Google Vision AI

Google typically offers a wide range of impressive AI-powered APIs that have been consistently reliable for a considerable amount of time. To begin our exploration, let’s take a look at Google Vision AI.

Google Vision AI - First example

The result: Google Vision AI - first example

It’s disappointing to see that Google Vision AI didn’t perform satisfactorily in recognizing the two-column format and had issues with block identification, including the last list being treated as a separate block. In such cases, resorting to a text model for post-processing could potentially help address these quality issues. However, as you mentioned, this would be more of a workaround to rectify problems after the initial interpretation wasn’t accurate.

ChatGPT 4

Let’s expedite our journey and delve into alternative OCR solutions.

ChatGPT 4 - First example

Here is the result of ChatGPT 4 while using a simples prompt like Please extract the text from the image.

Zum Tag der Bibliotheken Bücher trödeln

ANKLAM. Bücherwürmer aufgepasst! Am Dienstag, 24. Oktober, ist nicht nur Tag der Bibliotheken. In der Rathausallee in Anklam kann dann auch von 10 bis 17 Uhr ein oder anderer Schatz gefunden werden. Denn dann findet dort ein großer Bücherflohmarkt statt. Verkauft werden ausgesonderte Medien und Geschenke. Zum Schnäppchenpreis von nur 50 Cent gehen dabei Kinderbücher, Sachbücher, Reiseführer, Hörbücher, DVDs und natürlich jede Menge Romane über den Ladentisch. Lediglich PS3-Konsolenspiele kosten ein wenig mehr. Wer noch keinen Bibliotheksausweis hat, kann an dem Tag zusätzlich sparen. Beim Abschließen eines Bibliotheksausweises zahlt man dann nur die halbe Jahresgebühr. Für Erwachsene macht das dann 10 Euro für 365 Tage Lesevergnügen, Kinder von 3 bis 13 Jahren zahlen nur 1,50 Euro.

Am 24. Oktober werden wieder ausgesonderte Medien der Stadtbibliothek zum Verkauf angeboten. FOTO: MAXI KOGLIN

Wow, that result is truly remarkable! It flawlessly resolves the two-column issue and elegantly addresses the hyphen problem. “Ank-lam” has now been accurately transformed into “Anklam,” and it appears that the engine recognized the hyphen at the line’s end, especially considering that “Anklam” isn’t a standard German word.

ChatGPT 4 - Second example

One strike does not mean that the game is over. Let’s try another example.

The result:

Bei dieser Krimi-Lesung kann man sich gruseln

ANKLAM. Die Stadtbibliothek Anklam lädt am 26. Oktober zum Gruseln ein. Denn dann wird der Berliner Autor Richard Bandes aus seinem neusten Krimi: „Nebel über der Uckermark“ lesen. Kriminalkommissarin Carla Stach bekommt es dabei mit einem rätselhaften Fall zu tun, in dem eine Hellseherin angeblich einen Mord vorausgesehen hat. Die Lesung findet in der Rathausalle am Markt um 19 Uhr statt. Der Eintritt kostet 10 Euro. Karten gibt es in der Bibliothek oder an der Abendkasse.

Gruselig wird es bei der Krimi-Lesung. FOTO: C. MARSAL

Another success! The accuracy of the text, correct interpretation of columns, and the absence of hyphen issues are all noteworthy achievements in this second example. What’s particularly impressive is that even when the picture caption is positioned more in the left column than the right, the result still correctly identifies the caption as the last partial text. This alignment makes perfect sense.

ChatGPT 4 - Thrid example

Let’s attempt one more example, beginning with an already cropped version.

The result:

Seenotretter berichtet von seinen Erlebnissen

ANKLAM. „Grenzen fanden wir keine auf dem Mittelmeer, außer den Grenzen zwischen Leben und Tod“, heißt es in dem Buch „Das Schimmern der See“ von Adrian Pourviseh. Dieses schildert Erlebnisse von Rettungskräften der Crew von Sea-Watch 3 auf dem Mittelmeer bei der Rettung von Menschen. Der Autor hat dabei die Erlebnisse mitgeholfen, da er selbst Mitglied der Seenotretter war.

Auf seiner Lesetour macht Adrian Pourviseh nun auch Halt in Anklam. Am 24. Oktober um 19 Uhr wird er im Demo-kratiebahnhof aus dem Buch vorlesen.

Adrian Pourviseh liest am Dienstag in Anklam. FOTO: SEA-WATCH

Once again, the result is undeniably impressive. However, it’s crucial to highlight an edge case here. In this instance, we encounter a hyphen not only at the line’s end but also at the column’s edge, and it involves a rather unique word, “Demokratiebahnhof.” In this scenario, even ChatGPT 4 proves unable to resolve the issue.

But let’s give it a chance and promt Fix grammar and spelling. - now using again ChatGPT 4:

Seenotretter berichtet von seinen Erlebnissen

ANKLAM. “Grenzen fanden wir keine im Mittelmeer, außer den Grenzen zwischen Leben und Tod”, so lautet eine Passage aus dem Buch „Das Schimmern der See“ von Adrian Pourviseh. In diesem Buch werden die Erlebnisse von Rettungskräften der Crew der Sea-Watch 3 im Mittelmeer bei der Rettung von Menschen beschrieben. Der Autor war selbst ein Mitglied der Seenotretter und hat diese Erlebnisse aus erster Hand.

Im Rahmen seiner Lesetour macht Adrian Pourviseh auch in Anklam Station. Am 24. Oktober um 19 Uhr wird er im Demokratiebahnhof aus seinem Buch vorlesen.

Adrian Pourviseh liest diesen Dienstag in Anklam. FOTO: SEA-WATCH

As is often the case with text models, the original text undergoes several alterations, which can be acceptable depending on the specific use case. However, my primary goal was to verify if it could accurately recognize “Demokratiebahnhof” as a single word without hyphens, and indeed, it succeeded in doing so.

ChatGPT 4 - Thrid example, but let’s check the cropping

Since the OCR quality is impressively high, there is little justification for seeking alternatives to ChatGPT 4.

However, it’s essential to assess its performance across a wider range of scenarios. Typically, a snapshot photo of an article may not be cropped accurately. Therefore, let’s evaluate the behavior of ChatGPT 4 using the third example, but this time with the original image.

I will immediately employ a modified prompt, with the primary aim of extracting the text in the initial attempt.

Please extract the text of the article within this picture.

The result:

Seenotretter berichtet
von seinen Erlebnissen

ANKLAM. „Grenzen fanden wir keine auf dem Mittelmeer, außer den Grenzen zwischen Leben und Tod“, heißt es in dem Buch „Das Schimmern der See“ von Adrian Pourviseh. Dieses schildert Erlebnisse von Rettungskräften der Crew von Sea-Watch 3 auf dem Mittelmeer bei der Rettung von Menschen. Der Autor hat dabei die Erlebnisse mitgeholfen, da er selbst Mitglied der Seenotretter war.

Auf seiner Lesetour macht Adrian Pourviseh nun auch Halt in Anklam. Am 24. Oktober um 19 Uhr wird er im Demo-kratiebahnhof aus dem Buch vorlesen.

Adrian Pourviseh liest am Dienstag in Anklam.

Once again, I’m thoroughly impressed. To be honest, I had anticipated encountering some failures and extracting only text fragments from the surrounding area. I had even prepared myself for a multi-step approach, involving initial cropping and subsequent text extraction. However, the outcome is a straightforward solution achieved solely through a modified prompt.

Conclusion

I’m truly impressed with the OCR capabilities of ChatGPT 4, and I have full confidence that it will prove to be a suitable solution in an API-based context as well.