Ottieni testo sottolineato da qualsiasi PDF con Python | di Sasha Korovkina | Maggio 2024 | Intelligenza-Artificiale

Indice contenuti

Una guida passo passo per ottenere il testo sottolineato come array dai file PDF.

💡 Se vuoi vedere il codice per questo progetto, controlla il mio repository: https://github.com/sasha-korovkina/pdfUnderlinedExtractor

L'estrazione dei dati dai PDF può essere un vero grattacapo e diventa ancora più complicata quando si tenta di catturare il testo sottolineato: che ci crediate o no, non esistono soluzioni o librerie di riferimento che gestiscano questa operazione immediatamente. Ma non preoccuparti, sono qui per mostrarti come affrontare questo problema.

La teoria

L'estrazione del testo sottolineato dai PDF può richiedere diversi percorsi. Potresti prendere in considerazione l'utilizzo dell'OCR per rilevare componenti di testo con profitti o approfondire le funzionalità di markup di PyMuPDF. Tuttavia, ho scoperto che l'OCR tende a vacillare, soffrendo di incoerenza e bassa precisione. PyMuPDF non è nemmeno il mio preferito: richiede una meticolosa regolazione dei parametri, che richiede molto tempo. Inoltre, un'impostazione sbagliata e potresti perdere un sacco di dati.

È importante ricordare che i PDF sono:

Dati non strutturati: Gli elementi PDF spesso non sono raggruppati o categorizzati, il che complica gli sforzi di ricerca sistematica nel contenuto.
Riconoscimento della formattazione del testo: Rilevare formati di testo specifici come grassetto o sottolineato è notoriamente difficile nei PDF, poiché la maggior parte delle librerie Python non supporta questa funzionalità in modo efficace.

Ma non temere, poiché abbiamo una strategia per risolvere questo problema.

La strategia

Converti il PDF in XML strutturato: inizia trasformando il documento PDF in un formato XML strutturato per facilitare la manipolazione dei dati.
Estrai i componenti desiderati: identifica e isola i componenti specifici dall'XML che sono rilevanti per le nostre esigenze.
Utilizza l'OCR (riconoscimento ottico dei caratteri) sulle coordinate estratte per ottenere i dati di testo sottolineati come un array.
Estrai e genera testo sottolineato: infine, estrai il testo sottolineato dal documento e visualizza o stampa i risultati.