Vitajte na [www.pocitac.win] Obľúbené stránky

Domáce Hardware Siete Programovanie Softvér Otázka Systémy počítačový

Ako extrahovať text z dokumentu PDF

Je veľmi frustrujúce skúsiť extrahovať text zo súboru PDF na použitie v inej aplikácii. Nie je neobvyklé, že sa grafika dostane do cesty alebo rozložením dokumentu, aby bolo ťažké preniesť test do zmysluplných viet. Aj keď nie je možné extrahovať text pomocou prístupu kopírovania a vkladania, môže to byť časovo náročné a neumožňuje export textov súborov PDF do iného formátu. Existuje však niekoľko spôsobov, ako extrahovať text zo súboru PDF.

Extrahujte text pomocou aplikácie Acrobat Reader

Krok 1

Otvorte súbor v aplikácii Acrobat Reader. Vo Windows vyberte "Súbor -> Exportovať dokument do textu", pomenujte dokument a uložte ho.

Krok 2

Skopírujte text v systéme Mac alebo Linux OS otvorením ponuky Zobraziť a výberom možnosti „ Continuous “alebo„ Continuous Facing. “ (Prvý vám poskytne text v jednom stĺpci, zatiaľ čo druhý bude formátovať text vedľa seba.) Prejdite na „Upraviť -> Vybrať všetko“ a potom na „Upraviť -> Kopírovať“.

Nástroj Vybrať vyberte, ak chcete extrahovať iba časť textu. Kliknite na nástroj „Výber textu“ a potom vyberte požadované informácie. V dokumente, ktorý je naformátovaný vo viacerých stĺpcoch, musíte najskôr použiť nástroj na výber stĺpcov. Prejdite na „Upraviť -> Kopírovať“.

Konvertovať PDF do HTML

Krok 1

Ako skratku použite Gmail. Pripojte súbor PDF k e-mailu a odošlite ho na svoj účet Gmail. Po otvorení e-mailu sa vedľa prílohy zobrazí niekoľko možností. Vyberte možnosť „Zobraziť ako HTML“ a uložte súbor, ktorý sa otvorí v samostatnom okne. Aj keď nebudete môcť zobraziť žiadnu grafiku, súbor HTML si zachová formátovanie textu dokumentu.

Krok 2

Extrahujte a prevádzajte súbory z príkazového riadku. Používatelia systému Linux môžu použiť základný príkaz na prevod, ktorý zmení súbor .pdf na súbor .txt: "pdftotext filename.pdf." Nezabudnite nahradiť názov súboru názvom súboru PDF.

Stiahnite si program na konverziu PDF do textu. K dispozícii je množstvo programov s otvoreným zdrojovým kódom a freewarových programov, ako napríklad PDFBox a Easy PDF to Text Converter (pozri nižšie uvedené zdroje). Mnoho z týchto programov dokáže tiež prevádzať súbory PDF do HTML.

Tipy

Zistite, či je dokument formátovaný tak, aby obsahoval text aj grafiku. Prístup Adobe Acrobat bude fungovať, iba ak súbor PDF obsahuje obidva; nebude fungovať iba pre súbory s obrázkami. V niektorých prípadoch je text v dokumente PDF skutočne naformátovaný ako obrázok. Toto sa často stáva, keď sa skenuje originálny dokument a zo skenovaného obrázka sa vytvorí súbor PDF.

Buďte pripravení naformátovať časť textu pri používaní aplikácie Acrobat Reader. Tento spôsob extrakcie jednoducho exportuje súbor PDF do textového súboru - nezachová nevyhnutne formátovanie. Ak však potrebujete iba použiť tieto slová, nemal by to byť problém.

Položky, ktoré budete potrebovať

Súbor PDF

Adobe Acrobat Reader

účet Gmail (voliteľné)

Softvér na prevod textu na text (voliteľný)

Copyright © počítačové znalosti Všetky práva vyhradené