Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky

Domáce Hardware Siete Programovanie Softvér Otázka Systémy

Ako používať Perl Vyhľadávanie pdf doc

skriptov v jazyku Perl " plaziť " cez web , preosievanie cez oceán HTML stránok o informácie , a nevyhnutne stretávajú niektorí z miliónov Adobe Acrobat PDF súbory , sypané cez internet . Aj keď sú pripravení na tlač a atraktívne , z pohľadu webového prolézacího modulu , PDF sú o niečo ťažšie oriešok než jednoduché , textových stránok HTML . Našťastie , rovnako ako u mnohých internetových úlohy , je modul v jazyku Perl , ktorý môže pomôcť tomu , aby život : CAM :: PDF . Tento programovacie rozhranie , aj keď väčšinou za cieľ vytvoriť a pracovať so súbormi vo formáte PDF , má niektoré nástroje , ktoré umožňujú skripty hľadať ich obsah . Veci , ktoré budete potrebovať
Perl skriptovací prostredie
CAM :: PDF Perl modul
Text alebo kód editor
súboru PDF
Zobraziť ďalšie inštrukcie
1

Inštalovať CAM :: PDF . CPAN nástroj poskytuje najjednoduchší spôsob , ako to urobiť - začať CPAN na príkazovom riadku a do príkazového riadku zadajte " nainštalovať CAM :: PDF " ( bez úvodzoviek )
2

Otvorte editor a spustiť skript , zadaním nasledujúce riadky spustiť interpret jazyka Perl a importovať nutné modul :

# /usr /bin /perluse CAM :: PDF ;

Pridať ďalšie dva riadky spracovať argumenty príkazového riadku , ktoré užívateľ bude prejsť v :

môj $ file = shift ; my $ search = shift ;

Prvý argument odovzdaný skriptu bude názov vo formáte PDF súbor , a druhý , hľadaný reťazec
3

Vytvorte nový objekt CAM :: PDF pridaním nasledujúceho riadku do skriptu : .

my $ doc = CAM :: PDF - > new ( $ file ) ;

Použitie metódy importovaného modulu NUMPAGES definovať hornú hranicu , vytvorte slučku spracovať každú stranu dokumentu :

foreach my $ p ( ( 1 .. $ doc - > NUMPAGES ( ) ) ) {
4

rámci slučky , pridajte tento riadok , aby sa jednotlivé stránky textu zo súboru PDF :

my $ str = $ doc - > getPageText ( $ p ) ;

Pridať ďalší príkaz skriptu rozdeliť texte danej stránky až do poľa samostatných riadkoch :

@ lines = split ( /\\ n /, $ str ) ;

Dokončiť vyhlásenie slučky zadaním pravú hranatú zátvorku :

}
5

Nakoniec pridajte ďalšie slučku skript spracovať každý riadok na stránku a hľadať zhodu pre hľadaný reťazec užívateľa ako regulárny výraz . Ak regulárny výraz vracia zápas , tento príklad vytlačí linku a číslo stránky na štandardný výstup . V mieste týchto tlačových vyhláseniach , by ste mali implementovať kód pre spracovanie výsledkov podľa potreby

my $ i = 0 ; . Foreach $ línie ( @ linky ) { + + $ i ; if ( $ riadok = ~ /$ search /) { print " \\ " $ search \\ " našiel v súlade $ i zo stránky $ s \\ n" ; print " $ riadok \\ n \\ n" } }

Najnovšie články

Copyright © počítačové znalosti Všetky práva vyhradené