Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky

Domáce Hardware Siete Programovanie Softvér Otázka Systémy

Ako čítať PDF súbor v jazyku Java

To nie je ťažké čítať PDF súbory v Jave pomocou knižnice , ktoré sú ľahko dostupné . Čítanie súborov PDF umožňuje písať Java programy , ktoré je možné spracovať text v týchto súboroch . Jednou z možností pre čítanie súborov vo formáte PDF je zadarmo , open - source PDFBox knižnica k dispozícii od Apache . Vývojovú platformu Eclipse Java umožňuje túto prácu jednoduchšie a riadia knižnice , budete sťahovania . Musíte byť oboznámení s Java programovanie , aby použitie týchto Java knižníc . Návod
Zhromaždite Potrebné knižnice
1

Stiahnite si Java JDK z webových stránok Sunu . To je spustiteľný súbor , ktorý si môžete nainštalovať na vašom systéme beží to . K dispozícii sú verzie pre Windows , Mac a Linux . Kliknite na červené tlačidlo \\ " Download \\ " . Uložte súbor s názvom \\ " jdk - 6uxx - windows - xxx.exe \\ " , po zobrazení výzvy . Uložte tento súbor a dvakrát kliknite na neho kliknite pre spustenie Java inštalátor .
2

Stiahnite rozvoja systému Eclipse a rozbaľte ho do adresára najvyššej úrovne . Zvoľte \\ " Eclipse IDE pre Java vývojárov . \\ " Tým sa spustí sťahovanie \\ " eclipse - java - galileo - SR2 - win32.zip . \\ " Double - kliknite na súbor ho rozbaľte po stiahnutí je kompletný. Zvoľte \\ " C : \\ " umiestnenie koreňového adresára rozbaliť Eclipse
3

Začiatok Eclipse dvojitým kliknutím na \\ " eclipse.exe \\ " v adresári . práve vytvorené rozbalením súboru zatmenie zips . V systéme Eclipse , vytvoriť projekt s názvom \\ " PrintPDF . \\ " Select \\ " Súbor \\ " , potom \\ " Nový \\ " , potom \\ " Java projekt . \\ " Zadajte meno projektu \\ " ; PrintPDF \\ " v dialógovom okne , ktoré sa objavia . Uistite sa , že prepínač je vybraný , ktorá hovorí , \\ " vytvoriť samostatné zložky pre zdrojové a súborov tried . \\ " Kliknite na \\ " Dokončiť . \\ "
4

Vytvoriť \\ " lib \\ " zložku v \\ " projektu PrintPDF \\ " . Kliknite pravým tlačidlom myši na projekt \\ " PrintPDF \\ " a vyberte \\ " Nový \\ " a potom \\ " Folder . \\ " Zadajte názov \\ " lib \\ " a kliknite na \\ " Dokončiť . \\ "
5

Stiahnuť Apache \\ " PDFBox.jar \\ " z miesta Apache a skopírujte ho do adresára lib ste práve vytvorili . Na rovnakej webovej stránke , stiahnite si súbor \\ " fontbox - nn.jar \\ " a súbor \\ " jempbox - nn.jar \\ " . V každom prípade , keď kliknete na túto jar súboru , to sa dostanete na stránku , kde si môžete vybrať jednu z niekoľkých serverov , ktoré môže poskytnúť tento súbor . Vyberte si každý z nich a každý jar súbor stiahne . Skopírujte každý jar súbor do adresára lib ste práve vytvorili .
6

Stiahnite log4j.jar balík Apache rovnakým spôsobom a skopírujte súbor log4j.jar do adresára . Knižnica Apache PDFBox používa túto protokolovanie knižnicu Apache , aby tento súbor musí byť prítomný .
7

Stiahnuť balík Apache Commons Discovery ako zip súbor . Dvakrát kliknite na súbor zips , zvoľte \\ " commons - objav - nn.jar \\ " a rozbaľte ho do adresára lib .
8

Eclipse , kliknite na \\ " lib \\ " adresár a stlačte tlačidlo \\ " F5 . \\ " Uistite sa , že sú zobrazené všetky jar súbory , ktoré ste pridali .
9

pravým tlačidlom myši na PrintPDF projektu a vyberte \\ " Vlastnosti . \\ " Select \\ " Java Build Path \\ " a zvoľte \\ " záložku Libraries \\ " . Kliknite na \\ " Pridať pohárov \\ " a prejdite do adresára lib , ktorý ste práve vytvorili , a pridajte \\ " commons - logging - nn.jar \\ " \\ " fontbox - nn.jar , \\ " \\ " ; . jempbox - nn.jar , \\ " \\ " Log4j - nn.jar , \\ " a \\ " pdfbox - nn.jar \\ " Kliknite na \\ " OK \\ "
< br . >
písať kód pre čítanie PDF
10

pravým tlačidlom myši na priečinok \\ " src \\ " vášho projektu \\ " PrintPDF \\ " a vyberte \\ " Nový \\ " a \\ " balík . \\ " Vytvorenie balíčku pomocou akýkoľvek zmysluplný názov . Napríklad názov balíčka \\ " com.pdf.util . \\ " Kliknite na \\ " Dokončiť . \\ "
11

Pravým tlačidlom myši na názov balíčka ste práve vytvorili , a vyberte \\ " Nový \\ " a potom \\ " Class . \\ " Vytvorte triedu s názvom \\ " PDFTextParser . \\ " Uistite sa , začiarknite políčko označené ako \\ " public static void main ... \\ " , aby že systém bude vytvoriť metódu \\ " hlavný \\ " .
12

Upravte metódu \\ " hlavný \\ " na \\ " PDFTextParser \\ " triedy obsahovať nasledujúci kód :

public static void main ( String args [ ] ) {
PDFTextParser pdf = new PDFTextParser ( \\ " data /javaPDF.pdf \\ " ) < br /> GO
//vytlačiť výsledky
System.out.println ( pdf.getParsedText ( ) )
GO
}
;
Všimnite si , že súbor , ktorý chcete vytlačiť je vysvetlené v konštruktory na PDFTextParser ( \\ " data /JavaPDF.pdf \\ " ) . Mohlo by to byť rovnako ľahko argument príkazového riadku :

PDFTextParser pdf = new PDFTextParser ( argv [ 0 ] )
GO
< br /> alebo vybrané z GUI rozhranie .

To vytvára inštanciu triedy PDFTextParser , a potom volá metódu " getParsedText \\ " jeho \\ .
13

vložte nasledujúci kód tesne pod hornou triedy riadku \\ " public class PDFTextParser \\ " , ktorý bol vytvorený pre vás .

súkromné ​​PDFParser parser = null
GO

//extrahovať text z PDF dokumentu
verejné PDFTextParser ( string filename) { súbor
File = new File ( filename)
; ( ! file.isFile ( ) ) GO
ak {
System.err.println ( \\ "Súbor \\ " + filename + \\ " . neexistuje \\ " )
GO
}
//Nastavenie inštancie PDF parsera
try {
parser = new PDFParser ( nový FileInputStream ( súbor ) )
GO
} catch ( IOException e ) {
System.err.println ( \\ " Nemožno otvoriť PDF analyzátor . \\ " + e.getMessage ( ) )
GO
}
}
//--------------------- ----------
public String getParsedText ( ) {
PDDocument pdDoc = null
GO
COSDocument cosDoc = null ; < br /> String parsedText = null ;
GO

try {
PDFTextStripper pdfStripper = new PDFTextStripper ( )
GO < br /> parser.parse ( )
GO
cosDoc = parser.getDocument ( )
GO
pdDoc = new PDDocument ( cosDoc ) < br /> GO

//získať zoznam všetkých stránok
zoznam = pdDoc.getDocumentCatalog ( ) . getAllPages ( )
GO < br />
//Všimnite si , že môžete vytlačiť všetky stránky , ktoré chcete
//výberom rôznych hodnôt na začiatku a na konci stránky
pdfStripper.setStartPage ( 1 ) , //1 na základe dĺžky
int = list.size ( ) ; //celkový počet strán
pdfStripper.setEndPage ( dĺžka ) ; //posledná stránka
< br /> //dostať text stránky vybraných
parsedText = pdfStripper.getText ( pdDoc )
GO
} catch ( IOException e ) {
System.err
. println ( \\ " výnimke v analýze dokumente PDF . \\ "
+ e.getMessage ( ) )
GO
; } finally {
try {
if ( ! cosDoc = null )
cosDoc.close ( )
GO
if ( pdDoc ! = null )
pdDoc.close ( )
GO
} catch ( IOException e ) {
e.printStackTrace ( ) < br /> GO
}
}
návrat parsedText
GO
}
14

spustite program . Kliknite pravým tlačidlom myši na triedu PDFTextParser a kliknite na \\ " Spustiť ako \\ " a potom na \\ " Java programu . \\ " Tento program by mal bežať a tlačiť textové obsahu súboru PDF , ktorý ste zadali v kóde .
potlačiť Log4j spustení sa zobrazí chybové hlásenie
15

Vytvorte konfiguračný súbor potlačiť Java protokolovanie chýb systému Log4j správu vytvorený, keď to nemôže nájsť konfiguračný súbor pri spustení . Kliknite pravým tlačidlom myši na priečinok \\ " src \\ " na PrintPDF projektu a vyberte \\ " Nový \\ " a potom \\ " súborov . \\ " Názov súboru \\ " log4j.properties \\ " Eclipse bude zobrazovať prázdna obrazovka , pre tento nový súbor .
16

Vložte nasledujúce riadky do prázdnej obrazovky zastupujúci \\ " log4j.properties \\ " súborov .

; # Nastavte úroveň koreň logger pre ladenie a jeho jedinou appender na A1
log4j.rootLogger = WARN , A1

# A1 je nastavený na ConsoleAppender < .. br /> log4j.appender.A1 = org.apache.log4j.ConsoleAppender

# A1 používa PatternLayout .
log4j.appender.A1.layout = org.apache . log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern = % - 4r [ % t ] % - 5p % c % x - % m % n
17

uložiť \\ " log4j.properties \\ " súborov . Prítomnosť tohto súboru na najvyššej úrovni \\ " src \\ " adresára potlačí spustenie Log4j správu a všetky triviálne protokolovanie správ . Log4j systém bude tlačiť iba skutočné chyby .

Najnovšie články

Copyright © počítačové znalosti Všetky práva vyhradené