Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky
Otvorte IDLE textový editor v Program Files ( alebo aplikácia pre Macintosh ) v python adresár. Otvorí sa prázdny zdrojový kód súboru
2
import " Html5lib " modul písaním nasledujúce príkazy v hornej časti súboru zdrojového kódu : .
Import html5lib
z html5lib dovozných treebuilders , treewalkers , serializer
import urllib2
3
Vytvoriť nový HTML 5 parser , ktorý budete používať čítať webové stránky vo formáte HTML . Deklarácia nový analyzátor tým , že píše nasledovné :
parser = html5lib.HTMLParser ( )
4
Otvorte webovú stránku odovzdaním jeho názov do urllib2.urlopen funkcie . Napríklad , ak chcete otvoriť " www.website_adddress.com , " napíšte nasledovné : .
URL = urllib2.urlopen ( " http://www.website_address.com " ) read ( )
5
prejsť webové stránky do HTML 5 parser získať reprezentáciu stromu . Uložte túto reprezentáciu do premennej s názvom " strom " tým , že píše nasledovné vyhlásenie :
strom = parser.parse ( URL )
6
Vytvorte strom chodec , ako je toto :
treeWalker = treewalkers.getTreeWalker ( " dom " )
7
Procházka stromu pomocou stromu chodítko . Strom chodec vráti prúd informácií , ktoré zistí na webových stránkach HTML 5. Ak chcete prechádzať strom , napíšte nasledovné :
prúdu = treeWalker ( strom )
8
Serializovať prúd , takže môžete ľahko výstup do konzoly . Môžete serializáciu prúd pomocou nasledujúce dva príkazy :
serial = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False )
výstup = serial.serialize ( stream )
9
iterovat serializovaný výstupu prúdu , ako je toto :
prvku výstup :
10
odsadenie riadku bezprostredne po predchádzajúcom vyjadrení a napísať funkciu tlače , rovnako ako tohle :
tlač ( element )
11
spustite program stlačením klávesu F5 . Skript sa otvorí a potom analyzovať HTML 5 webovú stránku . Skript potom radí stromovú štruktúru stránky a výstupy do konzoly . Výkon sa bude líšiť v závislosti na webových stránkach vybrané , ale môže vyzerať niečo ako toto :
< /head >
Vitajte na webové stránky !
< /body >
< /html >