Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky

Domáce Hardware Siete Programovanie Softvér Otázka Systémy

Ako používať Html5lib v Pythone

Programovací jazyk Python podporuje HTML 5 webových stránok pomocou knižnice " Html5lib . " Táto knižnica umožňuje písať Python skripty , ktoré analyzujú HTML 5 stránok pomocou stromovej štruktúry . Stromovej štruktúry sú hierarchické pohľady webových stránok prvkov . Prístup k webovej prvky stránky sa vykonáva pomocou stromu chodítko . Strom chodec " prechádzky " po pripojení na uzly stromu , a môžete prechádzať celý strom . Môžete použiť Python s " Html5lib " otvoriť , prezerať a tlačiť HTML 5 webovej stránky . Veci , ktoré budete potrebovať
Python programovací 3.2 jazyka s Html5lib modulu
Zobraziť ďalšie inštrukcie Cestuj 1

Otvorte IDLE textový editor v Program Files ( alebo aplikácia pre Macintosh ) v python adresár. Otvorí sa prázdny zdrojový kód súboru
2

import " Html5lib " modul písaním nasledujúce príkazy v hornej časti súboru zdrojového kódu : .

Import html5lib

z html5lib dovozných treebuilders , treewalkers , serializer

import urllib2
3

Vytvoriť nový HTML 5 parser , ktorý budete používať čítať webové stránky vo formáte HTML . Deklarácia nový analyzátor tým , že píše nasledovné :

parser = html5lib.HTMLParser ( )
4

Otvorte webovú stránku odovzdaním jeho názov do urllib2.urlopen funkcie . Napríklad , ak chcete otvoriť " www.website_adddress.com , " napíšte nasledovné : .

URL = urllib2.urlopen ( " http://www.website_address.com " ) read ( )

5

prejsť webové stránky do HTML 5 parser získať reprezentáciu stromu . Uložte túto reprezentáciu do premennej s názvom " strom " tým , že píše nasledovné vyhlásenie :

strom = parser.parse ( URL )
6

Vytvorte strom chodec , ako je toto :

treeWalker = treewalkers.getTreeWalker ( " dom " )
7

Procházka stromu pomocou stromu chodítko . Strom chodec vráti prúd informácií , ktoré zistí na webových stránkach HTML 5. Ak chcete prechádzať strom , napíšte nasledovné :

prúdu = treeWalker ( strom )
8

Serializovať prúd , takže môžete ľahko výstup do konzoly . Môžete serializáciu prúd pomocou nasledujúce dva príkazy :

serial = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False )

výstup = serial.serialize ( stream )
9

iterovat serializovaný výstupu prúdu , ako je toto :

prvku výstup :
10

odsadenie riadku bezprostredne po predchádzajúcom vyjadrení a napísať funkciu tlače , rovnako ako tohle :

tlač ( element )
11

spustite program stlačením klávesu F5 . Skript sa otvorí a potom analyzovať HTML 5 webovú stránku . Skript potom radí stromovú štruktúru stránky a výstupy do konzoly . Výkon sa bude líšiť v závislosti na webových stránkach vybrané , ale môže vyzerať niečo ako toto :



< /head >


Vitajte na webové stránky !

< /body >

< /html >


Najnovšie články

Copyright © počítačové znalosti Všetky práva vyhradené