Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky
Otvorte vo formáte obyčajného textu pre úpravu aplikácie , ako je napríklad Poznámkový blok , ktorý je súčasťou systému Microsoft Windows , alebo Mac OS X je TextEdit , kde budete autorovi Python Web topánok aplikácie .
2
Začnite skript v Pythone tým , že zahŕňa nasledujúce riadky kódu , a nahradí príklad URL s URL stránky , ktorú chcete skenovať a názov napr databázy s databázou , ktorá bude ukladanie výsledkov :
dovozu urllib2 , re , stringenter_point = ' http://www.exampleurl.com ' DB_NAME = ' example.sql '
3
zahrnúť nasledujúce riadky kódu definovať postupnosť operácií , ktoré Web topánok bude nasledovať :
def uniq ( seq ) : set = { } mapu ( set.__setitem__ , seq , [ ] ) vráti set.keys ( )
4
získať adresy URL v štruktúre webových stránok pomocou nasledujúce riadky kódu :
def geturls ( URL ) : Položky = [ ] request = urllib2.Request ( url ) request.add.header ( ' Užívateľ ' , ' Bot_name ;) ' ) , obsah = urllib2.urlopen ( žiadosť ) . read ( ) položiek = re.findall ( ' href = " http://. ? " " , obsah ) , url = [ ] návrat adresy URL
5
Definujte databázu Web topánok bude používať , a spresniť, aké informácie by mal uchovávať dokončiť robiť webové topánok :
db = open ( DB_NAME , " a " ) allurls = uniq ( geturls ( enter_point ) )
6
Uložte textový dokument a odoslať ho na server alebo počítač s pripojením na internet , kde si môžete spustiť skript a začnite skenovať webové stránky .