Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky
Otvorte Python editor .
2
Vložte regulárny výraz modul zadaním nasledujúceho :
import re
3
Definujte funkciu , aby boli odstránené všetky HTML tagy . Napríklad , zadajte nasledujúci príkaz : Spojené
def delete_html ( údaje ) :
4
Oddeľte prvky HTML kódu pomocou funkcie " re.compile " na zostavenie vzorcov regulárnych výrazov do objektu , ktorý môžete použiť pre vzorov . Pokračovanie príkladu , napíšte toto :
htmlPattern = re.compile ( r ' < * . ? > " )
V tomto príklade , " re.compile " atribút hovorí Pythonu hľadať reťazec " " < .. > " , ktorý znamená začiatok a koniec HTML tagy .
kvalifikátor " . * ? " hovorí Pythonu , aby zodpovedali iba tagy . Bez kvalifikáciu , Python vráti reťazec "
Vymeňte priestor pre všetky HTML kódu pomocou funkcie " sub " . Pokračovanie príkladu , zadajte nasledujúci príkaz :
vrátiť htmlPattern.sub ( " " , dáta )
V tomto prípade , Python pásy z HTML kód a nahradí ju s prázdnym priestorom . V tomto bode , v závislosti na tom , ako chcete štruktúrovať dáta , môžete použiť funkciu reťazec " pásy " odstrániť medzery alebo použiť regulárne výrazy , ako napríklad " \\ s + " , odstrániť nadbytočné medzery .