Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky

Domáce Hardware Siete Programovanie Softvér Otázka Systémy

Ako zobraziť adresu URL pomocou regulárnych výrazov

Regulárne výrazy poskytnúť programátor s výkonnými nástrojmi pre analýzu textu a manipuláciu . Našiel všade , od e - commerce validácie formulára na high - stakes sporu - kedy advokáti vyhľadávať kombinácie slov v e - mailových správ , ktoré pridávajú do " vinný " - regexes patrí do každého programátora nástrojov . Bohužiaľ , ich tajomný syntaxe stojí ako prekážka pre mnoho užívateľov , ktorí by mohli mať prospech z nich . Jedným z možných využití je skenovanie textu pre Universal Resource Locator , známy hovorovo ako webové adresy. Programovací jazyk Python túto úlohu v niekoľkých málo riadkov kódu . Veci , ktoré budete potrebovať
Python 2.6 alebo vyšší , sa v kľudovom stave integrované vývojové prostredie
Textový súbor pre testovanie
Zobraziť ďalšie inštrukcie Cestuj 1

Otvoriť v pokoji a vytvoriť test textový súbor skopírovaním a vložením nejaký náhodný text do súboru spolu s niektorými URL . Uložte súbor ako TestText.txt do adresára , ktorý je dodávaný v dialógovom okne Uložiť , takže nemusíte mať strach o cesty medzi interpretom Pythonu a tento súbor .
2

Prejsť na hlavné IDLE okno a zadajte klipart

>>>> import re

na riadku Python . Tento načíta regulárny výraz motor Python
3

Prečítajte si testovaciu text do Pythonu a udržať ju v pamäti s nasledujúcimi príkazmi : .

>>> TestText = open ( " OCB_1.txt " )

>>> raw = TestText.read ( )

OCB_1.txt je názov môjho testovacieho súboru - kopírovanie a vkladanie z Ambrose Bierce to " Výskyt v Owl Creek Bridge , " s niekoľkými adresami URL vložené dovnútra vo vyššie uvedených príkazov , textový súbor je otvorený a priradená do premennej TestText , to je potom načítaný do pamäte s prideleným variabilným surové
. stránka 4

Pre- zostaviť regulárny výraz tak , aby sa urýchlil proces rozobrať . To je užitočné najmä pri práci s veľkými textovými súbormi . Zadajte nasledujúce príkazy na príkazovom riadku Python :

>>> pattobj = re.compile ( " https ://( [ - \\ w \\ . ] + ) + ( : ? \\ D + ) ? ( /( [ \\ w /_ \\ . ] * ( \\ ? \\ s + ) ? ) ? ) ? " )
5

Vyvolať metódu findall zadaním príslušného príkazu regex spolu s premennou s odkazom do textu v pamäti : .

findallobj = pattobj.findall ( raw )

Tým sa vytvorí nový variabilný , findallobj , ktorý obsahuje vzory plynúce z regex
6

Zobrazí adresu URL regulárny výraz nájdený pomocou príkazu tlače :

tlače ( findallobj )

Výstup vyzerá podobne ako toto :

[ ( ' www.sjca . edu " ) , ( " www.cantlers.com /index.shtml " ) ]

Najnovšie články

Copyright © počítačové znalosti Všetky práva vyhradené