Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky

Domáce Hardware Siete Programovanie Softvér Otázka Systémy

Ako : regex analyzovať XML

parsovanie XML predstavuje výzvu pre rádoby texte analyzátora vzhľadom k XML je rozšíriteľnosť . Konvencie XML formátovanie sú hierarchickej povahy , čo znamená , niektoré značky dominujú iné značky . Regulárne výrazy ( regexes ) identifikovať textové vzory XML - regex pre zodpovedajúce tagy XML sa bude zhodovať všetko vnútri XML tagov < > , ale nebude zobrazovať hierarchické usporiadanie týchto značiek . Je možné oddeliť túto štruktúru tagov z textu pomocou programovacieho jazyka Python a Toolkit balík Natural Language , ktorý vloží regulárne výrazy a manipuláciu s textom a dokáže zobraziť XML tagy a ich organizáciu . Pokyny dovolená 1

Otvorte okno terminálu a napíšte príkaz " python - v " v riadku skontrolovať prítomnosť a verziu Pythonu na vašom počítači . Prejsť na domovskú stránku NLTK a stiahnite NLTK inštalačný balíček určený pre váš operačný systém . Skontrolujte , či je správne nainštalovaný NLTK zadaním príkazu " >>> import nltk " na riadku Python .
2 Typ

" >>> nltk.download ( ) " na otvoriť okno . Vyberte riadok s nápisom " všetko " a kliknite na tlačidlo Prevziať . Tým sa stiahnu rad textov pre NLTK pracovať , medzi nimi Shakespeare " Kupec benátsky " naformátovaná pomocou špeciálnych XML tagov pre hry .
3

Dovoz Kupec benátsky označené v XML pomocou nasledujúceho príkazu na príkazovom riadku Python :

>>> merchant_file = nltk.data.find ( ' corpora /Shakespeare /merchant.xml " )

Priradiť súbor variabilný , takže môžete manipulovať s Python príkazy: .

>>> raw = open ( merchant_file ) čítať

( )
Len aby sa ubezpečil , že je to tam , zadajte nasledujúci príkaz pre zobrazenie prvých 168 znakov :

>>> print raw [ 0:168 ]

Uvidíte hlavičky tagy XML a špeciálnych XML prehrávanie tagy < br . > Stránka 4

zadajte nasledujúci príkaz na príkazovom riadku Python :

>>> z nltk.etree.ElementTree dovoz ElementTree

a stlačte tlačidlo " Return " , potom zadajte nasledujúce príkazového riadku Python : .

>>> obchodníka = ElementTree ( ) analyzovať ( merchant_file )

Príkaz parse umožňuje užívateľovi zobraziť XML tagy a ich obsah . Ak chcete vytvoriť hierarchický pohľad na správne vnorených XML tagov , zadajte nasledujúci príkaz na príkazovom riadku Python :

>>> merchant.getchildren

( ) Tento ukáže všetky špeciálne XML hrať tagy v ich hierarchickom poradí . Výstupom tohto príkazu by mal vyzerať takto :

[ , , , , < ; Element ACT na 22cc0f8 > , , , , ]


Najnovšie články

Copyright © počítačové znalosti Všetky práva vyhradené