štruktúra a syntax HyperText Markup Langauge , alebo HTML , rozpráva nielen o webový prehliadač , ako zobraziť obsah súboru , ale tiež identifikuje štrukturálne údaje o samotnom súbore. Tieto tagy sú tiež neoceniteľné , ak ste programátor hľadá kód programu , ktorý bude strhnúť špecifickej časti HTML súboru , ako je jeho hlavičky a päty . HTML Anatómia
HTML používa jednoduchý systém označiť tagy pre identifikáciu rôznych častí dokumentu HTML . Hlavička súboru HTML je poznačený "
" tag , päty pri tagu
. Čitateľ HTML bude vykladať niečo medzi úvodný značku a značku , ktorá označuje , zatvorte sekcie , " < /header " > cez " < /päty > " , v rámci vyznačenej časti . Iné značky , ako napríklad " " odpovedá na ďalšie zložky súboru . Identifikácia hlavičky a päty Pri vytváraní kódu , aby sa vyzliekli preč HTML hlavičky a päty , môžete sa spoľahnúť na presne vedeli , ako dlho hlavičky alebo päty bude . Zatiaľ čo niektorí hlavičky a päty sa skladajú z jediného riadku , mohli by byť oveľa dlhšia . V dôsledku toho môže váš kód jednoducho hľadať " / " tag potom symbol " \\ n" , ktorá označuje koniec riadku . Keď budete čítať obsah súboru HTML do reťazca znakov , budete musieť určiť polohu indexu prvý " < " počiatočného tagu, rovnako ako " > " tagu terminálu . Polohovacie String Pozícia Obaja nízkoúrovňové jazyky , ako je C a C + + a na vysokej úrovni jazyky ako Python a Ruby sú metódy , ktoré vám pomôžu nájsť predmety texte v rámci danej string . Tieto metódy sa vráti na pozíciu indexu prvého znaku v texte , ktorý hľadáte . Keď hľadáte z počiatočnej tagy , bude to dá svoj východiskový bod pre odstránenie textu. Ak hľadáte značku terminálu , pamätajte , že bod , ktorý chcete je buď šesť ( " < /head > " ) alebo siedmich ( " < /päty > " ) pozície v prednej časti čísla metóda udáva vám . prekladania kód
Akonáhle budete mať index pozície hlavičky alebo päty segmentu , ktorý chcete odstrániť , môžete ísť o tom , že v jednom z dvoch všeobecne spôsobmi . Jedným z nich je možnosť uplatňovať vhodné metódy Ak chcete odstrániť znaky medzi prvou a poslednou pozíciu indexu pre segment . To bude priamo editovať pôvodnej reťazec . Môžete si tiež vytvoriť nový reťazec vytvoriť dve verzie obsahu súboru HTML : pôvodný súbor a verzie zbavený hlavičky a päty kódu . Urobte to priradením obsah pôvodného reťazca až do východiskovej polohy indexu , a potom všetko , čo po poslednom index polohy , k novým reťazcom .