štruktúra a syntax HyperText Markup Langauge , alebo HTML , rozpráva nielen o webový prehliadač , ako zobraziť obsah súboru , ale tiež identifikuje štrukturálne údaje o samotnom súbore. Tieto tagy sú tiež neoceniteľné , ak ste programátor hľadá kód programu , ktorý bude strhnúť špecifickej časti HTML súboru , ako je jeho hlavičky a päty . HTML Anatómia  
 HTML používa jednoduchý systém označiť tagy pre identifikáciu rôznych častí dokumentu HTML . Hlavička súboru HTML je poznačený " 
 " tag , päty pri tagu 
 . Čitateľ HTML bude vykladať niečo medzi úvodný značku a značku , ktorá označuje , zatvorte sekcie , " < /header " > cez " < /päty > " , v rámci vyznačenej časti . Iné značky , ako napríklad "  " odpovedá na ďalšie zložky súboru .  Pri vytváraní kódu , aby sa vyzliekli preč HTML hlavičky a päty , môžete sa spoľahnúť na presne vedeli , ako dlho hlavičky alebo päty bude . Zatiaľ čo niektorí hlavičky a päty sa skladajú z jediného riadku , mohli by byť oveľa dlhšia . V dôsledku toho môže váš kód jednoducho hľadať "  / " tag potom symbol " \\ n" , ktorá označuje koniec riadku . Keď budete čítať obsah súboru HTML do reťazca znakov , budete musieť určiť polohu indexu prvý " < " počiatočného tagu, rovnako ako " > " tagu terminálu .  Obaja nízkoúrovňové jazyky , ako je C a C + + a na vysokej úrovni jazyky ako Python a Ruby sú metódy , ktoré vám pomôžu nájsť predmety texte v rámci danej string . Tieto metódy sa vráti na pozíciu indexu prvého znaku v texte , ktorý hľadáte . Keď hľadáte z počiatočnej tagy , bude to dá svoj východiskový bod pre odstránenie textu. Ak hľadáte značku terminálu , pamätajte , že bod , ktorý chcete je buď šesť ( " < /head > " ) alebo siedmich ( " < /päty > " ) pozície v prednej časti čísla metóda udáva vám . 
 Akonáhle budete mať index pozície hlavičky alebo päty segmentu , ktorý chcete odstrániť , môžete ísť o tom , že v jednom z dvoch všeobecne spôsobmi . Jedným z nich je možnosť uplatňovať vhodné metódy Ak chcete odstrániť znaky medzi prvou a poslednou pozíciu indexu pre segment . To bude priamo editovať pôvodnej reťazec . Môžete si tiež vytvoriť nový reťazec vytvoriť dve verzie obsahu súboru HTML : pôvodný súbor a verzie zbavený hlavičky a päty kódu . Urobte to priradením obsah pôvodného reťazca až do východiskovej polohy indexu , a potom všetko , čo po poslednom index polohy , k novým reťazcom .