Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky
1. Použitie „Find and Surping“ od spoločnosti OpenOffice Autor (obmedzené a únavné):
Táto metóda je uskutočniteľná pre menší súbor, ale veľmi nepraktický pre 100-stranový súbor HTML.
* import: Otvorte súbor HTML v OpenOffice Writer. Pravdepodobne zachová formátovanie vrátane nadpisov.
* Nájdite a vymeňte (iteratívne): Vykonajte operáciu „Nájdite a nahradiť“.
* Nájsť: „
* Vymeňte: Udržujte toto pole prázdne. Kliknite na tlačidlo „Vymeňte všetky.“ Tým sa odstráni obsah, ale * nie * nadpis. Opakujte pre `
* opakujte: Potom budete musieť manuálne odstrániť všetko * okrem * nadpisov. To je veľmi časovo náročné pre veľký súbor.
2. Použitie OpenOffice Calc and Regulands Expressions (pokročilejšie, ale potenciálne lepšie):
Tento prístup je automatizovanejší, ale vyžaduje určité znalosti s regulárnymi výrazmi a funkciami tabuľky.
* import (ako text): Otvorte súbor HTML v OpenOffice Calc. Importujte ho ako obyčajný text, nie HTML, aby ste sa vyhli problémom s formátovaním. Pravdepodobne bude importovať ako jedinú, veľmi dlhú bunku.
* rozdeliť text: Použite funkciu `TextSplit` (dostupné v novších verziách OpenOffice) na rozdelenie textu na riadky na základe delimitoru, ako je návratnosť vozíka (` \ `). Takto získate jeden riadok na riadok kódu HTML (približne).
* regulárne výrazy (s `regex`): Použite funkciu `regex` OpenOffice (podobná programu Excel's` ReGExmatch` alebo `regexExtract` v závislosti od vašej verzie) v novom stĺpci. Vzorec by mal extrahovať text nadpisu. Príklad:`=regex (A1,“
* Tento vzorec hľadá `
* filter a čistiť: Filter pre nevylepšené bunky na odstránenie záznamov bez nájdených nadpisov. Stále budete potrebovať nejaké manuálne vyčistenie, aby ste z výsledkov odstránili akékoľvek ďalšie medzery alebo túlavé znaky.
3. Pomocou externých nástrojov (odporúčané):
Toto je zďaleka najjednoduchšia a najúčinnejšia metóda pre veľký súbor. Použite špecializovaný nástroj na spracovanie textu alebo skriptovací jazyk, ako je Python:
* python s `krásnou polievkou: Python s knižnicou „krásnej polievky“ je vynikajúci na analýzu HTML. Krátky skript môže extrahovať iba značky „H2` a` H3` a ich obsah. Mnoho online návodov ukazuje, ako to urobiť.
Príklad Python Script:
`` `Python
Z BS4 Import BeautifulSoup
s Open ("your_100Page_html_file.html", "r", cododing ="utf-8") ako f:
html =f.read ()
polievka =krásaSoup (HTML, "html.parser")
Nadpisy =[]
pre H2 v polievke.Find_all („H2“):
hlavičky.Append (h2.text.strip ())
pre H3 v polievke.Find_all ("H3"):
Nadpis.append (h3.Text.strip ())
s otvoreným ("extrahované_headings.txt", "w", cododing ="utf-8") ako outle:
pre smerovanie v nadpisoch:
outtle.Write (nadpis + "\ n")
tlač („Nadpisy extrahované na extrahované_headings.txt“)
`` `
Nezabudnite nahradiť `" your_100Page_html_file.html "` s vaším skutočným názvom súboru. Budete musieť nainštalovať `Krásna polievka`:` PIP inštalujte krásnusoup4`
Prístup Pythonu sa dôrazne odporúča pre svoju účinnosť a presnosť. Metódy OpenOffice sú výrazne ťažšie pre súbor tejto veľkosti.