Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky

Domáce Hardware Siete Programovanie Softvér Otázka Systémy

Mám dlhý 100pg HTML súbor a chcem si ponechať iba nadpisy, tj H2 H3 ako to s otvorenou kanceláriou?

OpenOffice nemá jednu vstavanú funkciu na extrahovanie iba nadpisov (H2 a H3) zo 100-stranového súboru HTML. Budete musieť použiť kombináciu funkcií alebo externého nástroja. Tu je niekoľko prístupov:

1. Použitie „Find and Surping“ od spoločnosti OpenOffice Autor (obmedzené a únavné):

Táto metóda je uskutočniteľná pre menší súbor, ale veľmi nepraktický pre 100-stranový súbor HTML.

* import: Otvorte súbor HTML v OpenOffice Writer. Pravdepodobne zachová formátovanie vrátane nadpisov.

* Nájdite a vymeňte (iteratívne): Vykonajte operáciu „Nájdite a nahradiť“.

* Nájsť:

.*?

`(Toto nájde všetko medzi`

`a`

`Značky. „

`sekcie)

* Vymeňte: Udržujte toto pole prázdne. Kliknite na tlačidlo „Vymeňte všetky.“ Tým sa odstráni obsah, ale * nie * nadpis. Opakujte pre `

`značky.

* opakujte: Potom budete musieť manuálne odstrániť všetko * okrem * nadpisov. To je veľmi časovo náročné pre veľký súbor.

2. Použitie OpenOffice Calc and Regulands Expressions (pokročilejšie, ale potenciálne lepšie):

Tento prístup je automatizovanejší, ale vyžaduje určité znalosti s regulárnymi výrazmi a funkciami tabuľky.

* import (ako text): Otvorte súbor HTML v OpenOffice Calc. Importujte ho ako obyčajný text, nie HTML, aby ste sa vyhli problémom s formátovaním. Pravdepodobne bude importovať ako jedinú, veľmi dlhú bunku.

* rozdeliť text: Použite funkciu `TextSplit` (dostupné v novších verziách OpenOffice) na rozdelenie textu na riadky na základe delimitoru, ako je návratnosť vozíka (` \ `). Takto získate jeden riadok na riadok kódu HTML (približne).

* regulárne výrazy (s `regex`): Použite funkciu `regex` OpenOffice (podobná programu Excel's` ReGExmatch` alebo `regexExtract` v závislosti od vašej verzie) v novom stĺpci. Vzorec by mal extrahovať text nadpisu. Príklad:`=regex (A1,“

(.*?)

|

(.*?)

"; 2)"

* Tento vzorec hľadá `

`alebo`

`Značky, zachytenie obsahu vo vnútri. `|` Pôsobí ako operátor „alebo“. `(.*?)` Zachytáva obsah a šedivo. „2` extrahuje druhú skupinu zachytávania; Keby iba `

`sa zistilo, že to bude prázdny reťazec.

* filter a čistiť: Filter pre nevylepšené bunky na odstránenie záznamov bez nájdených nadpisov. Stále budete potrebovať nejaké manuálne vyčistenie, aby ste z výsledkov odstránili akékoľvek ďalšie medzery alebo túlavé znaky.

3. Pomocou externých nástrojov (odporúčané):

Toto je zďaleka najjednoduchšia a najúčinnejšia metóda pre veľký súbor. Použite špecializovaný nástroj na spracovanie textu alebo skriptovací jazyk, ako je Python:

* python s `krásnou polievkou: Python s knižnicou „krásnej polievky“ je vynikajúci na analýzu HTML. Krátky skript môže extrahovať iba značky „H2` a` H3` a ich obsah. Mnoho online návodov ukazuje, ako to urobiť.

Príklad Python Script:

`` `Python

Z BS4 Import BeautifulSoup

s Open ("your_100Page_html_file.html", "r", cododing ="utf-8") ako f:

html =f.read ()

polievka =krásaSoup (HTML, "html.parser")

Nadpisy =[]

pre H2 v polievke.Find_all („H2“):

hlavičky.Append (h2.text.strip ())

pre H3 v polievke.Find_all ("H3"):

Nadpis.append (h3.Text.strip ())

s otvoreným ("extrahované_headings.txt", "w", cododing ="utf-8") ako outle:

pre smerovanie v nadpisoch:

outtle.Write (nadpis + "\ n")

tlač („Nadpisy extrahované na extrahované_headings.txt“)

`` `

Nezabudnite nahradiť `" your_100Page_html_file.html "` s vaším skutočným názvom súboru. Budete musieť nainštalovať `Krásna polievka`:` PIP inštalujte krásnusoup4`

Prístup Pythonu sa dôrazne odporúča pre svoju účinnosť a presnosť. Metódy OpenOffice sú výrazne ťažšie pre súbor tejto veľkosti.

Najnovšie články

Copyright © počítačové znalosti Všetky práva vyhradené