Webseiten-URL-Extraktor
Ein Tool zur Extraktion und Darstellung aller Links von einer angegebenen Webseite, einschließlich Filterung und übersichtlicher Darstellung.
Funktionen
- Webseitenanalyse: Automatische Extraktion aller URLs von einer Webseite.
- Filterung: Nur vollständige Links (z. B. beginnend mit
http
) werden angezeigt.
- Einfaches Interface: Eingabefeld für die URL und eine klare Liste der extrahierten Links.
Anleitung
1. Öffnen der Anwendung
- Zur Webseiten-URL-Extraktor-App auf Hugging Face navigieren.
2. Eingabemethode wählen
- Eingabemethode auswählen: URL oder HTML-Datei hochladen.
3. URLs extrahieren
URL-Eingabemethode:
- URL der Webseite in das Eingabefeld eingeben (z. B.
https://example.com
). - Auf die Schaltfläche “URLs extrahieren” klicken.
- Die App extrahiert alle Links von der angegebenen Webseite und zeigt sie an. Nur vollständige Links, die mit
http
beginnen, werden angezeigt.
HTML-Datei hochladen:
- HTML-Datei hochladen, indem auf “HTML-Datei hochladen” geklickt und die Datei ausgewählt wird.
- Auf die Schaltfläche “URLs extrahieren” klicken.
- Die App extrahiert alle Links aus der hochgeladenen HTML-Datei und zeigt sie an. Nur vollständige Links, die mit
http
beginnen, werden angezeigt.
Blick in den Quelltext:
= [a.get('href') for a in soup.find_all('a', href=True)] links
Der Code extrahiert alle URLs aus den <a>
-Tags eines HTML-Dokuments und speichert sie in der Liste links.
- Diese Methode durchsucht das HTML-Dokument nach allen
'a', href=True) soup.find_all(
<a>
-Tags, die ein href-Attribut besitzen. soup ist dabei ein BeautifulSoup-Objekt, das das HTML-Dokument repräsentiert. - Für jedes gefundene
'href') a.get(
<a>
-Tag wird der Wert des href-Attributs extrahiert. - Die Auflistungsfunktion wiederholt die Extraktion für jeden Link im Dokument und erstellt eine Liste aller href-Werte (URLs) der gefundenen
'href') for a in soup.find_all('a', href=True)] [a.get(
<a>
-Tags.
4. Ergebnisse anzeigen
- Die extrahierten URLs werden in einer übersichtlichen Liste angezeigt. Die Links können direkt angeklickt werden, um sie zu öffnen.
Fazit
Das Webseiten-URL-Extraktor-Tool bietet verdeutlicht das Filtern von Links auf Webseiten oder aus HTML-Dateien, indem es nur vollständige URLs darstellt.