Webseiten-URL-Extraktor

Ein Tool zur Extraktion und Darstellung aller Links von einer angegebenen Webseite, einschließlich Filterung und übersichtlicher Darstellung.

Funktionen

  • Webseitenanalyse: Automatische Extraktion aller URLs von einer Webseite.
  • Filterung: Nur vollständige Links (z. B. beginnend mit http) werden angezeigt.
  • Einfaches Interface: Eingabefeld für die URL und eine klare Liste der extrahierten Links.

Anleitung

1. Öffnen der Anwendung

2. Eingabemethode wählen

  • Eingabemethode auswählen: URL oder HTML-Datei hochladen.

3. URLs extrahieren

URL-Eingabemethode:

  • URL der Webseite in das Eingabefeld eingeben (z. B. https://example.com).
  • Auf die Schaltfläche “URLs extrahieren” klicken.
  • Die App extrahiert alle Links von der angegebenen Webseite und zeigt sie an. Nur vollständige Links, die mit http beginnen, werden angezeigt.

HTML-Datei hochladen:

  • HTML-Datei hochladen, indem auf “HTML-Datei hochladen” geklickt und die Datei ausgewählt wird.
  • Auf die Schaltfläche “URLs extrahieren” klicken.
  • Die App extrahiert alle Links aus der hochgeladenen HTML-Datei und zeigt sie an. Nur vollständige Links, die mit http beginnen, werden angezeigt.

Blick in den Quelltext:

links = [a.get('href') for a in soup.find_all('a', href=True)]

Der Code extrahiert alle URLs aus den <a>-Tags eines HTML-Dokuments und speichert sie in der Liste links.

  1. soup.find_all('a', href=True)
    Diese Methode durchsucht das HTML-Dokument nach allen <a>-Tags, die ein href-Attribut besitzen. soup ist dabei ein BeautifulSoup-Objekt, das das HTML-Dokument repräsentiert.
  2. a.get('href')
    Für jedes gefundene <a>-Tag wird der Wert des href-Attributs extrahiert.
  3. [a.get('href') for a in soup.find_all('a', href=True)]
    Die Auflistungsfunktion wiederholt die Extraktion für jeden Link im Dokument und erstellt eine Liste aller href-Werte (URLs) der gefundenen <a>-Tags.

4. Ergebnisse anzeigen

  • Die extrahierten URLs werden in einer übersichtlichen Liste angezeigt. Die Links können direkt angeklickt werden, um sie zu öffnen.

Fazit

Das Webseiten-URL-Extraktor-Tool bietet verdeutlicht das Filtern von Links auf Webseiten oder aus HTML-Dateien, indem es nur vollständige URLs darstellt.