PDF-Link-Extractor
Eine Anwendung zur Extraktion und Organisation von PDF-Links von Webseiten oder hochgeladenen HTML-Dateien, einschließlich Download und Komprimierung.
Funktionen
- Eingabeoptionen:
- URL der Webseite
- Hochladen einer HTML-Datei
- URL der Webseite
- PDF-Suche: Extraktion aller PDF-Links auf der Seite.
- Download & Komprimierung: Herunterladen der PDFs und Bereitstellung in einem ZIP-Archiv.
- Übersicht der gefundenen PDFs: Anzeige der Dateigrößen und Namen.
Anleitung
1. Google-Suche durchführen:
- Öffnen Sie Ihren Webbrowser und gehen Sie zu Google.
- Geben Sie in die Suchleiste den folgenden Suchbegriff ein, um nach PDF-Dateien zu suchen, die zivilgesellschaftliche Themen behandeln:
Digitale Gesellschaft filetype:pdf
- Drücken Sie die Eingabetaste, um die Suche zu starten.
2. Suchergebnisse speichern:
- Nachdem die Suchergebnisse angezeigt werden, speichern Sie die HTML-Seite der Suchergebnisse.
- Klicken Sie mit der rechten Maustaste auf die Seite und wählen Sie “Seite speichern unter…” oder eine ähnliche Option, je nach Browser.
- Speichern Sie die HTML-Datei auf Ihrem Computer.
3. PDF-Links extrahieren und herunterladen:
- Verwenden Sie die Anwendung PDF-Link-Extractor, um die gespeicherte HTML-Datei hochzuladen und die PDF-Links zu extrahieren.
- Gehen Sie zur Anwendung PDF-Link-Extractor.
- Laden Sie die gespeicherte HTML-Datei hoch.
- Die Anwendung durchsucht die HTML-Datei nach PDF-Links, lädt die gefundenen PDFs herunter und stellt sie in einem ZIP-Archiv bereit.
- Laden Sie das ZIP-Archiv herunter, um die gesammelten PDF-Dateien zu erhalten.
4. Auswertung der PDFs:
- Nutzen Sie kostenlose Werkzeuge wie NotebookLM, ChatGPT oder Bing Chat, um die Texte in den PDFs zu analysieren.
- Weitere Details zur Auswertung finden Sie in Aufbereitung.
Fazit
Einfacher Webscrapingprozess mit Suche und Sammlung von PDF-Dateien durch die Extraktion von PDF-Links aus Webseiten oder HTML-Dateien, gefolgt von einem praktischen Download und der Bereitstellung in einem komprimierten ZIP-Archiv.