! pip install newspaper3k -q
Nachrichten-Data Mining
Extraktion und Analyse von Nachrichtenartikeln mithilfe von Python und spezifischen Bibliotheken wie newspaper3k.
Lernziele
- Entwicklung von Fähigkeiten zur Erstellung von Skripten, die wiederholt Nachrichtenartikel von einer bestimmten Quelle sammeln und analysieren können.
- Methoden der newspaper-Bibliothek, wie build, download, parse und nlp, zur Verarbeitung und Analyse von Nachrichtenartikeln.
- Einblick in die Struktur von Nachrichten-Webseiten und wie diese für analytische Zwecke genutzt werden können.
RSS Feeds der Süddeutschen Zeitung in der Übersicht
! pip install lxml_html_clean -q # Install the required package
import newspaper
= newspaper.build('https://www.sueddeutsche.de/') sueddeutsche_paper
for article in sueddeutsche_paper.articles:
print(article.url)
for category in sueddeutsche_paper.category_urls():
print(category)
import nltk
'punkt_tab') nltk.download(
= sueddeutsche_paper.articles[0]
sueddeutsche_article
sueddeutsche_article.download()
sueddeutsche_article.parse() sueddeutsche_article.nlp()
sueddeutsche_article.text