Nachrichten-Data Mining

Extraktion und Analyse von Nachrichtenartikeln mithilfe von Python und spezifischen Bibliotheken wie newspaper3k.
Lernziele
  • Entwicklung von Fähigkeiten zur Erstellung von Skripten, die wiederholt Nachrichtenartikel von einer bestimmten Quelle sammeln und analysieren können.
  • Methoden der newspaper-Bibliothek, wie build, download, parse und nlp, zur Verarbeitung und Analyse von Nachrichtenartikeln.
  • Einblick in die Struktur von Nachrichten-Webseiten und wie diese für analytische Zwecke genutzt werden können.

RSS Feeds der Süddeutschen Zeitung in der Übersicht

! pip install newspaper3k -q
! pip install lxml_html_clean -q # Install the required package
import newspaper
sueddeutsche_paper = newspaper.build('https://www.sueddeutsche.de/')
for article in sueddeutsche_paper.articles:
    print(article.url)
for category in sueddeutsche_paper.category_urls():
    print(category)
import nltk
nltk.download('punkt_tab')
sueddeutsche_article = sueddeutsche_paper.articles[0]
sueddeutsche_article.download()
sueddeutsche_article.parse()
sueddeutsche_article.nlp()
sueddeutsche_article.text