parser Archive - iBlog()

15.07.202119.07.2021Python

HTML parsen mit BeautifulSoup

Möchte man Webseiten parsen, könnte man den HTML-Code mit Regexp-Ausdrücken durchsuchen. Damit würde man aber eine bereits existierende Möglichkeit neu programmieren, nämlich das Python-Modul „BeautifulSoup“.Sofern noch nicht vorhanden, installiert man zuerst mit pip die Bibliothek bs4, die BeautifulSoup enthält. Mit zwei Zeilen Python-Code ist man dann bereits voll einsatzbereit. Man übergibt BeautifulSoup einfach den HTML-Code als String, und legt den Parser fest: Im folgenden Skript (auf gist.github abgelegt) sind ein paar Basis-Befehle aufgeführt, die zeigen, […]