HTML parsen mit BeautifulSoup

Möchte man Webseiten parsen, könnte man den HTML-Code mit Regexp-Ausdrücken durchsuchen. Damit würde man aber eine bereits existierende Möglichkeit neu programmieren, nämlich das Python-Modul „BeautifulSoup“.
Sofern noch nicht vorhanden, installiert man zuerst mit pip die Bibliothek bs4, die BeautifulSoup enthält.

Mit zwei Zeilen Python-Code ist man dann bereits voll einsatzbereit. Man übergibt BeautifulSoup einfach den HTML-Code als String, und legt den Parser fest:

from bs4 import BeautifulSoup
soup = BeautifulSoup(<html-code>, "html.parser")

Im folgenden Skript (auf gist.github abgelegt) sind ein paar Basis-Befehle aufgeführt, die zeigen, wie man mit BeautifulSoup den HTML-Code parsen und analysieren kann: