BeautifulSoup
BeautifulSoup ist ein Python-Bibliotheksmodul (Freie Programmbibliothek für Screen Scraping) zur Analyse von HTML- und XML-Dokumenten. Es wird häufig verwendet, um Informationen aus solchen Dokumenten extrahieren (Scraping) zu können. Dazu wird eine sogenannte Parser-Tree erstellt, das die einzelnen Elemente des Documents als Nodestruktur darstellt. BeautifulSoup dient also als Werkzeug zur Parsing und Analyse von HTML- und XML-Dokumenten, um Informationen daraus extrahieren zu können. |
BeautifulSoup installieren
@sudo apt-get install python3-bs4 @sudo apt-get install python3-lxml @sudo apt-get install python3-html5lib |
BeautifulSoup Script Beispiele
Datei Beispielscript.py erstellen und Inhalt einfügen und speichern. Scrip wird dann folgendermasen ausgeführt, in meinen Beispiel habe ich python3 auf mein System installiert: @python3 Beispielscript.py |
Alle Webseiten werden ausgelesen inkl. Inhalte und im Terminal angezeigt |
import requests def get_current_date(): def get_current_time(): def scrape_website(url): if __name__ == "__main__": |
Alle Webseiten werden ausgelesen inkl. Inhalte, im Terminal angezeigt und in Textdatei gespeichert. |
import requests def get_current_date(): def get_current_time(): def scrape_website(url): if __name__ == "__main__": |
Alle Webseite und Inhalte auslesen und in Textdatei speichern |
import requests def get_current_date(): def get_current_time(): def scrape_website(url): if __name__ == "__main__": |
Alle Webseiten und ausführlich Inhalte und im Terminal anzeigen. Wenn Sie nicht wollen im Terminal anzeigen zu lassen sondern nur in Datei schreiben dann setzen Sie # vor print(.. also so #print(.. |
import requests # Ersetzen Sie dies durch die URL der Webseite, die Sie scrapen möchten # Erstellen Sie eine Anfrage an die Webseite # Stellen Sie sicher, dass die Anfrage erfolgreich war # Finden Sie alle Links auf der Hauptseite # Stellen Sie sicher, dass die Anfrage erfolgreich war # Drucken Sie das gesamte HTML-Inhalt der Seite |
![]() |