Goutte: Ein PHP-Web-Scraper
Goutte ist eine Bibliothek für das Scraping von Webseiten und das Crawlen von Inhalten in PHP. Sie hat eine klare API und ermöglicht das Extrahieren von Daten aus HTML/XML-Antworten. Allerdings gilt sie als veraltet. Ab Version 4 fungiert sie als Proxy zur HttpBrowser-Klasse aus dem Symfony BrowserKit-Komponenten.
Anforderungen: PHP 7.1 oder höher.
Installation: Über die composer.json
-Datei mit composer require fabpot/goutte
.
Verwendung:
- Erstellung einer Goutte-Client-Instanz.
- Anfragen stellen mit der
request()
-Methode. - Links klicken.
- Daten extrahieren.
- Formulare absenden.
Weitere Informationen: In der Dokumentation der Symfony-Komponenten BrowserKit, DomCrawler und HttpClient.
Lizenz: Unter der MIT-Lizenz.
Fazit: Goutte ist eine gute Wahl für Entwickler, trotz Abkündigung noch nützlich. Man sollte die Migration zu HttpBrowser in Betracht ziehen. Probieren Sie es aus und besuchen Sie die offizielle Dokumentation für mehr Infos.