Beautiful Soup는 2004년부터 사용되는 파이썬 라이브러리로, 웹에서 데이터를 긁어오는 작업을 수월하게 해준다.
- 주요 기능
- 간편한 메소드로 복잡한 코드 없이 원하는 데이터를 쉽게 찾을 수 있다.
- 문서를 자동으로 유니코드로 변환하고, 출력은 UTF-8로 한다.
- lxml이나 html5lib 같은 파서 위에서 작동하며 다양한 파싱 방법을 제공한다.
- 사용 사례 : COVID-19 정보 긁어오기, Reddit 페이지 파싱, 파이썬 버그 추적기 마이그레이션 등 다양한 프로젝트에 활용된다.
- 가격 : MIT 라이센스 하에 무료이며, pip로 설치 가능하고, 각 운영체제별 패키지로도 설치할 수 있다.
- 비교 : 파이썬 3.6 이상에서 Beautiful Soup 4를 사용하며, 파이썬 2 지원은 중단되었고, Beautiful Soup 3도 더 이상 지원되지 않는다.
- 고급 팁 : 문서 구조를 이해하고 적절한 메소드를 사용하면 데이터 추출이 쉬워진다. Beautiful Soup는 웹 스크래핑을 쉽게 해주는 강력한 도구로 추천된다.