파이썬 웹 크롤링(Web Crawling) - Basic웹 크롤러(Web Crawler)는 자동화된 방식으로 웹 페이지들을 탐색하는 컴퓨터 프로그램입니다. Show
Beautiful Soup기본 세팅 주요 함수find() 및 find_all()함수
find(name, attrs, recursive, string, **kwargs)
예제 1) 웹 문서 전체 가져오기
request: Requests를 사용하면 간단한 코드만으로 웹페이지의 html 소스를 가져올 수 있습니다.
urlopen함수를 사용하여 원하는 주소로부터 웹페이지를 가져온 후,BeautifulSoup객체로 변환합니다. BeautifulSoup 객체는 웹문서를 파싱한 상태입니다. 웹 문서가 태그 별로 분해되어 태그로 구성된 트리가 구성됩니다. 예제 2) 교보문고 베스트셀러 책이름 , 저자 , 가격 출력하기
2020년 02월 기준 1 흔한남매. 2 흔한남매 (원작), 백난도http://image.kyobobook.co.kr/images/book/large/454/l9791164132454.jpg
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=979116413245411000 9900 예제 3) 네이버 베스트셀러 책이름, 저자, 가격 출력하기
예제 4) 네이버 블로그 검색결과 가져오기
결과
cf) 여러 페이지 블로그 게시물 가져오기
예제 5) 네이버 이미지 검색결과 저장하기
예제 6) 인스타그램 해시태그 검색 시 이미지 다운로드하기Crome Driver 설치링크
instagram은javascript기반의 환경이므로BeautifulSoup으로 크롤링이 불가합니다. -> selenium사용
예제 7) 네이버 블로그 검색결과 CSV(엑셀) 파일로 저장하기
예제 8) 구글 검색결과 CSV(엑셀) 파일로 저장하기
크롤링을 검색해서 나온 10개의 결과 값을 저장했습니다.(구글) |