-
[Python] 웹 크롤링 (Beautifulsoup 이용)Phthon 2019. 9. 11. 15:27728x90
1. 라이브러리 설치
필요한 라이브러리 requests, beautifulsoup4
pip install requests pip install beautifulsoup4
2. 테스트 페이지 크롤링
.num2 > .inner .calc_area를 선택하면 전용면적과 공급면적을 얻을 수 있습니다.
import requests from bs4 import BeautifulSoup req = requests.get('https://land.naver.com/article/articleList.nhn?rletTypeCd=A01&tradeTypeCd=A1&hscpTypeCd=A01%3AA03%3AA04&cortarNo=1135010300&mapLevel=10') #크롤링할 링크 html = req.text soup = BeautifulSoup(html, 'html.parser') data = [] num = len(soup.select('.num > .inner .calc_area')) for i in range(0, num - 1): items = soup.select('.num > .inner .calc_area')[i].text result = '' for test in items: result += test result = result.split() # 공백 제거 data.append(result) print(data)
결과
728x90