본문 바로가기

파이썬/뉴스크롤링하기4

requests 와 Buautifulsoup requests란 파이썬에서 주소를 통해 데이터를 불러오게 도와주는 라이브러리이다. BeautifulSoup는 html파일에서 필요한 자료만 찾게 도와주는 라이브러리이다. 예제 import requests webpage = requests.get("https://news.naver.com/main/history/mainnews/list.nhn") print(webpage.text) 네이버 뉴스의 HTML문서를 긁어서 출력해주는 코드이다 import request from bs4 import BeautifulSoup webpage = requests.get("https://news.naver.com/main/history/mainnews/list.nhn") soup = BeautifulSoup(webpag.. 2020. 3. 27.
datetime을 이용한 수집기간 정의하기 예제 #가져올 범위를 정의한다 #예제에서 가져올 범위는 2020-03-01 ~2020 -03 -26이다 import datetime days_range = [] start = datetime.datetime.strptime("2020-03-01", "%y-%m-%d") end = datetime.datetime.strptime("2020-03-27", "%y-%m-%d") # 범위보다 1일을 크게 잡아줘야한다 date_generated = [start + datetime.timedelta(days =x) for x in range(0, (end-start).days)] for date in date_generated: days_range.append(date.strftime("%y-%m-%d")) print(.. 2020. 3. 26.
datetime 라이브러리 파이썬에서 datetime 모듈은 날짜와 시간을 조작하는 클래스를 제공한다. calendar,time같은 모듈도 있으며 시간대와 구문분석이 확장된 dateutil도 있으니 필요하면 찾아보기 datetime모듈에서 날짜와 시간 객체는 ,로 분류된다) 는 자의적으로 해석할 여지가 없는 특정한 시간을 나타낸다 는 자신과 다른 날짜/시간 객체의 상대적인 위치를 파악할수 있는 정보를 포함하고있지않다. 이중가 필요한 응용프로그램을 위해 datetime 모듈과 time 객체에는 추상 tzinfo 클래스의 서브 클래스 인스턴스로 설정할수 있는 선택적 시간대 정보 어트리뷰트인 tzinfo가 있다. tzinfo 객체는 UTC 시간으로부터 오프셋,시간대 이름 및 일광 절약 시간이 적용되는지에 대한 정보를 보관한다 (univ.. 2020. 3. 26.
크롤링 목차 1.파이썬다운로드 2.datetime 라이브러리 - https://show5376-hgglife.tistory.com/519 3.datetime을 이용한 예제 - https://show5376-hgglife.tistory.com/520 4.html parser 정의하기 - https://show5376-hgglife.tistory.com/522 5. 6. 2020. 3. 26.