네이버 영화 크롤링 파이썬
#=================================
import requests
from bs4 import BeautifulSoup
import pprint as ppr
from datetime import date
#=================================
'''
https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cnt&date=20181019
https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cnt&date=20181019&tg=18
https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cnt&tg=18&date=20181017
#old_content > table > tbody > tr:nth-child(1)
'''
target_url = "https://movie.naver.com/movie/sdb/rank/rmovie.nhn?"
params = {
"sel":"cnt",
"date":"20181019",
"tg":"18",
}
print (date.today())
today_information = date.today().strftime('%Y-%m-%d')
html = requests.get(target_url)
bs_obj = BeautifulSoup(html.text, "html.parser")
value = [x for x in bs_obj.select("tbody > tr")]
insert_data = {today_information:None}
temp_info = dict() # type of dictionary
for v in value:
rank, title = v.find("td", {"class":"ac"}), v.find("td", {"class":"title"})
if rank and title:
r = "{0:02d}".format(int(rank.select_one("img").attrs['alt'])) # 랭킹
t = "{0:s}".format(title.select_one("div > a").attrs['title']) # 영화이름
v = "{} - {}".format(r,t)
temp_info[r] = t
insert_data[today_information] = temp_info
ppr.pprint (insert_data)
===========================================================================
2018-10-20
{'2018-10-20': {'01': '퍼스트맨',
'02': '미쓰백',
'03': '암수살인',
'04': '베놈',
'05': '스타 이즈 본',
'06': '박화영',
'07': '안시성',
'08': '명당',
'09': '서치',
'10': '원더풀 고스트',
'11': '창궐',
'12': '협상',
'13': '배반의 장미',
'14': '곰돌이 푸 다시 만나 행복해',
'15': '액슬',
'16': '물괴',
'17': '여곡성',
'18': '82년생 김지영',
'19': '완벽한 타인',
'20': '그랜드 부다페스트 호텔',
'21': '펭귄 하이웨이',
'22': '킨: 더 비기닝',
'23': '마라',
'24': '국가부도의 날',
'25': '핫 썸머 나이츠',
'26': '노크: 초대받지 않은 손님',
'27': '호밀밭의 반항아',
'28': '나를 차버린 스파이',
'29': '배드 사마리안',
'30': '신비한 동물들과 그린델왈드의 범죄',
'31': '상류사회',
'32': '다이노 어드벤처2: 육해공 공룡 대백과',
'33': '업그레이드',
'34': '에브리데이',
'35': '리즈와 파랑새',
'36': '보헤미안 랩소디',
'37': '할로윈',
'38': '그놈이다',
'39': '동네사람들',
'40': '인피니티 포스 : 독수리오형제 최후의 심판',
'41': '성난황소',
'42': '무뢰한',
'43': '너의 결혼식',
'44': '맥퀸',
'45': '타샤 튜더',
'46': '블랙 47',
'47': '해리 포터와 마법사의 돌',
'48': '크레이지 리치 아시안',
'49': '양의 나무',
'50': '극장판 가면라이더 이그제이드: 트루 엔딩'}}
'언어 > python' 카테고리의 다른 글
selenium + 잡코리아 크롤링 + openpyxl (0) | 2018.10.24 |
---|---|
python - 크롤링 - matplotlib - pie 차트 조합 (0) | 2018.10.21 |
python watchdog 공부 (0) | 2018.10.20 |
정규식 (0) | 2018.10.16 |
virusshare malware hash crawling python (0) | 2018.10.12 |