일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 딥러닝수학
- 크롬
- 정보보호
- 딥러닝실행
- 머신러닝
- 프로젝트
- while문
- java
- 스마트인재개발원 후기
- 광주인공지능학원
- 보안용어
- 웹 크롤링
- 웹툰
- 크롤링
- HTML
- 스마트인재개발원
- 문자태그
- 주식
- 딥러닝기초수학
- Python
- 멜론
- 컴퓨터보안
- 도서관관리
- Visual Studio Code
- 기본목록
- 보안
- 딥러닝
- 파이썬
- for문
- Selenium
- Today
- Total
자신의 일은 스스로하자
[웹 크롤링] #3 파이썬으로 멜론 차트 TOP 100 데이터 프레임 생성, CSV저장 / pandas [스마트인재개발원] 본문
[웹 크롤링] #3 파이썬으로 멜론 차트 TOP 100 데이터 프레임 생성, CSV저장 / pandas [스마트인재개발원]
힐파르 사막 삼계탕 2021. 6. 13. 23:13
이전에 수집한 멜론 차트 TOP 100에 대한 데이터 프레임을 생성하겠습니다.
2021.06.07 - [웹 크롤링] - [웹 크롤링] #2 멜론 TOP100 수집 / BeautifulSoup [스마트인재개발원]
수집하는 방법은 이전 포스팅을 봐주세요.
먼저 데이터 프레임을 생성시키기위해 pandas를 import해줍니다.
import pandas as pd
이제 태그를 제외하고 순수한 텍스트만 담아줄 리스트 생성해줍니다.
song_list = [] # 노래제목(텍스트) 리스트
singer_list = [] # 가수명(텍스트) 리스트
rank_list = [] # 순위 리스트
for i in range(len(song)):
song_list.append(song[i].text.strip())
singer_list.append(singer[i].text.strip())
rank_list.append(i+1)
리스트를 print하면 이런 식으로 순수한 텍스트만 담겨 있는 것을 볼 수 있습니다.
info함수에 딕셔너리로 저장해주고
info = {"rank" : rank_list,"singer":singer_list, "title":song_list}
저장된 info를 DataFrame으로 변경해줍니다. 변경한 데이터 프레임을 music으로 저장해줍니다.
music = pd.DataFrame(info)
이대로만 출력하면 인덱스도 출력되고 rank_list도 출력되기 때문에 인덱스를 수정해줍니다.
0부터시작되는 인덱스를 없애고 DataFrame내의 열을 이용하여 새로운 인덱스를 설정해 줍니다.
music.set_index('rank', inplace = True )
사용형식은 ▶ DataFrame.set_index( 'keys' , inplace = True)
keys는 인덱스로 하려는 열의 레이블을 입력받습니다.
inplace는 원래 객체를 변경할지 결정합니다.
이후 music을 출력하면.
이렇게 멜론에 있던 멜론차트 목록이 크롤링되어 DataFrame형식으로 출력된 것을 볼 수 있습니다.
수집된 정보를 보기 좋게 csv로 저장해 줍니다.
music.to_csv("music.csv", encoding = "")
csv로 저장시 한글이 깨질 수 있기 때문에 encoding도 같이 진행해 줍니다.
실행 시키면 이렇게 csv파일이 저장된 것을 볼 수 있습니다.
스마트인재개발원에서 진행된 수업입니다.
'웹 크롤링' 카테고리의 다른 글
[웹 크롤링] #4_2 파이썬 Selenium 모듈을 사용해 컴퓨터 제어 [스마트인재개발원] (0) | 2021.06.17 |
---|---|
[웹 크롤링] #4_1 파이썬 Selenium 모듈을 사용해 컴퓨터 제어 [스마트인재개발원] (0) | 2021.06.15 |
[웹 크롤링] #2 파이썬으로 멜론 TOP100 수집 / BeautifulSoup [스마트인재개발원] (0) | 2021.06.07 |
[웹 크롤링] #1 파이썬으로 네이버 / Melon 페이지 정보 불러오기 [스마트인재개발원] (0) | 2021.06.04 |