데이터 전처리 4

맥주 추천시스템 구현 - 2. 데이터 전처리

🍺리뷰 데이터 전처리 1. 여러 개의 파일 병합하기 우선 이전 포스팅에서 수집한 맥주별 csv 파일들을 하나로 합치겠습니다. import pandas as pd # 합친 데이터를 저장할 데이터프레임 data = pd.DataFrame(data=[], columns=['맥주정보', '검색이름', '맥주이름']) # 수집한 파일의 개수 files_cnt = 77 for i in range(files_cnt): # 해당 경로에서 beer_n_1.csv 형식의 파일들만 수집한 뒤 병합합니다. try : tmp = pd.read_csv(r'C:\Users\Ghyeon\beer_n_'+str(i)+'.csv', index_col=0) data = pd.concat([data,tmp]) # 오류 발생 시 넘어갑니다...

구글 플레이 스토어 - 리뷰 데이터 크롤링하기

스타듀밸리 어플 리뷰 크롤링 인디 게임인 스타듀밸리에 대한 리뷰를 크롤링 해보았습니다. 저도 구매해서 플레이 해봤는데 굉장히 재미있습니다. 다들 큰 기대 없이 시작하지만 한 번 빠지면 몇 시간 뚝딱입니다. Golden Joystick 혁신상을 비롯해 여러 곳에서 상을 받은 게임답습니다. play.google.com/store/apps/details?id=com.chucklefish.stardewvalley&hl=ko&gl=US 스타듀 밸리 Stardew Valley - Google Play 앱 ConcernedApe의 대인기 농장 RPG가 모바일 버전으로 찾아옵니다! 각종 수상 경력에 빛나는 농장 RPG에서 농촌으로 떠나 새로운 삶을 경험해 보세요! 50시간 이상의 즐길거리를 제공합니다. 새로운 엔 pl..

외모지상주의 - 베스트 댓글 크롤링하기

제가 즐겨 보는 네이버 웹툰인 외모지상주의 베스트 댓글을 수집하고 살펴보았습니다. 인기작가 '박태준'님의 신작으로 논란도 많았지만 그만큼 핫했던 작품입니다. 사람들은 어떤 베스트 댓글을 좋아했고, 어떤 내용의 회차였는지 궁금해서 크롤링을 해보았습니다. 1. 댓글 수집하기 1.1 셀레니움을 활용한 데이터 수집 크롤링을 위해 셀레니움을 사용했습니다. BeautifulSoup은 사용해 봤는데, 셀레니움을 요즘은 많이 사용하는 것 같더군요. 사용해보니 굉장히 강력한 툴이라는 생각이 들었습니다. 셀레니움을 사용하기 위해서는 Chromedriver를 먼저 설치해야 합니다. chromedriver.chromium.org/downloads Downloads - ChromeDriver - WebDriver for Chr..

12월 서울시 코로나 확진자 및 사망자 수 시각화

1. 데이터 수집 캐글에 있는 국내 코로나 환자들에 대한 데이터를 분석해보도록 하겠습니다. www.kaggle.com/hongsean/covid19-in-korea-dataset?select=COVID_Korea_geo.csv 전체 데이터에서 필요한 것들만 뽑아내는 과정을 거친 뒤에 시각화를 진행하였습니다. COVID_Korea_geo.csv로부터 12월 서울에 대한 정보만 뽑아내 시각화할 것입니다. 우선 필요한 라이브러리인 pandas와 plotly를 가져오고 최대 행 출력 수도 변경했습니다. import pandas as pd import plotly.graph_objects as go pd.set_option('display.max_row', 100) COVID_Koread_geo.csv 파일을 불..