데이터 분석 2

Logistic Regression - 당뇨병예측

로지스틱 회귀를 활용해 피마 인디언 당뇨병을 예측해보려고 합니다. UCI Machine Learning에서 제공하는 피마 인디언 당뇨병 데이터를 갖고 Classfication 실습을 해보았습니다. https://archive.ics.uci.edu/ml/index.php 📌데이터 수집 및 전처리 코드는 Colab에서 작성하였고 Drive에 csv파일을 올려두었습니다. 필요한 라이브러리들을 모두 불러와줍니다. 데이터 처리를 위한 Pandas, Numpy 시각화 라이브러리 plotly 머신러닝 프레임워크인 sklearn 교차 검증을 위한 cross_val_score, KFold 평가를 위한 accuracy_score, precision_score, recall_score import pandas as pd i..

외모지상주의 - 베스트 댓글 크롤링하기

제가 즐겨 보는 네이버 웹툰인 외모지상주의 베스트 댓글을 수집하고 살펴보았습니다. 인기작가 '박태준'님의 신작으로 논란도 많았지만 그만큼 핫했던 작품입니다. 사람들은 어떤 베스트 댓글을 좋아했고, 어떤 내용의 회차였는지 궁금해서 크롤링을 해보았습니다. 1. 댓글 수집하기 1.1 셀레니움을 활용한 데이터 수집 크롤링을 위해 셀레니움을 사용했습니다. BeautifulSoup은 사용해 봤는데, 셀레니움을 요즘은 많이 사용하는 것 같더군요. 사용해보니 굉장히 강력한 툴이라는 생각이 들었습니다. 셀레니움을 사용하기 위해서는 Chromedriver를 먼저 설치해야 합니다. chromedriver.chromium.org/downloads Downloads - ChromeDriver - WebDriver for Chr..