데이터 크롤링
[Python] 데이터 크롤링(data crawling) #3
3번째 이야기에서는 '트럼프 대통의 취임 이후 1년간 게시한 2,500개의 게시물'을 분석해 볼 계획입니다. 처리조건문, 반복문, 리스트를 복합적으로 활용해 트럼프 대통령의 트윗을분석하고, 알아보기 쉬운 시각화로 표현해 봅시다! 분석에 앞서, 이번 게시물에서는 주로 사용하게 될 기본개념 및 문법에 대해서 알아보는 시간을 가지겠습니다. 간단한 파이썬 문법이니, 아래 내용을 아시는 분들은 넘어가주셔도 좋습니다 :-) - 문자열 인덱싱 - 파일다루기(file open, with) - 문자열함수( startswith(), split(), append(), upper(), lower(), replace() ) # 인덱스 넘버와 startswith() 사용하기 다른 일반적인 언어들과 마찬가지로, 파이썬에서 인덱스는..
[Python] 데이터 크롤링(data crawling) #2
자, 두번째 이야기에서는, '트럼프 대통령의 트윗을 분석하기' 시간입니다. 이번 프로젝트에서는 트럼프 대통령이 2017년 1월 20일 취임 이후 1년 동안 게시한 2,500여 개의 트윗을 분석해봅니다. - 가장 많이 사용한 # 해시태그, - 가장 많이 사용한 키워드 - 가장 많이 사용한 @ 멘션 - 월별 트윗 통계 이러한 특징들을 분석 후, 데이터의 유형에 알맞은 시각화 코드를 살펴보겠습니다. - 막대 그래프 - 단어 구름(word cloud) 결과 일부 미리보기 크게 3가지 결과로 나타낼 것입니다. 1) 가장 많이 등장한 키워드, 해시태그, 멘션의 TOP.10 2) 트럼프 대통령의 월별 트위터 개수 그래프 3) 트럼프 대통령의 트위터 키워드로 워드클라우드 표현 위 두 파일은 시각화에 이용하게 될 png..
[Python] 데이터 크롤링(data crawling) #1
크롤링(crawling)이란? '웹 페이지를 그대로 가져와서 데이터를 추출해내는 행위' 입니다. 즉, 웹 페이지에서 내가 원하는 특정 데이터만 쏙쏙 골라서 찾아내 사용하겠다는 겁니다. 대표적인 소프트웨어로 Beautiful Soup이 있는데, 자주 사용하게 될겁니다!. 바로 간단한 예제를 보겠습니다. 1 2 3 4 5 6 7 import urllib.request from bs4 import BeautifulSoup url = "http://www.naver.com" # 데이터를 가져올 사이트 req = urllib.request.Request(url) sourcecode = urllib.request.urlopen(url).read() soup = BeautifulSoup(sourcecode, "htm..