Crawling
[Python] 데이터 크롤링(data crawling) #3
3번째 이야기에서는 '트럼프 대통의 취임 이후 1년간 게시한 2,500개의 게시물'을 분석해 볼 계획입니다. 처리조건문, 반복문, 리스트를 복합적으로 활용해 트럼프 대통령의 트윗을분석하고, 알아보기 쉬운 시각화로 표현해 봅시다! 분석에 앞서, 이번 게시물에서는 주로 사용하게 될 기본개념 및 문법에 대해서 알아보는 시간을 가지겠습니다. 간단한 파이썬 문법이니, 아래 내용을 아시는 분들은 넘어가주셔도 좋습니다 :-) - 문자열 인덱싱 - 파일다루기(file open, with) - 문자열함수( startswith(), split(), append(), upper(), lower(), replace() ) # 인덱스 넘버와 startswith() 사용하기 다른 일반적인 언어들과 마찬가지로, 파이썬에서 인덱스는..
[Python] 데이터 크롤링(data crawling) #1
크롤링(crawling)이란? '웹 페이지를 그대로 가져와서 데이터를 추출해내는 행위' 입니다. 즉, 웹 페이지에서 내가 원하는 특정 데이터만 쏙쏙 골라서 찾아내 사용하겠다는 겁니다. 대표적인 소프트웨어로 Beautiful Soup이 있는데, 자주 사용하게 될겁니다!. 바로 간단한 예제를 보겠습니다. 1 2 3 4 5 6 7 import urllib.request from bs4 import BeautifulSoup url = "http://www.naver.com" # 데이터를 가져올 사이트 req = urllib.request.Request(url) sourcecode = urllib.request.urlopen(url).read() soup = BeautifulSoup(sourcecode, "htm..