본문 바로가기

생활정보 🏡

파이썬으로 배우는 웹 크롤러 - 박정태 지음

 

 

파이썬으로 배우는 웹 크롤러/저자박정태/출판정보문화사발매/2018.01.10.

 

 

이전에 주식, 빅 데이터 분석, 회사 내 로우 데이터 가공을 이용하다고 듣다가

많은 양의 정보를 자동화로 빠르게 만들 수 있다고 들어서 책을 빌려 보게 되었습니다.

페이지를 돌아다니는 행위는 크롤링

특정 페이지의 데이터를 수집하는 행위는 스크래핑

이 둘을 합쳐서 크롤링 + 스크래핑 하는 것을 크롤러 라고 합니다.

파이썬 장점

1.간단하고 직관적

 

2.다양한 라이브러리와 api 제공하여 개발 편의성 높임

-라이브러리: 집을 집기 위한 재료(흙, 시멘트, 철근, 못 등)

-api: 라이브러리 + 프레임워크

-프레임워크: 집을 짓기 위한 철근 구조를 미리 만드는 것

이 책을 고른 이유

빅데이터 방대한 정보의 바다에서 내가 원하는 정보를 찾는 것은 검색사이트로 가능하지만 많은 데이터를 일일이 찾기에는 시관과 노력이 많이 걸립니다.

© markusspiske, 출처 Unsplash

만약, 내가 주식의 한 종목에 대한 필요한 정보를 얻기 위해서는 회사의 재무제표, 뉴스, 차트정보들, 회사 소문, 주식담당자와의 통화, 주식토론방 정보, 기업 내부정보 등 많은 양이 필요합니다. 이러한 정보를 크롤링으로 취합하고 원하는 것만 분류해줄 수 있으면 어떨까 생각해 보았습니다.

주식말고도 다른 것에 대입하여 해당 키워드에 대한 원하는 정보를 얻기 좋을 거라고 생각합니다. 예를 들어 오픈마켓을 통해서 상품을 찾는 중이라면 해당 제품이 각 오픈마켓에서 얼마나 노출되고 가격이 어떤지 수집할 수 있겠죠.

물론, 지금 일하게되는 업무에도 적용하게 되면 업무 시간을 단축시키고 효율을 높일 수 있을 거라고 봅니다. 통계 사이트를 알아보더라도 최신 정보보다는 몇년 전 데이터가 많으니 수집하기 이전 최신 날짜로 로우데이터 수집과 가공하여 활용하면 좋을 것으로 생각됩니다.

© maximilianweisbecker, 출처 Unsplash

그리고 책과 함께 아래 링크를 참고하시면 더욱 공부가 됩니다.

 

opentutorials.org/course/3256

 

WEB2 - Python - 생활코딩

수업소개 이 수업은 https://opentutorials.org 과 같은 웹애플리케이션을 만들어가면서 Python에 대한 지식과 경험을 동시에 채워드리기 위한 목적으로 만들어진 수업입니다. Python만으로 웹애플리케이

opentutorials.org

#파이썬 #크롤링 #빅데이터 #라이브러리 #프레임워크 #크롤러 #박정태지음 #슬랙 #셀레니움 #자동화툴 #크롤러 #북리뷰 #생활코딩