파이썬으로 배우는 웹 크롤러/저자박정태/출판정보문화사발매/2018.01.10.
이전에 주식, 빅 데이터 분석, 회사 내 로우 데이터 가공을 이용하다고 듣다가
많은 양의 정보를 자동화로 빠르게 만들 수 있다고 들어서 책을 빌려 보게 되었습니다.
페이지를 돌아다니는 행위는 크롤링
특정 페이지의 데이터를 수집하는 행위는 스크래핑
이 둘을 합쳐서 크롤링 + 스크래핑 하는 것을 크롤러 라고 합니다.
파이썬 장점
1.간단하고 직관적
2.다양한 라이브러리와 api 제공하여 개발 편의성 높임
-라이브러리: 집을 집기 위한 재료(흙, 시멘트, 철근, 못 등)
-api: 라이브러리 + 프레임워크
-프레임워크: 집을 짓기 위한 철근 구조를 미리 만드는 것
이 책을 고른 이유
빅데이터 방대한 정보의 바다에서 내가 원하는 정보를 찾는 것은 검색사이트로 가능하지만 많은 데이터를 일일이 찾기에는 시관과 노력이 많이 걸립니다.
만약, 내가 주식의 한 종목에 대한 필요한 정보를 얻기 위해서는 회사의 재무제표, 뉴스, 차트정보들, 회사 소문, 주식담당자와의 통화, 주식토론방 정보, 기업 내부정보 등 많은 양이 필요합니다. 이러한 정보를 크롤링으로 취합하고 원하는 것만 분류해줄 수 있으면 어떨까 생각해 보았습니다.
주식말고도 다른 것에 대입하여 해당 키워드에 대한 원하는 정보를 얻기 좋을 거라고 생각합니다. 예를 들어 오픈마켓을 통해서 상품을 찾는 중이라면 해당 제품이 각 오픈마켓에서 얼마나 노출되고 가격이 어떤지 수집할 수 있겠죠.
물론, 지금 일하게되는 업무에도 적용하게 되면 업무 시간을 단축시키고 효율을 높일 수 있을 거라고 봅니다. 통계 사이트를 알아보더라도 최신 정보보다는 몇년 전 데이터가 많으니 수집하기 이전 최신 날짜로 로우데이터 수집과 가공하여 활용하면 좋을 것으로 생각됩니다.
© maximilianweisbecker, 출처 Unsplash
그리고 책과 함께 아래 링크를 참고하시면 더욱 공부가 됩니다.
opentutorials.org/course/3256
#파이썬 #크롤링 #빅데이터 #라이브러리 #프레임워크 #크롤러 #박정태지음 #슬랙 #셀레니움 #자동화툴 #크롤러 #북리뷰 #생활코딩
'생활정보 🏡' 카테고리의 다른 글
성북구 정릉 맛집투어 및 산책로 발견 (0) | 2022.08.16 |
---|---|
휜둥이 허스키믹스와 누렁이 차우차우 믹스 안양천 산책 (0) | 2022.03.30 |
안양천 산책로 옆 아름다운 플라워 가든 (0) | 2020.09.25 |
산책 중에 몰랐던 꽃들 이름을 알려주는 Naver 렌즈 기능 알아보기(꽃이 좋아질 나이가 된 건가..) (0) | 2020.09.24 |
돈의 개념을 다르게 보면서 사랑스러운 돈들이 모이기 시작했다. (0) | 2020.08.27 |