사이트내 검색
사이트내 검색
전체메뉴

전체메뉴

전체메뉴 닫기
검색

상세정보

파이썬 웹 스크래핑 : 수많은 데이터 사이에서 필요한 정보 수집하기

캐서린 자멀

책이미지

QRcode

QR Code
QRcode 사용방법
QRcode 사용방법
QR코드 정의
사각형의 가로세로 격자무늬에 다양한 정보를 담고 있는 2차원(매트릭스)형식의 코드로 스마트폰으로 QR코드를 스캔하면 각종 정보를 제공 받을 수 있습니다.
QR코드 인식프로그램
스마트폰 마켓에 들어가면 'QR코드 스캔 프로그램'을 검색해 무료 어플을 다운받아 사용하시면 됩니다.
도서정보 QR코드 이용하기
도서 상세정보에서 QR코드를 스캔하면, 모바일 웹페이지로 연결되어 해당 도서의 상세정보 및 소장정보 등을 확인 할 수있습니다.
닫기
상세정보
자료유형단행본
서명/저자사항파이썬 웹 스크래핑: 수많은 데이터 사이에서 필요한 정보 수집하기/ 캐서린 자멀, 리차드 로손 [공]지음 ; 김용환 옮김
판사항[원서2판]
발행사항서울: 에이콘, 2018
형태사항270 p.: 삽화; 24 cm
총서사항Acorn+PACKT technical book
원서명Python web scraping:fetching data from the web(2nd ed.)
일반주기 원저자명: Katharine Jarmul, Richard Lawson
서지주기찾아보기: p. 269-[271]
비통제주제어특정프로그래밍언어
개인저자자멀, 캐서린,로손, 리차드,김용환,
분류기호005.133
언어한국어
ISBN9791161752525
9788960772106(set)

소장정보

서비스 이용안내
  • 보존서고 신청보존서고 신청
  • 캠퍼스간대출캠퍼스간대출
  • 찾지못한자료찾지못한자료
  • 무인예약대출 이미지무인예약대출
메세지가 없습니다
No. 등록번호 청구기호 소장처/자료실 도서상태 반납예정일 예약 서비스 매체정보
1 928487 005.133 자33파2 중앙도서관/성신관 2층 임시자료실/ 대출가능

초록

목차 일부

파이썬 3.7의 최신 기능을 사용해 웹 사이트에서 데이터를 스크래핑할 수 있는 최고의 가이드를 제공한다. 저자가 운영하는 예시 웹 사이트를 기반으로 스크래핑 테스트를 진행할 수 있다. 정적 웹 페이지에서 데이터를 추출하는 방법, 레디스와 파일을 캐싱으로 사용하는 방법, 동적 스크래핑 및 정교한 크롤러를 개발하는 방법을 다룬다. 그리고 PyQt와 Seleni...

목차 전체

파이썬 3.7의 최신 기능을 사용해 웹 사이트에서 데이터를 스크래핑할 수 있는 최고의 가이드를 제공한다. 저자가 운영하는 예시 웹 사이트를 기반으로 스크래핑 테스트를 진행할 수 있다. 정적 웹 페이지에서 데이터를 추출하는 방법, 레디스와 파일을 캐싱으로 사용하는 방법, 동적 스크래핑 및 정교한 크롤러를 개발하는 방법을 다룬다. 그리고 PyQt와 Selenium을 사용하는 방법, 캡차(CAPTCHA)로 보호되는 복잡한 웹 사이트에 폼을 제출하는 방법, 병렬 다운로드를 사용하는 방법, Scrapy 라이브러리로 클래스 기반 스크래퍼를 생성하는 방법을 다룬다. 원서에서 제공하는 코드의 오타와 호환성, 예시 사이트 URL을 파이썬 3.7 기반으로 수정한 역자의 github 저장소(https://github.com/knight76/wswp)를 제공한다.

목차

목차 일부

1장. 웹 스크래핑 소개 
__웹 스크래핑이 유용한 시점은 언제일까? 
 __웹 스크래핑은 합법적인가? 
 __파이썬 3 
 __웹 사이트 조사 
____robots.txt 확인하기 
____사이트맵 확인하기 
____웹 사이트 규모 추정하기 
____웹 사이트에 사용하는 기술을 식별하기 
____웹 사이트의 소유자 찾기 
__첫 번째 웹 사이트 크롤링하기...

목차 전체

1장. 웹 스크래핑 소개 
__웹 스크래핑이 유용한 시점은 언제일까? 
 __웹 스크래핑은 합법적인가? 
 __파이썬 3 
 __웹 사이트 조사 
____robots.txt 확인하기 
____사이트맵 확인하기 
____웹 사이트 규모 추정하기 
____웹 사이트에 사용하는 기술을 식별하기 
____웹 사이트의 소유자 찾기 
__첫 번째 웹 사이트 크롤링하기 
____스크래핑과 크롤링 
____웹 페이지 다운로드하기 
________다운로드 재처리하기 
________사용자 에이전트 설정하기 
____사이트맵 크롤러 
____ID 반복 크롤러 
____링크 크롤러 
________고급 기능 
____requests 라이브러리 사용하기 
__정리 

2장. 데이터 스크래핑하기 
__웹 페이지 분석하기 
__웹 페이지를 스크래핑하는 세 가지 방법 
____정규식 
____Beautiful Soup 
 ____lxml 
 __CSS 선택자와 브라우저 콘솔 
__Xpath Selectors 
 ____LXML 및 패밀리 트리 
__성능 비교 
__스크래핑 결과 
____스크래핑 개요 
____링크 크롤러에 스크래핑 콜백 추가하기 
__정리 

3장. 다운로드 캐싱 
__언제 캐싱을 사용할까? 
 __링크 크롤러에 캐싱 기능 추가하기 
__디스크 캐싱 
____DiskCache 구현 
____캐싱 테스트하기 
____디스크 공간 절약하기 
____오래된 캐싱 데이터 만료하기 
____DiskCache의 단점 
__키-값 저장소 캐싱 
____키-값 저장소란 
____레디스 설치 
____레디스 소개 
____레디스 캐싱 구현 
____압축 
____캐싱 테스트 
____requests-cache 탐색 
__정리 

4장. 병렬 다운로드 
__100만 웹 페이지 
 알렉사 목록 파싱 
__순차적인 크롤러 
__스레드 크롤러 
__스레드와 프로세스의 동작 방법 
____멀티 스레드 크롤러 구현 
____멀티 프로세싱 크롤러 
__성능 
____파이썬 멀티 프로세싱과 GIL 
 __정리 

5장. 동적 콘텐츠 
__동적 웹 페이지의 예 
__동적 웹 페이지 리버스 엔지니어링 
____엣지 케이스 
__동적 웹 페이지 렌더링하기 
____PyQt or PySide 
 ________Qt로 디버깅하기 
____자바스크립트 실행하기 
____웹킷을 사용한 웹 사이트의 상호 작용 
________결과 기다리기 
__렌더링 클래스 
____Selenium 
 ________Selenium과 헤드리스 브라우저 
__정리 

6장. 폼에서 상호 작용하기 
__로그인 폼 
____웹 브라우저에서 쿠키를 로드하기 
__로그인 스크립트를 확장해 콘텐츠 변경하기 
__Selenium으로 폼 자동화하기 
__웹 스크래핑을 ‘인간’이 하는 것처럼 보여주는 방법 
__정리 

7장. 캡차 해결하기 
__계정 등록하기 
____캡차 이미지 로딩하기 
__광학 문자 인식 
____추가 개선 사항 
__복잡한 캡차 해결 
__캡차 해결 서비스 사용하기 
____9kw 시작하기 
________9kw 캡차 API 
 ____에러 알림 
____등록과 통합하기 
__캡차와 머신 러닝 
__정리 

8장. Scrapy 
 __Scrapy 설치 
__프로젝트 시작하기 
____모델 정의하기 
____스파이더 생성하기 
________설정 튜닝 
________스파이더 테스트 
__여러 스파이더 타입 
__쉘 커맨드로 스크래핑하기 
____결과 확인하기 
____크롤링 중단과 재개 
________Scrapy 성능 튜닝 
__Portia를 사용해 시각적으로 스크래핑하기 
____설치 
____주석 
____스파이더 실행하기 
____결과 확인하기 
__Scrapely로 자동화된 스크래핑 
__정리 

9장. 모든 기술 활용하기 
__구글 검색엔진 
__페이스북 
____웹 사이트 
____페이스북 API 
 __GAP 
 __BMW 
 __정리

함께 비치된 도서

서평 (0 건)

*주제와 무관한 내용의 서평은 삭제될 수 있습니다.

서평추가

서평추가
별점
별0점
  • 별5점
  • 별4.5점
  • 별4점
  • 별3.5점
  • 별3점
  • 별2.5점
  • 별2점
  • 별1.5점
  • 별1점
  • 별0.5점
  • 별0점
제목입력
본문입력