2024/07/14 2

9장. 웹 크롤러 설계

웹 크롤러는 로봇 또는 스파이더라고 부른다. 웹 크롤러 사용 용도검색 엔진 인덱싱: 크롤러의 가장 보편적인 사례. 웹 페이지를 모아 검색 엔진을 위한 로컬 인덱스를 만든다. 구글 봇은 구글 검색 엔진이 사용하는 웹 크롤러다.웹 아카이빙: 나중에 사용할 목적으로 장기보관하기 위해 웹에서 정보를 모으는 절차. 국립 도서관이 크롤러를 돌려 웹 사이트를 아카이빙하고 있다.웹 마이닝: 웹 마이닝을 통해 인터넷에서 유용한 지식을 도출해 낼 수 있다. 유명 금융 기업들이 크롤러를 사용해 주주 총회 자료나 연차 보고서를 다운받아 기업의 핵심 사업 방향을 알아낸다.웹 모니터링: 인터넷에서 저작권이나 상표권이 침해되는 사례를 모니터링할 수 있다. 디지마크 사는 웹 크롤러를 사용해 해적판 저작물을 찾아내서 보고한다.문제 이..

8장. URL 단축기 설계

문제 이해 및 설계 범위면접관에게 질문해서 파악한 설계 요구사항쓰기연산: 매일 1억 개의 단축 URL 생성초당 쓰기 연산: 1억개 / 24/ 3600 = 1160읽기 연산: 읽기 연산과 쓰기 연산 비율 10:1초당 읽기 연산: 11,600 회(1160 * 10) 발생URL 단축 서비스를 10년간 운영하면 1억 * 365 * 10 = 3650억 개의 레코드를 보관축약 전 URL 평균 길이는 10010년 동안 필요한 저장 용량 3650억 * 100 바이트 = 36.5TB 개략적 설계안API 엔드포인트, URL 리다이렉션, URL 단축에 대해 살펴본다API 엔드포인트클라이언트는 서버가 제공하는 API 엔드포인트를 통해 통신하고, 엔트포인트는 REST API로 설계 아래 두 가지 API를 설계URL단축용 엔드포..