-
파이썬을 활용한 미니 웹 크롤러 분석(1)Develope/Python 2019. 5. 28. 00:30
from urllib.request import urlopen, urlparse from bs4 import BeautifulSoup import re import datetime import random pages = set() random.seed(datetime.datetime.now()) # 페이지에서 발견된 내부 링크를 모두 목록으로 만듭니다. def getInternalLinks(bs, includeUrl): includeUrl = '{}://{}'.format(urlparse(includeUrl).scheme, urlparse(includeUrl).netloc) internalLinks = [] # /로 시작하는 링크를 모두 찾습니다. for link in bs.findAll('a', hre..