首先我们要知道什么是爬虫?爬虫就是一个自动抓取网页数据的程序,是搜索引擎的重要组成部分。通过计算机程序在网络不断通过定制的入口网址去提取网页的链接,并根据这些链接再度
过去的网站能否爬,关键看站点是否可以访问历史页面。例如你要爬一个内容站点,所有文章可以通过翻页导航到,继而获取二级页面的url,那么就可以爬。如果你爬的站点本身如何也找不到历史页面对应的url那么就没办法爬了。