在不违反被爬网站robots协议的情况下,对一个公开访问的论坛内容(如豆瓣)进行数据抓取和保存,这样合法吗?

感谢小秘书的邀请
类似百度、360搜等搜索引擎企业,它们会有全网爬虫的,24小时不间断对全网进行爬取。如果这样的网络爬虫不合法的话,那么这些企业都要关门了。
这些搜索引擎爬

本文最后更新时间:  2023-01-17 18:58:58

感谢小秘书的邀请

类似百度、360搜等搜索引擎企业,它们会有全网爬虫的,24小时不间断对全网进行爬取。如果这样的网络爬虫不合法的话,那么这些企业都要关门了。

这些搜索引擎爬虫在爬取网站之前,都会看下该站点下是否有 robots.txt。然后按照 rbots.txt 里面定义的规则对该网站进行爬取。

所以制作爬虫程序,强烈建议遵循 robots 规则。另外,爬取网站的数据不得用于商业用途。例如将爬取到的网站数据售卖给网站的竞争对手等。

遵循这两点,就不算违法了。

-----------------------------------------------

喜欢的、觉得有用的麻烦点个赞,万分感谢~

个人微信公众号:极客猴(ID:Geek_monkey)

自己坚持分享 Python 原创干货,包括基础入门,进阶技巧,网络爬虫,数据分析,Web 应用开发等。欢迎关注~

温馨提示:内容均由网友自行发布提供,仅用于学习交流,如有版权问题,请联系我们。