爬虫总体思路

那什么是事儿呢？
1 限制ip
用requests代理，买代理，或者网上免费代理
2 伪装成浏览器
requests切换user agent
3 先登录，保存cookies
requests用session先post拿到cookies，再爬
4 URL参数太多，不明白什么意思
webdriver和phantomjs
5 JavaScript和ajax问题
浏览器f12分析请求规律，直接requests请求。或者用webdriver和phantomjs，如果用scrapy的话，用scrapyjs
6 爬的太慢
多线程，别说gil，一般是网络io慢，cpu等io
7 还是慢
scrapy异步（做过几个项目了，挺好用的），pyspider（这个支持Python3）
8 还是慢
分布式（暂时还没涉及），redis，scrapyd
9 验证码
对不起，帮不了你。简单的可以pil，灰度二值化切割识别
10 如果你想自己实现异步请求的话
grequests不错

## 关于scripy 还是 request+bs4

个人建议还是先使用scrapy快速上手写几个爬虫出来，再学习使用requests+bs4自己写爬虫。

原因如下：

1、学习一个新东西，首先是先用起来，然后在使用中发现问题，再究其原理，才能深入学习；

2、scrapy不管是否支持python3，如果想学习爬虫原理，都无碍的，因为学习思想最重要；

3、scrapy封装了爬虫的一些核心组件，而且上手简单，如果想以后自己写爬虫框架，它的实现思路还是很值得借鉴的；等你用scrapy写出几个爬虫抓几个网站后，这基本算是入门了。等你要抓的网站非常多时，就会遇到几个问题：1、一些网站开始防抓，IP被封？ 随机User-Agent，随机代理，开始用到scrapy的插件。

2、网页太多，抓的太慢，scrapy默认是不支持分布式的，怎么实现分布式？ 一些分布式的插件就会用起来，例如scrapy-redis。3、网页越来越多，会不会抓重复？ 哦，原来不会重复抓。看一看scrapy源码，基于url指纹过滤重复的。啊，过滤规则自己可以替换，不错！4、网站如何深度抓取，如何广度抓取？ 看一看scrapy源码，哦，原来通过实现了栈和队列改变任务的入队顺序，结合配置来控制。如果你有足够的兴趣和耐心，有没有发现，从开始使用它，慢慢地你开始关注scrapy的是如何实现了，继续深入源码，你就会发现它的实现思想很巧妙，代码结构低耦合，插件威力巨大！好了，下一步你就可以构建自己的爬虫框架了。为什么要自己写？1、觉得scrapy很多功能用不到？自己喜欢造轮子？ 理解了它的原理，自己精简写一个，还不容易？2、觉得scrapy的一些功能没有实现？ 例如，如何实现增量抓取？如何基于数据库的任务调度和数据存储？如何分布式抓取？如何做可视化监控？3、平时很常用的scrapy插件，太多，太散？ 自己封装常用插件、形成组件化，快速配置。其实这每一步都是学习、思考、再学习的过程，从使用框架、学习框架、到自己写框架，并不是那么难。

爬虫总体思路

Michael • 2018 年 10 月 02 日

记录 - 迁移成功

BackTrader - (一) 添加Clickhouse作为数据源与采坑记录

BackTrader - (二) 使用clickhouse为数据源加载数据的性能测试与max_block参数调优

Hexo部署, 自动git远程同步

如何用量化语言描述K线形态之反转上涨篇(转)

ClickHouse学习笔记 - 3

ORM框架中的链式调用是如何实现的?

感慨

Aqtrader - 量投交易框架v0.1.0

BackTrader - (十) 用户手册解读 - 下

爬虫总体思路