Python爬虫常见面试题!
众所周知,爬虫是Python重要的应用方向之一,也是学习Python求职的热门岗位。对此,为帮助学员们快速通过面试,小编整理了一些Python爬虫常见面试题,希望能够帮助到你们。
1. 试列出至少三种目前流行流行的大型数据库;
2. 列举您使用过的Python网络爬虫所用到的网络数据包;
3. 爬取数据后使用哪个数据库存储数据,为什么?
4. 你用过的爬虫框架或者模块有哪些?优缺点?
5. 写爬虫是用多进程好?还是多线程好?
6. 常见的反爬虫和应对方法?
7. 解析网页的解析器使用最多的是那几个?
8. 需要登录的网页,如何解决同时限制ip,cookie,session?
9. 验证码的解决?
10. 使用最多的数据库,对他们的理解?
11. 编写过哪些爬虫中间件?
12. 极验滑动验证码如何破解?
13. 爬虫多久爬一次?爬下来的数据怎么存储?
14. Cookie过期的处理问题?
15. 动态加载又对及时性要求很高怎么处理?
16. HTTPS有什么优点和缺点?
17. HTTPS是如何实现安全传输数据的?
18. 谈一谈你对Selenium和PhantomJS了解?
19. 平常怎么使用代码的?
20. 存放在数据库?
21. 怎么监控爬虫的状态?
22. 描述下Scrapy框架运行的机制?
23. 谈谈你对Scrapy的理解?
24. 怎么样让Scrapy框架发送一个post请求?
25. 怎么判断网站是否更新?
26. 图片、视频抓取怎么绕过防盗连接?
27. 你爬出来的数据量大量有多大?大概多长时间爬一次?
28. 用什么数据库存爬下来的数据?部署是你做的吗?如何部署?
29. 增量爬取
30. 爬取下来的数据如何去重,说一下scrapy的具体的算法依据。
31. Scrapy的优缺点?
32. 怎么设置爬取深度?
33. scrapy和scrapy-redis有什么区别?为什么选择redis数据库?
34. 分布式爬虫主要解决什么问题?
35. 什么是分布式存储?
36. 你所知道的分布式爬虫方案有哪些?
37. scrapy-redis,有做过其他的分布式爬虫吗?