博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python爬虫框架,内置微博、自如、豆瓣图书、拉勾、拼多多等规则
阅读量:6856 次
发布时间:2019-06-26

本文共 1149 字,大约阅读时间需要 3 分钟。

PyLoom想为有价值的网站编写爬虫,让开发者便捷地获取结构化的数据。

PyLoom由三个部分组成,

  1. 框架,减少编写、运行、维护爬虫的工作量。

  2. 爬虫,寻找有价值的目标为其开发爬虫,并维护既有爬虫的可用性。

    预期19年底,PyLoom将拥有围绕电子商务、房屋租售、社交网络、新闻媒体的数十个爬虫。

  3. 升级爬虫,对于频繁使用的爬虫,增强其能力

    • 增强定制能力,例如支持限定地区、类别、关键字抓取;
    • 增强抓取策略,减少对代理、打码接口的使用;
    • 增强更新策略,更细粒度地计算重复抓取的时间。

目前进度,

①部分完成,开发常见爬虫够用了,随爬虫的开发迭代出更多功能;

②已开源自如、微博、拉钩、豆瓣图书、拼多多爬虫,放置于spiders目录。

安装

  1. 环境要求

    • python 3.6.0+
    • redis 2.6+
    • 类unix系统
  2. 安装PyLoom

    git clone https://github.com/spencer404/PyLoom.gitpython3.6 -m pip install -e ./PyLoom复制代码

    添加 -i https://pypi.douban.com/simple 参数,利用豆瓣镜像提速。

    出现错误fatal error: Python.h: No such file or directory时,

    需安装对应平台的python3.x-devel包

运行

以运行spiders/WeiBo为例,

  1. 最简参数启动爬虫

    pyloom run -s PyLoom/spiders/WeiBo复制代码

    在爬虫目录中执行run时,可省略-s参数。

  2. 启动代理池

    pyloom proxy run复制代码
  3. 添加代理

    根据命令提示,添加名为"xxx"的代理

    pyloom proxy add复制代码
  4. 使用代理启动爬虫

    pyloom run --proxy xxx复制代码

    命令run的部分常用参数:

    -l, --level    日志级别-s, --spider   指定爬虫目录-r, --redis    指定redis地址(URL形式)-C, --clear    清空队列、代理数据后运行--proxy        使用指定代理运行,逗号分隔多个代理--damon        作为守护进程运行-p             子进程数量-t             每个子进程的线程数量复制代码

    在多台服务器上运行时,若参数-s、-r所指向的目标相同,即可横向扩容性能。

    默认地,PyLoom将抓到数据打印在日志中,你可以修改on_save函数自定义如何保存。

GitHub地址:

转载于:https://juejin.im/post/5b93ab6fe51d450e7903378c

你可能感兴趣的文章
纯虚函数和虚函数的区别
查看>>
配置adb环境变量
查看>>
Jenkins安装
查看>>
命名空间 (一)
查看>>
Django报错
查看>>
性能测试培训:分析内训泄露的案例
查看>>
javax.persistence.TransactionRequiredException: Executing an update/delete query异常
查看>>
分享33个不容错过的免费社交图标集
查看>>
如果是你你会如何重新设计和定义维基百科(wikipedia)?
查看>>
ppp pap和chap 认证
查看>>
交换机的基本配置
查看>>
PHP结合Python的WEB开发技术
查看>>
华为:缺省路由:默认路由 default route
查看>>
K均值聚类算法的MATLAB实现
查看>>
php中sql语句
查看>>
linux中MySQL小结
查看>>
浅谈以人为本
查看>>
Programmer10载身心成长历程回顾
查看>>
记一次springboot下maven工程方式导入pom.xml首行报错
查看>>
匿名内部类,Object类
查看>>