当前位置: 首页 > news >正文

北京网站开开发公司优化英语

北京网站开开发公司,优化英语,中国建筑公司网站大全,中国建设传媒网官网1,指纹去重原理存在于 scrapy.util.requests 里面 需要安装的包 pip install scrapy-redis-cluster # 安装模块 pip install scrapy-redis-cluster0.4 # 安装模块时指定版本 pip install --upgrade scrapy-redis-cluster # 升级模块版本 2,setting配置 …

1,指纹去重原理存在于 scrapy.util.requests 里面

需要安装的包

pip install scrapy-redis-cluster # 安装模块
pip install scrapy-redis-cluster==0.4 # 安装模块时指定版本
pip install --upgrade scrapy-redis-cluster # 升级模块版本

2,setting配置

# -*- coding: utf-8 -*-BOT_NAME = 'zongheng'SPIDER_MODULES = ['rankxs.spiders']
NEWSPIDER_MODULE = 'rankxs.spiders'# Crawl responsibly by identifying yourself (and your website) on the user-agent# Obey robots.txt rules
ROBOTSTXT_OBEY = False######################################################
##############下面是Scrapy-Redis相关配置################
####################################################### 指定Redis的主机名和端口
REDIS_HOST = 'localhost'
REDIS_PORT = 6379# 调度器启用Redis存储Requests队列
SCHEDULER = "scrapy_redis.scheduler.Scheduler"# 确保所有的爬虫实例使用Redis进行重复过滤
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"# 将Requests队列持久化到Redis,可支持暂停或重启爬虫
SCHEDULER_PERSIST = True# Requests的调度策略,默认优先级队列
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'# 将爬取到的items保存到Redis 以便进行后续处理
ITEM_PIPELINES = {"rankxs.pipelines.RankxsPipeline": 1,'scrapy_redis.pipelines.RedisPipeline': 2
}

此处的关键点在于管道的先后顺序,顺序错了,数据库的数据会进不去

3,指纹去重在redis里面的显示,用redis做去重逻辑--先遣队

zongheng:items  和 zongheng:dupefilters  两个key  

一个是items 里面的数据  ,另外一个则是已经爬取的  md5 url

爬虫爬取会先去查询redis里面的dupefiters md5 url

4,多爬虫任务可以在同一个文件进行执行CrawlerProcess,和CrawlerRunner

crawler.CrawlerRunner
from scrapy.utils.project import get_project_settings
# process=crawler.CrawlerProcess(get_project_settings())
# process.crawl(ZonghengSpider)
# process.start(stop_after_crawl=False)

程序执行报错

关键点在于stop_after_crawl配置和注释TWISTED_REACTOR可以避免,具体原因可以去看源码

5,关于多功能的

from scrapy.linkextractors import LinkExtractor

不论是scrapy 还是scrawlspider 都可以用的链接提取器比较实用

http://www.fp688.cn/news/145815.html

相关文章:

  • 移动端网站建站视频广东深圳疫情最新消息
  • flashxml网站模板体验营销理论
  • 企业网站需要多大空间看广告收益最高的软件
  • 视频医疗平台网站开发如何做电商 个人
  • 网站制作参考其他网站会侵权吗一键制作免费网站的app
  • 山西网站开发公司电话真正免费建站
  • 自己怎么开发app信息流优化师简历怎么写
  • 北京昌平网站建设山东关键词网络推广
  • 手机网站制作公司选哪家中国新闻
  • 政府网站建设依循的原则网络广告的形式
  • 泸州工投建设集团有限公司网站怎样在百度上发布自己的文章
  • 外包网站会自己做原型吗推广引流app
  • 系统开发生命周期法的优点表现关键词智能优化排名
  • 苏州刚刚发生新闻重庆seo技术教程
  • 网站单页做301seo网站推广下载
  • 中国室内设计联盟官方网站入口小辉seo
  • 为什么要做个人网站大连企业网站建站模板
  • 建设个人网站用到的技术企业seo案例
  • 广东建设职业技术学院网站网址查询站长工具
  • 如何给网站做推广热搜榜上2023年热门话题
  • WordPress 发布内容云巅seo
  • 城阳网站建设公司十大搜索引擎排行榜
  • 代做毕业设计网站多少钱seo排名分析
  • 网站建设培训费用深圳优化公司样高粱seo
  • 如何用子域名做网站网站关键词排名查询
  • 游戏网站banner怎么做公司推广发帖网站怎么做
  • 昆明市网站制作公司seo网站快速排名软件
  • 如何入侵网站服务器企业宣传片文案
  • 十堰专业网站建设济南网站优化排名推广
  • 8+1网站正能量直接入口没封站长工具seo综合查询可以访问