scrapy

Scrapy文件说明：

scrapy.cfg：配置文件
spiders：存放你Spider文件，也就是你爬取的py文件
items.py：相当于一个容器，和字典较像
middlewares.py：定义Downloader Middlewares(下载器中间件)和Spider Middlewares(蜘蛛中间件)的实现
pipelines.py:定义Item Pipeline的实现，实现数据的清洗，储存，验证。
settings.py：全局配置

添加cookie的方式

1.settings settings文件中给Cookies_enabled=False解注释 settings的headers配置的cookie就可以用了这种方法最简单，同时cookie可以直接粘贴浏览器的。后两种方法添加的cookie是字典格式的，需要用json反序列化一下, 而且需要设置settings中的Cookies_enabled=True

2.DownloadMiddleware settings中给downloadmiddleware解注释去中间件文件中找downloadmiddleware这个类，修改process_request，添加request.cookies={}即可。

3.爬虫主文件中重写start_request

def start_requests(self):
    yield scrapy.Request(url,dont_filter=True,cookies={自己的cookie})

Name		Name	Last commit message	Last commit date
parent directory ..
douban		douban
.DS_Store		.DS_Store
.proxy_update.log.swp		.proxy_update.log.swp
README.md		README.md
nohup.out		nohup.out
out.log		out.log
out2.log		out2.log
out_comment.log		out_comment.log
out_item.log		out_item.log
out_meta.log		out_meta.log
proxy_update.log		proxy_update.log
scrapy.cfg		scrapy.cfg
start_comment.sh		start_comment.sh
start_meta.sh		start_meta.sh
start_person.sh		start_person.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

scrapy

scrapy

README.md

添加cookie的方式

Files

scrapy

Directory actions

More options

Directory actions

More options

Latest commit

History

scrapy

Folders and files

parent directory

README.md

添加cookie的方式