jkcrawler

2019/10/25 更新：加入微博话题

2019/10/24 更新：加入哔哩哔哩相簿

使用 Scrapy 写成的 JK 爬虫，图片源自哔哩哔哩、Tumblr、Instagram，以及微博、Twitter

安装依赖

pip install -r requirements.txt

启动爬虫

在 Windows 上需要在 PowerShell 中执行以下命令

scrapy crawl api.vc.bilibili -o data/api.vc.bilibili.jsonlines
scrapy crawl instagram -o data/instagram.jsonlines
scrapy crawl m.weibo -o data/m.weibo.jsonlines
scrapy crawl makooooon.tumblr -o data/makooooon.tumblr.jsonlines
scrapy crawl ryoryo-chan.tumblr -o data/ryoryo-chan.tumblr.jsonlines

若要在下一次启动爬虫时恢复工作进度，则需要在命令后面加上 -s JOBDIR=crawls/{spider_name}

下载的图片在 data/full/，相关信息在 data/{spider_name}.jsonlines 里

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
jkcrawler		jkcrawler
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
genREADME.py		genREADME.py
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg
update.md		update.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

jkcrawler

安装依赖

启动爬虫

About

Releases

Packages

Languages

License

topiccrawler/jkcrawler

Folders and files

Latest commit

History

Repository files navigation

jkcrawler

安装依赖

启动爬虫

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages