webporter 是一个基于垂直爬虫框架 webmagic 的 Java 爬虫应用,旨在提供一套完整的数据爬取,持久化存储和可视化展示的实践样例。
webporter 寓意“我们不生产数据,我们只是互联网的搬运工~”
如果觉得不错,请先在这个仓库上点个 star 吧,这也是对我的肯定和鼓励,谢谢了。
目前只提供了知乎用户数据的爬虫示例。不定时进行调整和补充,需要关注更新的请 watch、star、fork
- webporter-core:核心基础模块,包括自动配置,抽象逻辑等部分
- webporter-collector-zhihu:知乎用户信息的爬取模块
- webporter-data-elasticsearch:将数据导入 Elasticsearch 的模块
以爬取知乎用户数据为例
1.定制配置文件
修改 webporter-collector-zhihu/src/main/resources/site-config.json
,加入 authorization
的 http 头,相应数据需要自行在浏览器抓包提取
配置文件示例
{
"domain": "www.zhihu.com",
"headers": {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36",
"authorization": "Your own authorization here."
}
}
2.启动爬虫
运行 webporter-collector-zhihu
模块的 com.brianway.webporter.collector.ZhihuUserPageProcessor
即可
将数据导入到 Elasticsearch 中,待完善
待完善
- 数据爬取,获取知乎用户数据
- 数据持久化,将数据导入到 Elasticsearch 中
- 可视化展示,通过前端框架对数据进行简单的分析和展示
Email: weichuyang@163.com
Lisenced under Apache 2.0 lisence