Skip to content

fengyelingdu/webporter

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 Cannot retrieve latest commit at this time.

History

27 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

webporter

webporter 是一个基于垂直爬虫框架 webmagic 的 Java 爬虫应用,旨在提供一套完整的数据爬取,持久化存储和可视化展示的实践样例。

webporter 寓意“我们不生产数据,我们只是互联网的搬运工~”

如果觉得不错,请先在这个仓库上点个 star 吧,这也是对我的肯定和鼓励,谢谢了。

目前只提供了知乎用户数据的爬虫示例。不定时进行调整和补充,需要关注更新的请 watch、star、fork

仓库目录

使用指南

以爬取知乎用户数据为例

数据爬取

1.定制配置文件

修改 webporter-collector-zhihu/src/main/resources/site-config.json ,加入 authorization 的 http 头,相应数据需要自行在浏览器抓包提取

配置文件示例

{
  "domain": "www.zhihu.com",
  "headers": {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36",
    "authorization": "Your own authorization here."
  }
}

2.启动爬虫

运行 webporter-collector-zhihu 模块的 com.brianway.webporter.collector.ZhihuUserPageProcessor 即可

数据持久化

将数据导入到 Elasticsearch 中,待完善

数据可视化

待完善

TODO

  • 数据爬取,获取知乎用户数据
  • 数据持久化,将数据导入到 Elasticsearch 中
  • 可视化展示,通过前端框架对数据进行简单的分析和展示

联系作者

Email: weichuyang@163.com

Lisence

Lisenced under Apache 2.0 lisence

About

基于 webmagic 的 Java 爬虫应用

Resources

Stars

Watchers

Forks

Packages

No packages published

Languages

  • Java 68.8%
  • HTML 31.2%