- 可通过
自定义
过滤关键字,eg:爆炸、毒品等 - 可通过
自定义
添加贴吧 eg:李毅吧、胥渡吧等 - 可进行筛选导出
html
搜索报告 - 每个模块单独生成
本地json文件资源
- 将加入微信公众号文章、新浪微博、以及论坛site等模块
- 爬取
百度贴吧
模块,无贴吧数量限制 - 爬取
大江论坛
模块,同时爬取十个论坛 - 爬取
天涯论坛
模块,同时十个论坛 - 方便的
导入导出
功能- 导出为一个
html格式
的文件
- 导出为一个
git clone https://github.com/bbkali/info_spider.git
pip install -r requirements.txt
vim config.ini|vim config_sample.ini //自行添加配置信息
python run.py
在使用中有任何问题,欢迎反馈给我,可以用以下联系方式跟我交流
- 邮件(shuiyue75381#gmail.com, 把#换成@)
nickName : "bb",
site : "http://github.com/bbkali"
20190109
1.完善贴吧爬取功能(已经完成)
2.编写export_html.py读取json资源功能(已经完成)
3.测试多线程运行多模块功能(已经完成)
4.过滤规则完成(筛选时间--筛选关键字--筛选长度)(已经完成)
1.时间筛选(已经完成){dj:'reply_time','ty':'create_time','tb':'reply_time'}
2.关键字筛选(已经完成)
3.筛选长度(已经完成)
5.模板优化(已经完成)
1标题头时间导入(已经完成)
2数据统计加入(已经完成)
20190112
1.增加大江论坛爬取功能(已经完成)
2.模板链接优化为点击跳转(已经完成),还有关键字标红,统计中加入爬取的目标(已经完成)
3.window和linux下路径优化
4.将大江资源结果导入result.html中(已经完成)
5.将时间筛选功能嵌入大江模块里(已经完成)
20190114
1.增加天涯功能模块(已经完成)
2.增加随机请求头功能(已经完成)
3.增加天涯结果进入result.html(已经完成)
4.将完整的run框架写出来(已经完成)
20190116
1.优化config.ini(已经完成)
2.美化result(已经完成)
3.readme格式优化(已经完成)
4.增加代理功能
5.增加爬取指定条件日期数据(已经完成)
20190123
1.支持各个模块并发运行,运行完导出报告
2.html增加统计已爬取的帖子数量
3.优化访问频繁切换代理或者休眠功能
4.增加将数据储存到数据库功能
5.优化一个模块util模板
6.再增加一个论坛模块