Skip to content

bbkali/info_spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

info_spider

一个舆情搜索爬虫,这是一个练手项目,很多功能还需要完善!

info_spider是什么?

  • 可通过自定义过滤关键字,eg:爆炸、毒品等
  • 可通过自定义添加贴吧 eg:李毅吧、胥渡吧等
  • 可进行筛选导出html搜索报告
  • 每个模块单独生成本地json文件资源
  • 将加入微信公众号文章、新浪微博、以及论坛site等模块

info_spider有哪些功能?

  • 爬取百度贴吧模块,无贴吧数量限制
  • 爬取大江论坛模块,同时爬取十个论坛
  • 爬取天涯论坛模块,同时十个论坛
  • 方便的导入导出功能
    • 导出为一个html格式的文件

用法

  • 下载项目

git clone https://github.com/bbkali/info_spider.git
  • 安装依赖

pip install -r requirements.txt
  • 添加配置

vim config.ini|vim config_sample.ini //自行添加配置信息
  • 启动爬虫

python run.py

有问题反馈

在使用中有任何问题,欢迎反馈给我,可以用以下联系方式跟我交流

  • 邮件(shuiyue75381#gmail.com, 把#换成@)

关于作者

    nickName  : "bb",
    site : "http://github.com/bbkali"
  

更新日志

20190109

    1.完善贴吧爬取功能(已经完成)
    2.编写export_html.py读取json资源功能(已经完成)
    3.测试多线程运行多模块功能(已经完成)
    4.过滤规则完成(筛选时间--筛选关键字--筛选长度)(已经完成)
        1.时间筛选(已经完成){dj:'reply_time','ty':'create_time','tb':'reply_time'}
        2.关键字筛选(已经完成)
        3.筛选长度(已经完成)
    5.模板优化(已经完成)
        1标题头时间导入(已经完成)
        2数据统计加入(已经完成)

20190112

    1.增加大江论坛爬取功能(已经完成)
    2.模板链接优化为点击跳转(已经完成),还有关键字标红,统计中加入爬取的目标(已经完成)
    3.window和linux下路径优化
    4.将大江资源结果导入result.html中(已经完成)
    5.将时间筛选功能嵌入大江模块里(已经完成)
    
20190114

    1.增加天涯功能模块(已经完成)
    2.增加随机请求头功能(已经完成)
    3.增加天涯结果进入result.html(已经完成)
    4.将完整的run框架写出来(已经完成)

20190116

    1.优化config.ini(已经完成)
    2.美化result(已经完成)
    3.readme格式优化(已经完成)
    4.增加代理功能
    5.增加爬取指定条件日期数据(已经完成)

20190123
    
    1.支持各个模块并发运行,运行完导出报告
    2.html增加统计已爬取的帖子数量
    3.优化访问频繁切换代理或者休眠功能
    4.增加将数据储存到数据库功能
    5.优化一个模块util模板
    6.再增加一个论坛模块

About

这是一个小爬虫

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published