Skip to content

通用的图集抓取程序,采用配置模板对大部分站点进行图集抓取。

Notifications You must be signed in to change notification settings

fengjinhai/tujiCrawer

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 

Repository files navigation

tujiCrawer

通用的图集抓取和字段解析程序,采用配置模板对大部分站点进行图集抓取。

配置程序在conf中按照现有格式进行配置

  • clientSource.py 和 clientPage.py 为两个主要的程序
  • clientSource.py 用来发现链接
  • clientPage.py 用来抓取具体页面的图片

数据库表结构

CREATE TABLE tbl_content (

urlSign char(32) NOT NULL DEFAULT '0' COMMENT '来源url的sign',
title varchar(256) NOT NULL DEFAULT '' COMMENT '标题',
text text NOT NULL COMMENT 'text',
images text NOT NULL COMMENT '图片json',
tags varchar(1024) NOT NULL DEFAULT '' COMMENT '内容 tag',
url varchar(1024) NOT NULL DEFAULT '' COMMENT '新增URL',
isAlbum tinyint(1) NOT NULL DEFAULT '0' COMMENT '是否图集',
picUrl varchar(1024) NOT NULL DEFAULT '' COMMENT 'picUrl',
mypos varchar(1024) NOT NULL DEFAULT '' COMMENT 'mypos',
sourceUrl varchar(1024) NOT NULL DEFAULT '' COMMENT '抓取URL',
status tinyint(4) NOT NULL DEFAULT '0' COMMENT '状态',
category varchar(64) NOT NULL DEFAULT '' COMMENT '类目',
domain varchar(1024) NOT NULL DEFAULT '' COMMENT 'domain',
publishTime timestamp NOT NULL DEFAULT '0000-00-00 00:00:00' COMMENT '发布时间',
crawlTime timestamp NOT NULL DEFAULT '0000-00-00 00:00:00' COMMENT '创建时间',
PRIMARY KEY (urlSign),
KEY status_idx (status)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

About

通用的图集抓取程序,采用配置模板对大部分站点进行图集抓取。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages