Skip to content

Commit

Permalink
增加Crawler数据库表结构和说明。
Browse files Browse the repository at this point in the history
  • Loading branch information
ysh329 committed Aug 13, 2016
1 parent 1c67930 commit e687d14
Showing 1 changed file with 13 additions and 13 deletions.
26 changes: 13 additions & 13 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -9,7 +9,7 @@

##### 小组基本信息
|字段名|类型|含义|举例|
|-|
|-|:-:|::|:|
|GROUP_SOURCE|VARCHAR(10)|数据来源|"douban"或"tieba"|
|GROUP_QUERY|VARCHAR(20)|查询query(类似GROUP_TAG)|"北京,IT"|
|GROUP_NAME|VARCHAR(30)|组名、吧名|"北京读书交友会"|
Expand All @@ -21,7 +21,7 @@

##### 活跃度基本信息(每天字段更新)
|字段名|类型|含义|举例|
|-|
|-|:-:|::|:|
|POST_FIRST_REPLY_DATE|VARCHAR(16)|小组首页第一条最后回复时间|"2015-11-19 21:04"|
|POST_FIRST_CREATE_DATE|VARCHAR(16)|小组首页第一条创建时间|"2015-11-19 21:04"|
|POST_MIDDLE_REPLY_DATE|VARCHAR(16)|小组首页中间一条最后回复时间|"2015-11-19 21:04"|
Expand All @@ -31,12 +31,12 @@

##### 表更新时间(定期更新)
|字段名|类型|含义|举例|
|-|
|-| :-:|::|:|
|TABLE_UPDATE_DATE|VARCHAR(16)|最后一次表更新时间|"2015-11-19 21:04:48"|

##### 管理员基本信息
|字段名|类型|含义|举例|
|-|
|-| :-:|::|:|
|ADMIN_NAME|VARCHAR(50)|管理员姓名|"章小希"|
|ADMIN_ID|VARCHAR(10)|全站唯一性ID(豆瓣唯一ID、贴吧唯一ID)|"148647315"|
|ADMIN_URL|TEXT|管理员账号页面|"https://www.douban.com/people/148647315/"|
Expand All @@ -45,32 +45,32 @@

##### 来源和所在小组基本信息
|字段名|类型|含义|举例|
|-|
|-| :-:|::|:|
|GROUP_SOURCE|VARCHAR(10)|小组来源|"douban"或"tieba"|
|GROUP_ID|VARCHAR(20)|所在来源的全(站)局唯一性ID|"hangzhougonglue"|
|GROUP_NAME|VARCHAR(30)|小组名称|"杭州旅游"|

##### 帖子基本信息
|字段名|类型|含义|举例|
|-|
|-|:-:|::|:|
|POST_TITLE|TEXT|帖子标题|"这是标题"|
|POST_CREATE_DATE|VARCHAR(19)|帖子创建时间|"2014-08-10 16:58:21"|
|POST_LAST_REPLY_DATE|VARCHAR(16)|帖子最后回复时间|"2015-08-13 15:22"|
|POST_REPLY_NUM|INT|帖子回复个数|10|
##### 帖子创建者基本信息
|字段名|类型|含义|举例|
|-|
|-|:-:|::|:|
|POST_CREATE_USER_NAME|VARCHAR(50)|帖子创建者名称|"章小希"|
|POST_CREATE_USER_ID|VARCHAR(10)|帖子创建者全站唯一性ID|"148647315"|
|POST_CREATE_USER_URL|TEXT|帖子创建者个人页面地址|"https://www.douban.com/people/148647315/"|
##### 内容和评论
|字段名|类型|含义|举例|
|-|
|-|:-:|::|:|
|POST_CONTENT|TEXT|帖子内容|"这是帖子内容"|
|POST_CREATE_USER_COMMENT|TEXT|帖子创建者的所有评论|"这是评论1+2+3拼接起来的结果"|
##### 感兴趣信息(需要提取/抽取)
|字段名|类型|含义|举例|
|-|
|-|:-:|::|:|
|POST_CONTENT_QQ|VARCHAR(12)|帖子内容里的QQ号|"12345"|
|POST_CONTENT_WECHAT|VARCHAR(16)|帖子内容里的微信号|"12345"|
|POST_CONTENT_TEL|VARCHAR(15)|帖子内容里的电话号|"13312345678"|
Expand All @@ -80,7 +80,7 @@
注备:主要用来记录小组(或贴吧)管理员和发帖人个人信息
##### 基本信息
|字段名|类型|含义|举例|
|-|
|-| :-:|::|:|
|USER_SOURCE|VARCHAR(10)|用户来源|"douban"或"tieba"|
|USER_NAME|TEXT|用户名、昵称|"小豆芽"|
|USER_ID|VARCHAR(10)|全站唯一性ID|"yncyd"|
Expand All @@ -89,14 +89,14 @@

##### 发帖情况(定期更新)
|字段名|类型|含义|举例|
|-|
|-|:-:|::|:|
|POST_NUM|INT|发帖总数|32|
|POST_LAST_CREATE_DATE|VARCHAR(16)|用户发帖目录页第1页最后一次发帖日期|"2015-01-01 11:11"|
|POST_MIDDLE_CREATE_DATE|VARCHAR(16)|用户发帖目录页第1页中间一次发帖日期|"2015-01-01 11:11"|
|POST_FIRST_CREATE_DATE|VARCHAR(16)|用户发帖目录页第1页第一次发帖日期|"2015-01-01 11:11"|
##### 活跃程度(定期更新)
|字段名|类型|含义|举例|
|-|
|-|:-:|::|:|
|USER_LAST_LOGIN|VARCHAR(16)|上次登陆时间|"2015-01-01 11:11"|
|USER_CREATE_DATE|VARCHAR(12)|用户创建日期|"2015-01-01"|
##### 表更新时间(定期更新)
Expand All @@ -106,7 +106,7 @@

##### 感兴趣信息(需要提取/抽取)
|字段名|类型|含义|举例|
|-|
|-|:-:|::|:|
|USER_QQ|VARCHAR(12)|QQ号码|"111111111"|
|USER_WECHAT|VARCHAR(16)|微信号|"ZhangSan0912"|
|USER_TEL|VARCHAR(15)|手机号|"13311111111"|
Expand Down

0 comments on commit e687d14

Please sign in to comment.