Giter VIP home page Giter VIP logo

douban-crawler's Introduction

Douban-Crawler

指定小组查询关键词,完全傻瓜式获取指定个数豆瓣小组详细信息,以及小组下指定个数帖子信息。

CRAWLER库表结构

三个数据表:小组表,用户表,帖子表。

GROUP表

注备:豆瓣小组、贴吧

小组基本信息
字段名 类型 含义 举例
GROUP_SOURCE VARCHAR(10) 数据来源 "douban"或"tieba"
GROUP_QUERY VARCHAR(20) 查询query(类似GROUP_TAG) "北京,IT"
GROUP_NAME VARCHAR(30) 组名、吧名 "北京读书交友会"
GROUP_ID VARCHAR(20) 全站唯一性ID "576850"
GROUP_MEMBER_NUM INT 小组人数 300
GROUP_URL TEXT 地址 "https://www.douban.com/group/10274/"
GROUP_INTRO TEXT 介绍 "小组介绍内容"
GROUP_CREATE_DATE VARCHAR(10) 小组创建时间 2010-10-10
GROUP_TAG VARCHAR(20) 小组标签 "北京,读书,交友"
活跃度基本信息(每天字段更新)
字段名 类型 含义 举例
CURRENT_DAY_POST_NUM INT 小组当天总帖数 100
CURRENT_DAY_COMMENT_NUM INT 当天帖子累计总回复数 5000
CURRENT_DAY_AVE_COMMENT_NUM INT 当天帖子累计总回复数 50
管理员基本信息
字段名 类型 含义 举例
ADMIN_NAME VARCHAR(50) 管理员姓名 "章小希"
ADMIN_ID VARCHAR(20) 全站唯一性ID(豆瓣唯一ID、贴吧唯一ID) "148647315"
ADMIN_URL TEXT 管理员账号页面 "https://www.douban.com/people/148647315/"
表更新时间(定期更新)
字段名 类型 含义 举例
TABLE_UPDATE_DATE VARCHAR(16) 最后一次表更新时间 "2015-11-19 21:04:48"

POST表

来源和所在小组基本信息
字段名 类型 含义 举例
GROUP_SOURCE VARCHAR(10) 小组来源 "douban"或"tieba"
GROUP_URL TEXT 小组地址链接 "https://www.douban.com/group/551307/"
GROUP_ID VARCHAR(20) 所在来源的全(站)局唯一性ID "hangzhougonglue"
GROUP_NAME VARCHAR(30) 小组名称 "杭州旅游"
帖子基本信息
字段名 类型 含义 举例
POST_URL TEXT 帖子链接 "https://www.douban.com/group/topic/88272843/"
POST_TITLE TEXT 帖子标题 "这是标题"
POST_ID VARCHAR(10) 帖子唯一性ID "850407300"
POST_CREATE_DATE VARCHAR(19) 帖子创建时间 "2014-08-10 16:58:21"
POST_LAST_COMMENT_DATE VARCHAR(16) 帖子最后回复时间 "2015-08-13 15:22"
POST_COMMENT_NUM INT 帖子回复个数 10
POST_LIKE_NUM INT 喜欢人数 10
帖子创建者基本信息
字段名 类型 含义 举例
POST_AUTHOR_NAME VARCHAR(50) 帖子创建者名称 "章小希"
POST_AUTHOR_ID VARCHAR(10) 帖子创建者全站唯一性ID "148647315"
POST_AUTHOR_SIGNATURE TEXT 签名 "目标,前进;一切只为生活"
POST_AUTHOR_URL TEXT 帖子创建者个人页面地址 "https://www.douban.com/people/148647315/"
内容和评论
字段名 类型 含义 举例
POST_CONTENT TEXT 帖子内容 "这是帖子内容"
POST_IMG_NUM INT 图片张数 3
POST_IMG_URL_LIST TEXT 所有图片地址列表的字符串(用"\t"拼接) 'www.1.com/1.png::www.1.com/2.jpg'
POST_AUTHOR_COMMENT TEXT 帖子创建者的所有评论 "这是评论1+2+3拼接起来的结果"
POST_AUTHOR_COMMENT_NUM INT 帖子创建者的评论个数 10
感兴趣信息(需要提取/抽取)
字段名 类型 含义 举例
POST_CONTENT_QQ VARCHAR(12) 帖子内容里的QQ号 "12345"
POST_CONTENT_WECHAT VARCHAR(16) 帖子内容里的微信号 "12345"
POST_CONTENT_TEL VARCHAR(15) 帖子内容里的电话号 "13312345678"
POST_CONTENT_ADDRESS VARCHAR(30) 帖子内容里的地址 "北京市海淀区"

USER表

注备:主要用来记录小组(或贴吧)管理员和发帖人个人信息

基本信息
字段名 类型 含义 举例
USER_SOURCE VARCHAR(10) 用户来源 "douban"或"tieba"
USER_NAME TEXT 用户名、昵称 "小豆芽"
USER_ID VARCHAR(20) 全站唯一性ID "yncyd"
USER_SEX INT 性别 0(未知)或1(男)或2(女)
USER_SIGNATURE TEXT 签名 "目标,前进;一切只为生活"
USER_URL TEXT 个人页面 "https://www.douban.com/people/yncyd/"
发帖情况(定期更新)
字段名 类型 含义 举例
POST_NUM INT 发帖总数 32
POST_LAST_CREATE_DATE VARCHAR(16) 用户发帖目录页第1页最后一次发帖日期 "2015-01-01 11:11"
POST_MIDDLE_CREATE_DATE VARCHAR(16) 用户发帖目录页第1页中间一次发帖日期 "2015-01-01 11:11"
POST_FIRST_CREATE_DATE VARCHAR(16) 用户发帖目录页第1页第一次发帖日期 "2015-01-01 11:11"
活跃程度(定期更新)
字段名 类型 含义 举例
USER_LAST_LOGIN VARCHAR(16) 上次登陆时间 "2015-01-01 11:11"
USER_CREATE_DATE VARCHAR(12) 用户创建日期 "2015-01-01"
感兴趣信息(需要提取/抽取)
字段名 类型 含义 举例
USER_QQ VARCHAR(12) QQ号码 "111111111"
USER_WECHAT VARCHAR(16) 微信号 "ZhangSan0912"
USER_TEL VARCHAR(15) 手机号 "13311111111"
USER_MAIL TEXT 邮箱 "[email protected]"
USER_ADDRESS TEXT 所在位置 "北京市海淀区XXX路XXX号"或"XXX区"或"南京"
表更新时间(定期更新)
字段名 类型 含义 举例
TABLE_UPDATE_DATE VARCHAR(16) 最后一次表更新时间 "2015-11-19 21:04:48"

douban-crawler's People

Contributors

ysh329 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar

douban-crawler's Issues

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.