Giter VIP home page Giter VIP logo

bilibili's Introduction

Bilibili

哔哩哔哩爬虫系统
项目框架:
SpringMVC+MyBatis
数据库:
Mysql5.7
开发环境:
JRE: 1.8.0_112-release-736-b13 amd64
IntelliJ IDEA 2017.1
Windows 10
----------------------------------------------

爬虫数据库(phpMyAdmin)帐号:bilibili 密码:2233

简介:


这个爬虫系统,主要采集B站视频相关信息,其中用到的相关接口都在这个
枚举里面了

用接口数据看视频

看完上面的小短片就应该明白这些数据是搭配bilibili黑科技食用的,通过aid(AV号)或者cid(弹幕号)看到被和谐的视频, 这些接口就是用来收集这些数据的,基本上只要是存在过B站的视频都能找到
例如:缘之空、日在校园、学园默示录、记忆女神的女儿们、新妹魔王的契约者等
这些数据除了拿来找被删视频弹幕之外,当然还可以拿这些数据做各种各样的统计。

-----------------------------------------------------------------------------------------------------------------
项目初始化:
第一步:项目是用构建工具maven构建的,所以项目克隆下来还要从Maven本地仓库/远程仓库中加载jar包。
第二步:用数据库表创建脚本创建数据库以及表,初始化配置参数
其中要手动往sql脚本文件添加access_token参数或者DedeUserID、DedeUserID__ckMd5、SESSDATA这三个参数
二选一,否则bilibili接口请求失败
其中access_token是手机bilibili客户端用到的参数,需要通过捉手机客户端包才可以找到。例如使用这个fiddler捉包工具。
而设置cookie就简单得多。如下图打开chrome浏览器(其他浏览器差不多),开发者工具,找到查看cookie的地方,把红框里的三个值添加到数据库的param表里面
image
如无意外创建完毕表结构应该跟下图一样。 数据库结构图 image
数据库部分数据展示
第三步:参数配置
配置好以下4个参数,其他默认配置即可。
localPath mysql本地备份目录
serverPath mysql同步盘备份目录/打包目录
dbusername mysql账号
dbpassword mysql密码

第四步:启动爬虫测试
打开爬虫测试类运行main方法即可
-------------------------------------------------------------------------------------------------------------------------------------------------
数据库是自动定时备份,默认每个星期一零点备份一次,修改配置请自行打开配置文件dbbackup修改cron定时器表达式
cron表达式在线生成地址
关于项目问题可以私信

bilibili's People

Watchers

James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.