README.md 879 B

crawl_bilibili

bilibili 爬虫,不需要实时数据,设置一分钟爬 6 次。一个月大概爬 25 万用户。由于时间跨度大,设置断点续爬功能。主要涉及:

用户公开数据(用户/性别/地区/注册时间/)

视频数据()

弹幕数据()

评论数据()

付费数据()

使用

启动数据库,这里启动一个 mysql 容器就好了。

docker volume create --name datadir
docker run --name my-mysql -v datadir:/var/lib/mysql -e MYSQL_ROOT_PASSWORD=123456 -p 3306:3306 -d daocloud.io/mysql:5.7.4
  • 抓取用户

    cd crawl_bilibili
    python user/get_user.py
    python user/get_face.py
    
  • 抓取视频

    python video/get_video.py
    
  • 抓取视频弹幕

    python barrage/get_barrage.py
    
  • 数据分析

更新历史

20190907 新增腾讯视频《都挺好》1-30集弹幕下载。