## crawl_bilibili bilibili 爬虫,不需要实时数据,设置一分钟爬 6 次。**一个月大概爬 25 万用户**。由于时间跨度大,设置断点续爬功能。主要涉及: 用户公开数据(用户/性别/地区/注册时间/) 视频数据() 弹幕数据() 评论数据() 付费数据() ### 使用 启动数据库,这里启动一个 mysql 容器就好了。 ``` docker volume create --name datadir docker run --name my-mysql -v datadir:/var/lib/mysql -e MYSQL_ROOT_PASSWORD=123456 -p 3306:3306 -d daocloud.io/mysql:5.7.4 ``` * 抓取用户 ``` cd crawl_bilibili python user/get_user.py python user/get_face.py ``` * 抓取视频 ``` python video/get_video.py ``` * 抓取视频弹幕 ``` python barrage/get_barrage.py ``` * 数据分析 ### 更新历史 20190907 新增腾讯视频《都挺好》1-30集弹幕下载。