|
5 years ago | |
---|---|---|
barrage | 5 years ago | |
conf | 5 years ago | |
user | 5 years ago | |
utils | 5 years ago | |
video | 5 years ago | |
video_download | 5 years ago | |
.gitignore | 5 years ago | |
README.md | 5 years ago | |
requirements.txt | 5 years ago | |
threads.py | 5 years ago |
bilibili 爬虫,不需要实时数据,设置一分钟爬 6 次。一个月大概爬 25 万用户。由于时间跨度大,设置断点续爬功能。主要涉及:
用户公开数据(用户/性别/地区/注册时间/)
视频数据()
弹幕数据()
评论数据()
付费数据()
启动数据库,这里启动一个 mysql 容器就好了。
docker volume create --name datadir
docker run --name my-mysql -v datadir:/var/lib/mysql -e MYSQL_ROOT_PASSWORD=123456 -p 3306:3306 -d daocloud.io/mysql:5.7.4
抓取用户
cd crawl_bilibili
python user/get_user.py
python user/get_face.py
抓取视频
python video/get_video.py
抓取视频弹幕
python barrage/get_barrage.py
数据分析
20190907 新增腾讯视频《都挺好》1-30集弹幕下载。