View Code? Open in Web Editor
NEW
抖音直播间实时弹幕爬取,基于python,websocket,protobuf协议,js逆向等技术栈实现,并且进行相关的数据分析
dyspider's Introduction
- 👋 Hi, I’m @Alex
- 👀 I’m interested in Full-stack technology development (Java, Go, Ts, Distributed System, Microservice, etc)
- 🌱 I graduated from Wuhan University
- 💞️ I have internship experience in Tencent and Amazon
- 📫 I’m working in Meituan Now
dyspider's People
Contributors
dyspider's Issues
项目clone下来之后,spider.py文件第42行,生成wss地址,要替换两处直播间id,代码中只替换了一处。修改完之后运行代码,报ssl错误。[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: self signed certificate in certificate chain (_ssl.c:1123)。
Handshake status 200 OK
on_error, after 60s, try again
抖音好像升级了,现在启动后 webSocket握手失败
很难得重现这个问题,重现条件是,当前电脑浏览器打开抖音直播,强制弹窗需要登录,这个时候直播间右侧不会显示弹幕,python是爬取不到弹幕的。
为什么需要会弹窗登录呢?已知,这是一个直播公司,公司只有一个光猫,这个公司应该很多电脑打开了抖音直播,ip被和谐了?但是重启光猫了也没有用。并且这个公司其他电脑打开网页的抖音直播,都是强制弹窗 需要登录。
一般来说浏览器打开抖音直播,是不需要登录,就能看到右侧的弹幕信息,这也是爬虫实现的原理,因为目前的爬虫,都是不登录的。