Python如何爬取腾讯视频跑男的评论并做简单文本的可视化分析


Python如何爬取腾讯视频跑男的评论并做简单文本的可视化分析,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。「《奔跑吧》第五季」已经播出两期了,节目以“黄河生态经济带”沿线地区为依托,通过创新游戏设置、直播带货扶贫等新形式,展现黄河流域的重要地位,描绘黄河生态经济带城市“文化之美”。然而,网友貌似并不买账,邓超、郑凯等退出跑男后,「收视明显不如以前」,而吐槽貌似有所增加。为了了解吃瓜群众们对于跑男的看法,我爬了爬腾讯视频关于跑男的评论,并做了简单文本「可视化分析」。腾讯视频评论要点击「查看更多评论」才能加载更多数据,很明显是一个动态网页,评论内容使用了「Ajax动态加载技术」。因此,我们需要找到「真实URL」,然后再请求数据。通过真实URL获取到cursor=?和_=?这两个参数即可。核心代码如下:分别爬取了两期评论,因此需要分别读取并合并所有数据。数据预览共有评论数:21307 条人为划分评论类型,20字以下为短评,20-50字为中评,50字以上为长评。根据评论内容关键词,提取出人物提及字段。定义一个机械压缩函数:调用函数,对评论内容进行机械压缩去重:用正则表达式提取出中文:过 香港云主机滤掉评论字数少于四个字的评论:通过对所有评论进行词云图绘制,我们发现「成毅」提及最多,对于最新跑男的看法,大家表现出非一致的看法。有人说「好看、喜欢」,有人说「没意思」。另外,评论中还多次提到往期节目中的嘉宾,如「陈赫、郑凯、郭麒麟」等,没有比较就没有伤害,很多人还是更喜欢往期的跑男的。短评占据「81.99%」,仅有2.65%的观众给出了50字以上的评论。新成员「成毅」被观众提及次数最多,达到790次,其次是「蔡徐坤」,被提及452次。李晨被提及次数最少。成毅在新一季跑男的表现被网友广泛议论,认可他的观众「喜欢、期待、可爱」他的表现。也有相当多的观众觉得他「智商」有问题,是个「游戏黑洞」,而且很「搞笑」。关于Python如何爬取腾讯视频跑男的评论并做简单文本的可视化分析问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注开发云行业资讯频道了解更多相关知识。

相关推荐: 杭州大数据培训有必要吗?大龄程序员如何保持自己的竞争力?

对于程序员而言,学习和成长会伴随职业生涯,同时技术的增长也将成为自身资历的闪光点,那么对于年纪比较大的程序员而言,要不要去跟随大流学热门的大数据呢?尤其是在杭州这样的达成数,杭州大数据培训有必要吗?大龄程序员如何保持自己的竞争力?生活中经常听到或看到抱怨程序员…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 08/14 10:34
下一篇 08/14 10:35

相关推荐