如何用Python爬取小红书


如何用Python爬取小红书,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。首先,我们打开之前大家配置好的charles我们来简单抓包一下小红书小程序(注意这里是 香港云主机小程序,不是app)不选择app的原因是,小红书的App有点难度,参照网上的一些思路,还是选择了小程序1、通过charles抓包对小程序进行分析按照我的路径,你可以发现列表中的数据已经被我们抓到了。但是你以为这就结束了?不不不通过这次抓包,我们知道了可以通过这个api接口获取到数据但是当我们把爬虫都写好时,我们会发现headers里面有两个很难处理的参数”authorization”和”x-sign”这两个玩意,一直在变化,而且不知道从何获取。所以2、使用mitmproxy来进行抓包其实通过charles抓包,整体的抓取思路我们已经清晰就是获取到”authorization”和”x-sign”两个参数,然后对url进行get请求这里用到的mitmproxy,其实和charles差不多,都是抓包工具但是mitmproxy能够跟Python一起执行这就舒服很多啊简单给大家举例子在mitmproxy中提供这样的方法给我们,我们可以通过request对象截取到request headers中的url、cookies、host、method、port、scheme等属性这不正是我们想要的吗?我们直接截取”authorization”和”x-sign” 这两个参数然后往headers里填入整个就完成了。以上是我们整个的爬取思路,下面给大家讲解一下代码怎么写其实代码写起来并不难首先,我们必须截取到搜索api的流,这样我们才能够对其进行获取信息我们通过判断flow的request里面是否存在搜索api的url来确定我们需要抓取的请求通过上述代码,我们就能够把最关键的三个参数拿到手了,接下来就是一些普通的解析json了。最终,我们可以拿到自己想要的数据了如果你想要获取到单篇数据,可以拿到文章id后抓取”https://www.xiaohongshu.com/discovery/item/”>这个页面headers里需要带有cookie,你随意访问一个网站都可以拿到cookie,目前看来好像是固定的最后,可以把数据放入csv其实小红书爬虫的抓取并不是特别的难,关键在于思路以及使用的方法是什么。看完上述内容,你们掌握如何用Python爬取小红书的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注开发云行业资讯频道,感谢各位的阅读!

相关推荐: 基于AccessToken方式怎么实现API设计

基于AccessToken方式怎么实现API设计,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。说明:这实际类似于Oauth3.0的简化模式 一、举例说明:需求:  A、B机构需要调用X服务器的接口…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 08/14 10:22
下一篇 08/14 10:23

相关推荐