如何用Python爬取小红书

1524990177 • 08/14 10:22 • Linux技术 • 阅读 433

如何用Python爬取小红书，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。首先，我们打开之前大家配置好的charles我们来简单抓包一下小红书小程序(注意这里是香港云主机小程序，不是app)不选择app的原因是，小红书的App有点难度，参照网上的一些思路，还是选择了小程序1、通过charles抓包对小程序进行分析按照我的路径，你可以发现列表中的数据已经被我们抓到了。但是你以为这就结束了？不不不通过这次抓包，我们知道了可以通过这个api接口获取到数据但是当我们把爬虫都写好时，我们会发现headers里面有两个很难处理的参数”authorization”和”x-sign”这两个玩意，一直在变化，而且不知道从何获取。所以2、使用mitmproxy来进行抓包其实通过charles抓包，整体的抓取思路我们已经清晰就是获取到”authorization”和”x-sign”两个参数，然后对url进行get请求这里用到的mitmproxy，其实和charles差不多，都是抓包工具但是mitmproxy能够跟Python一起执行这就舒服很多啊简单给大家举例子在mitmproxy中提供这样的方法给我们，我们可以通过request对象截取到request headers中的url、cookies、host、method、port、scheme等属性这不正是我们想要的吗？我们直接截取”authorization”和”x-sign” 这两个参数然后往headers里填入整个就完成了。以上是我们整个的爬取思路，下面给大家讲解一下代码怎么写其实代码写起来并不难首先，我们必须截取到搜索api的流，这样我们才能够对其进行获取信息我们通过判断flow的request里面是否存在搜索api的url来确定我们需要抓取的请求通过上述代码，我们就能够把最关键的三个参数拿到手了，接下来就是一些普通的解析json了。最终，我们可以拿到自己想要的数据了如果你想要获取到单篇数据，可以拿到文章id后抓取”https://www.xiaohongshu.com/discovery/item/”>这个页面headers里需要带有cookie，你随意访问一个网站都可以拿到cookie，目前看来好像是固定的最后，可以把数据放入csv其实小红书爬虫的抓取并不是特别的难，关键在于思路以及使用的方法是什么。看完上述内容，你们掌握如何用Python爬取小红书的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注开发云行业资讯频道，感谢各位的阅读！

相关推荐: 基于AccessToken方式怎么实现API 设计

基于AccessToken方式怎么实现API设计，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。说明：这实际类似于Oauth3.0的简化模式一、举例说明:需求：　　A、B机构需要调用X服务器的接口…