node.js简单爬虫的方法是什么

云技术五哥 • 02/25 14:04 • 开发 • 阅读 62

这篇文章主要介绍“node.js简单爬虫的方法是什么”，在日常操作中，相信很多人在node.js简单爬虫的方法是什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，免费云主机域名希望对大家解答”node.js简单爬虫的方法是什么”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！步骤一：安装node.js下载并安装node，此步骤比较简单就不详细解释了，有问题的可以直接问一下度娘。步骤二：建立工程1）打开dos命令条，cd进入想要创建项目的路径（我将此项目直接放在了E盘，以下皆以此路径为例）；2）mkdir node （创建一个文件夹用来存放项目，我这里取名为node）；3）cd 进入名为node的文件夹，并执行npm init初始化工程（期间会让填写一些信息，我是直接回车的）；步骤三：创建爬取到的数据存放的文件夹1）创建data文件夹用来存放发型师基本信息；2）创建image文件夹用来存储发型师头像图片；　　此时工程下文件如下：　步骤四：安装第三方依赖包（fs是内置模块，不需要单独安装）1）npm install cheerio –save2）npm install superagent –save3）npm install async –save4）npm install request –save分别简单解释一下上面安装的依赖包：cheerio：是nodejs的抓取页面模块，为服务器特别定制的，快速、灵活、实施的jQuery核心实现，则能够对请求结果进行解析，解析方式和jQuery的解析方式几乎完全相同；superagent：能够实现主动发起get/post/delete等请求；async：async模块是为了解决嵌套金字塔,和异步流程控制而生，由于nodejs是异步编程模型，有一些在同步编程中很容易做到的事情，现在却变得很麻烦。Async的流程控制就是为了简化这些操作；request：有了这个模块，http请求变的超简单，Request使用简单，同时支持https和重定向；步骤五：编写爬虫程序代码打开hz.js，编写代码：步骤六：运行爬虫程序输入node hz.js命令运行爬虫程序，效果图如下：运行成功后，发型师基本信息以html文件的形式存储在data文件夹中，发型师头像图片存储在image文件夹下。到此，关于“node.js简单爬虫的方法是什么”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注百云主机网站，小编会继续努力为大家带来更多实用的文章！

相关推荐: AngularJS怎么实现只能输入规定数量的字符并显示

本文小编为大家详细介绍“AngularJS怎么实现只能输入规定数量的字符并显示”，内容详细，步骤清晰，细节处理妥当，希望这篇“AngularJS怎么实现只能输入规定数量的字符并显示”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。Ang…