node.js简单爬虫的方法是什么


这篇文章主要介绍“node.js简单爬虫的方法是什么”,在日常操作中,相信很多人在node.js简单爬虫的方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,免费云主机域名希望对大家解答”node.js简单爬虫的方法是什么”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!步骤一:安装node.js下载并安装node,此步骤比较简单就不详细解释了,有问题的可以直接问一下度娘。步骤二:建立工程1)打开dos命令条,cd进入想要创建项目的路径(我将此项目直接放在了E盘,以下皆以此路径为例);2)mkdir node (创建一个文件夹用来存放项目,我这里取名为node);3)cd 进入名为node的文件夹,并执行npm init初始化工程(期间会让填写一些信息,我是直接回车的);步骤三:创建爬取到的数据存放的文件夹1)创建data文件夹用来存放发型师基本信息;2)创建image文件夹用来存储发型师头像图片;  此时工程下文件如下: 步骤四:安装第三方依赖包(fs是内置模块,不需要单独安装)1)npm install cheerio –save2)npm install superagent –save3)npm install async –save4)npm install request –save分别简单解释一下上面安装的依赖包:cheerio:是nodejs的抓取页面模块,为服务器特别定制的,快速、灵活、实施的jQuery核心实现,则能够对请求结果进行解析,解析方式和jQuery的解析方式几乎完全相同;superagent:能够实现主动发起get/post/delete等请求;async:async模块是为了解决嵌套金字塔,和异步流程控制而生,由于nodejs是异步编程模型,有一些在同步编程中很容易做到的事情,现在却变得很麻烦。Async的流程控制就是为了简化这些操作;request:有了这个模块,http请求变的超简单,Request使用简单,同时支持https和重定向;步骤五:编写爬虫程序代码打开hz.js,编写代码:步骤六:运行爬虫程序输入node hz.js命令运行爬虫程序,效果图如下:运行成功后,发型师基本信息以html文件的形式存储在data文件夹中,发型师头像图片存储在image文件夹下。到此,关于“node.js简单爬虫的方法是什么”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注百云主机网站,小编会继续努力为大家带来更多实用的文章!

相关推荐: AngularJS怎么实现只能输入规定数量的字符并显示

本文小编为大家详细介绍“AngularJS怎么实现只能输入规定数量的字符并显示”,内容详细,步骤清晰,细节处理妥当,希望这篇“AngularJS怎么实现只能输入规定数量的字符并显示”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。Ang…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 02/25 10:34
下一篇 02/25 14:04

相关推荐