前言

如果你想爬一个网站内容，大家都想到用python或者其它语言写一个爬虫程序去抓取内容。但这涉及到熟悉语言或各种库、模块等。
有没有简单的方法呢？有，今天介绍的webscraper就非常方便。
首先，它是chrome的一个插件，安装就能用，如果不能翻墙，可以通过https://crxdl.com/这个网站来搜索安装。
其次，只有你熟悉dom结构，就可以随意抓取内容了
最主要的是，这个插件可视化。也就是抓取的内容有没有抓取成功，一眼就可以看到
本文默认你已安装了webscraper，如果不会，可以百度下chrome插件安装

实战

抓取豆瓣上的电影《姜子牙》影评

《姜子牙》影评的地址 https://movie.douban.com/subject/25907124/reviews
第一步：打开网址，按F12进入开发者工具，将开发者工具调到浏览器下方,如下图

第二步：找到webscraper,点击进去。找到Create new sitemap,点击Create Sitemap,如下图

给你要爬的网页取个名字,我这里的名字是douban-jangziya,将《姜子牙》影评的地址填入Start URL

第三步：点击刚刚创建的站点，可以看到以下界面

第四步：点击Add new selector,增加以下配置

Element表示元素，id随便取，我这里取的test,只要你理解就行
Selector表示你要选择的元素，这里为什么是.review-item呢？用chrome的select element工具看一下就明白了，如下图

整个评论块都包含在.review-item这个样式下面
Multiple表示选择多个记录。从两个或多个选中 multiple 的选择器中提取的数据不会合并到一个单独记录中；

第五步：点击test进去,然后点击Add new selector。这表示从test这个元素中获取内容
如我要获取头像，点击Selector的Select,然后把鼠标放到头像上，这个时候插件会帮我们自动选择元素，然后我们只要点击Done selecting就可以了，如图

同理，我们可以用同样的方法，获取昵称，影评时间等等

第六步：获取详情的影评内容
如果有的影评内容太长，就只会显示一部分，其它的截断了。我们根据标题点进去看了。我们要抓取详情内容怎么做呢
首先，我们在test下面创建标题选择器，如图所示

然后我们点进commentTitle选择器，然后点击Add new selector，选择Link类型的，如图所示

最后我们点击进入影评详情页，然后点击进入linkTitle选择器，点击Add new selector，选择Text类型的，如图所示

在详情页，我们可以看到整个影评者在div.review-content下。如图