开源爬虫库很多,功能都差不多,比如大部分都不支持JS动态加载的页面:),但是现在大部分网页都是JS动态加载的。后文以Python为例介绍几种支持JS动态加载网页的爬取方法。
什么是网络爬虫?
网络爬虫一般指通过技术抓取公开网站网页上数据。
如何在爬虫时,支持JS动态加载的页面?
定制开发---性能高但开发成本及灵活性低
原理: 定向分析所要爬取的网页,用Python模拟JS的行为
使用一些浏览器自动化框架/库来爬取站点---通用性高开发成本低且灵活但效率低
原理: 模拟浏览器处理JS。利用外部JS Engine执行JS,并获取其结果
1.Selenium WebDriver
Selenium 是一系列工具和库的综合项目,这些工具和库支持 web 浏览器的自动化。 WebDriver 以本地化方式驱动浏览器,就像用户在本地或使用 Selenium 服务器的远程机器上所做的那样,这标志着浏览器自动化的飞跃。 Selenium WebDriver 指的是语言绑定和各个浏览器控制代码的实现。 这通常被称为 WebDriver。
2.dryscrape
dryscrape is a lightweight web scraping library for Python. It uses a headless Webkit instance to evaluate Javascript on the visited pages. This enables painless scraping of plain web pages as well as Javascript-heavy “Web 2.0” applications like Facebook. dryscrape 是一个轻量级的 Python 网页抓取库。它使用无头 Webkit 实例来评估访问页面上的 Javascript。这使得可以轻松抓取普通网页以及像 Facebook 这样的 Javascript 密集型“Web 2.0”应用程序。
|
|
3.Splash
Splash is a javascript rendering service. It's a lightweight browser with an HTTP API, implemented in Python using Twisted and QT. Splash 是一个 javascript 渲染服务。它是一个带有 HTTP API 的轻量级浏览器,使用 Twisted 和 QT 在 Python 中实现。 最简单的使用方法是docker起一个Splash容器,然后调用Splash HTTP接口,详见官方说明。
1.Pull the image:
$ sudo docker pull scrapinghub/splash
2.Start the container:
$ sudo docker run -it -p 8050:8050 --rm scrapinghub/splash
3.Splash is now available at 0.0.0.0 at port 8050 (http).
4.Pyppeteer
puppeteer JavaScript(无头)chrome/chromium 浏览器自动化库的非官方 Python 端口 具体用法见官方说明