読者です 読者をやめる 読者になる 読者になる

wkhtmltoimage でWebサイトのキャプチャを取得する

wkhtmltoimage
http://wkhtmltopdf.org/

Webサイトのキャプチャを取得し、画像やPDFで保存する事ができるソフト。

ファイルの入手とインストール

# cd /usr/local/src
# wget http://downloads.sourceforge.net/project/wkhtmltopdf/0.12.1/wkhtmltox-0.12.1_linux-centos6-amd64.rpm
# rpm -ivh wkhtmltox-0.12.1_linux-centos6-amd64.rpm

パッケージ内に含まれるファイルの一覧

# rpm -ql wkhtmltox
/usr/local/bin/wkhtmltoimage
/usr/local/bin/wkhtmltopdf
/usr/local/include/wkhtmltox/dllbegin.inc
/usr/local/include/wkhtmltox/dllend.inc
/usr/local/include/wkhtmltox/image.h
/usr/local/include/wkhtmltox/pdf.h
/usr/local/lib/libwkhtmltox.so
/usr/local/lib/libwkhtmltox.so.0
/usr/local/lib/libwkhtmltox.so.0.12
/usr/local/lib/libwkhtmltox.so.0.12.1
/usr/local/share/man/man1/wkhtmltoimage.1.gz
/usr/local/share/man/man1/wkhtmltopdf.1.gz

キャプチャ手順

以下の2つが主なコマンド。

/usr/local/bin/wkhtmltoimage
/usr/local/bin/wkhtmltopdf

マニュアルは

$ man wkhtmltoimage
$ man wkhtmltopdf

で確認できる。

YahooのWebサイトをpng形式で保存してみる。

$ /usr/local/bin/wkhtmltoimage http://yahoo.co.jp ./test.png
Loading page (1/2)
Rendering (2/2)
Done

※jpg 形式でも保存できる。gif 形式を指定すると、0バイトのファイルになる。


PDF形式で保存してみる。

$ /usr/local/bin/wkhtmltopdf http://yahoo.co.jp ./test.pdf
Loading pages (1/6)
Counting pages (2/6)
Resolving links (4/6)
Loading headers and footers (5/6)
Printing pages (6/6)
Done