# Puppeteer完全ガイド：Docker環境構築からAmazonスクレイピング、reCAPTCHA突破まで |p2>2020/11/132025/12/03> /etc/sudoers CMD ["bash"] ``` 今回はインタラクティブモードでコンテナの中から操作しながら開発を試みるので、ユーザーにリソースを編集する権限が必要です。そのため後述しますがpuppeteerのオプションも`--no-sandbox`を忘れずに指定しなければなりません。なお今回は`babel-node`からtsソースコードをそのままトランスパイルしています。 ### docker-compose.ymlの作成次にdocker-compose.ymlを作成し、以下の内容で編集します。 ```yml docker-compose.yml services: app: image: puppeteer-alpine:edge build: . user: "pptruser:pptruser" container_name: puppeteer-alpine environment: NODE_ENV: "development" PUPPETEER_SKIP_CHROMIUM_DOWNLOAD: "true" PUPPETEER_EXECUTABLE_PATH: "/usr/bin/chromium-browser" volumes: - ./:/usr/src/app working_dir: "/usr/src/app" ``` ひとまずはこのコンテナがビルド&インタラクティブモードで起動するかを確認します。ちなみにプロジェクトのルートディレクトリは`/usr/src/app`にしてあります。早速pupperteer開発環境用のDockerコンテナをビルドして立ち上げてみます。 ```shell $ docker-compose build $ docker-compose run --rm app bash [node@d4f30154b2f7:/usr/src/app]$ ``` インタラクティブモードに入ったら、このコンテナ内で`npm --init`で新規のnodeプロジェクトを作成し、package.jsonを以下の内容にします。 ```json package.json { "name": "puppeteer_ajax", "version": "0.1.0", "description": "To learn puppetter with docker alpine", "main": "./dist/index.js", "types": "./dist/index.d.ts", "scripts": { "build": "tsc", "tap": "babel-node dist/index.js", "start": "yarn build && yarn tap" }, "devDependencies": { "@types/node": "^13.7.1", "@types/puppeteer": "^5.4.0" }, "dependencies": { "puppeteer": "^5.4.1" } } ``` そこから`yarn install`するとpuppeteerが最低限動作するAlpine上の開発環境用コンテナが作成できました。 --- ## Puppeteerの基本的な使い方この記事ではデフォルトではtypescriptのソースコードを利用します。まずsrcフォルダを作成し、そこにindex.tsを追加します。プロジェクトのフォルダ構造(※node_modulesの中は除く)は以下のようになっていると思います。 ```shell フォルダ構造 $ tree -I node_modules . ├── Dockerfile ├── docker-compose.yml ├── index.ts ├── package.json ├── src │ └── index.ts ├── tsconfig.json └── yarn.lock ``` 後付ですが、手元の環境の`tsconfig.json`は以下のようになっています。 `tsc --init`で吐かれたほぼデフォルト設定ままですが参考までに。 ```json tsconfig.json { "compilerOptions": { "target": "es6", "module": "commonjs", "declaration": true, "sourceMap": true, "outDir": "./dist", "strict": true, "moduleResolution": "node", "esModuleInterop": true }, "include": [ "./src/index.ts", ], "exclude": [ "./test/*.spec.ts" ], "compileOnSave": false } ``` ### スクリーンショットを撮るさてまず簡単なスクリーンショットを撮って画像を保存してみます。 ```ts src/index.ts import puppeteer from 'puppeteer'; (async () => { try { const browser = await puppeteer.launch({ executablePath: '/usr/bin/chromium-browser', args: ['--disable-dev-shm-usage', '--no-sandbox'] }); const page = await browser.newPage(); await page.goto('https://www.google.com/'); await page.screenshot({ path: '/usr/src/app/result.png' }); await browser.close(); } catch (e) { console.error(e); } })(); ``` 編集しおえたら、先程のpackage.jsonの中にあったスクリプトを利用して、ビルド&実行してみます。。 ```shell $ yarn start ``` 正常に処理が通るとルートに以下のような画像が保存されていると思います。 ![1 from 52](__1.jpg) 見ての通りで、chrome単体で日本語フォントを導入しなかった場合には日本語を含むページは文字化けしてしまいます。 #### chromeの日本語対応説明が前後して恐縮ですが、`alpine:edge`の場合、先程のDockerfileへ以下の2つのパッケージを追加します。 ```dockerfile Dockerfile FROM alpine:edge #...中略 RUN apk add --no-cache font-noto-cjk unifont ``` これらのパッケージを`docker-compose build`で導入後にもう一度インタラクティブモードで実行しなおすと、先程のページは日本語化されていることが分かります。 ![2 from 52](__2.jpg) ということで、puppeteerの動作確認はこれでOKですので、次は実践的なログインを伴うページを操作してみます。 ### ログイン認証後にページを操作するあらためまして、Puppeteerは|px>{2}「人形遣い」 { try { const browser = await puppeteer.launch({ executablePath: '/usr/bin/chromium-browser', args: ['--disable-dev-shm-usage', '--no-sandbox'] }); const page = await browser.newPage(); await page.goto('https://trade.m******.co.jp/mgap/login'); //👇①input要素のname属性を利用したフォームの入力 await page.type('input[name="user"]', 'xxxxxxxx'); await page.type('input[name="password"]', 'xxxxxxxxxxxxx'); //👇②idがsubmit-btnのボタン要素をクリック page.click('#submit-btn'); //👇③クリック後にページが遷移するまで待機 await page.waitForNavigation({ waitUntil: 'domcontentloaded' }); await page.screenshot({ path: '/usr/src/app/result.png' }); await browser.close(); } catch (e) { console.error(e); } })(); ``` 項目①が普段はキーボードからタイプしているユーザー名とパスワードです。入力後に②の部分からヘッドレスchromeをまたいでプログラム的に擬似クリックさせてログインしているので、感覚的な操作ができるところもpuppeteerの凄いところです。 ③の部分でクリック後のページの遷移が完了するまで待機した後に、正常に処理されるとログイン状態になったページに移行する、という流れです。このプログラムを`yarn start`で走らせ、ログイン出来ているかキャプチャ画像を確認してみると、 ![4 from 52](__4.jpg) ...あれま絶賛読み込み中です。 [こちらのサイト](https://qiita.com/unhurried/items/56ea099c895fa437b56e)でも紹介されています通り、クリック後でページ遷移する場合、ログインするサイトのページによって、`page.waitForNavigation`メソッドの`waitUntil`オプションを適切なものに指定しないといけません。今回のページはログイン認証を処理するのに、何回かのページのロードが繰り返し発生しているようです。そこでコネクション数が0個になった状態から500ミリ秒経過したときを完了とみなす`networkidle0`オプションに変えてみます。 ```ts //... //👇③クリック後にページが遷移するまで待機 await page.waitForNavigation({ waitUntil: 'networkidle0' }); //... ``` すると、難攻不落だったページにもログインが可能となりました。 ![3 from 52](__3.jpg) ついでですが、ログインしたあとのページに存在する任意のDOMが生成された時点を遷移完了とみなす方法も良く利用すると思います。たとえばログイン後のページによくあるログアウトのボタンやリンクなどのDOMをターゲットに、`page.waitForSelector`メソッドでそのセレクタを指定します。たとえば以下のような感じです。 ```ts //... //👇③クリック後にページが遷移するまで待機 await page.waitForSelector('.logout'); //... ``` しかしながらこの方法も万能ではなくウェブサイトのレンダリング処理方法で変わってしまいます。今回のサイトではDOM要素を生成したあとにinnerHtmlなどのコンテンツが挿入される形式だったため、この方法はログインに適さなかったようです。 ![5 from 52](__5.jpg) DOMの生成後にvisibleになったり、hiddenされたりする要素を使った処理のあるサイトであったら、[page.waitForSelector](https://github.com/puppeteer/puppeteer/blob/main/docs/api.md#pagewaitforselectorselector-options)メソッドの第二引数に`visible: true`や`hidden: true`などを利用すると良いかも知れません。 ```ts //... //👇③クリック後にページが遷移するまで待機 await page.waitForSelector('.logout', {visible: true}); //... ``` ただしDOMが全てvisibleの状態になったとしても更に後段のスクリプトが走っている仕様のページもあるので、こちらも必ずしも最良の手段にはならない場合があります。 ### スクレイピングの実行では本題のスクレイピングを行います。通常puppeteerによるスクレイピングを行う場合、[page.evaluate](https://github.com/puppeteer/puppeteer/blob/v5.4.0/docs/api.md#pageevaluatepagefunction-args)メソッドを介してページ全体を操作する方法、もしくは、[page.$eval](https://github.com/puppeteer/puppeteer/blob/v5.4.0/docs/api.md#pageevalselector-pagefunction-args-1)や[page.$$eval](https://github.com/puppeteer/puppeteer/blob/v5.4.0/docs/api.md#pageevalselector-pagefunction-args)等のDOM操作用のメソッドを用いる方法などが考えられます。もちろんpuppeteerでゴリゴリとスクレイピングしても良いのですが、お目当てのページまで遷移できたなら、従来通りjs標準の正規表現のテクニックでhtmlのテキストを捌いていくことも出来ます。今回は後者の方を採用し、puppeteerでログインした後に正規表現でスクレイピングを行うことを想定して解説してみます。前節でログイン後に画像をキャプチャしたときのコードを以下のように修正します。 ```ts import puppeteer from 'puppeteer'; import { writeFile } from 'fs'; (async () => { try { const browser = await puppeteer.launch({ executablePath: '/usr/bin/chromium-browser', args: ['--disable-dev-shm-usage', '--no-sandbox'] }); const page = await browser.newPage(); await page.goto('https://trade.m******.co.jp/mgap/login'); //👇①input要素のname属性を利用したフォームの入力 await page.type('input[name="user"]', 'xxxxxxxx'); await page.type('input[name="password"]', 'xxxxxxxxxxxxx'); //👇②idがsubmit-btnのボタン要素をクリック page.click('#submit-btn'); //👇③クリック後にページが遷移するまで待機 await page.waitForNavigation({ waitUntil: 'domcontentloaded' }); //👇④現在のHTMLをテキストに変換 let bodyHtml = await page.content(); //👇⑤正規表現で生のhtmlを好きなように操作 //例として空白行部分を全て削除し、テキストファイルとして保存 bodyHtml = bodyHtml.replace(/(^\n|^\s*?\n)/gm, ''); console.log(bodyHtml); writeFile('/usr/src/app/result.txt', bodyHtml, (err) => { if (err) { throw err } console.log('Done'); }); await browser.close(); } catch (e) { console.error(e); } })(); ``` 前節と違うところは、④で`page.content`メソッドからページをまるごとテキストとして抽出できます。このメソッドは文字列として返してくれるので、⑤の部分のように自由に正規表現処理を挿入することができます。 --- ## 【応用編1】Amazonアソシエイトの情報を自動取得する Puppeteerを使えば、Amazonの商品ページからアソシエイトリンクや商品情報を自動で取得することも可能です。 Amazonのサイトから製品比較のサイトを構築するときには、Amazonのアソシエイトツールバーで生成したテキストリンクは概ね次のように長いクエリ文字を繋いでとても長々しいURLになってしまっています。 ```text Amazonアソシエイトリンクの長いクエリ文字 https://www.amazon.co.jp/dp/B01AJ7DH9O/ref=as_li_ss_tl?ie=UTF8&linkCode=ll1&tag=hogepiyo000-11&linkId=0123456789abcdef0123456789abcdef&language=ja_JP ``` これだと長くて貼り付けるのが嫌だという方のために、以下のような`短縮URL`機能が利用できるようになっています。 ```text 短縮URL版 https://amzn.to/3fVmrD5 ``` たしかにこれだと貼り付けるのも楽なのですが、URL文字列からASINも分からないようになってしまいます。後々で「コレは何の商品リンクだっけ？」と元のリンク先の商品を手繰るにとても手間がかかります。もっとスマートなリンクの貼り方はないものかと色々と調べたところ、Amazon.co.jpの特定の商品に対してシンプルなテキストリンクを作成したい場合、公式の[「ヘルプ > アソシエイトリンクの作成方法 > Amazon.co.jpの特定の商品へのシンプルなテキストリンクはどのように作ればよいですか。」](https://affiliate.amazon.co.jp/help/node/topic/GP38PJ6EUR6PFBEC)で述べられているように以下のURLフォーマットでも良いようです。 ```text 今回利用するURL https://amazon.co.jp/dp/ASIN/ref=nosim?tag=あなたのアソシエイトID ``` これならばURL短縮形ほど短くはないものの、後々URLのリンクを見ても商品のASINが確認出来ています。この点で、いいとこ取りのリンクフォーマットになっていると思います。特に自分のサイトで商品紹介をする場合、amazonのアフィリエイトリンクURLと画像の取得をブラウザから手で一つ一つ張ったり保存したりするのがそろそろ野暮ったく感じるようになってくるようになります。ここでは、puppeteerを使ってAmazonアフィリエイトURLと関連の画像と説明文を同時にローカルに保存してくれるだけのスクリプトを作成する際の勘どころを解説してみます。 ### 準備：shelljsとargparseのインストール今回はnodejsのスクリプトをツール風に仕立てるため、nodejs側から各種shellコマンドを呼び出せる[shelljs](https://github.com/shelljs/shelljs)と、node実行時にコマンドオプションとして引数を与えることができる[argparse](https://github.com/nodeca/argparse#readme)の2つユーティリティパッケージを導入します。 fs、httpなどのnodejsのネイティブなユーティリティだけでもオンライン上からのファイルを読み書きは可能ですが、画像を特定のurlから引っ張ってきてローカルにバイナリ保存するプログラムをわざわざ実装するのは面倒です。 Alpineのdockerイメージではもともとwgetが使えますので、shelljsからwgetを呼び出してファイルを取得・保存する方法を取るのがより効率的なやり方かと思います。プロジェクトへのインストールは以下のようにするだけです。 ```shell $ yarn add shelljs argparse -S $ yarn add @types/shelljs @types/argparse -D ``` typescriptから使うので定義ファイルをdevdependenciesに追加しておきます。 ### Amazonの商品ページ操作例① ~ 物販系 Amazonの商品ページでは、取り扱われている商品のカテゴリーのよって微妙にhtmlの構造が違いますので、カテゴリー別にページの構造をよく解析しながらpuppeteerの要素セレクタでゴリゴリとスクレイピングしていくスタイルになります。まずはAmazonの商品ページで一番取扱の多いであろう物販品のページフォーマットからやってみます。 #### ASINコードの探し方何はともあれ商品のASINコードは最低限見つけてこないといけませんので、お目当ての商品をAmazonのページで探ります。例えば会議用のwebカメラを紹介してみたい場合、商品ページのURLアドレスの`dp/`以降にある10桁くらいの文字列がASINコードとなります。(以下の図参照。) ![1 from 64](article64/__1.jpg) ここからこの商品のASINコードが`B08HQXVL9Y`と分かります。 ASINコードが分かると、puppeteerでアクセスする商品ページのアドレスも決まり、この例では`https://amazon.co.jp/dp/B08HQXVL9Y`から色々とスクレイピングできるようになります。 #### 商品タイトルの取得まずは商品ページ(`https://amazon.co.jp/dp/B08HQXVL9Y`)にあるタイトルだけ取得して、テキストファイルに保存させましょう。取得させたい要素の解析はブラウザ上で行います。今回はChromeを使いますが、どのブラウザでも基本的には同様のことが行えると思います。まず、puppeteerで取り込むターゲット要素の上で右クリックし、`[検証]`を選択すると開発者ツールのElementタブに選択したい要素の詳細は表示されます。 ![2 from 64](article64/__2.jpg) 特に、要素にid属性があるとセレクターの識別クエリの選択は楽になります。商品のタイトルは全て`id="productTitle"`のspan要素ですので、今回は`#productTitle`として中身が引っこ抜けます。ではプロジェクトのフォルダ構造を再利用してコーディングしていきます。 ```shell プロジェクト構造 $ tree -I node_modules . ├── Dockerfile ├── docker-compose.yml ├── package.json ├── src │ └── index.ts ├── tsconfig.json └── yarn.lock ``` まずは`src/index.ts`からコードを実装していきます。 ```ts index.ts import puppeteer from 'puppeteer'; import * as argparse from 'argparse'; import * as shell from 'shelljs'; (async () => { //👇コマンドとして実行時に引数として設定される const parser = new argparse.ArgumentParser({ description: 'Amazon Affiliate Link Generator' }); parser.add_argument('-a', '--asin', { type: 'str', help: 'Targeted ASIN code what you want.' }); const args_ = parser.parse_args(); //👇テキストや画像の一時保管先 // '/usr/src/app/tmp'というフォルダ内にリリースを保存 const _cwd = '/usr/src/app/tmp'; shell.rm('-rf', _cwd); shell.mkdir(_cwd); //👇シェルスクリプトでの echo '...文字列' > ${_cwd}/output.txt 相当 //shelljsを使うとテキストの保存もワンライナーで作成できる //ちなみにAmazonアフィリエイトのユーザーIDは一例のためhoge000-00としています shell.echo(`https://amazon.co.jp/dp/${args_.asin}/ref=nosim?tag=hoge000-00`).to(`${_cwd}/output.txt`); const browser = await puppeteer.launch({ executablePath: '/usr/bin/chromium-browser', args: ['--disable-dev-shm-usage', '--no-sandbox'] }); try { const page = await browser.newPage(); await page.goto(`https://www.amazon.co.jp/dp/${args_.asin}`); //👇①商品のタイトル要素を抽出 const title_ = await page.$eval('#productTitle', el => el.innerHTML); //👇テキストファイルにタイトルを書き込み //$ echo "${title_}" >> ${_cwd}/output.txt 相当のコマンド shell.echo(`${title_}`.replace(/^\n/gm, '')).toEnd(`${_cwd}/output.txt`); //👇②商品説明の要素を抽出 //コードは後述 //👇③価格情報の要素を抽出 //コードは後述 //👇④商品画像の習得 //コードは後述 } catch (e) { throw e; } finally { await browser.close(); } })(); ``` これでひとまずプログラムを走らせてみます。 ```shell #👇src/index.tsがビルドされる $ yarn build #👇-aもしくは--asinオプションに商品のASINコードを指定 $ yarn tap -a B08HQXVL9Y ``` 上手くプログラムが走ると、ルートの`tmp`フォルダ内に`output.txt`が生成され、以下の中身が取得されているはずです。 ```text output.txt https://amazon.co.jp/dp/B08HQXVL9Y/ref=nosim?tag=hoge000-00 GOPPA ウェブカメラオートフォーカス機能搭載フルHD 200万画素 1920×1080対応マイク内蔵 GP-UCAM2FA/E ``` #### 商品紹介の取得商品紹介の部分は、ul要素内の複数のli内に箇条書きのリスト項目で表示されている形式のため、内容文をすべて引っこ抜くためには、ul要素のinnerHtmlをそのまま習得するか、各liを全て個別に抜き取るなどの方法がかんがえられます。 ![3 from 64](article64/__3.jpg) puppeteerにはセレクターで複数マッチさせるのに使えるメソッドとして、 ```text 複数マッチ後に処理するメソッド $$ $$eval evaluate + querySelectorALL ``` の3つが用意されています。この3つは微妙に使い方と作用が違います。使い分けの詳細については[こちらのかたの記事](https://qiita.com/go_sagawa/items/85f97deab7ccfdce53ea)が詳しいとおもいますので、参考にしてください。では先程の`index.ts`に以下の項目を追加してみよう。 ```ts index.ts //...中略 //👇②商品説明の要素を抽出 const feature_ = await page.$$eval('#feature-bullets > ul > li > span', elms => elms.map(el => el.innerHTML) ); for (const elm of feature_) { shell.echo(`${elm}`.replace(/^\n/gm, '')).toEnd(`${_cwd}/output.txt`); } //...以下略 ``` 再度、ビルドしてスクリプトを実行すると、`output.txt`ファイルに商品紹介文が抽出されていたら成功です。 ```text output.txt https://amazon.co.jp/dp/B08HQXVL9Y/ref=nosim?tag=hoge000-00 GOPPA ウェブカメラオートフォーカス機能搭載フルHD 200万画素 1920×1080対応マイク内蔵 GP-UCAM2FA/E モデル番号を入力してくださいこれが適合するか確認： GOPPA製「GP-UCAM2FA」は、テレワークやビデオ配信に最適な200万画素WEBカメラです。オートフォーカスによる鮮明な映像、30FPSのなめらか動き、デジタルマイク内蔵など必要な機能をコンパクトに搭載していますので、ZoomやGoogle Meet、TeamsなどのWeb会議やオンライン飲み会でご利用いただけます。有効画素数：有効画素数、色数：有効画素数、最大解像度：1920×1080、最大フレームレート：30 FPS フォーカス：オートフォーカス、オートフォーカス：5cm〜∞、F値：F2.2、視野角度：75度対応OS：Windows 10、Windows 8、Windows 7、macOS 10.12 Sierra 以降保証期間：6か月 ``` ただし、抽出した結果をみていただくと、li要素の中身に更にspan要素が入れ子になっている場合もあります。完全にキレイな文として抜き出せるかどうかは、サイトがきれいな構造設計をされいるかに依るところが大きいです。ここらへんはある程度文を抽出できたら自分で細かい内容を修正するように妥協する他ありません。 #### 商品の値段情報の取得値段情報は商品ページの複数ヶ所に散らばっていたり、商品ページによって不規則に変化しているようです。今回のやり方もあくまでも目安ですが、値段は`id="priceblock_ourprice"`のspan要素、発送条件は`id="price-shipping-message"`のspan要素内のb要素にあるようです。 ![4 from 64](article64/__4.jpg) ということで`index.ts`には以下のコードを追加します。 ```ts index.ts //...中略 //👇③価格情報の要素を抽出 const price_ = await page.$eval('#priceblock_ourprice', el => el.innerHTML); const shipment_ = await page.$eval('#price-shipping-message > b', el => el.innerHTML); shell.echo(`${price_}`.replace(/^\n/gm, '') + ` ${shipment_}`).toEnd(`${_cwd}/output.txt`); //...以下略 ``` これをビルド・実行すると、output.txtに以下の価格情報が追加されていると思います。 ```text output.txt ￥5,506 通常配送無料 ``` #### 画像の取得商品の見出しとなる画像を一つurlリンクを辿って取得し、ローカルに保存もしたいときがあると思います。商品ページの見出し画像のリンクは、`id="imgTagWrapperId"`のdiv要素直下のimg要素にあるsrc属性から取得できます。 ![5 from 64](article64/__5.jpg) リソース画像の保存先が分かれば、あとはwgetでローカルに取得できます。以下がコーディングの一例です。 ```ts index.ts //...中略 //👇④商品画像の習得 const imgUrl_ = await page.$eval('#imgTagWrapperId > img', el => el.getAttribute('src')); shell.exec(`wget ${imgUrl_} -O ${_cwd}/amazon.jpg`); //...以下略 ``` ここでのポイントはshelljsによって外部のwgetが実行されているのですが、当然ながらシステムにwgetがインストールされて使えるようになっていないと使えません。 ### Amazonの商品ページ操作例② ~ 電子書籍(Kindle)系物販品以外での例も取り上げてみます。商品カテゴリーが違うとhtml構造もガラッと違うため、AmazonアフィリエイトURLの自動生成を行う場合は、スクリプトツールもカテゴリー別にして管理したほうが良いかもしれません。特に電子書籍やソフトウェアは発送情報はないので値段だけを抽出するところもあり、物販とは販売方法も異なります。まず以下に電子書籍の商品ページの取得コード例を修正するポイントだけを載せています。 ```ts index.ts //...中略 //👇①商品のタイトル要素を抽出 const title_ = await page.$eval('#productTitle', el => el.innerHTML); shell.echo(`${title_}`.replace(/^\n/gm, '')).toEnd(`${_cwd}/output.txt`); //👇②商品説明の要素を抽出 const elementHandle: any = await page.$('#bookDesc_iframe_wrapper > iframe'); const frame = await elementHandle.contentFrame(); subtitleSelector = '#iframeContent'; await frame.waitForSelector(subtitleSelector); const feature_ = await frame.$eval(subtitleSelector, (el: any) => el.innerHTML); shell.echo(`${feature_}`.replace(/^\n/gm, '')).toEnd(`${_cwd}/output.txt`); //👇③価格情報の要素を抽出 const price_ = await page.$eval('#tmmSwatches > ul > li:nth-child(1) > span > span:nth-child(1) > span > a', el => el.innerHTML); shell.echo(`${price_}`.replace(/^\n/gm, '')).toEnd(`${_cwd}/output.txt`); //👇④商品画像の習得 const imgUrl_ = await page.$eval('#ebooksImgBlkFront', el => el.getAttribute('src')); shell.exec(`wget ${imgUrl_} -O ${_cwd}/amazon.jpg`); //...以下略 ``` 電子書籍の商品ページの各要素取得に関しては、`②`の商品説明を抽出する時に、iframe要素を操作する必要があります。 ![6 from 64](article64/__6.jpg) サイトにもよりますが、iframeの中身はメインのhtmlが読み込みが完了してから実行されるjsスクリプトによってレンダリングされる仕組みがあります。きちんと読み込み完了後にiframe要素を取り込むようにpuppeteerへ知らせないとiframeの中身は取得できません。そこでiframe要素を取り出し、`contentFrame`メソッドを利用して、iframe内の要素にアクセスするようにpuppeteerに教えて挙げないといけません。 iframe要素内で目的の要素がレンダリング完了となるまで、`waitForSelector`で待つことができますので、これも上手く利用して、商品説明文を取得できるようになります。 --- ## 【応用編2】Raspberry PiでPuppeteerを動かす常時稼働するスクレイピングサーバーをラズパイで立てて、Dockerコンテナ内部からpupetteerで定期的に情報採集することも可能です。 ### Puppeteerには64bitベースのOSを使おうまず結論をズバッというと、ラズパイでpupeteerを使うには、もっと正確に言うと、最新のヘッドレスChromeの機能をフルに使うためには、この記事執筆現在もベータ版扱いである[Raspberrypi OS 64bit](http://downloads.raspberrypi.org/raspios_arm64/images/)を使うことが推奨です。なおご存知かとは思いますが、現在の[公式のRaspberry Pi OS(旧Raspbian OS)](https://www.raspberrypi.org/software/)といえば暗黙で32bitになります。 ### 上手くいかない例: 通常のRaspberry Pi OS (32bit)を使ってみるとりあえず何も考えないで動作環境は、手持ちのラズパイ3B+にRaspberry Pi OS 32bit版を使ってみます。まずはヘッドレスChromeを正常に動かすために`alpine:edge`をDockerHubからプルしてみます。 ```shell $ docker pull alpine:edge $ docker images REPOSITORY TAG IMAGE ID CREATED SIZE alpine edge 904d557dd3a3 3 weeks ago 3.82MB ... ``` これで一応はコンテナがローカルにセットできました。インタラクティブモードで中身に入れるかルートのまま入って適当なコマンドをやってみます。 ```shell $ docker run --rm -it alpine:edge sh /# uname -a Linux 1acab526291a 5.4.51-v7+ #1333 SMP Mon Aug 10 16:45:19 BST 2020 armv7l Linux ``` このDockerイメージはCPUアーキテクチャarmv71(RaspberryPi OS 32bit版相当)向けにビルドされていることが確認できます。以前の記事でalpineへのpuppeteerの導入方法を解説していましたので、この手順でラズパイでもやってみます。なお手元のラズパイでdockerとdocker-composeが使える前提にしていますので、2つが使えるようにしておきましょう。この時の動作確認時でのプログラムバージョンは以下の通りです。 ```shell $ docker --version Docker version 19.03.12, build 48a6621 $ docker-compose --version docker-compose version 1.25.5, build 8a1c60f6 ``` そのままビルドが通ればよかったのですが、なんだかシステムの環境によるエラーが発生してます。 ```shell $ docker-compose build Building app Step 1/7 : FROM alpine:edge ---> 904d557dd3a3 Step 2/7 : RUN apk update && apk upgrade && apk add --no-cache bash openssh expect ---> Running in 76dc8b73963d fetch https://dl-cdn.alpinelinux.org/alpine/edge/main/armv7/APKINDEX.tar.gz ERROR: https://dl-cdn.alpinelinux.org/alpine/edge/main: temporary error (try again later) WARNING: Ignoring https://dl-cdn.alpinelinux.org/alpine/edge/main: No such file or directory fetch https://dl-cdn.alpinelinux.org/alpine/edge/community/armv7/APKINDEX.tar.gz ERROR: https://dl-cdn.alpinelinux.org/alpine/edge/community: temporary error (try again later) WARNING: Ignoring https://dl-cdn.alpinelinux.org/alpine/edge/community: No such file or directory 2 errors; 14 distinct packages available ERROR: Service 'app' failed to build: The command '/bin/sh -c apk update && apk upgrade && ...' returned a non-zero code: 2 ``` なるほど、Alpineのapkのアップデートが出来ないというエラー...? パッケージにエラーがないか確かめてみます。 ```shell $ docker run --rm -it alpine:edge apk info WARNING: Ignoring https://dl-cdn.alpinelinux.org/alpine/edge/main: No such file or directory WARNING: Ignoring https://dl-cdn.alpinelinux.org/alpine/edge/community: No such file or directory musl busybox alpine-baselayout alpine-keys libcrypto1.1 libssl1.1 ca-certificates-bundle libtls-standalone ssl_client zlib apk-tools scanelf musl-utils libc-utils ``` レポジトリの2つが欠けているようなので、これがエラーになっている....? 同じようなエラーで悩んでいる方がいないかネットで検索していると、[同じような不具合の報告をされている方のサイト](https://blog.penginmura.tech/entry/2018/04/28/194523)を見つけて、`dockerをアップデートせよ`と書いてありました。 ...え、そんだけ...? と祈るような思いで`docker`を久々にアップデートしてみます。 ```shell $ sudo apt-get update && sudo apt-get install docker-ce $ docker --version Docker version 20.10.2, build 2291f61 ``` dockerを最新バージョンにロールアップしてみても全く効果が無く、無常にも同じエラーが繰り返されているようです。ただこの時点で、docker本体のプログラムは正常であることが分かりました。再度、良く問題の`alpine:edge`のコンテナの挙動を観察してみると、そもそもコンテナ内部からネットワーク外部にアクセス出来ていないことが分かります。 ```shell $ docker run --rm -it alpine:edge /# ping 127.0.0.1 PING 127.0.0.1 (127.0.0.1): 56 data bytes ping: clock_gettime(MONOTONIC) failed ``` pingさえlocalhostに通らないので、今回はイメージそのものにネットワークエラーの原因があるようです。とはいえ、`alpine:edge`以外のイメージからであれば、コンテナ内部からは正常に外部へアクセス出来ているようです。 ```shell $ docker run --rm -it arm32v7/alpine:3.11 /# ping 127.0.0.1 PING 127.0.0.1 (127.0.0.1): 56 data bytes 64 bytes from 127.0.0.1: seq=0 ttl=64 time=0.290 ms 64 bytes from 127.0.0.1: seq=1 ttl=64 time=0.278 ms 64 bytes from 127.0.0.1: seq=2 ttl=64 time=0.271 ms 64 bytes from 127.0.0.1: seq=3 ttl=64 time=0.269 ms 64 bytes from 127.0.0.1: seq=4 ttl=64 time=0.275 ms 64 bytes from 127.0.0.1: seq=5 ttl=64 time=0.276 ms --- 127.0.0.1 ping statistics --- 8 packets transmitted, 8 packets received, 0% packet loss round-trip min/avg/max = 0.269/0.275/0.290 ms ``` つまり、arm32用にビルドされていないイメージを使ってしまったことでエラーが起こっているようです。 [ここ](https://gitlab.alpinelinux.org/alpine/aports/-/issues/12091)で議論されていますが、 ```text This problem only happens on the raspberry pi with 32bit os with alpine:edge armhf ``` と言うことで、alpine:edgeをRasbianOS32bit環境で使うときに固有のネットワークエラーが発生してしまうのでCPUアーキテクチャを良く考慮する必要があるとのこと。 ### 上手くいく例: ベータ版のRaspberry Pi OS (64bit)を使ってみる現状ではDockerfileなどのリソースコードまで弄るとなると、簡単に解決することでもなさそうですので、心機一転、別のラズパイ機でRaspberryPiOSの64bit版から試すことにしました。まず[RaspberryPiOSの64bit版](http://downloads.raspberrypi.org/raspios_arm64/images/)を入れ直し、[dockerが使えるように](https://qiita.com/eitsupi/items/92353b2f1b70616077db)しておきます。 ```shell $ uname -a Linux raspberrypi 5.10.5-v8+ #1392 SMP PREEMPT Sat Jan 9 18:56:30 GMT 2021 aarch64 GNU/Linux $ cat /etc/os-release PRETTY_NAME="Debian GNU/Linux 10 (buster)" NAME="Debian GNU/Linux" VERSION_ID="10" VERSION="10 (buster)" VERSION_CODENAME=buster ID=debian HOME_URL="https://www.debian.org/" SUPPORT_URL="https://www.debian.org/support" BUG_REPORT_URL="https://bugs.debian.org/" ``` この64bit環境で早速`alpine:edge`を試してみます。 ```shell $ docker pull alpine:edge $ docker run --rm -it alpine:edge /# uname -a Linux c3f81c1d71cb 5.10.5-v8+ #1392 SMP PREEMPT Sat Jan 9 18:56:30 GMT 2021 aarch64 Linux #👇pingを叩くと反応あり /# ping localhost PING localhost (127.0.0.1): 56 data bytes 64 bytes from 127.0.0.1: seq=0 ttl=64 time=0.214 ms 64 bytes from 127.0.0.1: seq=1 ttl=64 time=0.238 ms 64 bytes from 127.0.0.1: seq=2 ttl=64 time=0.224 ms 64 bytes from 127.0.0.1: seq=3 ttl=64 time=0.254 ms 64 bytes from 127.0.0.1: seq=4 ttl=64 time=0.229 ms --- localhost ping statistics --- 5 packets transmitted, 5 packets received, 0% packet loss round-trip min/avg/max = 0.214/0.231/0.254 ms ``` では今度こそDockerイメージをビルド出来るか再トライしてみましょう... ```shell $ docker-compose build Building app Step 1/7 : FROM alpine:edge ---> 9079f290228e Step 2/7 : RUN apk update && apk upgrade && apk add --no-cache bash openssh expect ---> Running in 02b3d58d9141 fetch https://dl-cdn.alpinelinux.org/alpine/edge/main/aarch64/APKINDEX.tar.gz fetch https://dl-cdn.alpinelinux.org/alpine/edge/community/aarch64/APKINDEX.tar.gz v3.13.0-156-gb9f6e9e586 [https://dl-cdn.alpinelinux.org/alpine/edge/main] v3.13.0-168-gc177701a68 [https://dl-cdn.alpinelinux.org/alpine/edge/community] OK: 13805 distinct packages available Upgrading critical system libraries and apk-tools: (1/1) Upgrading apk-tools (2.12.0-r3 -> 2.12.0-r4) #...省略 Removing intermediate container 671b64657589 ---> adcd7e21988d Successfully built adcd7e21988d Successfully tagged puppeteer-alpine:edge ``` ...ようやく無事ビルド出来ました!🎉 やはり先程までのdockerコンテナ内部からネットワークに繋がらなくなる不具合はRaspberryPiOSの32bit版内部で引っかかっていたようです。これで晴れて、ラズパイでもpuppeteerが使えるようになりました。 ![1 from 77](article77/__1.jpg) --- ## 【応用編3】reCAPTCHA v2認証を突破する Google reCAPTCHA v2は「私はロボットではありません」でお馴染みの現在広く認知された認証方式の一つになっています。ここでは、PuppeteerでreCAPTCHA v2認証をパスする方法を検証します。 ### reCAPTCHA v2のあるログイン認証 reCAPTCHA v2を採用している某ネット証券でログインできるかを確認します。 ![1 from 157](article157/__1.jpg) reCAPTCHAは埋め込みのiframeによって提供される仕組みです。埋め込みのiframe要素は、puppeteerで別のブラウザコンテクストとして扱われますので、通常の要素セレクタからクリックでログイン試みるやり方だと、クリックは容易ではありません。 iframe要素を考慮した対策でreCAPTCHAを突破することが必要になります。 ### マウスクリックで試す reCAPTCHA v2の仕組みはiframe要素をブラウザ閲覧者が直接マウスクリックすることで初めて動作するJavascript駆動の認証方式です。ポイントとしてはreCAPTCHAが描画されるiframeの直前の要素か、もしくは一層上の親ノードをターゲットの座標を取得することにあります。 ![4 from 157](article157/__4.jpg) 基準となる位置が取得できたら、そこから少し下目の座標にカーソルを移動、そしてiframeが描画されている領域をクリックすることで、擬似的にマウスクリックが実現できます。ということで、今回のウェブサイトのログインに合わせた実装は以下のようになります。 ```ts import puppeteer from 'puppeteer'; const browser: puppeteer.Browser = await puppeteer.launch({headless: true}); const page: puppeteer.Page = await browser.newPage(); try { //👇reCAPTCHA式のログインページに移動 await page.goto('https://某D●M証券/login'); //👇ユーザー名＆パスワードを打ち込む先のフォーム要素 const form = await page.$("form.c-form"); if (form) { //👇各inputにユーザー名とパスワードを入力 const user = await form.$("input[name='email']"); await user?.type('ユーザーID・Email'); const password = await form.$("input[name='password']"); await password?.type('パスワード'); await page.waitForTimeout(500); //👇reCAPTCHAのiframeをラップしている親要素を選択 const targetElementSelector = "div.g-recaptcha"; await page.waitForSelector(targetElementSelector); //👇先程の親要素のHTMLページ中の座標系情報を取得 const recaptchaPosition = await page.evaluate((selector) => { const el = document.querySelector(selector); const rect = el.getBoundingClientRect(); return { height: rect.height, width: rect.width, x: rect.left, y: rect.top }; }, targetElementSelector); //👇先程取得した座標からiframeが描画されている分少しずらした位置でマウスクリック! const margin = 3; if (recaptchaPosition) { await page.mouse.move(recaptchaPosition.x + margin, recaptchaPosition.y + margin, { steps: 1 }); await page.mouse.click(recaptchaPosition.x + margin, recaptchaPosition.y + margin); await page.waitForTimeout(1000); } //👇入力操作が終わったらフォーム送信 const submit = await form.$("button[type='submit']"); submit?.focus(); submit?.click(); } } catch (error) { console.log(error); } finally { browser.close(); } ``` 上の方法でマウスクリックをエミュレートするやり方でならばreCAPTCHAのiframeを上手くクリックすることが可能です。運良く、画像クイズがでなければそのままログインも可能ですが、最初にログインしてくるような素性のわからないブラウザ環境からだと必ずと言っていい確率で例のアレが出てきます。 ![3 from 157](article157/__3.jpg) まぁ結局の所、ヘッドレスのままで画像クリック照合がクリアするのが難しいので、一度ログインしてクッキーが残っているブラウザからヘッドレスで使うと上手くいくかも知れませんが...運次第ですかね。画像クイズによる認証はさすがにヘッドレスブラウザ環境だと厳しいので、今後は別のログイン手段を模索します。 ### 保存済みクッキーを活用する |px>{1}「ヘッドレスブラウザからのpuppeteer操作だけだと、クイズ形式の画像認証が突破できない」{1}「保存済みクッキー」