プログラミング不要超簡単！スクレイピング

WEBサイトの情報を収集するスクレイピング、PythonやJavascriptで行うためプログラミングのスキルが必要で諦めている方もいらっしゃるのではないでしょうか。

もちろん、必要な情報によってはプログラミングでないとうまく収集できないものもありますが、だいぶ様々な情報がGoogle Spreadsheetのシンプルな関数だけで自動で収集できるようになります。

それはIMPORTXMLという関数です。しかもコピペを2回するだけで関数設定ができちゃいます。

手順
場合によってはもっと簡単な方法も可能
関数で取得できないデータもあります

手順

動画でも紹介しています！

まずはGoogle スプレッドシートを開きます。

そして関数を入力します

=IMPORTXMLと入力をします。カッコ内には(URL,XPath)が入ります。

それぞれを入力するときには””で囲みます。以下のようなイメージです。
=IMPORTXML(“https://XXXXXXXX.com/”,”//*[@id=’content’]/div/span”)

注意点は後ほど触れます。まず流れを説明します。

収集したい情報があるWEBサイトのURLをコピペする

今回はこちらの株価を取得したいと思いますので、「https://www.bloomberg.co.jp/markets/stocks/world-indexes/americas」をコピペします。

以下の感じです。

=IMPORTXML(“https://www.bloomberg.co.jp/markets/stocks/world-indexes/americas“,

次にXPathをコピペします

XPathとは簡単に言ったら住所みたいなものです。コピペするだけなので細かいことは気にしなくて大丈夫です。

詳しく知りたい方は以下の記事などを参考にしてください。

クローラ作成に必須！XPATHの記法まとめ - Qiita

最近クローラーを作成する機会が多く、その時にXPathが改めて便利だと思ったのでXPathについてまとめてみました！XPathを学ぶ方の役に立てれば幸いです。初級編XPathとはXPath…

以下の数字を取得したいので数字の上で右クリックします。

するとこのような画面に切り替わります。そして一部色が塗られた状態になっているかと思います。

その色が塗られた箇所で右クリック＞＞Copy＞＞CopyXPathをクリックします。これでXPathがコピーされました。

あとは先ほどの関数に入力してあげるだけです。

=IMPORTXML(“https://www.bloomberg.co.jp/markets/stocks/world-indexes/americas”,”//*[@id=”content”]/div/div/div[4]/div[3]/div/table/tbody/tr[14]/td[1]/span“)

ただ、ここで注意点があります！

「”」ダブルクォーテーションでXPathを囲むのですが、もしXPath内に「”」ダブルクォーテーションで囲まれた部分があったら「’」シングルクォーテーションに変えてあげる必要があります。

=IMPORTXML(“https://www.bloomberg.co.jp/markets/stocks/world-indexes/americas”,”//*[@id=‘content‘]/div/div/div[4]/div[3]/div/table/tbody/tr[14]/td[1]/span”)