昨今、社内外のあらゆる情報を収集して分析し、意思決定に役立てることは、ビジネスを有利に進めるために必要不可欠となっています。そのような背景から、Webスクレイピングを活用するケースが増えてきていますが、具体的にどのようなことができるでしょうか。また、業務課題の解決に役立つのでしょうか。
今回は、Webスクレイピングでできることや事例をメインに、それらを実現するための方法も解説します。
Webスクレイピングとは、Web上の情報から必要なものを自動抽出し、分析・加工する技術のことを指します。
スクレイピング(Scraping)は「こする」や「かき集める」といった意味を持つ「Scrape」という言葉からきています。つまりWeb上の情報をこすり落とすようにかき集めるという意味となります。
近年は、Web上に大量の情報が公開されるようになりましたが、人が一つ一つのWebサイトを開き、1ページずつ、コピー&ペーストしながら情報を収集していたのでは、途方もない労力と時間がかかってしまいます。そこで必要な情報だけを自動抽出するプログラムが開発されました。それがWebスクレイピングです。
関連記事:Webスクレイピングとは?仕組みや活用事例など分かりやすく解説!
Webスクレイピングと似た言葉に「クローリング」があります。クローリングも、Web上の情報を収集する方法の一つです。クローリングは、Webサイトを巡回し、Webサイトの構造や要素を探って把握した上で、情報を収集しリストアップするものです。
関連記事:Webクローリングとは?基本的な仕組みから活用法まで分かりやすく解説
Webスクレイピングは情報をただ収集するのではなく、必要な情報を自動で抽出します。つまり、余分な情報を削り取り、必要な情報だけを取得することが特徴です。WebスクレイピングとWebクローリングの違いについて、詳細は以下の記事をご覧ください。
Webスクレイピングでできることは多様にありますが、ここでは主にどのような用途で使えるかをご紹介します。
まず「Webスクレイピングでできること」としては、Web上の大量のデータを自動で収集し、定期的なスクレイピングによってデータ変動の定点観測が可能になるといったことが挙げられます。
上述したように、人力でWebサイトを一つ一つ開いてコピー&ペーストしていては、途方もない労力と時間がかかってしまいます。さらには、誤った情報を収集する可能性もあり、そのミスを確認することも労力がかかります。何百、何千ページに渡る情報を毎日取得する作業を人で行うのは非現実的ですが、Webスクレイピングであれば実現可能ということです。
Webスクレイピングを活用することで、マーケティングに役立つさまざまな情報を収集できます。
競合他社サイトやSNSからの新着情報や、製品・サービスに関する情報を取得することで、市場の動向を知るための分析に活用できます。ただし、特にSNSからの情報収集の際には、利用規約をよく確認した上でWebスクレイピングを行いましょう。場合によってはWebスクレイピングが禁じられているケースがあるためです。その他のWebサイトについても同様に確認しましょう。
検索エンジンにおける検索順位の収集に役立ちます。スクレイピングを行うことにより、自社サイトや複数の競合サイトの検索順位を自動で収集することが可能になります。検索順位を確認すれば、自社サイトの状況やどのような記事が上位に表示されているのかを知ることができるので、SEO対策を行う際の重要なヒントになります。
営業部門が営業対象のリストを集めるために、Webスクレイピングが役立ちます。Web上に公開されている企業HPやサービスから自社の営業先となり得る見込み顧客の情報を自動収集し、条件を追加すれば、特定企業だけをリストアップすることも可能です。このようにして作成した営業リストは、人力で集めるよりもはるかに多くの数を集めることができます。
定期的な情報収集が可能なWebスクレイピングを活用すれば、上場企業の株価の変動を毎日確認し、追跡することも可能です。それにより、経済状況の把握や投資判断の材料となりえます。ただし、上述したように、サイトによってはWebスクレイピングが禁じられているサイトもあるため、事前に確認する必要があります。
株価だけでなく、ECサイトの商品価格やオークションサイトでの商品落札価格などの収集もWebスクレイピングによって実現できることです。
ECサイト上の競合他社の価格はもちろん、価格に影響するセール情報や商品説明も必要な情報だけ抽出できます。さらには、定期的な情報収集によって、時系列の価格変動データを作成できます。これにより、自社商品の価格を最新市場に合わせて更新することが可能となります。
オークションサイトも同様に、商品価格に加えて商品に関連する情報を合わせて取得すれば、市場価値を予測することもできるでしょう。
現在の不動産価格をWeb上の膨大なデータから抽出する作業を手動で行うのであれば、コストと時間がかかってしまいます。そのような場合にスクレイピングを用いることで、不動産価格の一括取得と収集作業の省人化が可能になります。収集したデータは、不動産査定などに役立てることができます。査定にはできるだけ数多くの情報を持って行う必要があるため、スクレイピングは適しているといえます。
研究に要する情報収集は、頻度や数によって研究の成果も左右されるため、非常に重要といえます。しかし手動による収集方法では、1ヶ月ほどかかっていたというケースもめずらしくありません。スクレイピングを用いることで、データ収集作業が数日~1週間に短縮できることもあります。
Webスクレイピングでできることを大まかに理解していただけたかと思います。続いて、実際にWebスクレイピングを導入した事例をいくつかご紹介します。目的や課題に対してどのようにWebスクレイピングを活用したか、それによってどんな成果が出たのか、などを押さえ、自社への導入の参考としてください。
メーカー企業であれば、消費者が企業イメージや商品への信頼を商標で識別するケースが少なくないため、ブランドの顔としての役割でもある「商標」を守らなければなりません。もしその商標を無断で不正に使用された場合、企業への損害を防ぐために対応する必要があります。
ここでの「対応」とは、Web上の商標無断使用を手動で片っ端から検索・調査することから始まります。この件数が非常に多く、膨大な手間と時間がかかっていたため、Webスクレイピングを導入しました。
すると、調査作業の手間削減を実現しただけでなく、「同じような調査作業の繰り返しで先が見えない」という精神的な負担が大きく軽減されたという効果も得られました。以下の関連記事を参考に、より詳細な課題や成果をイメージしてみてください。
関連記事:自社ブランド・商品名など商標の無断使用対策としての導入事例:白元アース株式会社様
上述の通り、現在の不動産価格を一括で取得し、収集する作業が省人化できるだけでなく、価格含めた物件にまつわる情報も取得できます。
店舗を有する業態であれば、立地や商圏などを考慮した出店戦略を立てるように、「店舗開発」が非常に重要です。その店舗開発は物件探しから始まり、不動産業者からの情報、もしくは人力での調査が主な手段です。特に人力での情報収集は、手間や時間がかかるだけでなく、調査担当のスキルや判断基準に依存してしまう課題もあったため、Webスクレイピングを導入しました。
すると、1時間の業務が15分程度に短縮されるだけでなく、空いた時間を組織を強化するための施策に回すことができました。以下の記事でより詳細の成果を解説しています。
関連記事:店舗開発における物件情報収集の時間短縮と精度向上を実現した導入事例:株式会社きずなホールディングス様
自社のセールス担当が顧客によりよい提案を行うために、有益な情報や販促ツールを提供する役割が存在し、その部署は日々、膨大な量の情報収集に追われていることになります。情報収集だけでなく、集計して可視化する作業もすべて人力で行っており、膨大な時間がかかっていたため、Webスクレイピングを活用しました。
データの取得から可視化まで可能なWebスクレイピングサービスを導入したことで、一部の作業だけで2~3日かかっていたところ、データの自動収集、可視化、分析まで2時間ほどに短縮できたのです。具体的なイメージは以下の記事でご確認ください。
上記のようなWebスクレイピングでできることを実現するためにはどのような手段があるのか、確認しておきましょう。
Webスクレイピングは、プログラミング言語を使って実施できます。多く使われる言語には、Python、PHP、Rubyなどがありますが、最も多く使われているのはPythonです。Pythonには、Webスクレイピングが容易に行えるライブラリ(プログラムに組み込めるコードなどの部品)があるためです。
Pythonを利用する場合、「Requests」と「Beautiful Soup」といった2つのライブラリを用いることで、簡単に行うことができます。「Requests」はWebページを取得するために利用でき、「Beautiful Soup」は取得したWebページからHTMLを抽出できます。2つのライブラリを組み合わせることで、Webスクレイピングが可能になります。
自分でプログラミングを行ってWebスクレイピングを行う方法が向いているケースは次の通りです。
・プログラミング知識も人的リソースもある場合
・コストをかけたくない場合
・個人レベルのリサーチに留まる場合
プログラミングに関する専門知識があり、自作にかけるリソースがある場合は、コストをそれほどかけずに行えることもあり、向いているといえます。他にも、目的が個人レベルのリサーチの範囲に留まる場合も向いているといえるでしょう。自分でプログラミングを行う詳細については、以下関連記事で解説していますので、合わせてご確認ください。
関連記事:Webスクレイピングのやり方をゼロから解説!方法・手順まとめ
Webスクレイピングを代わりに行ってくれるサービスを利用したり、自動化できるツールを利用したりする方法もあります。
Webスクレイピングサービスでは、収集したい情報を指定したら、Webサイトを周期的にクローリング(巡回)し、Webページ上のデータを抽出、収集してくれます。データは、希望の標準化された形式に変換され、クラウド上のデータウェアハウスに格納するサービスも存在します。ただの情報収集ではなく、利用しやすい形に整えてくれるところまで、サービス内容に含まれていることもあります。
サービスやツールを利用してWebスクレイピングを行う方法が向いているケースは次の通りです。
・法人で本格的に実施したい
・プログラミング知識も人的リソースも不足している
・効率的なサービスやツールを活用したい
・DX、業務効率化を目指している
・膨大なデータを定期的に収集したい
Webスクレイピングツールの場合、早く安価に導入することができますが、ツールの使い方や運用などを自社で理解していく必要があります。そのため、対応リソースやデータ関連ノウハウに不安要素があまりなく、必要なデータもある程度想像できているようなWebスクレイピングだけを行いたい場合に向いているといえるでしょう。
Webスクレイピングサービスの場合、情報収集からデータ整形まで対応してくれるようなワンストップサービスもあり、対応リソースが不十分な企業は第一選択肢となるでしょう。非エンジニアの初心者でも学習コスト不要でWebスクレイピングを実行できるため、自社で新たに人材と環境を用意するよりも、コスト削減につなげられるメリットがあります。
Webスクレイピングで実現できることや適切なケースをご紹介しましたが、最後にWebスクレイピングを利用する際の注意点を解説します。
収集先のWebサイトサーバーに過度な負担をかけないようにしましょう。高頻度のWebスクレイピングによって、Webサイトが閲覧しにくくなる恐れがあるため、注意が必要です。
また、著作権法を遵守する必要があります。個人情報を同意なく取得する行為は禁止されているため、収集対象から外す必要があります。また、取得した情報に著作権のあるコンテンツが含まれる場合、著作権法を無視した利用、複製などを行ってはいけません。
Webスクレイピングでできることをご紹介しました。さまざまな業界で多用途に活用できることがわかります。Webスクレイピングを実施するために、Webスクレイピングサービスをご希望の場合には、「ShtockData」をおすすめします。
Webサイトを周期的にクローリング(巡回)し、Webページ上のデータを抽出、収集するサービスです。600万サイト以上、1500億ページ以上のクローリング実績があり(※ 2021年12月7日時点)、安心して業務にご利用いただけます。
機能や特徴など、ShtockDataについて1冊にまとめました。Webサイト上に記載していない情報まで集約しています。ぜひお気軽にダウンロードしてみてください。
平成12年11月22日
6,700万円
小林 一登
105-0003 東京都港区西新橋一丁目8番1号 REVZO虎ノ門4F
03-6384-5911
9:00〜18:00(JST)
自然言語処理エンジンの研究開発
ビッグデータの収集・整理・蓄積・可視化
ルーチン業務の自動処理システム提案
共同ピーアール株式会社/ 株式会社ファーストリテイリング/ アデコ株式会社/ カシオ計算機株式会社/ 日本放送協会/ 株式会社ZOZO/ 株式会社東芝/ パナソニック株式会社/ 株式会社リクルート住まいカンパニー/ 総務省統計局/ 中部国際空港株式会社