近年、WebスクレイピングによってWeb上の情報収集を行い、大量のデータをもとに分析する企業が増えてきました。しかし、違法になり得るという話を聞き、業務での利用に不安を感じることでしょう。今回は、Webスクレイピングの違法性について取り上げ、違法になり得る事例や違法にならないための対応策をご紹介します。
はじめに、Webスクレイピングの意味を確認しておきましょう。「スクレイピング(Scraping)」は、「こする」「かき集める」などの意味を持つ「Scrape」に由来する言葉です。スクレイピングといえば、一般的にWebスクレイピングのことを指すことが多くなっており、その場合、Web上の情報をかき集めるといった意味合いとなります。
つまりWebスクレイピングは、Web上の情報から必要なものを自動抽出する技術のことを指します。多くの事業者がWebスクレイピングを実施する理由は、情報収集によってビジネスに役立てるためです。
例えば、膨大な数のECサイトから自社商品の競合となる商品の価格情報を収集し、リストアップすることにより、自社商品の競合と比較した上での戦略に基づいた価格設定が可能になります。
関連記事:Webスクレイピングとは?仕組みや活用事例など分かりやすく解説!
Webスクレイピングと似たものに「Webクローリング」があります。Webクローリングとは、Web上の情報を収集する方法の一つで、Webサイトを巡回して情報を収集しリストアップすることができます。
しかし、WebクローリングはWebスクレイピングのように「抽出」の意味合いは持ちません。したがって、WebクローリングがWebページを収集するのみであるのに対して、WebスクレイピングはWebページの特定の情報を抽出するという違いがあります。
ビジネスに大いに役立てられているWebスクレイピングですが、法律で規制されており、違法なのではないかと指摘されることがあります。しかし、Webスクレイピングは基本的に実施すること自体に違法性はありません。
なぜなら、Web上に公開されているWebサイトやWebコンテンツなどから情報を収集するという行為は、誰かが意図的に公開しており、誰もが自由に閲覧できる情報を集める行為だからです。つまり、Webスクレイピングは、Web上で実際に検索し情報を収集をする行為と同等とみなされ、法的に問題ありません。
しかし、収集した情報の取り扱い方や収集の仕方よっては違法行為となる場合があるため、留意の上、スクレイピングを実施する必要があります。
なぜなら、Web上に公開されている情報を収集するという行為は、誰かが意図的に公開しており、誰もが自由に閲覧できる情報を集める行為だからです。つまり、WebスクレイピングはWeb上で実際に検索して情報を収集をする行為と同等とみなされ、法的に問題ありません。
しかし、収集した情報の取り扱い方や収集の仕方よっては違法行為となる場合があるため、留意の上、実施する必要があります。
Webスクレイピング自体に違法性がないとしても、違法行為となってしまうケースにはどのようなものがあるのでしょうか。主な例を以下にご紹介します。
Web上には、個人情報が掲載されていることがあります。SNSなどはそのわかりやすい例です。
個人情報保護法において定義されている個人情報とは、生存する個人に関する情報で、氏名、生年月日、住所、顔写真などにより特定の個人を識別できる情報のことです。他の情報と容易に照合することができ、それにより特定の個人を識別することができることとなるものも含まれます。例えば、生年月日や電話番号を氏名と組み合わせると特定の個人を識別できるため、個人情報に該当する場合があります。
メールアドレスについても、ユーザー名やドメイン名から特定の個人を識別することができる場合は、メールアドレス自体が個人情報に該当します。
個人情報は、本人の同意なく、取得し、公開し、売買するようなことは法律で禁じられています。そのため、Webスクレイピングで入手した個人情報を本人の同意なく、取得し、公開し、売買することは基本的に違法 となります(ただし違法にならないケースもあります)。
Webスクレイピングで入手した情報の中には、著作権法で守られている著作物が多く存在します。著作物とは思想や感情を創作的に表現したものを指し、著作物を独占できる権利である「著作権」を有します。そのため、著作物を利用するためには、原則として著作権者の同意を得る必要があります。
つまり、著作権者の許諾なしに、収集した著作物を含むデータをWebサイト上に公開する、コピー&ペーストして自社のサーバやパソコンに保存する、第三者に譲渡・販売して収益を得るといった利用は著作権法で禁止されており、著作権侵害にあたる違法行為となります。
頻繁にWebスクレイピングを行うことで、収集先Webサイトのサーバーに過度な負担をかけてしまう可能性があります。もし収集先WebサイトがWebスクレイピングによって動作が重くなり、Webページの閲覧に支障が出た際には、業務妨害と判断される恐れがあるため、十分注意しなければなりません。
Webスクレイピングを行うことで、違法行為となることはもちろんのこと、トラブルに発展することも避けたいものです。そこで、事前にリスクを予防する対策をご紹介します。
APIとは、「Application Programming Interface/アプリケーション・プログラミング・インターフェイス」の略で、Webサービスなどのアプリケーションが別のアプリケーションと情報をやり取りするためのインターフェース のことを指します。APIを通して情報を取得することで膨大な量の情報を手軽に取得できます。もし収集先のWebサイトがAPIを公開しているのであれば、WebスクレイピングではなくAPIを利用する方法も検討しましょう。
以下記事では、Webスクレイピングとの違いに触れながらAPIの詳細を解説しています。APIを検討する場合は、合わせてご覧ください。
関連記事:WebスクレイピングとAPI利用の違いとは?特徴や活用法で比較
個人情報を本人の同意なく取得する行為は法律で禁止されています。Webスクレイピングの収集対象からは外しましょう。取得した情報に個人情報が含まれていることもあるため、注意が必要です。
取得した情報に著作物が含まれている場合は、取り扱いに注意しなければなりません。収集したままの情報ではなく、著作権侵害にならない状態で利用・提供する必要があります。
著作権法では「例外規定」が設けられており、この例外規定が適用される場合には許諾を得ずに著作物を利用できますが、目的外で著作物を使用することはできません。Webスクレイピングに関連する例外規定としては、「情報解析」についての言及です。詳細については、以下をご覧ください。
関連記事:Webスクレイピング・Webクローリングと著作権法について。注意点を解説
収集先のWebサイトのサーバーに負荷をかけないためには、間隔を空けてサーバーにアクセスするなどの十分な予防策が必要です。特にPythonなどで自らプログラミング開発して実行する際には、頻度を自由に設定できるため、高頻度になりすぎないようにする必要があります。
Webサイトによっては、利用者によるスクレイピングを技術的に困難にする対策を講じ、Webスクレイピングを禁止している場合もあります。厳密な定義があるわけではありませんが、Webサイト側でスクレイピングを意図的に禁止しているという意味合いで、このような禁止サイトにも注意するようにしましょう。
Webスクレイピングは、ビジネスに欠かせない情報収集を効率化することから、有意義な活動です。違法になる恐れもありますので、注意事項を守りながら、適切なスクレイピングを行いましょう。
Webスクレイピングサービス「ShtockData」であれば、法律や注意事項に考慮したスクレイピングサービスをご提供いたします。 情報収集・分析を効率化することで、ビジネスの有意義な成果につながります。ぜひご検討ください。
市場シェアNo.1 WebスクレイピングサービスならShtockData
機能や特徴など、ShtockDataについて1冊にまとめました。Webサイト上に記載していない情報まで集約しています。ぜひお気軽にダウンロードしてみてください。
平成12年11月22日
6,700万円
小林 一登
105-0003 東京都港区西新橋一丁目8番1号 REVZO虎ノ門4F
03-6384-5911
9:00〜18:00(JST)
自然言語処理エンジンの研究開発
ビッグデータの収集・整理・蓄積・可視化
ルーチン業務の自動処理システム提案
共同ピーアール株式会社/ 株式会社ファーストリテイリング/ アデコ株式会社/ カシオ計算機株式会社/ 日本放送協会/ 株式会社ZOZO/ 株式会社東芝/ パナソニック株式会社/ 株式会社リクルート住まいカンパニー/ 総務省統計局/ 中部国際空港株式会社