自治体通信ONLINE
  1. HOME
  2. 自治体向けサービス最新情報
  3. ビッグデータ等の利活用推進に関する産官学協議のための連携会議について~第8回会議より【自治体事例の教科書】

ビッグデータ等の利活用推進に関する産官学協議のための連携会議について~第8回会議より【自治体事例の教科書】

ビッグデータ等の利活用推進に関する産官学協議のための連携会議について~第8回会議より【自治体事例の教科書】

総務省では各府省や地方公共団体をはじめ、民間企業等におけるデータ等の相互利活用を推進するために、平成30年5月から「ビッグデータ等の利活用推進に関する産官学協議のための連携会議」を開催しています。令和元年11月13日に開催された第8回ビッグデータ等の利活用推進に関する産官学協議のための連携会議では「消費者物価指数(CPI)へのウェブスクレイピングの活用について 」が協議されました。その概要を紹介します。

【目次】
■現在の消費者物価指数(CPI)について
■消費者物価指数(CPI)へのウェブスクレイピングの活用に向けて
■今後のウェブスクレイピング取り組み拡大に向けた方向性について

現在の消費者物価指数(CPI)について

総務省では、物価の変化を総合的かつ客観的に表す指標として、消費者が購入する商品やサービス物価の動きを捉えることを目的とした消費者物価指数を作成し、毎月公表しています。消費者物価指数の指数品目には家計調査において、消費者が実際に記入した家計簿の集計結果をもとに、支出額の多い品目が選定されています。

家計調査の対象は、全国の市町村の中から168市町村を選び、調査市町村から調査地区を無作為に選定。さらに調査地区から調査世帯を無作為に選定して、約9,000 世帯に毎月家計簿の記入を依頼し、毎日の収入と支出について詳細な調査を行って、消費者世帯の購入行動を代表する品目を洗いだします。

次に消費者世帯の購入行動を代表する585品目について、売れ筋商品(銘柄)を選定するため、約28,000事業所におよぶ全国のスーパーなどの実地調査をはじめ、各社のWebサイト、POSデータにより価格情報を収集します。また、物価変動を継続的に捉えていくために、同品質の商品の価格を追跡して把握します。

価格収集にあたっては、食品、飲料、生活家電、衣料品、医薬品、交通、教育、教養娯楽サービスなど幅広い約490品目について、スーパー、専門店などへ統計調査員が実地調査を行っています。また、総務省の職員がメーカーのサイトやECサイト、オンライン販売サイトなどのウェブサイト等を通じて、セルフ式のコーヒー飲料、外食のドーナツ、リサイクル料金、乗用車、ロードサービス料、有料道路料、鉄道運賃などの店頭販売価格と、航空運賃、サッカー観覧料、テーマパーク入場料、電子書籍、動画配信、オンラインゲームなどのウェブコンテンツ利用料、ネットバンキングなどの振込手数料、週刊誌、サプリメントなどのネット販売価格を併せ、約50品目について調査を行っています。

なお、現行の消費者物価指数(CPI)では、ネットショッピングによる購入割合が高い品目と、ネット上で対面販売価格と同一価格が把握できる品目については、ネット販売価格が反映される仕組みです。さらにデスクトップ型、ノート型のパソコンとカメラのPOSデータも収集されます。

消費者物価指数(CPI)へのウェブスクレイピングの活用に向けて

従来、各家庭と市町村の協力のもとで地道に行われてきた消費者物価指数(CPI)の調査ですが、近年のネット販売の増加とネット情報の収集技術の進歩により、ウェブサイトから情報を抽出するウェブスクレイピングの技術に注目が高まっています。

すでに総務省では、外国パック旅行費・運賃・宿泊料に関しては対応できるめどが立ったとして、今回の連携会議において、その有用性を示した資料を配布しています。配布資料によれば、ウェブスクレイピングの技術によって、ネット販売価格の把握が進み、膨大な量の価格データが利用できることで統計精度の向上が期待できるとの見解が示されました。

一方で、ウェブスクレイピングの活用拡大のためには、品目ごとのネット販売の進展状況や、ネット情報のデータ特性などに照らして、費用対効果を慎重に見極めなければならないといった今後の課題も示されました。

今後のウェブスクレイピング取り組み拡大に向けた方向性について

ネット販売の増加やネット情報の充実、データ収集技術の進展に伴い、ICTを活用した価格収集の有用性はますます高まると見込まれます。

消費者物価指数(CPI)へのウェブスクレイピングの活用を目指し、試行をした結果、直面した課題と、それに対する対応も報告されました。まず、データホルダーとの連携を図っていくことが重要です。ネット情報の利用にあたっては、ネット情報の収集および統計作成に関して全対象企業から承諾を得るなど、法的な課題と留意点を踏まえたうえでの対応が求められます。ウェブスクレイピングを禁止しているサイトもあることから、商品情報の提供のみならず、ウェブスクレイピングについてデータホルダーの理解と協力も不可欠です。

ネット情報の収集にあたっては、サーバーへの負荷も考慮する必要があります。企業側から提示のあったアクセス時間帯および頻度(アクセス回数/秒)の制限に配慮し、IPアドレスの事前登録などの対応を実施することが求められます。

次に、品目ごとの課題や対応についても報告がなされました。第1点として外国パック旅行費についてです。外国パック旅行費については大手旅行会社が提供するネット販売価格を捉えることで、全体の価格動向を適切に把握ができるとしています。大手旅行会社から外国パック旅行の販売実態について詳細な情報提供が得られたため、膨大な数の商品情報からノイズを除去できました。大手旅行会社による持続的な情報提供を通じて、物価動向把握で前提とする同品質の商品の価格追跡も可能となるメリットがあります。従前のリサーチに比べて旅行会社、価格収集期間、プラン数などの拡大も可能となり、統計精度が向上されると判断されています。

第2点は国内航空運賃についです。国内航空運賃についても、大手航空会社から航空券の販売実態について詳細な情報提供が得られたことで、膨大な数の価格情報からノイズが除去され、同品質の商品の価格追跡が可能です。大手航空会社のサイトによるネット販売価格を捉えることで、国内航空券全体の価格動向を適切に把握できると判断されました。ただし、航空運賃の価格体系を踏まえ、効率的な価格収集日の設定が求められます。定期・不定期のサイト変更をはじめ、アクセス集中時やシステム障害などに伴い、指定日の価格データが収集できない場合も考えられます。そのため、同一価格帯の価格データを複数収集して欠データを自動補完することで対応を行うこととしました。

第3点は国内宿泊料です。旅行予約サイトによるネット販売価格を捉えることで、宿泊料全体の価格動向を適切に把握ができます。旅館やホテルに新たな回答負担を課すことなく、ウェブスクレイピングを通じて毎日の宿泊価格の把握が可能となり、統計精度の向上に寄与できます。

第4点は衣料品ですが、最も課題が残る結果となりました。価格データが掲載されているサイトは、販売店舗を持つ個別企業のサイトをはじめ、多数の出展者の商品を扱うEC事業者のサイトが混在しています。EC事業者のサイトにおいては幅広い商品の情報が掲載されていますが、商品名や素材などの商品説明や表記方法などの質や量が出展者によって差があり、統一性がありません。同品質の商品の価格追跡が不可欠であるため、衣料品へのウェブスクレイピング活用は現状では非常に難易度が高いです。

今後の取り組みとして、衣料品ネット販売データの製品区分の格付けなどを目的に、AIが活用できないかを検証しているところです。

【参考文献】

総務省 消費者物価指数 (CPI) へ のウェブスクレイピングの活用について
(https://www.soumu.go.jp/main_content/000654895.pdf)

総務省 第8回 ビッグデータ等の利活用推進に関する産官学協議のための連携会議 議事概要
(https://www.soumu.go.jp/main_content/000657460.pdf)

総務省統計局 消費者物価指数(CPI)
(https://www.stat.go.jp/data/cpi/index.html)

電子印鑑ならGMOサイン 導入自治体数No.1 電子契約で自治体DXを支援します
自治体通信 事例ライブラリー