データマイニングとは? 手法や手順、活用事例などを解説!|東京のWEB制作会社・ホームページ制作会社|株式会社GIG

データマイニングとは? 手法や手順、活用事例などを解説!

2023-01-15 制作・開発

自社が蓄積する業務データを、ただ保管しておくのはもったいなくありませんか?

「データを自社のマーケティングなどに有効活用できれば、今後のビジネス展開にも大いに役立つのに……」と考えている企業も多いかと思います。

こうした状況下で注目されてるのが、日々の業務で蓄積される大量のデータをマイニングして、マーケティング戦略などに活かす「データマイニング」です。

今回はデータマイニングについて、マイニングの手法や手順、活用事例などを挙げて解説していきます。


データマイニングとは?

データマイニングとは、ビッグデータと呼ばれる膨大なデータの中から、人工知能や統計学などの分析手法を駆使して、有益な情報をマイニング(採掘)することを指します。

マイニングと聞けば、ビットコインを思い浮かべる方も多いかと思いますが、マイニングの対象となるのはビットコインだけではありません。

データマイニングを行うおもな目的は、データ同士の関連性や予想される事象の発生確率を見出すこと。過去の膨大なデータからは、市場動向や顧客の趣味嗜好などを予測することも可能です。そのため、マーケティング分野では、データマイニングを活用する動きが盛んになってきている印象です。

近年の飛躍的なIT技術の進歩にともない、企業は膨大な量のデータを収集・保持・分析することが可能となりました。ですが、扱えるデータ量が膨大ということは、裏返せば不要なデータ(ノイズ)もまた膨大に蓄積されているということでもあります。

そのため、分析・検証を行う前に、まずはノイズを取り除く作業からはじめる必要があるでしょう。

収集したデータを効果的にマイニングを行えるカタチに加工し、仮説を構築するための下準備を整える作業もデータマイニングにおける大切なプロセスです。ひとことでデータマイニングといっても、分析・検証だけがプロセスではありません。


データマイニングで得られる情報

データマイニングを通じて得られる情報には、「データ(Data)」「情報(Information)」「知識(Knowledge)」「知恵(Wisdom)」がそれぞれ挙げられます。またこれらの情報は、それぞれの頭文字を取って「DIKWモデル」とも呼ばれます。

DIKWモデルでは、4つのカテゴリーを以下のように定義します。

・データ(Data):数値や実証結果、文章、音声、動画などマイニングのもととなる素材すべて
・情報(Information):データを整理・分類・分析したもの
・知識(Knowledge):情報を通じて得られる傾向や知見、ノウハウなど
・知恵(Wisdom):知識を利用して人が判断する領域

データマイニングによってデータの収集や整理、分類、知識を得ることはできますが、得た知識をどのように知恵として活用できるかは、人の判断力に左右されます。


データマイニングの種類

データマイニングの基本を確認したところで、次にはデータマイニングの種類についても把握しておきましょう。データマイニングは、大きく「知識発見」と「仮説検証」の2パターンに分類できます。

手法1. 知識発見(探索)

知識発見とは、事前に仮説などを立てずに、集めたデータから新しいパターンやルール、類似性などの知識を自動的に見つけ出す分析手法のことを指します。

知識発見では、おもに機械学習が採用され、扱うデータ量が多ければ多いほどより有益な分析結果が得られます。

人工知能(AI)をフル活用することで、コンピューター自身が学習しながらデータ同士の関連性などを導き出します。今まで想定していなかった相関性や、見過ごしていた事象の発見などが期待できるでしょう。ただし、データ自体に関連性がなければ有益な結果は得られないので注意が必要です。

知識発見のデータマイニング手法には、データをグループごとに分ける「クラスタリング」や、データの中から関連性を見つけ出す「マーケット・バスケット分析」などが挙げられます。

手法2. 仮説検証

仮説検証とは、まずは事前に仮説をたて、それをもとに課題や事象などの解決に必要なデータを集め、分析を進めることを指します。

仮説検証では、仮説にもとづいた分析が行われるので、仮説とかけ離れた検証結果になることはほぼありません。しかし、そもそもはじめに立てた仮説が間違っている可能性もあるでしょう。

そのため、仮説に対する検証と分析、分析結果のレビューは繰り返す必要があります。仮説が正しいという固定概念は捨て、さまざまな分析方法と組み合わせて結果を導き出すことが大切です。

また、仮説検証のデータマイニング手法には、どの地域でどの商品がどれくらい売れているかといった売上高などを推測する「量的変数」、地域別にみて売れている商品などを抽出して分類・整理する「質的変数」などもあります。


データマイニングの分析手法

次にデータマイニングの分析手法について解説します。データマイニングの現場では、これらの単語はひんぱんに飛び交うため、データマイニングに少しでも関心があれば覚えておいて損はありません。

分析手法1. クラスタリング

クラスタリングとは、データを類似性にもとづいてグループ分けする分析手法のことを指します。分けられた各グループは、クラスタと呼ばれます。

たとえば、顧客情報をクラスタリングしてグループ分けを行い、同じグループ内で同じ商品が複数回購入された場合、その顧客と同じグループに属している他の人たちにも同じ商品を薦める、といった活用法が考えられます。

グループごとに異なるマーケティング施策を実施したい場合などにも役立つでしょう。

分析手法2. ロジスティック回帰分析

ロジスティック回帰分析とは、特定の事象が起きる確率を予測する分析手法のことを指します。データと事象の関連性を見出し、特定の結果を予測する際に役立ちます。

たとえば、キャンペーン実施時に、DMを送付した顧客が商品を購入するかどうかを予測したり、購入可能性の高いユーザー層や繁忙期、売れそうな商品などを予測したりする際に活用できます。

また、ロジスティック回帰分析によって蓄積された商品データと、顧客の個人データを分析することで、予測結果をマーケティング戦略に応用することも可能です。特に「Yes」と「No」を明確に定義できる場合、最適解が見つけやすくなります。

分析手法3. マーケット・バスケット分析

マーケット・バスケット分析とは、一緒に購入される商品の組み合わせを発見する際に活用される分析手法のことを指します。

関連性がないようでじつは同時に購入されることの多い商品や、逆に関連商品のように思えても同時に購入されることが少ない商品を明確にしたいときに活用します。

たとえば、小売店の販売データを分析すれば、同時によく購入されることが多い商品を見つけることができ、より効果的な売り場づくりに活かせるはずです。また、今まで人の目だけでは気づかなかった関連性を新たに見つけ出し、今後のビジネス展開に期待できる掘り出し物と出会えるかもしれません。


データマイニングの手順

代表的な分析手法について理解を深めたところで、ここからはデータマイニングの手順についても解説を進めます。データマイニングの手順には「収集」→「加工」→「分析」の3ステップがあるため、順を追って確認していきましょう。

ステップ1. データ収集

データマイニングのスタートは、とにかくマイニングに欠かせないデータを集めるところからです。データ量が多ければ多いほどより有益な情報を得られる可能性が高まるため、データ量はだいたい10万件をひとつの目安にしてみてください。

また、大量のデータを保管するためには、しっかりした保管場所が必要です。その際に活用されるのがデータウェアハウス(DWH)です。

・データウェアハウス(DWH):直訳すると「データの倉庫」「データの保管所」を意味し、生産管理や販売管理、在庫管理といった「基幹系システム」、MAツールやSFAツール、CRMツールといった「戦略系システム」、WebサイトのアクセスログやIoT機器のセンサーログに蓄積される膨大な量のデータを格納するためのシステムのこと。

データウェアハウスは、蓄積された大量のデータを分析することで、経営やマーケティングにおいての重要な意思決定をサポートするために用いられる。

データを格納するための場所と言えば、「データベース」を思い浮かべる方がほとんどかもしれません。しかし、データベース自体はデータの分析を目的として設計されているわけではなく、データの保存・参照をおもな目的として活用することになります。

一方、データウェアハウスでは、データの保存形態が定義されたうえで統合もされている状態になるため、複数システムから集約したデータを高速で分析・処理することが可能です。

データウェアハウスがなければデータマイニングできないわけではありませんが、効果的かつ有効性の高いデータマイニングを行うために検討すべきツールといえるでしょう。

ステップ2. データ加工

データマイニングはおもにシステム上で行うため、基本は決まった形式のデータでなければ正しく読み込むことができません。そのため、収集したデータを分析の用途に合わせたカタチに加工する必要があります。

先ほどから触れているノイズを除去するために、データ収集が終わりしだい、それらのデータを加工し整理する「データクレンジング」といった作業が必要です。

外れ値や欠損値などを除外し、データのバラつきなどを抑えることで、スムーズな分析ができるはずです。また、さらに解析がしやすいようにデータ形式を統一し、データの重複が発生しないよう「正規化」加工をすることも不可欠でしょう。

ステップ3. データ分析

クラスタリングやロジスティック回帰分析などを駆使しながら、収集・加工したデータ同士の相関関係などを探索・抽出します。

データマイニングによる分析後は、その分析結果から要因を特定します。収集したデータとデータマイニングによって得られた分析結果を照らし合わせながら、データマイニングの効果を検証することも不可欠です。

また、異なる収集データを用いても同じように機能するかなども検証し、信頼性や精度の評価を行うことが求められます。


データマイニングの活用法

すでに多くの業界で実施されているデータマイニングは、各業界の企業にさまざまな恩恵をもたらしています。データマイニングがそれぞれの業界でどのように活用されているのかを確認しておきましょう。

ケース1. 金融業

金融業でデータマイニングが活用されている業務は多岐にわたります。

・クライアントにあった金融商品の選定
・住宅ローンや消費者ローンの審査
・自動車保険の見直し
・生命保険の見直し
・社債の格付け予測
・不正利用の防止対策

金融業で扱うデータの種類はクライアントの情報だけでなく、金融市場や各種ローン、保険のデータなどさまざま。

単なるクライアント管理に活用するだけでなく、そのクライアントがローンの返済が可能かどうかの判断や、不正取引を行っていないかなどをチェックする際にも役立ちます。このことからも、金融業がデータマイニングをもっとも活用しやすい業界といえるでしょう。

ケース2. 流通・小売業

流通・小売業でデータマイニングが活用されるケースでは、おもに顧客や商品を管理する業務に用いられます。

分析結果を上手に活用できれば、顧客の購買意欲をそそるようなキャンペーンを行うことにつながり、ターゲット層を設定して商品を紹介するなど、マーケティング戦略を効果的に展開することができるはずです。

また商品については、天候や季節によって仕入れる数を調節し、売れそうな商品を多めに仕入れるなど適切な在庫管理を行うのに役立ちます。

ケース3. 医療業界

医療業界で活用されるデータマイニングでは、病名の特定や病気の原因の解明をサポートする役割が期待されています。

従来では患者の病名については医師の経験にもとづいて診断されるケースがほとんどで、医師の見解によっては異なる診断がなされることもありました。

しかしデータマイニングを活用することで、服用中の薬や基礎疾患、遺伝子といったさまざまなデータから病名を診断することが可能となりました。客観的なデータにもとづいて診断を行うので、医師の経験に関係なく正しい診断を行うことができるといえます。

こうした背景から、データマイニングは医療業界において発展が期待される分野といえるでしょう。


データマイニングを成功させるためのコツ

適切なデータマイニングを行うためには、人材や予算を確保する必要があります。ですが、それなりのコストを払うからにはなるべく失敗はしたくないもの。最後にデータマイニングを成功させるためのコツを解説します。

コツ1. データウェアハウス(DWH)の整備

データマイニングを行ううえで、分析対象となるデータは多ければ多いほど、より精度の高い分析結果が得られるはずです。そうしたビッグデータを管理するために、近年ではAI分析やデータマイニングを行うことを前提に、先ほどもご紹介したデータウェアハウス(DWH)を使うのが一般的になりつつあります。

DWHには、AIによる分析やデータマイニングができるカタチにデータを最適化した状態で保管できる仕組みが備わっています。また、外部からの攻撃を防御する仕組みやデータの暗号化など、セキュリティレベルを向上させる機能が備わっているのもメリットのひとつ。

データマイニングを行うためには、データを安全に保管できる仕組みは必須です。通常のデータベースでも大量のデータは保管できますが、データマイニングするための状態になっていません。データの整理から自前で予算を組んで開発する必要がありますし、その場合はDWHを導入する以上のコストがかかってしまうリスクもあります。

データマイニングを検討する際には、DWHの導入もあわせて検討するといいでしょう。

コツ2. データクレンジングを行う体制の確保

データマイニングで扱うデータには、「ノイズが含まれている」「データの形式にバラつきがある」といったことも想定されます。データがきちんと整備されていない場合、そのままではマイニングができないため、適切な形式に揃える「データクレンジング」が必要です。

データクレンジングでは、それぞれのデータをある程度は手作業で整形していく必要があり、多くの工数がかかるのも事実です。

データマイニングをスムーズに進めるためには、データクレンジングの経験やスキルを持った人材を確保し、滞りなく作業を進められる体制を作っていくことが求められます。

コツ3. 適切なツールの導入

マーケティング戦略のために効果的なデータマイニングを行いたいのであれば、データマイニングツールの利用がおすすめです。

膨大なデータを集め、有益な分析を行うためには統計学の知識や経験を持った人材の確保が不可欠ですが、そういった人材を確保するのは容易ではありません。

しかし、専用のツールを活用することで、データを収集したり加工したりする手間が省け、専門知識がなくてもデータマイニングを行うことができます。

適切なツールを導入するにあたり、「なぜデータマイニングを行いたいのか」「データマイニングを通じてどのような知見を得たいのか」などを明確にしましょう。目的を明確化することもデータマイニングにおける重要なプロセスのひとつです。

また、目的に沿ったツールでも、現場にとっては使いにくいケースもあります。ツール導入時には、開発元に依頼して無償トライアル版をまず利用するなど、ツールを現場に浸透させるための下準備も不可欠でしょう。


データマイニングはGIGにお任せください

現代では、多くのビジネスの現場でデータマイニングが活用され始めています。しかし活用次第ではその分析結果が大きく変わり、期待値が高いわりには有益な結果が得られていない現場もたくさんあります。

データマイニングを成功させるため、DWHやその他ツールの導入を検討されている場合、やはりツール選定段階からデータマイニングの経験がある企業に相談してみるのが得策でしょう。

GIGではデータマイニングやシステム開発の経験が豊富なことはもちろんなのですが、クライアント企業が抱える課題を明確化し、⽬的を達成するためのプランニングから運⽤・改善まで総合的にサポートいたします。

豊富なシステム開発の実績が⽰すように、GIGはお客様と丁寧で密なコミュニケーションを重ねてきたと⾃負しております。データマイニングの支援について、無料相談から承っていますので、ぜひ⼀度お問い合わせください。

■株式会社GIG
お仕事のお問い合わせはこちら
採用応募はこちら(GIG採用サイト)
採用応募はこちら(Wantedly)

WebやDXの課題、お気軽にご相談ください。

GIG BLOG編集部

株式会社GIGのメンバーによって構成される編集部。GIG社員のインタビューや、GIGで行われたイベントのレポート、その他GIGにかかわるさまざまな情報をお届けします。