機械学習を実務で活用するための5ステップ|東京のWEB制作会社・ホームページ制作会社|株式会社GIG
BLOG
ブログ
機械学習を実務で活用するための5ステップ
2019-03-08 勉強会
こんにちは。GIG社員の松竹です。
今回は社外勉強会「Tech Trend Talk Vol.11 機械学習の応用と自然言語処理の活用」のレポートをお送りいたします。
今回の講師は、GIGの技術顧問兼外部取締役の中島さん。今回は、実務向けに機械学習を応用する方法と、自然言語処理の活用法を紹介してくれました。
中島 正成(なかじま まさのり):株式会社メタップスの取締役CTOとして立ち上げに参画。機械学習とデータサイエンスのプロダクトインプリメントに取り組む。その後、エン・ジャパン株式会社経営戦略室経てIGS株式会社に執行役員CTOとしてジョイン。教育領域へのA.I活用プロダクト開発に取り組む。
過去のTech Trend Talk「機械学習回」はこちら▼
- 中学生レベルの数学で学ぶ機械学習モデルとPythonライブラリの話
- 機械学習の教師なし学習をやってみる
- 機械学習の教師あり学習をやってみる
- ランダムフォレストを用いたスコア予測の実践
- データ処理と機械学習アルゴリズム
当日のスライドはこちら▼
機械学習を実務で活用する5ステップ
中島さん:「いまの時代、機械学習のやり方自体は検索すればたくさん出てきます。ソースコードを真似してサンプルデータを処理するだけなら簡単です。そこで今回は、機械学習を実務に応用するにはどういうプロセスを踏んでいくといいのかを説明します」
中島さん:「まず紹介するのがCRISP-DMというプロセスモデル。データマイニングの方法論を規定しています」
中島さん:「CRISP-DMとは、データサイエンスを実務に取り入れるに当たって、
- ビジネス自体の理解を深める
- データを探索する
- モデルを作る
- モデルを評価する
- 評価した結果を受けてプロセスの最初に戻る
というサイクルを回すと良い、という方法論です」
中島さん:「ただし、CRISP-DMのドキュメントは長文かつ学術的で、そのまま現場に適用するのは難しいでしょう。そこで紹介したいのが、CRISP-DMの言葉をよりわかりやすく、シンプルに表した方法論です」
1. 目的を定める
中島さん:「まず定めなければいけないのは、データと機械学習を用いて“何を実現したいのか”、つまり目的です。」
中島さん:「機械学習は決して魔法の箱ではないのです。しっかり目的を定めて取り組まなければ、機械学習は効果をなさないと思ってください」
中島さん:「このステップは、さらに細かな3つのステップに細分化できます。
- 「データを活用して何をしたいのか(=目的)」を明らかにする
- 目的に対するプロセスを整理し、可視化する
- プロセスごとの課題を整理し、可視化する
プロセスを整理し、一番コストがかかっているところを探します。それこそが一番、データサイエンスを投入するメリットがある場所です」
中島さん:「機械学習やデータサイエンスを導入することにもコストはかかります。例えばマシンを用意する費用や、調査・実装の時間などです」
中島さん:「機械学習にも苦手なことがあります。例えば機械学習を人材採用に用いるケースだと、”マッチしない人を落とす”ことには効果を発揮しますが、”よい人材を判断する”のは困難です。マッチしない人に共通の要因は割り出しやすいですが、よい人材はどの要素がその企業にハマったのか多種多様で、一概に言えません」
中島さん:「要件が曖昧なまま、”なんかやってよ”でプロジェクトを進行するのが一番よくないです。目的がないとデータ分析すらできません。プロセスと課題をちゃんと整理して、どこがコア要件なのかを整理しておくのが大事です」
<例> 目的を定める→新卒を大量に効率よく採用したい 「効率よく採用したい」と「いい人を採用したい」では必要なデータが変わる
2. 現状を把握する
中島さん:「目的を定めたあとは、その目的を達成するための必要なデータが揃っているのかを確かめる必要があります。いま手元にあるデータは何で、他にどんなデータが必要かを把握します。 このステップを細分化すると、
- 手持ちのデータの整理と分析
- プロセスと課題に対して有効なデータと足りないデータをリスト化
- 目指すべき姿の言語化
となります。」 中島さん:「こんなデータがあるといいのになあ、と思ったことをリスト化しておくのが大事です。今日では、足りないデータも簡単に集められます」
3. 目標を定める
中島さん:「目的が”機械学習で何をしたいのか”だったのに対し、ここでの目標とは”具体的な数値目標”です」
中島さん:「もし課題に対する正解のデータを用意できなくても、教師データを用意できないからといって手を止めないようにしましょう。ここで大事なのは、仮説のデータを作ることです。ラベリングをしてもいいし、人の感覚でもいいでしょう。仮説があってるかどうかをデータ検証のプロセスで決めます」
中島さん:「重要なのは、もし正解データがなくても次のデータが用意できるかどうか。『このデータがあればなんとかなるのにな』を思いつくには、ビジネスをよく理解しておく必要があります」
中島さん:「機械学習でやれることは、あくまで人間が繰り返しの作業でできること、もしくは繰り返しやらなければいけないことです。これを実務に応用するなら、予測や自動化による、品質向上かコスト削減しかありません」
中島さん:「例えば、不良品検査の精度を機械学習によって上げることができます。これは品質の向上です。もしくは、チェックに割く労力が減ることで、作業時間や労力、人件費といったコストをカットできます。その分、製品自体の改善にリソースを割り当てることができれば、これもまた品質向上に繋がります」
中島さん:「したがって、目標は『品質向上』か『コスト削減』を定量化した指標で表す必要があります」
4. モデル作成と仮導入
中島さん:「目標が定まったら、いよいよ機械学習のモデルを作成します。ここでのポイントは3つ。
追加の正解データが集まる仕組み
仮設で立てた他のデータが集まる仕組み
正解データを整理・管理できる運用
中島さん:「追加でデータを集めるのは難しいことではありません。データサイエンティストがやらなければいけないものでもないです。もし追加のデータが欲しかったらここを探そう、ということがエンジニアにもわかるようにしておきましょう」
5. 結果を評価する
中島さん:「機械学習の結果をもとに、モデルの精度を評価していきます。ここで、目標設定の段階で定量化しておく意義がわかります。」
中島さん:「定量化した目標に対して、達成率はどのくらいかがわかります。その結果になった原因に対して仮説を立て、調査を行い、もう一度目標とデータ設計を構築してみます」
開発相談は株式会社GIGへ!
内容盛り沢山のトークを終え、中島さんもこの笑顔。集中してみんな勉強会に取り組んでいたため、お腹はペコペコ。用意したピザはあっという間になくなりました。
中島さんは、「機械学習さえすればすぐ何かしら効果があるのではない。あくまで、いままでのやり方を踏襲しながらその精度や効率を上げるために使う」ということを強調していました。ホットワードだからと飛びついても成果が得られるとは限りません。正しく扱ってはじめて武器になるのだと実感しました。
株式会社GIGは、Web制作、Webマーケティング、コンテンツ制作、サービス開発など、Web戦略をトータルで支援するデジタルコンサルティング企業です。開発のご相談はお気軽にお問い合わせください。
WebやDXの課題、お気軽にご相談ください。
横内 翔太(shochik)
1993年、青森生まれ。リンゴを食べても歯茎から血が出ない。大好きなのは野球と酒。