テクノロジ系出題頻度 2/3
データマイニング
でーたまいにんぐ
定義
大量データから統計・機械学習手法で有用な知識・パターンを発見する技術。
詳細解説
相関分析・クラスタリング・分類・回帰・アソシエーション分析などを用いる。代表事例「おむつとビール」は購買データから意外な相関を発見した古典例。レコメンドエンジン、不正検知、需要予測、解約予兆検知などに広く応用される。ビッグデータ時代にはAI/機械学習と統合され、データサイエンスの中核を成す。
「データマイニング」が出る問題
AI(人工知能)の機械学習における「教師あり学習」の説明として、最も適切なものはどれか。
ビッグデータの「3つのV」に含まれないものはどれか。
品質管理担当者が行っている検査を自動化することを考えた。10,000枚の製品画像と,それに対する品質管理担当者による不良品かどうかの判定結果を学習データとして与えることによって,製品が不良品かどうかを判定する機械学習モデルを構築した。10,000枚の製品画像に対してテストを行った結果は表のとおりである。品質管理担当者が不良品と判定した製品画像数に占める,機械学習モデルの判定が不良品と判定した製品画像数の割合を再現率としたとき,このテストにおける再現率は幾らか。(表:品質管理担当者による判定が不良品の場合 機械学習モデル不良品=5, 良品=5/品質管理担当者良品の場合 機械学習モデル不良品=15, 良品=75 単位:枚)
関連用語
よくある質問
Q. データマイニングとは何ですか?
A. 大量データから統計・機械学習手法で有用な知識・パターンを発見する技術。
Q. IT パスポート試験での位置づけは?
A. テクノロジ系の重要用語です。出題頻度は 2/3 (★2)。 中程度の頻度で出題されます。