テクノロジ系出題頻度 2/3
データレイク
でーたれいく
定義
構造化・非構造化を問わず生データのまま大規模に蓄積するリポジトリ。
詳細解説
2010年James Dixon提唱。あらゆる形式のデータ(JSON、CSV、画像、動画、ログ等)をそのまま保存し、必要時にスキーマを適用する「Schema on Read」アプローチ。DWHの「Schema on Write」と対照的。AWS S3、Azure Data Lake Storage、Hadoop HDFS等が基盤として広く使われる。近年はデータレイク+DWHの良さを統合した「データレイクハウス」(Databricks Delta Lake、Snowflake)が注目される。
「データレイク」が出る問題
関連用語
よくある質問
Q. データレイクとは何ですか?
A. 構造化・非構造化を問わず生データのまま大規模に蓄積するリポジトリ。
Q. 応用情報技術者試験での位置づけは?
A. テクノロジ系の重要用語です。出題頻度は 2/3 (★2)。 中程度の頻度で出題されます。