用語辞典の一覧に戻る
テクノロジ系出題頻度 2/3

データレイク

でーたれいく

定義

構造化・非構造化を問わず生データのまま大規模に蓄積するリポジトリ。

詳細解説

2010年James Dixon提唱。あらゆる形式のデータ(JSON、CSV、画像、動画、ログ等)をそのまま保存し、必要時にスキーマを適用する「Schema on Read」アプローチ。DWHの「Schema on Write」と対照的。AWS S3、Azure Data Lake Storage、Hadoop HDFS等が基盤として広く使われる。近年はデータレイク+DWHの良さを統合した「データレイクハウス」(Databricks Delta Lake、Snowflake)が注目される。

「データレイク」が出る問題

関連用語

データウェアハウスSchema on ReadS3Hadoopデータレイクハウス

よくある質問

Q. データレイクとは何ですか?

A. 構造化・非構造化を問わず生データのまま大規模に蓄積するリポジトリ。

Q. 応用情報技術者試験での位置づけは?

A. テクノロジ系の重要用語です。出題頻度は 2/3 (★2)。 中程度の頻度で出題されます。

他の用語も見る(全265語)応用情報技術者の問題に挑戦

科目: テクノロジ系 · ID: ap-tech-100