トップ回答者
Azure HDInsightのBLOBストレージ利用は何故なのか、またデータローカリティについての疑問

質問
-
[Python札幌, 数学勉強会@札幌, クラウド研究会@札幌] 各代表の、nakayoshixこと中村良幸です。
Azure上のHadoop as a Serviceであるところの、HDInsightについての質問です。
Hadoopは、一般的には、HDFSを用いることでデータ・ローカリティを確保し、またI/Oを複数台のノードで分散処理することで、I/Oボトルネックになるような種類の計算を並列分散処理することによって例えばシングルノードでは非常に時間のかかる大規模なバッチ処理を、何倍、何十倍も時間を短縮して計算を終了する、といったところに醍醐味があるものと認識しております。
ところが、御社のAzure HDInsightでは、基本的にはHDFSを使わず、Azure StroageサービスだったかBLOBサービスだったか(すみません、どちらだったのか、もう忘れてしまってます…><)を使うことにより、いわばHadoopの一番の旨味であると思っていた分散Disk I/Oとデータ・ローカリティを捨てているように聞いております。
この意味するところがよくわかっておりませんので、なぜHDInsightではHDFSを使わずに、BLOBストレージサービスを使うことにしたのか、またそれで本来Hadoopが想定していたようなデータ・ローカリティなしに、どうやってノード数を増やした場合に性能をリニアに上げていくことが出来るのか、そういった辺りについて詳しく説明をして頂くことは可能でしょうか?
以上、よろしくお願いいたします。
回答
-
こんにちは。
HDInsightではHDFSを使ってないわけではないです。様々なメリットを得るためにAzure BlobストレージをHDFS互換で利用できるようにしつつローカルも利用するような使い方になるかと思います。
この辺りのドキュメントを参照ください。
HDInsight の Hadoop での HDFS と互換性のある Azure BLOB ストレージの使用https://azure.microsoft.com/ja-jp/documentation/articles/hdinsight-hadoop-use-blob-storage/
すべての返信
-
こんにちは。
HDInsightではHDFSを使ってないわけではないです。様々なメリットを得るためにAzure BlobストレージをHDFS互換で利用できるようにしつつローカルも利用するような使い方になるかと思います。
この辺りのドキュメントを参照ください。
HDInsight の Hadoop での HDFS と互換性のある Azure BLOB ストレージの使用https://azure.microsoft.com/ja-jp/documentation/articles/hdinsight-hadoop-use-blob-storage/
-
nakayoshix さん、質問の投稿ありがとうございます。フォーラム オペレーターの星 睦美です。
MSDN フォーラムは技術的な情報交換を行うユーザー同士のコミュニティです。k.buchi さんからの返信が参考になりましたら回答者への励ましになりますので、投稿者からの[回答としてマーク] をお願いいたします。
・フォーラムのご利用方法(質問の投稿)について
https://social.msdn.microsoft.com/Forums/ja-JP/b2074c04-2e91-414d-8e9e-d634be311e31?forum=announceja
今後ともMSDN フォーラムをお役立てください。フォーラム オペレーター 星 睦美 - MSDN Community Support