クラウドメインで使用する場合の クラウド→オンプレ同期時間短縮検討実験

クラウドストレージを使用する場合のデータバックアップについて

"日本全国、世界中どこからでも簡単にアクセスできるから"といった利便性もあり、クラウドストレージをメインのストレージとしてご使用されるお客様が増えてきています。

ただし同時に、クラウドからオンプレへの回帰(“クラウドストレージに必要となる月額費用が肥大化してしまっての結果"というケースが多いです)であったり、クラウドとオンプレミスの併用(”クラウドストレージにアクセスできなくなってしまった場合、データ消失した場合の対策”、“高速にアクセスできる必要があるファイルのみのオンプレミスキャッシュ”)という形で、NASと併用をご相談いただくケースも非常に多いです。

今回は、クラウド→オンプレミスNASへのデータ同期といった点で、同期時間(特に最初のフル同期)を短縮することができないか?というご相談をいただきましたので、確認してみました。

前提条件

・「クラウドストレージをメインで使用している」とはいうものの、クラウドストレージに移行する前に使用していたファイルサーバーにある程度のデータは残っている

このような条件において、NASで同期ジョブを組む際に、予め同期先のNASのフォルダに、クラウドストレージと同等なフォルダ構造で、データを書きこんで置いたらダウンロードが不要となる分、初期の同期に必要な時間が短縮できないか?とご相談いただきました。

実験 Step1. クラウド→オンプレへの通常同期(所要時間の確認)

一般的なオフィスファイルが含まれているフォルダの方が実験対象としては良いかと思いますが、手元に手ごろなフォルダがなかったので、デモ用の映像素材が入ったフォルダにて実験してみます。

まずは、普通にクラウドストレージ→NASにアクティブ同期をして、どの程度時間がかかるのか?を見ていきます。

ミラー設定で、

オンプレに同じデータセットを取るための同期設定

この113GBのフォルダを同期します。

記事のコンテンツ

113GBのデータ

スケジュールなし、ワンショットの同期が完了するまでの時間を測定します。

スケジュールなしのワンショットの同期に設定

こんな設定ですね。同期をスタートします。

同期タスクのサマリー

約10MB/sの速度で同期が進んでいます。3時間ほどで完了する予定かと思います。

同期タスクの実行状況

リソースモニタで確認すると、こちらもネットワークトラフィックとしては、10MB/s弱程度となっていることが確認できます。

同期実行時のリソース使用状況

エラーと表示されての終了ですが、ファイル的にはオンプレサイドにそろっているようですので、いったん今回はこの状態で確認を進めてみます。

テスト用のデータセット同期完了

フォルダには、112GB分のファイルがしっかり入っています。

テスト用の同期データサイズは112GB

実験 Step2. クラウド→オンプレへのPreSync同期(所要時間が短縮できるか?の確認)

Step1で同期したフォルダを、Presyncedという形でわかりやすく用意します。(中身は同期したフォルダそのまんまです。)

オンプレサイドのデータセットの用意

Step1でも使用した、“/OneDrive/素材"フォルダから、”/Public/OneDrive - Presynced"フォルダへの同期ジョブを設定、実行します。

オンプレのデータセット保管場所を同期先として同期タスクを作成

同期をスタートさせました。

初回同期の実行状況

ファイル転送のプログレスは進捗ないですが”[ローカル]残りファイル数"は順番に減少していきます。おそらく、"OneDrive側で持っているメタデータ内のチェックサム情報と、ローカルでのチェックサム情報を比較して、同一ファイルであれば転送不要とみなす。"といったような処理をしているのではないかと推測します。

ローカルファイルとリモートファイルの比較中

実際のデータの転送が発生しないので、1時間ほどで完了しました。

実際に同期したときの、3分の1程度の時間でタスク完了

再度同期ジョブを実行すると、1回目で同期状況の把握などは完了しており、変更点もないので、すぐに同期ジョブは完了となります。

2度目以降では、すでに確認したファイルのチェックサム確認は行われない

クラウドストレージ側にファイルを追加すると、追加したファイルのみが新規で同期されることも確認できました。

クラウドストレージ側に新しいファイルが追加されれば、ちゃんとオンプレ側にも同期される

まとめ

クラウドストレージから、オンプレのNASにデータ同期をする際に、予めオンプレNAS内にクラウドストレージと同じデータがある場合に、最初の同時期間を短縮できるか?という点について確認してみました。

結論としては、

  • クラウドストレージ側のメタデータ(おそらく)と、オンプレ側のチェックサム計算で同一ファイルとみなせれば、実際のファイル転送はスキップされるので、その分の時間が短縮できる。

という結果になりました。

初回同期時のファイルの転送時間を短縮する方法としてお使いいただけると思います。

クラウドストレージに移行しようかな?という場合は、クラウドストレージにデータをアップロードして使用開始されることかと思います。ただし、やはりデータの複製としてオンプレにもデータを置いておいた方がいいかと考えますので、将来的なことも考え、オンプレのNASにも同じデータセットを保管しておくとよいかと思います。

ご参考になりましたら幸いです。