平成26年秋期試験午後問題 問4

問4 システムアーキテクチャ

⇱問題PDF
ストレージ設計に関する次の記述を読んで,設問1~5に答えよ。
 E社は,新聞社である。E社では,中期経営計画にデジタルメディアの積極的な活用を掲げており,新聞記事のWeb配信サービスの強化を検討している。具体的には,E社が過去に掲載した記事の検索サービスと,最新記事のPCやモバイル端末への配信サービスを,24時間365日提供する予定である。
 新しいWeb配信サービスを支える情報システム(以下,新配信システムという)を構築するプロジェクトは,アプリケーションソフトウェア開発チームとシステム基盤チームから成る。プロジェクトリーダーは情報システム部のF課長が,システム基盤チームのチームリーダーはG君が担当することになった。なお,新配信システムは,ハードウェアの保守期限を考慮し,5年間運用する想定である。

〔新配信システムのシステム構成〕
 利用者は新配信システムにPCやモバイル端末を用いてアクセスする。PCの場合はWebブラウザを利用し,モバイル端末の場合は専用アプリケーションソフトウェアを利用する。なお,専用アプリケーションソフトウェアは,毎時0分0秒にE社データセンタ内のサーバにアクセスし,最新記事をモバイル端末に保存する。
 E社データセンタ内には,記事の検索や配信を行うアプリケーションサーバ(以下,APサーバという),記事データ(文字データや画像データ)を格納したストレージ,及び記事の検索用データ(記事タイトル,公開日時,分類情報,記事データのストレージ上のファイルパス)を格納したデータベースサーバ(以下,DBサーバという)を配置し,サービス提供を行う。新配信システムのシステム構成を図1に示す。
pm04_1.png
 PCやモバイル端末からの記事の検索要求があると,APサーバが要求を受け付けて,DBサーバを用いて記事を検索した後,検索条件に合致する記事が存在する場合には,ストレージ内に格納された記事データをPCやモバイル端末へ送信する。

〔データ量の調査〕
 G君は,新配信システム稼働開始時の記事データ量と,稼働開始から想定運用期間満了までの記事データ発生量を調査した。記事データ量調査の結果を図2に示す。
pm04_2.png
〔性能指標とその目標値の定義〕
 E社の情報システムガイドラインでは,Webシステムは,利用者が画面上のボタンを押してから,結果が全て画面に表示されるまでのaを性能指標とし,目標値を2.0秒と規定している。
 しかし,新配信システムの場合は,利用者側のインターネット回線やPC,モバイル端末の性能の影響を受けるので,aを性能指標とすることは困難である。そこでG君は,APサーバが検索要求を受け付けてから検索結果の最初のデータを送信し始めるまでのbを性能指標とし,目標値を0.5秒とすることにした。
 また,単位時間当たりに処理できる件数を示すcについては,現在のE社の配信システムへのアクセス件数を基に,利用者数増加によるアクセス件数増大を考慮した最大アクセス件数を目標値とすることにした。

〔ストレージ設計〕
 G君は,新配信システムの特性からストレージに対する要件を整理し,複数のハードディスク装置を組み合わせる①RAID構成を用いたストレージの採用を検討した。
  • ディスク容量
     想定運用期間満了時に②全記事データを格納できるディスク容量が必要である。
  • 性能要件
     ③APサーバのデータ読み書き要求に小さい遅延で応答できるアクセス速度が必要である。しかし,利用を想定しているハードディスク装置1台当たりのアクセス速度は遅く,1台だけでは性能目標を達成できない。
  • 信頼性要件
     ハードディスク装置の単体故障によるデータ消失を防止する。また,新配信システムは,24時間365日の運用となるので,ハードディスク装置の単体故障時に利用者へのサービス提供が停止しないようにする。ただし,ハードディスク装置の交換作業中の性能劣化,信頼性低下は許容する。
  • その他要件
     性能要件と信頼性要件を満たしつつ,ディスクを効率的に利用するために,データ量に対して2倍以上のディスク容量を確保する構成は採用しない。
〔新配信システムの構築〕
 G君は,(ストレージ設計〕で検討したストレージに加え,サーバやネットワークについても要件を満たすように設計を行い,新配信システムのシステム基盤の構築作業を完了させた。また,稼働開始後の新配信システムが性能要件を満たしていることを確認するために,APサーバのアクセスログを集計し,1時間ごとのbの平均とアクセス件数を随時性能レポートに記録する性能情報採取ツールをAPサーバに設置した。

〔稼働開始後の性能問題〕
 新配信システムの稼働から1年後,新配信システムの利用者は,PC利用者が約20,000人,モバイル端末利用者が約3,000人となった。ある日,モバイル端末利用者から"記事のデータ取得が極端に遅い。モバイル端末のCPU利用率は低く,他のWebサイトからのデータ取得は遅くない。"とのクレームがあった。
 G君が性能情報採取ツールによって記録された性能レポートを確認したところ,④特に異常な傾向は見られなかった。しかし,アプリケーションソフトウェア開発チームがAPサーバのアクセスログを調査したところ,全てのモバイル端末の専用アプリケーションソフトウェアが毎時0分0秒にAPサーバに集中してアクセスしており,毎時0分0秒のデータ取得が極端に遅くなっていることが分かった。
 アプリケーションソフトウェア開発チームは,専用アプリケーションソフトウェアを修正して性能問題を解決した。

設問1

本文中のacに入れる適切な字句を解答群の中から選び,記号で答えよ。
a,b,c に関する解答群
  • アクセスタイム
  • サーチタイム
  • シークタイム
  • スループット
  • ターンアラウンドタイム
  • レスポンスタイム

解答例・解答の要点

a:
b:
c:

解説

時間に関する性能指標を検討し、システムが満たすべき応答性能を算出します。各選択肢の意味は以下の通りです。

アクセスタイム
CPUが記憶装置にアクセス要求を出してから結果を全て受け取るまでの時間を表します。特にハードディスクや光学メディアなどの円盤型記憶装置の場合は次の式で求めます。
●アクセスタイム = シークタイム + サーチタイム + データ転送時間
pm04_3.png
サーチタイム
ハードディスクや光学メディアなどの円盤型記憶装置において、シーク(ヘッドの位置決め)が完了した後に、目的のデータが存在する場所(セクタ)がヘッド位置に来るまで待機する回転待ち時間を表します。
シークタイム
ハードディスクや光学メディアなどの円盤型記憶装置において、目的のデータが存在するトラックまたはシリンダまでヘッドを移動させるために要する位置決め時間を表します。
スループット
単位時間あたりに処理できる仕事の量。一般にストレージの場合は、単位時間あたりに転送可能なデータ量を表します。
ターンアラウンドタイム
ユーザがジョブを投入してから、ジョブの結果全てを出力するまでの時間を表します。アクセスタイムと違い、CPUの処理時間や実行待ち時間を含み、さらに受け取った情報を画面に表示するまでの時間も含んでいます。
pm04_4.png
レスポンスタイム
ユーザがジョブを投入してから、ジョブ最初の出力を受け取るまでの時間を表します。レスポンスタイムの時点で結果をユーザに出力し終わっているとは限りません。

〔性能指標とその目標値の定義〕を読むと、[a]は「利用者が画面上のボタンを押してから,結果が全て画面に表示されるまで」と書かれていることから、「オ:ターンアラウンドタイム」が適切です。

[b]は「APサーバが検索要求を受け付けてから検索結果の最初のデータを送信し始めるまで」と説明されているので、「カ:レスポンスタイム」となります。

[c]は「単位時間当たりに処理できる件数」と定義されているので、「エ:スループット」が適切です。

a=オ:ターンアラウンドタイム
 b=カ:レスポンスタイム
 c=エ:スループット

設問2

本文中の下線①について,(1),(2)に答えよ。
  • 新配信システムのストレージに採用すべきRAIDレベルを解答群の中から選び,記号で答えよ。ただし,RAIDコントローラーの性能やネットワーク帯域は十分に確保されているものとする。
  • ストレージを,同一型式のハードディスク装置を用いたRAID構成とした場合,ストレージ全体としてのデータの読込み速度を向上させるためには,ハードディスク装置の構成をどのようにするとよいか。ハードディスク装置数とデータの配置の観点から,30字以内で述べよ。
解答群
  • RAID0
  • RAID1
  • RAID0+RAID1
  • RAID5

解答例・解答の要点


  • ハードディスク装置数を増やし,データを分散させる (24文字)

解説

  • 2台以上のハードディスクを組み合わせて、ハードディスクの信頼性を向上したりアクセス速度を改善したりする方法をRAID(Redundant Arrays of Independent Disks、レイド)と言います。RAIDにはいくつかのモード(レベル)があり、目的に応じて使い分けます。代表的なRAIDモードの説明を表にまとめます。
    pm04_5.png
    pm04_6.png
    〔ストレージ設計〕で示されたストレージの条件を見ると、「(2)性能要件」でストレージの高速化が必要なことがわかり、「(3)信頼性要件」ではハードディスクの単体故障時にも処理を継続できる構成が求められています。また「(4)その他要件」で「データ量に対して2倍以上のディスク容量を確保する構成は採用しない」という条件があるため、これらを満たすRAIDモードは「エ:RAID5」しかありません(RAID10はちょうど2倍なので×)。
    pm04_7.png
    ∴エ:RAID5

  • (1)の設問にあるように「RAIDコントローラーの性能やネットワーク帯域は十分に確保されている」場合、より多くのハードディスクに分散して情報を書き込めば、その分入出力処理を同時並行で行うことができて、ストレージ全体の速度は向上します。多くのハードディスクを用意しても、格納するデータ量をある程度平準化しなければアクセス性能の向上は望めません。したがって、ハードディスクの台数を増やすこと、データを分散して書き込むことの2点を押さえた回答が必要となります。

    ∴ハードディスク装置数を増やし,データを分散させる

設問3

本文中の下線②について,想定運用期間満了時の全記事データのデータ量を答えよ。なお,1Gバイトは1,000,000kバイトとし,答えは10Gバイト単位に切り上げて求めよ。

解答例・解答の要点

110

解説

〔データ量の調査〕図2の情報を元に、想定運用期間満了時点で必要なディスク容量を計算します。

稼働開始時の記事件数が900,000[件]、平均データ量が100[kバイト/件]ですので、稼働開始時の使用ディスク量は、
 
 900,000[件] × 100[kバイト/件] = 90,000,000[kバイト] = 90[Gバイト]

であることがわかります。

稼働開始年度の記事データ発生量は20,000[件/年]で、2年目以降は発生量が年20%ずつ増加します。想定運用期間は5年間ですから、各年の記事データ発生量を計算して5年分を合計すれば、5年間で増加する記事数が求まります(等比数列の和の公式を使える人はそれで計算してもよいでしょう)。
初年度
20,000[件]
2年目
20,000[件] × 1.2 = 24,000[件]
3年目
24,000[件] × 1.2 = 28,800[件]
4年目
28,800[件] × 1.2 = 34,560[件]
5年目
34,560[件] × 1.2 = 41,472[件]
合計
20,000 + 24,000 + 28,800 + 34,560 + 41,472 = 148,832[件]
平均データ量は稼働開始時から変化なし(100[kバイト/件])のため、5年間で発生する記事データ量は、

 148,832[件] × 100[kバイト] = 14,883,200[kバイト] = 14.8832[Gバイト]

したがって、想定運用期間満了時点で使用しているディスク量は、稼働開始時の記事データ量と合算して以下のように算出できます。

 90[Gバイト] + 14.8832[Gバイト] = 104.8832[Gバイト]

ただし、設問に10Gバイト単位に切り上げる指示があるため「110Gバイト」が正解となります。

∴110

設問4

本文中の下線③について,データの読込み速度と書込み速度のどちらを重視してストレージを採用する必要があるか。答案用紙の"読込み速度・書込み速度"のいずれかの字句を○印で囲んで示せ。また,それは,新配信システムのどのような特性によるものか。35字以内で述べよ。
(※正誤判定の都合上,解答欄"重視"には下の解答群からア・イのどちらかを選択してください。)
重視 に関する解答群
  • 読込み速度
  • 書込み速度

解答例・解答の要点

重視:
特性:多数のPCやモバイル端末に対して記事を配信する特性 (25文字)

解説

本問で想定しているシステムは新聞記事のWeb配信サービスですので、ストレージへの書込みは記事アップロードや編集時のみに限られる一方、読込みは利用者の検索要求や最新記事の配信のたびに行われます。新聞記事の配信という特性上、不特定多数の利用者をサービスの対象としており、多数の利用者(Webブラウザやモバイルアプリ)が同時にアクセスすることが想定されます。ストレージに対してはアクセスのたびにAPサーバからの読込み要求が発生しシステムに負荷をかけるので、サービス品質の低下を起こさないためには「読込み性能」の方を重視するのが適切です。

∴重視:ア:読み込み速度
 特性:多数のPCやモバイル端末に対して記事を配信する特性

設問5

本文中の下線④について,性能情報採取ツールによって記録された性能レポートで異常を見つけられなかった理由を,40字以内で述べよ。

解答例・解答の要点

1時間単位の平均を集計しており,短い時間の特異点が分からないから (32文字)

解説

問題文から、「毎時0分0秒」にアクセスが集中してレスポンスが低下する問題があったものの、性能情報採取ツールではこれを検出できなかったことがわかります。

〔新配信システムの構築〕を見ると、このシステムで使用している性能情報採取ツールは「1時間ごとのレスポンスタイム(=[b])の平均とアクセス件数を随時性能レポートに記録する」と書かれているので、毎時0分0秒というごく短いピンポイントのタイミングで発生する性能低下は、残りの余裕をもって動作している時間と平均されたことで見えなくなってしまいます。したがって、1時間ごとの平均値しか記録していないので短時間だけに生じるレスポンスタイムの遅れを検知できない旨を説明することになります。模範解答は「1時間単位の平均を集計しており,短い時間の特異点が分からないから」です。

∴1時間単位の平均を集計しており,短い時間の特異点が分からないから
模範解答

Pagetop