東京AWSのトランスコード障害につきまして

4月24日と5月8,9日に立て続けにShotgun接続に障害が発生致しました。
障害の概要とと今後の対応について、簡潔にまとめさせて頂きました。

現在は、状況が落ち着いているために再び東京AWSに設定を切り替えてShotgunをご利用頂ければと思います。

今後、より安定した環境で皆様にサービスをご利用頂くために、いっそうの注意を払ってShotgunの運用を行わせて頂きます。

4/24 ネットワーク障害

データセンターの途中経路で障害が発生したため、特定の地域にユーザー様のトランスコード処理、API処理、Toolikit利用に影響が発生しました。

同状況でもAPI利用に問題が生じないように内部的な改善が行われました。
また、ユーザー様側でトラブルシューティングを行うためのツールもGithubで公開致しました。

5/8 403 Forbidden error

日本地域のユーザー様からメディアのアップロード時に403 Forbidden errorが発生するとの報告をお受けしました。
これは、東京のAWSスタックが、メディアへのアクセスに問題がある状態であったために障害が発生しました。

新しくスタックを生成することにより問題の解決が行われました。引き続き、新スタックでの経過観察が行われています。
今後、同様の状況を察知するために障害モニタリングツールの改善も検討しております。

5/8 オレゴン地域でのトランスコード障害

16:00 UTC頃に想定を超えた大量のジョブがオレゴンAWSサーバーに送信されトランスコード処理に最大35分の遅れが生じました。

スタックのスケーリングが行われたため現在の状況は落ち着いています。
将来的にオートスケーリング処理の実装を検討しております。
オートスケーリングの実装が行われると、同様の状況が発生した場合にも障害の回避が可能となります。

5/9 5:30 AM UTC頃 トランスコード障害

東京AWSサーバーに対して、短時間に想定を超える大量のトランスコード処理が集中して送信されました。
これにより処理が完了するまで最大45分ほどのキュー待ちが発生したり、処理が完了しない障害が発生しました。

障害モニタリングツールの設定状況に問題があっため初動対応に時間を要し、9:30 AM UTC頃には処理待ちのキューが無くなり状況は落ち着きました。

東京AWSサーバーのジョブワーカーを増強したことにより、今後に同様のリクエストが発生した場合は耐えられる状態にあります。
将来的には負荷が著しく増加した際にオートスケーリングされるような処理の実装を検討しています。

ShotGrid 無償体験版 30日間 便利なプロジェクト管理を体験しよう

ShotGrid ブログ

製品購入に関するお問い合わせ
オートデスク メディア&エンターテインメント 製品のご購入に関してご連絡を希望される場合は、こちらからお問い合わせください。