東京AWSのトランスコード障害につきまして
公開日:2017/05/15
4月24日と5月8,9日に立て続けにShotgun接続に障害が発生致しました。
障害の概要とと今後の対応について、簡潔にまとめさせて頂きました。
現在は、状況が落ち着いているために再び東京AWSに設定を切り替えてShotgunをご利用頂ければと思います。
今後、より安定した環境で皆様にサービスをご利用頂くために、いっそうの注意を払ってShotgunの運用を行わせて頂きます。
4/24 ネットワーク障害
データセンターの途中経路で障害が発生したため、特定の地域にユーザー様のトランスコード処理、API処理、Toolikit利用に影響が発生しました。
同状況でもAPI利用に問題が生じないように内部的な改善が行われました。
また、ユーザー様側でトラブルシューティングを行うためのツールもGithubで公開致しました。
5/8 403 Forbidden error
日本地域のユーザー様からメディアのアップロード時に403 Forbidden errorが発生するとの報告をお受けしました。
これは、東京のAWSスタックが、メディアへのアクセスに問題がある状態であったために障害が発生しました。
新しくスタックを生成することにより問題の解決が行われました。引き続き、新スタックでの経過観察が行われています。
今後、同様の状況を察知するために障害モニタリングツールの改善も検討しております。
5/8 オレゴン地域でのトランスコード障害
16:00 UTC頃に想定を超えた大量のジョブがオレゴンAWSサーバーに送信されトランスコード処理に最大35分の遅れが生じました。
スタックのスケーリングが行われたため現在の状況は落ち着いています。
将来的にオートスケーリング処理の実装を検討しております。
オートスケーリングの実装が行われると、同様の状況が発生した場合にも障害の回避が可能となります。
5/9 5:30 AM UTC頃 トランスコード障害
東京AWSサーバーに対して、短時間に想定を超える大量のトランスコード処理が集中して送信されました。
これにより処理が完了するまで最大45分ほどのキュー待ちが発生したり、処理が完了しない障害が発生しました。
障害モニタリングツールの設定状況に問題があっため初動対応に時間を要し、9:30 AM UTC頃には処理待ちのキューが無くなり状況は落ち着きました。
東京AWSサーバーのジョブワーカーを増強したことにより、今後に同様のリクエストが発生した場合は耐えられる状態にあります。
将来的には負荷が著しく増加した際にオートスケーリングされるような処理の実装を検討しています。
ShotGrid ブログ
- Shotgun から ShotGrid への移行プロセスにつきまして(2021/06/18)
- CGWORLD.jp サイトに株式会社キュー・テック様の事例が掲載(2020/10/16)
- SHOTGUN でのアセット・プロジェクト管理事例 ウェビナー(オンデマンド) 〜北米ゲーム開発会社のアートアセット管理パイプライン〜(2020/09/07)
- すべて見る
更新情報
- 2021年6月(1)
- 2020年10月(1)
- 2020年9月(1)
- 2020年3月(1)
- 2020年1月(1)
- 2019年12月(2)
- 2019年7月(1)
- 2019年6月(1)
- 2019年2月(1)
- 2019年1月(1)
- 2018年12月(1)
- 2018年11月(1)
- 2018年9月(3)
- 2018年8月(1)
- 2018年6月(1)
- 2018年5月(1)
- 2018年3月(1)
- 2018年2月(1)
- 2017年12月(1)
- 2017年11月(1)
- 2017年9月(2)
- 2017年7月(1)
- 2017年6月(1)
- 2017年5月(2)
- 2017年4月(1)
- 2017年3月(2)
- 2017年2月(1)
- 2017年1月(1)
- 2016年12月(2)
- 2016年11月(2)
- 2016年10月(1)
- 2016年9月(1)
- 2016年7月(1)
- 2016年6月(1)
- 2016年5月(1)
- 2016年4月(2)
- 2016年3月(3)
- 2016年2月(4)
- 2016年1月(2)
- 2015年12月(1)
- 2015年11月(4)
- 2015年9月(5)
- 2015年8月(1)
- 2015年7月(1)
- 2015年6月(5)
- 2015年5月(4)
- 2015年4月(5)
- 2015年3月(4)