スクリプト
Chapter 1 オープニング
皆さんこんにちは、タカシです。今日は SaaSサポートのインシデントコミュニケーションを扱います。PagerDuty のガイドでは、障害の初報は incident call 開始から 5 分以内が目安です。復旧の速さだけでなく、知らせる速さが継続率を左右するテーマですね。
5 分ですか。かなり短いですね。私だったら、まだ原因も分かっていないのに何を言えばいいのか迷って、つい黙ってしまいそうです。でもその沈黙自体が、顧客から見ると一番怖いのかもしれませんね。
まさにそこです。SaaS では障害そのものをゼロにはできませんが、顧客を放置しない運営は設計できます。今日のポイントは三つで、初報の速さ、見る場所を一つに寄せること、そして誰が説明責任を持つかを平時から決めることです。
なるほど。技術の話というより、信頼を減らさないオペレーションの話なんですね。特に B2B SaaS だと、障害中に現場担当者だけでなく上司や経営陣まで見ているので、説明の型がないと一気に炎上しそうです。
Chapter 2 何を伝えるかより先に、いつ伝えるか
インシデントコミュニケーションで重要なのは、正解がそろってから話すことではありません。PagerDuty は、初報からさらに 5 分以内に影響範囲の初期スコープを出し、その後 2 時間は少なくとも 20 分ごとに更新すると示しています。完璧さより、追い続けていることを見せるわけです。
つまり最初のメッセージは、犯人探しの報告じゃなくて、気付いていて動いていて、次はいつ知らせるかを出すのが役割なんですね。それだけでも顧客の不安はかなり違いそうです。
その通りです。Atlassian の Statuspage tips でも、まず早く認知を伝え、状況が続く間は 30 分ごとを目安に更新すると案内しています。更新内容が小さくても、次回更新時刻が書かれているだけで、問い合わせ窓口への同じ質問はかなり減ります。
ここ、経営者ほど勘違いしやすい気がします。沈黙しているほうが余計な不安を煽らないと思いがちですけど、実際には情報がないからこそ営業にもサポートにも同じ問い合わせが雪崩れ込むんですね。
Chapter 3 単一の情報源と責任者を決める
次の論点は、どこを見れば最新情報が分かるかです。Atlassian は dedicated status page を主軸に置き、X 旧 Twitter やサポートポータルからもそこへ誘導しています。Datadog も、影響コンポーネントと更新タイムラインを status page に集約すると、重複チケットの洪水を防げると説明しています。
チャネルを増やすほど親切に見えますけど、実際には中心がないと危険なんですね。メールでは A、チャットでは B、営業が個別に C と言い出したら、障害そのものより説明の不一致で信用を失いそうです。
さらに重要なのが ownership です。GitLab の customer emergencies workflow では DRI がチケットを持ち続け、広範囲障害では status page と @gitlabstatus へ誘導する統一返信を使います。Intercom も地域別の status page を分け、US、EU、AU で適切な顧客へ通知を出せるようにしています。
誰が持つかが曖昧だと、交代のたびに説明が巻き戻るわけですね。しかもリージョンや契約で影響が違う SaaS ほど、全員に同じ文章を送るだけでは足りない。Comms DRI が必要な理由がよく分かります。
Chapter 4 失敗パターンは沈黙と不一致
よくある失敗は五つあります。原因確定まで黙る、次回更新時刻を書かない、status page とサポート返信が食い違う、DRI が不在、そしてベンダー障害だから自社責任ではないと振る舞うことです。顧客視点では、使えない事実の責任窓口は常に自社です。
最後の話、耳が痛い会社は多そうです。原因が AWS でも決済代行でも、利用者からすれば自分たちの業務が止まっていることが問題ですもんね。そこを外部要因のせいにすると、一気に距離ができます。
その通りです。インシデント中の顧客心理は、怒りより先に不確実性への不安です。だから『今は調査中』『影響はこの範囲』『次は 14 時に更新』の三点があるだけで、受け止め方が大きく変わります。説明の頻度は、そのまま信頼の頻度なんですね。
なるほど。情報量が少ないこと自体より、約束がないことが不安を増やすんですね。逆に言うと、更新 cadence とテンプレートがあるだけで、現場の心理負荷もかなり下げられそうです。
Chapter 5 明日から整える実務
明日からの実務はシンプルです。第一に、初報、経過報、復旧報、postmortem 案内の四つのテンプレートを作る。第二に、status page を単一の source of truth に据える。第三に、P1 と P2 では Comms DRI を必ず指名する。この三つで初動の質はかなり上がります。
加えて、大口顧客には個別連絡の導線も要りますね。一斉告知だけだと、契約や利用範囲が大きい顧客ほど不安が残りやすい。サポート、CS、営業で誰が電話し、誰が次の更新を持つかまで決めておきたいです。
その視点は重要です。SaaSサポートのインシデントコミュニケーションは、広報文を書く仕事ではなく、顧客の意思決定コストを下げる仕事です。だから速度、整合性、ownership の三つを先に設計する。障害が起きてから考えると、必ず遅れます。
今日は、SaaSサポートのインシデントコミュニケーションを見てきました。障害そのものより沈黙と不一致が解約を呼ぶ。ぜひ皆さんの組織でも、次回更新時刻まで含めた説明の型を平時に整えてみてください。今回もありがとうございました。