コアダンプ疫学:18年前のバグを修正する
概要
OpenAIのエンジニアは、データインフラ「Rockset」で発生していた原因不明のクラッシュに対し、個別のデバッグではなく疫学的なアプローチをとることで解決に至りました。クラッシュの母集団データを詳細に分析した結果、特定のAzureホストにおけるハードウェア障害と、GNU libunwindライブラリに18年間潜んでいた競合状態という、全く別々の2つの原因が判明しました。チームは故障したホストの切り離しと例外アンワインダーの変更を行うことで問題を解決し、複雑なシステムにおけるデータ駆動型デバッグの重要性を強調しました。
(出典:OpenAI)