コアダンプ疫学:18年前のバグを修正する

OpenAI
OpenAIのエンジニアは、疫学的なアプローチを用いて、ハードウェア障害とライブラリの長年のバグに起因するサービスクラッシュを解決しました。

概要

OpenAIのエンジニアは、データインフラ「Rockset」で発生していた原因不明のクラッシュに対し、個別のデバッグではなく疫学的なアプローチをとることで解決に至りました。クラッシュの母集団データを詳細に分析した結果、特定のAzureホストにおけるハードウェア障害と、GNU libunwindライブラリに18年間潜んでいた競合状態という、全く別々の2つの原因が判明しました。チームは故障したホストの切り離しと例外アンワインダーの変更を行うことで問題を解決し、複雑なシステムにおけるデータ駆動型デバッグの重要性を強調しました。

(出典:OpenAI)