障害対応手順¶
掲載:18 件(S/A/B/C × 用途、S 級は A/B/C 仮説分岐付き)(定番のみ)。除外項目は 11. 対象外項目 を参照。
重要度 × 用途 マトリクス¶
| 重要度\用途 | DFSMS | JES2 | Sysplex | USS | コンソール | ジョブ | セキュリティ | ソフトウェア管理 | ネットワーク | ログ監査 | 性能 | 起動停止 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| S | — | inc-jes2-spool-full | inc-sysplex-split | inc-uss-fs-full | — | inc-job-abend | inc-racf-access-denied | — | inc-tcpip-down | — | inc-paging-shortage | inc-ipl-fail inc-system-hung inc-wtor-response inc-stc-hung |
| A | inc-vsam-open-fail | — | — | — | inc-console-hung | inc-job-fail | — | inc-smpe-apply-fail | — | inc-smf-collect-fail inc-syslog-investigation |
— | — |
| B | — | — | — | inc-uss-batch | — | — | — | — | — | — | — | — |
| C | — | — | — | — | — | — | — | — | — | — | — | — |
詳細手順¶
inc-ipl-fail: IPL 失敗・hang¶
重要度: S / 用途: 起動停止
目的: z/OS が IPL 中で進まない、または NIP で停止する場合の切り分け。
前提: HMC アクセス、別 LOADxx での IPL 計画。
仮説分岐(切り分けの第一歩):
トリガ事象: z/OS が IPL 中で進まない、NIP メッセージで停止
| 仮説 | 内容 | 見分け方 | 対応 |
|---|---|---|---|
| A | PARMLIB の構文エラー / 値矛盾 | IEA301I / IEA302W / IEE254I 等の構文エラーメッセージが NIP に出ている | 別 LOADxx で IPL → 該当メンバを ISPF EDIT → 構文修正 → 再 IPL |
| B | IODF / I/O 構成の不整合 | IOS001E / IOS118E / IGD002I 等の I/O メッセージが出る、または特定デバイスが OFFLINE | 別 IODF(前世代)で IPL → HCD で IODF 修正 → ACTIVATE → 再 IPL |
| C | Master Catalog 損傷 / SYSRES アクセス不能 | IEA083E / IGW01001I 等のカタログ/VSAM エラー | Stand-Alone Restore で SYSRES 復元 → Master Catalog を IDCAMS REPRO で再構築 → IPL |
共通の最初の動作: HMC コンソールで NIP メッセージを必ず記録(後の解析の根拠)。
手順(共通):
- HMC コンソールで NIP メッセージ記録
- WTOR があれば適切に応答(R 0, NORESEXIT 等)
- 進まなければ別 LOADxx で IPL
- 別 IODF で IPL
- mksysb 相当の Stand-Alone Restore 検討
期待出力:

図: z/OS の起動シーケンス(IPL → NIP → MVS startup)— 失敗箇所特定の参考 (出典: ABCs of z/OS Vol.01 (SG24-7976) p.37)
検証: D IPLINFO で状態、D A,L で全 STC active
ロールバック: 事前バックアップ済 PARMLIB から復元
出典: S_ZOS_MVS_Init
inc-system-hung: システム hung(応答なし)¶
重要度: S / 用途: 起動停止
目的: z/OS 全体応答なし、コンソール反応なしの対応。
前提: HMC アクセス。
仮説分岐(切り分けの第一歩):
トリガ事象: z/OS 全体応答なし、コンソール反応なし
| 仮説 | 内容 | 見分け方 | 対応 |
|---|---|---|---|
| A | リソース枯渇(CSA/ECSA/SQA/Aux Storage) | hung 直前に IRA200E / ILR005E / IEA602I などの容量警告が記録されている | Stand-Alone Dump → IPCS で消費 Address Space 特定 → 該当 STC 殺害 → 再 IPL 後 IEASYSxx で増量 |
| B | デッドロック(GRS / Db2 / IMS) | D GRS,C で contention 多数、または特定 STC が長時間 WAIT | D GRS,SYSTEM,LATCH で latch holder 特定 → C/CANCEL ARM=YES で release → 必要なら SVC dump |
| C | ハードウェア障害(CPU / メモリ / CF link) | HMC SE で hardware error log(PCHID error 等)が出ている | HMC で hardware status 確認 → IBM ハードウェアサポートへ。回避は別 LPAR への workload 移動 |
共通の最初の動作: HMC で SVC dump(SYSTEM RESET → SADMP)を必ず取得してから再 IPL。
手順(共通):
- HMC で SVC dump 取得(SYSTEM RESET → SADUMP)
- SVC dump を IPCS で解析
- 強制再 IPL
- dump を IBM サポート提供
期待出力:
検証: D A,L で正常状態、エラー再発なし
ロールバック: (hang は復旧手段、rollback なし)
出典: S_ZOS_Diag
inc-wtor-response: WTOR 大量蓄積対応¶
重要度: S / 用途: 起動停止
目的: 未応答 WTOR が多数蓄積した状態の整理。
前提: MASTER コンソール権限。
手順(共通):
- D R,L で全 WTOR 表示
- 各 ID のメッセージ意味を IBM Docs 参照
- 適切な reply (R
, ) - D R で残数確認
期待出力:
検証: システムが進む、D A,L で active 増加
ロールバック: (応答済 WTOR は復元不可)
関連:
出典: S_ZOS_MVS_Cmds
inc-jes2-spool-full: JES2 SPOOL 95% SHORT 対応¶
重要度: S / 用途: JES2
目的: $HASP050 SHORT ON SPOOL SPACE 発生時の対応。
前提: JES2 オペレータ権限。
仮説分岐(切り分けの第一歩):
トリガ事象: $HASP050 SHORT ON SPOOL SPACE 発生、新規ジョブ受付不能
| 仮説 | 内容 | 見分け方 | 対応 |
|---|---|---|---|
| A | 完了済ジョブの蓄積(HOLD class 等で purge されていない) | $D Q で大量の OUTPUT/HOLD ジョブ、SDSF H で hold 数が多い | SDSF ST → 不要ジョブ P でパージ。SDSF H → P で hardcopy パージ。$T |
| B | 暴走ジョブによる SYSOUT 大量出力 | $D Q で特定ジョブの SYSOUT サイズが異常 | $C |
| C | SPOOL volume 容量設計の限界 | $D SPL で全 volume の利用率が均等に高い、定常状態での増加 | $T SPOOL ADD で新規 SPOOL volume 追加(DASD 事前確保必要)。中長期で cold start で SPOOLDEF 拡張 |
共通の最初の動作: $D Q で総合状況、$D SPL で volume 別利用率を最初に必ず確認。
手順(共通):
- $D Q で使用率確認
- SDSF ST → 完了済ジョブを P でパージ
- SDSF H → HARDCOPY を P
- それでも不足なら $T SPOOL ADD で新規 volume 追加
- $D Q で改善確認
期待出力:

図: JES2 SPOOL volume と CHKPT の構造(SHORT 発生時の参考) (出典: ABCs of z/OS Vol.02 (SG24-7977) p.162)
検証: $HASP050 メッセージ消失、新規ジョブ受付可能
ロールバック: (パージ済ジョブは復元不可、SPOOL 追加のみ rollback 可)
関連: cfg-jes2-init
出典: S_ZOS_JES2
inc-job-abend: ジョブ ABEND 解析¶
重要度: S / 用途: ジョブ
目的: S0C4/S0C7/S322/B37 等の ABEND 原因解析。
前提: SDSF アクセス、IPCS 権限。
手順(共通):
- SDSF ST → S でジョブ詳細表示
- JESJCL/JESYSMSG/SYSOUT で ABEND コードと位置確認
- SVC dump があれば IPCS で解析
- 原因に応じて JCL or アプリ修正
- $E で再実行
期待出力:
検証: RC=0 または期待 RC、SYSOUT で出力確認
ロールバック: (ABEND の rollback は再実行)
出典: S_ZOS_Diag
inc-paging-shortage: ページング枯渇 (ILR005E)¶
重要度: S / 用途: 性能
目的: PLPA/COMMON/LOCAL ページデータセット使用率超過対応。
前提: ASM 操作権限。
仮説分岐(切り分けの第一歩):
トリガ事象: ILR005E AUXILIARY STORAGE SHORTAGE
| 仮説 | 内容 | 見分け方 | 対応 |
|---|---|---|---|
| A | メモリリーク STC が大量 paging を発生させている | D ASM,PLPA で PLPA は正常、LOCAL のみ高使用。RMF Mon III で特定 ASID が常に high working set | 該当 STC を P で停止 → 起動元の保守 PTF 確認 |
| B | 突発負荷で正常なバッチが paging を引き起こす | JES2 で同時 active job 数が異常に多い | $P INIT で initiator 数を一時減少 → 完了待ち → 段階的に復帰 |
| C | ページデータセット容量設計不足 | D ASM で全タイプ(PLPA/COMMON/LOCAL)が定常的に高使用率 | PAGEADD で新規 LOCAL ページデータセット動的追加 → 中長期で IEASYSxx PAGE= 拡張 |
共通の最初の動作: D ASM で各タイプ(PLPA/COMMON/LOCAL)の使用率を必ず確認してから手段選択。
手順(共通):
- D ASM で各タイプ使用率確認
- PAGEADD で動的に追加 (LOCAL のみ)
- 不要 STC を P で停止
- システムワーキングセット見直し
期待出力:

図: z/OS 仮想記憶(Common / Private)— ページング枯渇切り分けの参考 (出典: ABCs of z/OS Vol.01 (SG24-7976) p.29)
検証: ILR005E メッセージ消失、新規アドレス空間起動可能
ロールバック: PAGEADD は PAGEDEL で取り外し可能
関連: inc-system-hung
出典: S_ZOS_Init_Tuning
inc-racf-access-denied: RACF アクセス拒否 (ICH408I)¶
重要度: S / 用途: セキュリティ
目的: RACF でアクセス拒否された場合の権限調整。
前提: RACF SPECIAL or class authority。
仮説分岐(切り分けの第一歩):
トリガ事象: ICH408I INSUFFICIENT ACCESS AUTHORITY
| 仮説 | 内容 | 見分け方 | 対応 |
|---|---|---|---|
| A | プロファイルに対する権限不足(PERMIT 不在) | RLIST |
PERMIT ' |
| B | プロファイル自体がない(UACC NONE 状態) | RLIST |
RDEFINE |
| C | GENERIC プロファイルの REFRESH 漏れ | PERMIT 直後で SETR REFRESH 未実施、GENERIC class(DATASET 等)で発生 | SETROPTS GENERIC( |
共通の最初の動作: ICH408I のメッセージ全文(ENTITY/CLASS/ACCESS)を必ず保存してから RLIST 開始。
手順(共通):
- ICH408I メッセージで対象リソース・ユーザ確認
- RLIST
' ' AUTHUSER で現状確認 - 必要なら PERMIT で権限付与
- SETROPTS REFRESH(class が GENERIC 等の場合)
- 再アクセステスト
期待出力:
検証: ICH408I 再発なし
ロールバック: PERMIT ... DELETE で取り消し
関連: cfg-racf-permit
出典: S_ZOS_RACF
inc-smf-collect-fail: SMF レコード取得失敗¶
重要度: A / 用途: ログ監査
目的: SMF データセット FULL や TYPE 漏れで取得不全の対応。
前提: SMF 操作権限。
手順(共通):
- D SMF で現状確認
- SYS1.MAN1/2/3 が FULL なら SWITCH SMF で次データセットへ
- IFASMFDP でフルデータセットを history へ
- SETSMF TYPE(...) で TYPE 追加
期待出力:
検証: IFASMFDP で新レコード抽出確認
ロールバック: SMFPRMxx 元に戻し SET SMF
関連: cfg-smf-collect
出典: S_ZOS_SMF
inc-sysplex-split: Sysplex 分断 (XCF 通信断)¶
重要度: S / 用途: Sysplex
目的: Sysplex メンバ間の通信断の対応。
前提: Sysplex 全体構成把握、SFM Policy。
手順(共通):
- D XCF,COUPLE で各 CDS 状態
- D XCF,GROUP / D XCF,POLICY で構成確認
- SFM Policy が active なら自動隔離
- 手動で SETXCF FORCE でメンバ切り離し
- 復旧後 SETXCF START で再参加
期待出力:

図: Parallel Sysplex の構成(XCF 通信断時の影響範囲確認) (出典: ABCs of z/OS Vol.05 (SG24-7980) p.18)
検証: Sysplex 全体動作確認
ロールバック: (自動回復、rollback なし)
出典: S_ZOS_Sysplex
inc-tcpip-down: TCP/IP 通信不能¶
重要度: S / 用途: ネットワーク
目的: TCPIP STC 異常で外部通信できない場合の対応。
前提: TCPIP / NETSTAT 権限。
仮説分岐(切り分けの第一歩):
トリガ事象: TCP/IP 通信不能、ping 失敗
| 仮説 | 内容 | 見分け方 | 対応 |
|---|---|---|---|
| A | TCPIP STC 自体が down/hung | D A,L で TCPIP が ACTIVE でない、または応答なし | TCPIP STC を P → S で再起動。hung なら C → S。NETSTAT 取得不能で確認 |
| B | ネットワークインターフェース(OSA/HiperSocket)障害 | NETSTAT DEV で OSA インターフェースが INACTIVE / NOT ACTIVE | VARY OBEY で device 再活性化、HMC で OSA hardware status 確認 |
| C | PROFILE.TCPIP 設定誤り(HOME / ROUTE / GATEWAY) | NETSTAT HOME で HOME IP 不在、NETSTAT ROUTE で default route 不在 | PROFILE.TCPIP 修正 → V TCPIP,,OBEYFILE で動的反映 → ping 再試行 |
共通の最初の動作: NETSTAT HOME / NETSTAT DEV / NETSTAT ROUTE の 3 点をまず取得。
手順(共通):
- D A,L で TCPIP STC 状態確認
- NETSTAT HOME / NETSTAT DEV で IP/インターフェース確認
- PROFILE.TCPIP の最新化確認
- TCPIP STC を P → S で再起動
- ping で疎通確認
期待出力:
検証: 外部システムからの接続テスト
ロールバック: PROFILE.TCPIP を旧版に戻し再起動
出典: S_ZOS_CommServer
inc-uss-fs-full: USS ファイルシステム満杯¶
重要度: S / 用途: USS
目的: zFS aggregate 満杯時の対応。
前提: BPXPRMxx 権限、zFS 管理権限。
手順(共通):
- df -k で対象 FS 確認
- 不要ファイル削除
- zfsadm grow で拡張
- df -k で確認
期待出力:

図: zfsadm grow による zFS aggregate 拡張 (出典: ABCs of z/OS Vol.09 (SG24-7984) p.703)
検証: ファイル書き込みテスト
ロールバック: zfsadm shrink(縮小)
関連: cfg-uss-fs
出典: S_ZOS_USS
inc-stc-hung: STC hung¶
重要度: S / 用途: 起動停止
目的: Started Task が応答なくなった場合の対応。
前提: MASTER コンソール権限、DUMP 取得権限。
手順(共通):
- SDSF DA → S でジョブ詳細
- DUMP COMM=(
),JOBNAME= で SVC dump - P
で正常停止試行 - 効かなければ C
- dump を IPCS で解析
期待出力:
検証: S
ロールバック: (hung の rollback はない)
関連: inc-system-hung
出典: S_ZOS_Diag
inc-vsam-open-fail: VSAM open エラー (IDC3009I)¶
重要度: A / 用途: DFSMS
目的: VSAM cluster open 失敗の原因切り分け。
前提: Catalog/VSAM 操作権限。
手順(共通):
- メッセージ ID で原因確認(return/reason code)
- LISTC LEVEL(
) で構造確認 - EXAMINE で整合性チェック
- REPRO で再作成、または ALTER で属性修正
期待出力:
検証: アプリから読み書きテスト
ロールバック: バックアップから restore
関連: inc-job-abend
出典: S_ZOS_DFSMS
inc-syslog-investigation: SYSLOG/OPERLOG 調査¶
重要度: A / 用途: ログ監査
目的: システムメッセージから障害原因特定。
前提: SDSF アクセス。
手順(共通):
- SDSF LOG(または LOG O で OPERLOG)
- FIND
で該当箇所探す - 前後の関連メッセージ確認
- 必要なら IPCS で SVC dump 解析
期待出力:
検証: 対処後にエラーメッセージ消失
ロールバック: (調査作業に rollback なし)
関連:
出典: S_ZOS_SDSF
inc-console-hung: Console 応答なし¶
重要度: A / 用途: コンソール
目的: MCS console hung 時の代替対応。
前提: 代替コンソールアクセス、HMC。
手順(共通):
- 別 console から D C で console 状態確認
- VARY CN(
),OFFLINE で切り離し - VARY CN(
),HARDCPY で代替指定 - EMCS console で代替
期待出力:
検証: オペレータコマンド受付
ロールバック: VARY CN(
関連: cfg-console-add
出典: S_ZOS_MVS_Init
inc-smpe-apply-fail: SMP/E APPLY 失敗¶
重要度: A / 用途: ソフトウェア管理
目的: PTF 適用失敗の原因切り分け。
前提: SMP/E 操作権限。
手順(共通):
- APPLY 出力ログ確認
- ++HOLD 警告確認
- 不足 prerequisite を特定
- APPLY GROUPEXTEND で関連 PTF 同時適用
- BYPASS(HOLDSYS) は内容確認後に判断
期待出力:
検証: LIST SYSMOD で適用状態確認、システム動作確認
ロールバック: RESTORE で取り消し
出典: S_ZOS_SMPE
inc-job-fail: ジョブ失敗・再実行¶
重要度: A / 用途: ジョブ
目的: JES2 で failed/canceled ジョブの再実行。
前提: JES2 操作権限。
手順(共通):
- SDSF ST で対象ジョブ確認
- JESYSMSG で失敗原因
- JCL 修正後 SUBMIT、または CKPT があれば $E で restart
- 再実行確認
期待出力:
検証: 出力確認
ロールバック: (失敗ジョブの rollback はない)
関連: inc-job-abend
出典: S_ZOS_JES2
inc-uss-batch: BPXBATCH 失敗対応¶
重要度: B / 用途: USS
目的: BPXBATCH ジョブ失敗の切り分け。
前提: BPXBATCH JCL 編集権限。
手順(共通):
- STDOUT / STDERR DD 確認
- シェルスクリプト権限確認 (chmod +x)
- シェルパス確認 (#!/bin/sh)
- 環境変数(PATH 等)確認
期待出力:
検証: STDOUT 出力確認
ロールバック: (バッチ実行の rollback はない)
関連: cfg-uss-fs
出典: S_ZOS_USS