障害対応手順¶

掲載：18 件（S/A/B/C × 用途、S 級は A/B/C 仮説分岐付き）（定番のみ）。除外項目は 11. 対象外項目を参照。

重要度 × 用途マトリクス¶

重要度＼用途	DFSMS	JES2	Sysplex	USS	コンソール	ジョブ	セキュリティ	ソフトウェア管理	ネットワーク	ログ監査	性能	起動停止
S	—	inc-jes2-spool-full	inc-sysplex-split	inc-uss-fs-full	—	inc-job-abend	inc-racf-access-denied	—	inc-tcpip-down	—	inc-paging-shortage	inc-ipl-fail inc-system-hung inc-wtor-response inc-stc-hung
A	inc-vsam-open-fail	—	—	—	inc-console-hung	inc-job-fail	—	inc-smpe-apply-fail	—	inc-smf-collect-fail inc-syslog-investigation	—	—
B	—	—	—	inc-uss-batch	—	—	—	—	—	—	—	—
C	—	—	—	—	—	—	—	—	—	—	—	—

詳細手順¶

inc-ipl-fail: IPL 失敗・hang¶

重要度: S / 用途: 起動停止

目的: z/OS が IPL 中で進まない、または NIP で停止する場合の切り分け。

前提: HMC アクセス、別 LOADxx での IPL 計画。

仮説分岐（切り分けの第一歩）:

トリガ事象: z/OS が IPL 中で進まない、NIP メッセージで停止

仮説	内容	見分け方	対応
A	PARMLIB の構文エラー / 値矛盾	IEA301I / IEA302W / IEE254I 等の構文エラーメッセージが NIP に出ている	別 LOADxx で IPL → 該当メンバを ISPF EDIT → 構文修正 → 再 IPL
B	IODF / I/O 構成の不整合	IOS001E / IOS118E / IGD002I 等の I/O メッセージが出る、または特定デバイスが OFFLINE	別 IODF（前世代）で IPL → HCD で IODF 修正 → ACTIVATE → 再 IPL
C	Master Catalog 損傷 / SYSRES アクセス不能	IEA083E / IGW01001I 等のカタログ／VSAM エラー	Stand-Alone Restore で SYSRES 復元 → Master Catalog を IDCAMS REPRO で再構築 → IPL

共通の最初の動作: HMC コンソールで NIP メッセージを必ず記録（後の解析の根拠）。

手順（共通）:

HMC コンソールで NIP メッセージ記録
WTOR があれば適切に応答（R 0, NORESEXIT 等）
進まなければ別 LOADxx で IPL
別 IODF で IPL
mksysb 相当の Stand-Alone Restore 検討

期待出力:

NIP 完了、サブシステム起動完了

z/OS IPL 概念

図: z/OS の起動シーケンス（IPL → NIP → MVS startup）— 失敗箇所特定の参考（出典: ABCs of z/OS Vol.01 (SG24-7976) p.37）

検証: D IPLINFO で状態、D A,L で全 STC active

ロールバック: 事前バックアップ済 PARMLIB から復元

inc-system-hung: システム hung（応答なし）¶

重要度: S / 用途: 起動停止

目的: z/OS 全体応答なし、コンソール反応なしの対応。

前提: HMC アクセス。

仮説分岐（切り分けの第一歩）:

トリガ事象: z/OS 全体応答なし、コンソール反応なし

仮説	内容	見分け方	対応
A	リソース枯渇（CSA/ECSA/SQA/Aux Storage）	hung 直前に IRA200E / ILR005E / IEA602I などの容量警告が記録されている	Stand-Alone Dump → IPCS で消費 Address Space 特定 → 該当 STC 殺害 → 再 IPL 後 IEASYSxx で増量
B	デッドロック（GRS / Db2 / IMS）	D GRS,C で contention 多数、または特定 STC が長時間 WAIT	D GRS,SYSTEM,LATCH で latch holder 特定 → C/CANCEL ARM=YES で release → 必要なら SVC dump
C	ハードウェア障害（CPU / メモリ / CF link）	HMC SE で hardware error log（PCHID error 等）が出ている	HMC で hardware status 確認 → IBM ハードウェアサポートへ。回避は別 LPAR への workload 移動

共通の最初の動作: HMC で SVC dump（SYSTEM RESET → SADMP）を必ず取得してから再 IPL。

手順（共通）:

HMC で SVC dump 取得（SYSTEM RESET → SADUMP）
SVC dump を IPCS で解析
強制再 IPL
dump を IBM サポート提供

期待出力:

再 IPL 後システム回復

検証: D A,L で正常状態、エラー再発なし

ロールバック: （hang は復旧手段、rollback なし）

inc-wtor-response: WTOR 大量蓄積対応¶

重要度: S / 用途: 起動停止

目的: 未応答 WTOR が多数蓄積した状態の整理。

前提: MASTER コンソール権限。

手順（共通）:

D R,L で全 WTOR 表示
各 ID のメッセージ意味を IBM Docs 参照
適切な reply (R ,)
D R で残数確認

期待出力:

D R,L で WTOR 数 0

検証: システムが進む、D A,L で active 増加

ロールバック: （応答済 WTOR は復元不可）

inc-jes2-spool-full: JES2 SPOOL 95% SHORT 対応¶

重要度: S / 用途: JES2

目的: $HASP050 SHORT ON SPOOL SPACE 発生時の対応。

前提: JES2 オペレータ権限。

仮説分岐（切り分けの第一歩）:

トリガ事象: $HASP050 SHORT ON SPOOL SPACE 発生、新規ジョブ受付不能

仮説	内容	見分け方	対応
A	完了済ジョブの蓄積（HOLD class 等で purge されていない）	$D Q で大量の OUTPUT/HOLD ジョブ、SDSF H で hold 数が多い	SDSF ST → 不要ジョブ P でパージ。SDSF H → P で hardcopy パージ。$T ,OUTPUT=PURGE で自動化検討
B	暴走ジョブによる SYSOUT 大量出力	$D Q で特定ジョブの SYSOUT サイズが異常	$C でジョブキャンセル → SYSOUT パージ → アプリケーション側で OUTLIM 等の上限設定
C	SPOOL volume 容量設計の限界	$D SPL で全 volume の利用率が均等に高い、定常状態での増加	$T SPOOL ADD で新規 SPOOL volume 追加（DASD 事前確保必要）。中長期で cold start で SPOOLDEF 拡張

共通の最初の動作: $D Q で総合状況、$D SPL で volume 別利用率を最初に必ず確認。

手順（共通）:

$D Q で使用率確認
SDSF ST → 完了済ジョブを P でパージ
SDSF H → HARDCOPY を P
それでも不足なら $T SPOOL ADD で新規 volume 追加
$D Q で改善確認

期待出力:

使用率 80% 以下に低下

JES2 SPOOL 構造

図: JES2 SPOOL volume と CHKPT の構造（SHORT 発生時の参考）（出典: ABCs of z/OS Vol.02 (SG24-7977) p.162）

検証: $HASP050 メッセージ消失、新規ジョブ受付可能

ロールバック: （パージ済ジョブは復元不可、SPOOL 追加のみ rollback 可）

inc-job-abend: ジョブ ABEND 解析¶

重要度: S / 用途: ジョブ

目的: S0C4/S0C7/S322/B37 等の ABEND 原因解析。

前提: SDSF アクセス、IPCS 権限。

手順（共通）:

SDSF ST → S でジョブ詳細表示
JESJCL/JESYSMSG/SYSOUT で ABEND コードと位置確認
SVC dump があれば IPCS で解析
原因に応じて JCL or アプリ修正
$E で再実行

期待出力:

再実行で正常終了

検証: RC=0 または期待 RC、SYSOUT で出力確認

ロールバック: （ABEND の rollback は再実行）

inc-paging-shortage: ページング枯渇 (ILR005E)¶

重要度: S / 用途: 性能

目的: PLPA/COMMON/LOCAL ページデータセット使用率超過対応。

前提: ASM 操作権限。

仮説分岐（切り分けの第一歩）:

トリガ事象: ILR005E AUXILIARY STORAGE SHORTAGE

仮説	内容	見分け方	対応
A	メモリリーク STC が大量 paging を発生させている	D ASM,PLPA で PLPA は正常、LOCAL のみ高使用。RMF Mon III で特定 ASID が常に high working set	該当 STC を P で停止 → 起動元の保守 PTF 確認
B	突発負荷で正常なバッチが paging を引き起こす	JES2 で同時 active job 数が異常に多い	$P INIT で initiator 数を一時減少 → 完了待ち → 段階的に復帰
C	ページデータセット容量設計不足	D ASM で全タイプ（PLPA/COMMON/LOCAL）が定常的に高使用率	PAGEADD で新規 LOCAL ページデータセット動的追加 → 中長期で IEASYSxx PAGE= 拡張

共通の最初の動作: D ASM で各タイプ（PLPA/COMMON/LOCAL）の使用率を必ず確認してから手段選択。

手順（共通）:

D ASM で各タイプ使用率確認
PAGEADD で動的に追加 (LOCAL のみ)
不要 STC を P で停止
システムワーキングセット見直し

期待出力:

D ASM で使用率低下

z/OS 仮想記憶レイアウト

図: z/OS 仮想記憶（Common / Private）— ページング枯渇切り分けの参考（出典: ABCs of z/OS Vol.01 (SG24-7976) p.29）

検証: ILR005E メッセージ消失、新規アドレス空間起動可能

ロールバック: PAGEADD は PAGEDEL で取り外し可能

inc-racf-access-denied: RACF アクセス拒否 (ICH408I)¶

重要度: S / 用途: セキュリティ

目的: RACF でアクセス拒否された場合の権限調整。

前提: RACF SPECIAL or class authority。

仮説分岐（切り分けの第一歩）:

トリガ事象: ICH408I INSUFFICIENT ACCESS AUTHORITY

仮説	内容	見分け方	対応
A	プロファイルに対する権限不足（PERMIT 不在）	RLIST '' AUTHUSER で対象ユーザの ACCESS 列が NONE / READ 不足	PERMIT '' CLASS() ID() ACCESS() → SETR REFRESH
B	プロファイル自体がない（UACC NONE 状態）	RLIST '' で NOT FOUND	RDEFINE '' UACC(NONE) AUDIT(SUCCESS,FAILURES) → PERMIT で個別権限
C	GENERIC プロファイルの REFRESH 漏れ	PERMIT 直後で SETR REFRESH 未実施、GENERIC class（DATASET 等）で発生	SETROPTS GENERIC() REFRESH → 再アクセステスト

共通の最初の動作: ICH408I のメッセージ全文（ENTITY/CLASS/ACCESS）を必ず保存してから RLIST 開始。

手順（共通）:

ICH408I メッセージで対象リソース・ユーザ確認
RLIST '' AUTHUSER で現状確認
必要なら PERMIT で権限付与
SETROPTS REFRESH（class が GENERIC 等の場合）
再アクセステスト

期待出力:

ユーザがアクセス成功

検証: ICH408I 再発なし

ロールバック: PERMIT ... DELETE で取り消し

inc-smf-collect-fail: SMF レコード取得失敗¶

重要度: A / 用途: ログ監査

目的: SMF データセット FULL や TYPE 漏れで取得不全の対応。

前提: SMF 操作権限。

手順（共通）:

D SMF で現状確認
SYS1.MAN1/2/3 が FULL なら SWITCH SMF で次データセットへ
IFASMFDP でフルデータセットを history へ
SETSMF TYPE(...) で TYPE 追加

期待出力:

D SMF で正常状態、新レコード書き込み開始

検証: IFASMFDP で新レコード抽出確認

ロールバック: SMFPRMxx 元に戻し SET SMF

inc-sysplex-split: Sysplex 分断 (XCF 通信断)¶

重要度: S / 用途: Sysplex

目的: Sysplex メンバ間の通信断の対応。

前提: Sysplex 全体構成把握、SFM Policy。

手順（共通）:

D XCF,COUPLE で各 CDS 状態
D XCF,GROUP / D XCF,POLICY で構成確認
SFM Policy が active なら自動隔離
手動で SETXCF FORCE でメンバ切り離し
復旧後 SETXCF START で再参加

期待出力:

D XCF で全メンバ ACTIVE

Parallel Sysplex 構成

図: Parallel Sysplex の構成（XCF 通信断時の影響範囲確認）（出典: ABCs of z/OS Vol.05 (SG24-7980) p.18）

検証: Sysplex 全体動作確認

ロールバック: （自動回復、rollback なし）

inc-tcpip-down: TCP/IP 通信不能¶

重要度: S / 用途: ネットワーク

目的: TCPIP STC 異常で外部通信できない場合の対応。

前提: TCPIP / NETSTAT 権限。

仮説分岐（切り分けの第一歩）:

トリガ事象: TCP/IP 通信不能、ping 失敗

仮説	内容	見分け方	対応
A	TCPIP STC 自体が down/hung	D A,L で TCPIP が ACTIVE でない、または応答なし	TCPIP STC を P → S で再起動。hung なら C → S。NETSTAT 取得不能で確認
B	ネットワークインターフェース（OSA/HiperSocket）障害	NETSTAT DEV で OSA インターフェースが INACTIVE / NOT ACTIVE	VARY OBEY で device 再活性化、HMC で OSA hardware status 確認
C	PROFILE.TCPIP 設定誤り（HOME / ROUTE / GATEWAY）	NETSTAT HOME で HOME IP 不在、NETSTAT ROUTE で default route 不在	PROFILE.TCPIP 修正 → V TCPIP,,OBEYFILE で動的反映 → ping 再試行

共通の最初の動作: NETSTAT HOME / NETSTAT DEV / NETSTAT ROUTE の 3 点をまず取得。

手順（共通）:

D A,L で TCPIP STC 状態確認
NETSTAT HOME / NETSTAT DEV で IP/インターフェース確認
PROFILE.TCPIP の最新化確認
TCPIP STC を P → S で再起動
ping で疎通確認

期待出力:

ping 成功、NETSTAT 正常

検証: 外部システムからの接続テスト

ロールバック: PROFILE.TCPIP を旧版に戻し再起動

inc-uss-fs-full: USS ファイルシステム満杯¶

重要度: S / 用途: USS

目的: zFS aggregate 満杯時の対応。

前提: BPXPRMxx 権限、zFS 管理権限。

手順（共通）:

df -k で対象 FS 確認
不要ファイル削除
zfsadm grow で拡張
df -k で確認

期待出力:

df -k で空き容量回復

zFS 拡張

図: zfsadm grow による zFS aggregate 拡張（出典: ABCs of z/OS Vol.09 (SG24-7984) p.703）

検証: ファイル書き込みテスト

ロールバック: zfsadm shrink（縮小）

inc-stc-hung: STC hung¶

重要度: S / 用途: 起動停止

目的: Started Task が応答なくなった場合の対応。

前提: MASTER コンソール権限、DUMP 取得権限。

手順（共通）:

SDSF DA → S でジョブ詳細
DUMP COMM=(),JOBNAME= で SVC dump
P で正常停止試行
効かなければ C
dump を IPCS で解析

期待出力:

STC が停止、再起動可能

検証: S で正常起動

ロールバック: （hung の rollback はない）

inc-vsam-open-fail: VSAM open エラー (IDC3009I)¶

重要度: A / 用途: DFSMS

目的: VSAM cluster open 失敗の原因切り分け。

前提: Catalog/VSAM 操作権限。

手順（共通）:

メッセージ ID で原因確認（return/reason code）
LISTC LEVEL() で構造確認
EXAMINE で整合性チェック
REPRO で再作成、または ALTER で属性修正

期待出力:

open 成功

検証: アプリから読み書きテスト

ロールバック: バックアップから restore

inc-syslog-investigation: SYSLOG/OPERLOG 調査¶

重要度: A / 用途: ログ監査

目的: システムメッセージから障害原因特定。

前提: SDSF アクセス。

手順（共通）:

SDSF LOG（または LOG O で OPERLOG）
FIND で該当箇所探す
前後の関連メッセージ確認
必要なら IPCS で SVC dump 解析

期待出力:

原因メッセージ特定

検証: 対処後にエラーメッセージ消失

ロールバック: （調査作業に rollback なし）

inc-console-hung: Console 応答なし¶

重要度: A / 用途: コンソール

目的: MCS console hung 時の代替対応。

前提: 代替コンソールアクセス、HMC。

手順（共通）:

別 console から D C で console 状態確認
VARY CN(),OFFLINE で切り離し
VARY CN(),HARDCPY で代替指定
EMCS console で代替

期待出力:

代替 console が active

検証: オペレータコマンド受付

ロールバック: VARY CN(),ONLINE で戻し

inc-smpe-apply-fail: SMP/E APPLY 失敗¶

重要度: A / 用途: ソフトウェア管理

目的: PTF 適用失敗の原因切り分け。

前提: SMP/E 操作権限。

手順（共通）:

APPLY 出力ログ確認
++HOLD 警告確認
不足 prerequisite を特定
APPLY GROUPEXTEND で関連 PTF 同時適用
BYPASS(HOLDSYS) は内容確認後に判断

期待出力:

APPLY SUCCESS

検証: LIST SYSMOD で適用状態確認、システム動作確認

ロールバック: RESTORE で取り消し

inc-job-fail: ジョブ失敗・再実行¶

重要度: A / 用途: ジョブ

目的: JES2 で failed/canceled ジョブの再実行。

前提: JES2 操作権限。

手順（共通）:

SDSF ST で対象ジョブ確認
JESYSMSG で失敗原因
JCL 修正後 SUBMIT、または CKPT があれば $E で restart
再実行確認

期待出力:

再実行で RC=0

検証: 出力確認

ロールバック: （失敗ジョブの rollback はない）

inc-uss-batch: BPXBATCH 失敗対応¶

重要度: B / 用途: USS

目的: BPXBATCH ジョブ失敗の切り分け。

前提: BPXBATCH JCL 編集権限。

手順（共通）:

STDOUT / STDERR DD 確認
シェルスクリプト権限確認 (chmod +x)
シェルパス確認 (#!/bin/sh)
環境変数（PATH 等）確認

期待出力:

BPXBATCH RC=0

検証: STDOUT 出力確認

ロールバック: （バッチ実行の rollback はない）

障害対応手順¶

重要度 × 用途 マトリクス¶

詳細手順¶

inc-ipl-fail: IPL 失敗・hang¶

inc-system-hung: システム hung（応答なし）¶

inc-wtor-response: WTOR 大量蓄積対応¶

inc-jes2-spool-full: JES2 SPOOL 95% SHORT 対応¶

inc-job-abend: ジョブ ABEND 解析¶

inc-paging-shortage: ページング枯渇 (ILR005E)¶

inc-racf-access-denied: RACF アクセス拒否 (ICH408I)¶

inc-smf-collect-fail: SMF レコード取得失敗¶

inc-sysplex-split: Sysplex 分断 (XCF 通信断)¶

inc-tcpip-down: TCP/IP 通信不能¶

inc-uss-fs-full: USS ファイルシステム満杯¶

inc-stc-hung: STC hung¶

inc-vsam-open-fail: VSAM open エラー (IDC3009I)¶

inc-syslog-investigation: SYSLOG/OPERLOG 調査¶

inc-console-hung: Console 応答なし¶

inc-smpe-apply-fail: SMP/E APPLY 失敗¶

inc-job-fail: ジョブ失敗・再実行¶

inc-uss-batch: BPXBATCH 失敗対応¶

重要度 × 用途マトリクス¶