메뉴 닫기

EC2 서버 운영이슈

– 상태 확인 이슈

유형

시스템(물리적 호스트) 상태 확인 오류

인스턴스(VM) 상태 확인 오류

원인 시스템 상태 확인 오류

–       네트워크 연결 끊김/시스템 전원 중단

–       물리적 호스트의 소프트웨어 문제

–       물리적 호스트의 하드웨어 문제로 인한 네트워크 접속 문제

인스턴스 상태 확인 오류

–       시스템 상태 확인 실패

–       잘못된 네트워킹 또는 스타트업 구성

–       메모리가 모두 사용됨

–       파일 시스템 손상, 호환되지 않는 커널

해결 방법 시스템 상태 확인 이슈

–       인스턴스 재시작 (인스턴스 스토어 데이터는 손실)

–       AMI를 통한 인스턴스 재생성

–       CloudWatch Alarm을 통한 자동 복구

인스턴스 상태 확인 이슈

–       인스턴스 재시작 (인스턴스 스토어 데이터는 손실)

–       인스턴스 리부팅

–       대부분 운영체제 단에서 문제 발생

1)     루트 볼륨을 인스턴스에서 분리

2)     다른 인스턴스에 데이터 볼륨으로 연결 후, 설정 파라미터 변경

3)     루트 볼륨 인스턴스에 연결

4)     Linux: 커널 파라미터 파일 수정, Windows: EC2rescure를 이용한 수정

– 인스턴스 자동 재시작

원인 분석 예정된 이벤트 유무 확인

–       EC2의 events, personal health dashboard에서 이벤트 확인

인스턴스 로그 확인

–       ex) syslog, dmesg, Windows event logs

CloudTrail을 통한 확인

 

– 인스턴스 생성 이슈

유형 인스턴스가 생성 즉시 종료되는 경우
원인 분석 인스턴스가 종료된 원인 확인하는 방법

–       EC2 콘솔에서 확인

State transition reason Client.UserInitiatedShutdown: User initiated shutdown

State transition reason Client.VolumeLimitExceeded: Volume limit exceeded

–       AWS CLI로 확인

$ aws ec2 describe-instances –instance-id instance_id –query ‘Reservations[0].Instances[0].StateReason.Message’

해결 방법 EBS 볼륨 Limit를 초과한 경우

–       Support Center에서 EBS Limit 증가 요청

고객 AMI 이미지가 잘 못 생성된 경우

–       AMI 이미지를 재 생성

– 인스턴스 접속 이슈

원인 Network Access Control List
Security Group
Routing Table
Instance 자체 문제
해결 방법 Network Access Control List(ACL)

–       Inbound, Outbound Rule 모두 확인 (Stateless)

Security Group

–       접속 오류 인스턴스의 보안 그룹 Inbound Rule 확인

Routing Table

–       인터넷을 통해 접속할 경우 VPC 외부로 나가는 트래픽(0.0.0.0/0)은 모두 인터넷 게이트웨이를 향하도록 설정되어 있는지 확인

인스턴스 자체 문제

–       인스턴스 사양이 너무 낮은 것은 아닌지 확인

–       Private Key 및 OS별 기본 사용자인지 확인(ec2-user, ubuntu, centos, 등등)