-
로그 표준화의 장단점과 방법론_인스피언Technology/로그관리 및 분석(SIEM) 2023. 10. 26. 14:01
안녕하세요.
인스피언입니다.
데이터 분석의 세계에서는 다양한 데이터 변환 기법들이 꾸준히 활용되고 있는 추세입니다.
그 중에서도 로그 표준화는 실용적인 변환 방법으로 알려져 있고 통합로그 분석을 함에 있어서 자주 언급되는 로그 표준화에 대해서 알아보는 시간을 갖도록 하겠습니다.
로그 표준화의 장단점
로그 표준화의 가장 큰 장점 중 하나는 비선형 관계의 데이터를 선형화시켜 주는 능력입니다.
많은 실제 세상의 데이터는 복잡한 형태로 나타나기 마련인데, 이러한 데이터를 선형 회귀와 같은 모델에 적용하기 위해서는 선형화하는 과정이 필요합니다.
로그 표준화를 통해 변환을 수행하면, 복잡한 데이터 관계를 더욱 명확하게 이해하고 분석할 수 있게 되어서 로그 표준화는 큰 값을 가진 데이터 포인트나 이상치의 영향을 상대적으로 줄여주는 특성을 갖게 됩니다. 이로 인해 데이터의 전반적인 특성을 더 잘 반영한 분석 결과를 얻을 수 있게 됩니다. 그러나 로그 표준화의 단점 역시 존재합니다.
만일 데이터에 0 또는 음수 값이 포함되어 있다면 로그 변환이 직접적으로 적용될 수 없습니다.
이런 경우 추가적인 처리 과정이 필요하게 됩니다. 또한 로그 변환 후의 데이터는 원본 데이터와는 다른 해석 방식이 필요하므로, 결과를 해석할 때 주의가 필요합니다.
현업에서 로그 표준화를 적용하는 이유
1. 다양한 로그 소스
조직 내에서는 다양한 제조사와 솔루션들로부터 로그가 생성됩니다.
예를 들면, 네트워크 장비, 서버, 어플리케이션, 데이터베이스 등에서 생성되는 로그는 각각의 형식과 구조가 다를 수 있습니다. 통합로그 솔루션은 이러한 다양한 소스로부터 로그를 수집하는데, 표준화되지 않은 로그는 솔루션의 분석 및 처리에 어려움을 초래할 수 있습니다.
2. 효율적인 로그 분석
로그의 표준화는 로그 데이터를 분석하는 데 있어 더욱 효율적입니다.
일관된 형식의 로그는 분석 도구가 패턴을 인식하거나 이상 행동을 감지하는 데 더욱 유용하게 작동합니다.
3. 법률 및 규정 준수
일부 규정 또는 산업 표준은 로그 데이터의 특정 형식이나 보관 기간 등을 요구할 수 있습니다.
통합로그 솔루션울 사용하거나 로그를 표준화하면 이러한 규정 준수 요구사항을 더욱 쉽게 충족시킬 수 있습니다.
시스로그 표준화란?
시스로그(syslog)는 로그 메시지를 수집하고 전송하는 데 사용되는 널리 채택된 표준 프로토콜입니다.
원래 UNIX 시스템에서 시작되었지만, 현재는 다양한 운영 체제와 장비에서 사용됩니다. 자체적으로 시스로그는 이미 일정 수준의 표준화를 가지고 있습니다. RFC 3164와 RFC 5424는 시스로그의 기본적인 표준과 메시지 형식을 정의하고 있지만 "표준화"라는 문맥에서 본다면 필히 고려해야 할 사항이 있으며 주요 사항들은 아래와 같습니다.
1.메시지 형식
시스로그 메시지에는 헤더와 페이로드가 포함됩니다.
헤더에는 타임스탬프, 호스트 이름, 앱 이름 등의 정보가 포함될 수 있으며 필드의 일관성을 유지하는 것은 표준화의 일부입니다.
2. 메시지 내용
시스로그 메시지의 페이로드(즉, 실제 로그 메시지의 내용)는 발생한 이벤트나 상황에 따라 크게 다를 수 있습니다.
다양한 애플리케이션, 서비스, 장비에서 생성되는 로그 메시지의 내용을 표준화하는 것은 매우 복잡할 수 있습니다.
3. 전송 프로토콜
시스로그 메시지는 UDP, TCP, TLS를 통해 전송될 수 있습니다.
조직의 정책이나 요구사항에 따라 특정 프로토콜을 표준으로 채택할 수 있습니다.
로그의 내용까지도 표준화가 가능한가?
로그 변환된 데이터를 다시 표준화할 필요가 있을까요?
로그 변환 자체가 데이터의 스케일을 조절하는 역할을 하기는 하지만, 여전히 로그 변환 후의 데이터 값들 사이에 큰 차이가 존재할 수 있습니다.
이런 경우, 표준화를 통해 데이터의 평균을 0으로, 표준편차를 1로 조정하는 것이 분석에 있어 도움이 될 수 있습니다.
하지만 로그 변환과 표준화 두 가지 기법을 동시에 사용할 때 주의할 점도 있습니다. 두 변환 과정을 거치게 되면, 원본 데이터와의 연관성이나 해석의 명확성이 떨어질 수 있습니다.
로그의 표준화가 어려운 지점
1.다양한 로그 소스
조직 내에는 다양한 시스템, 애플리케이션, 장비 등이 있을 수 있고, 각각은 자신만의 로그 형식과 내용을 가질 수 있습니다. 예를 들어, 네트워크 장비는 트래픽과 관련된 로그를 생성할 수 있으며, 데이터베이스는 트랜잭션과 관련된 로그를 생성할 수 있습니다.
2. 개발자의 의도
개별 애플리케이션은 개발자의 의도나 로깅 프랙티스에 따라 다양한 정보를 로그로 남길 수 있습니다.
이러한 다양성은 로그의 내용 표준화를 복잡하게 만듭니다.
3. 동적인 환경
IT 환경은 지속적으로 변화하며, 새로운 기술이나 솔루션이 도입될 때마다 로그 형식이나 내용도 변할 수 있습니다.
많은 번거로움에도 불구하고 특정 솔루션들은 로그의 내용을 일정 수준까지 표준화하고 있으며
일반적으로 개별적 파싱을 하지만 시스템의 여건이 된다면 다음과 같은 방법을 사용합니다.
1. 로그 템플릿 도입
개발자가 로그 메시지를 작성할 때 사용할 수 있는 템플릿을 제공함으로써 일관성을 갖춘 로그 메시지 생성을 유도할 수 있습니다.
2. 로그 관리 도구 사용
로그 관리 도구나 플랫폼을 도입하여, 다양한 로그 소스로부터의 로그를 통합적으로 관리하고 표준화된 형식으로 변환할 수 있습니다.
3. 정책 및 가이드라인 설정
로그 생성과 관련된 조직의 정책이나 가이드라인을 설정하고 이를 준수하도록 권장함으로써 로그의 일관성을 유지할 수 있습니다.
'Technology > 로그관리 및 분석(SIEM)' 카테고리의 다른 글
로그 분석의 정확도와 효율성의 향상 (0) 2023.11.09 인공지능과 머신러닝: 현대 사회의 변화를 주도하는 기술 (1) 2023.11.02 AI 시대에도 필수적인 기술_인스피언 (1) 2023.10.19 네트워크 행동분석으로 김수키(kimsuki)를 방어할 수 있을까? (0) 2023.10.12 고도화된 보안위협과 통합로그 관리 (0) 2023.10.05