공부해봅시당
[JAVA] Garbage Collection(가비지 컬렉션)을 톺아보자 본문
1. Garbage Collection(가비지 컬렌션)이란?
1-1. Garbage Collection(가비지 컬렉션)이란?
프로그램을 개발 하다 보면 유효하지 않은 메모리인 가비지(Garbage)가 발생하게 된다.
C언어를 이용하면 free()라는 함수를 통해 직접 메모리를 해제해주어야 한다.
하지만 Java나 Kotlin을 이용해 개발을 하다 보면 개발자가 메모리를 직접 해제해주는 일이 없다.
그 이유는 JVM의 가비지 컬렉터가 불필요한 메모리를 알아서 정리해주기 때문이다.
대신 Java에서 명시적으로 불필요한 데이터를 표현하기 위해서 일반적으로 null을 선언해준다.
예를 들어 아래와 같은 코드가 있다고 가정하자.
Person person = new Person();
person.setName("Mang");
person = null;
// 가비지 발생
person = new Person();
person.setName("MangKyu");
기존의 setName("Mang")으로 생성된 person 객체는 더이상 참조를 하지 않고 사용이 되지 않아서 Garbage(가비지)가 되었다.
Java나 Kotlin에서는 이러한 메모리 누수를 방지하기 위해 가비지 컬렉터(Garbage Collector, GC)가 주기적으로 검사하여 메모리를 청소해준다.
(물론 Java에서도 System.gc()를 이용해 호출할 수 있지만, 해당 메소드를 호출하는 것은 시스템의 성능에 매우 큰 영향을 미치므로 절대 호출해서는 안된다.)
1-2. Minor GC와 Major GC
JVM의 Heap영역은 처음 설계될 때 다음의 2가지를 전제(Weak Generational Hypothesis)로 설계되었다.
- 대부분의 객체는 금방 접근 불가능한 상태(Unreachable)가 된다.
- 오래된 객체에서 새로운 객체로의 참조는 아주 적게 존재한다.
즉, 객체는 대부분 일회성이며, 메모리에 오랫동안 남아있는 경우는 드물다는 것이다.
그렇기 때문에 객체의 생존 기간에 따라 물리적인 Heap 영역을 나누게 되었고 Young, Old 총 2가지 영역으로 설계되었다.
초기에는 Perm 영역이 존재하였지만 Java8부터 제거되었다.
- Young 영역(Young Generation)
- 새롭게 생성된 객체가 할당(Allocation)되는 영역
- 대부분의 객체가 금방 Unreachable 상태가 되기 때문에, 많은 객체가 Young 영역에 생성되었다가 사라진다.
- Young 영역에 대한 가비지 컬렉션(Garbage Collection)을 Minor GC라고 부른다.
- Old 영역(Old Generation)
- Young영역에서 Reachable 상태를 유지하여 살아남은 객체가 복사되는 영역
- Young 영역보다 크게 할당되며, 영역의 크기가 큰 만큼 가비지는 적게 발생한다.
- Old 영역에 대한 가비지 컬렉션(Garbage Collection)을 Major GC라고 부른다.
Old 영역이 Young 영역보다 크게 할당되는 이유
- Young 영역의 수명이 짧은 객체들은 큰 공간을 필요로 하지 않음
- 큰 객체들은 Young 영역이 아니라 바로 Old 영역에 할당됨
예외적인 상황으로 Old 영역에 있는 객체가 Young 영역의 객체를 참조하는 경우도 존재할 것이다.
이러한 경우를 대비하여 Old 영역에는 512 bytes의 덩어리(Chunk)로 되어 있는 카드 테이블(Card Table)이 존재한다.
카드 테이블에는 Old 영역에 있는 객체가 Young 영역의 객체를 참조할 때 마다 그에 대한 정보가 표시된다.
카드 테이블이 도입된 이유
Young 영역에서 가비지 컬렉션(Minor GC)가 실행될 때
모든 Old 영역에 존재하는 객체를 검사하여
참조되지 않는 Young 영역의 객체를 식별하는 것이 비효율적이기 때문이다.
그렇기 때문에 Young 영역에서 가비지 컬렉션이 진행될 때 카드 테이블만 조회하여 GC의 대상인지 식별할 수 있도록 하고 있다.
2. Garbage Collection(가비지 컬렉션)의 동작 방식
2-1. Garbage Collection(가비지 컬렉션)의 동작 방식 ]
Young 영역과 Old 영역은 서로 다른 메모리 구조로 되어 있기 때문에, 세부적인 동작 방식은 다르다.
하지만 기본적으로 가비지 컬렉션이 실행된다고 하면 다음의 2가지 공통적인 단계를 따르게 된다.
- Stop The World
- Mark and Sweep
1) Stop The World
가비지 컬렉션을 실행하기 위해 JVM이 애플리케이션의 실행을 멈추는 작업
GC가 실행될 때는 GC를 실행하는 쓰레드를 제외한 모든 쓰레드들의 작업이 중단되고, GC가 완료되면 작업이 재개된다.
당연히 모든 쓰레드들의 작업이 중단되면 애플리케이션이 멈추기 때문에,
GC의 성능 개선을 위해 튜닝을 한다고 하면 보통 stop-the-world의 시간을 줄이는 작업을 하는 것이다.
또한 JVM에서도 이러한 문제를 해결하기 위해 다양한 실행 옵션을 제공하고 있다.
2) Mark and Sweep
- Mark
사용되는 메모리와 사용되지 않는 메모리를 식별하는 작업
- Sweep
Mark 단계에서 '사용되지 않음'으로 식별된 메모리를 해제하는 작업
Stop The World를 통해 모든 작업을 중단시키면,
GC는 스택의 모든 변수 또는 Reachable 객체를 스캔하면서
각각이 어떤 객체를 참고하고 있는지를 탐색하게 된다.
그리고 사용되고 있는 메모리를 식별하는데, 이러한 과정을 Mark라고 한다.
이후에 Mark가 되지 않은 객체들을 메모리에서 제거하는데, 이러한 과정을 Sweep라고 한다.
2-2. Minor GC의 동작 방식
앞서 Minor GC는 Young 영역에 대한 가비지 컬렉션(Garbage Collection)이라 한 바 있다.
따라서 Minor GC를 정확히 이해하기 위해서는 Young 영역의 구조에 대해 이해해야 한다.
Young 영역은 1개의 Eden 영역과 2개의 Survivor 영역, 총 3가지로 나뉘어진다.
Young영역
- Eden 영역(1개)
새로 생성된 객체가 할당(Allocation)되는 영역
- Survivor 영역(2개)
최소 1번의 GC 이상 살아남은 객체가 존재하는 영역
1) Young 영역의 동작 순서
1. 객체가 새롭게 생성되면 Young 영역 중에서도 Eden 영역에 할당(Allocation)
2. Eden 영역이 꽉 차면 Minor GC가 실행
- Eden 영역에서 사용되지 않는 객체의 메모리 해제
- Eden 영역에서 살아남은 객체는 1개의 Survivor 영역으로 이동
3. 1~2번의 과정이 반복되다가 Survivor 영역이 가득 차게 되면
Survivor 영역의 살아남은 객체를 다른 Survivor 영역으로 이동시킴
(1개의 Survivor 영역은 반드시 빈 상태가 됨)
4. 이러한 과정을 반복하여 계속해서 살아남은 객체는 Old 영역으로 이동(Promotion)
객체의 생존 횟수를 카운트하기 위해 Minor GC에서 객체가 살아남은 횟수를 의미하는 age를 Object Header에 기록한다.
그리고 Minor GC 때 Object Header에 기록된 age를 보고 Promotion 여부를 결정한다.
또한 Survivor 영역 중 1개는 반드시 사용이 되어야 한다.
만약 두 Survivor 영역에 모두 데이터가 존재하거나, 모두 사용량이 0이라면 현재 시스템이 정상적인 상황이 아님을 파악할 수 있다.
이러한 진행 과정을 그림으로 살펴보면 다음과 같다.
2) HotSpot JVM의 객체 할당 기술
HotSpot JVM에서는 Eden 영역에 객체를 빠르게 할당(Allocation)하기 위해 bump the pointer와 TLABs(Thread-Local Allocation Buffers)라는 기술을 사용하고 있다.
bump the pointer
bump the pointer란 Eden 영역에 마지막으로 할당된 객체의 주소를 캐싱해두는 것
bump the pointer를 통해 새로운 객체를 위해 유효한 메모리를 탐색할 필요 없이 마지막 주소의 다음 주소를 사용하게 함으로써 속도를 높이고 있다.
이를 통해 새로운 객체를 할당할 때 객체의 크기가 Eden 영역에 적합한지만 판별하면 되므로 빠르게 메모리 할당을 할 수 있다.
TLABs(Thread-Local Allocation Buffers)
싱글 쓰레드 환경이라면 문제가 없겠지만 멀티쓰레드 환경이라면 객체를 Eden 영역에 할당할 때 락(Lock)을 걸어 동기화를 해주어야 한다.
멀티 쓰레드 환경에서의 성능 문제를 해결하기 위해 HotSpot JVM은 추가로 TLABs(Thread-Local Allocation Buffers)라는 기술을 도입하게 되었다.
TLABs(Thread-Local Allocation Buffers)란 각각의 쓰레드마다 Eden 영역에 객체를 할당하기 위한 주소를 부여함으로써 동기화 작업 없이 빠르게 메모리를 할당하도록 하는 기술
각각의 쓰레드는 자신이 갖는 주소에만 객체를 할당함으로써 동기화 없이 bump the poitner를 통해 빠르게 객체를 할당하도록 하고 있다.
2-3. Major GC의 동작 방식
Young 영역에서 오래 살아남은 객체는 Old 영역으로 Promotion됨을 확인할 수 있었다.
그리고 Major GC는 객체들이 계속 Promotion되어 Old 영역의 메모리가 부족해지면 발생하게 된다.
Young 영역은 일반적으로 Old 영역보다 크키가 작기 때문에 GC가 보통 0.5초에서 1초 사이에 끝난다.
그렇기 때문에 Minor GC는 애플리케이션에 크게 영향을 주지 않는다.
하지만 Old 영역은 Young 영역보다 크며 Young 영역을 참조할 수도 있다.
그렇기 때문에 Major GC는 일반적으로 Minor GC보다 시간이 오래걸리며, 10배 이상의 시간을 사용한다.
참고로 Young 영역과 Old 영역을 동시에 처리하는 GC는 Full GC라고 한다.
2-4. Garbage Collection(가비지 컬렉션) 내용 요약
3. 다양한 Garbage Collection(가비지 컬렉션) 알고리즘
JVM이 메모리를 자동으로 관리해주는 것은 개발자의 입장에서 상당한 메리트이다.
하지만 문제는 GC를 수행하기 위해 Stop The World에 의해 애플리케이션이 중지되는 것에 있다.
Heap의 사이즈가 커지면서 애플리케이션의 지연(Suspend) 현상이 두드러지게 되었고,
이를 막기 위해 다양한 Garbage Collection(가비지 컬렉션) 알고리즘을 지원하고 있다.
3-1. Serial GC
Serial GC의 Young 영역은 앞서 설명한 알고리즘(Mark Sweep)대로 수행된다.
하지만 Old 영역에서는 Mark Sweep Compact 알고리즘이 사용되는데,
기존의 Mark Sweep에 Compact라는 작업이 추가되었다.
Compact는 Heap 영역을 정리하기 위한 단계로 유효한 객체들이 연속되게 쌓이도록
힙의 가장 앞 부분부터 채워서 객체가 존재하는 부분과 객체가 존재하지 않는 부분으로 나누는 것이다.
java -XX:+UseSerialGC -jar Application.java
Serial GC는 서버의 CPU 코어가 1개일 때 사용하기 위해 개발되었으며,
모든 가비지 컬렉션 일을 처리하기 위해 1개의 쓰레드만을 이용한다.
그렇기 때문에 CPU의 코어가 여러 개인 운영 서버에서 Serial GC를 사용하는 것은 반드시 피해야 한다.
3-2. Parallel GC
Parallel GC는 Throughput GC로도 알려져 있으며, 기본적인 처리 과정은 Serial GC와 동일하다.
하지만 Parallel GC는 여러 개의 쓰레드를 통해 Parallel하게 GC를 수행함으로써 GC의 오버헤드를 상당히 줄여준다.
Parallel GC는 멀티 프로세서 또는 멀티 쓰레드 머신에서 중간 규모부터 대규모의 데이터를 처리하는 애플리케이션을 위해 고안되었으며, 옵션을 통해 애플리케이션의 최대 지연 시간 또는 GC를 수행할 쓰레드의 갯수 등을 설정해줄 수 있다.
java -XX:+UseParallelGC -jar Application.java
// 사용할 쓰레드의 갯수
-XX:ParallelGCThreads=<N>
// 최대 지연 시간
-XX:MaxGCPauseMillis=<N>
Parallel GC가 GC의 오버헤드를 상당히 줄여주었고, Java8까지 기본 가비지 컬렉터(Default Garbage Collector)로 사용되었다.
그럼에도 불구하고 Application이 멈추는 것은 피할 수 없었고, 이러한 부분을 개선하기 위해 다른 알고리즘이 더 등장하게 되었다.
3-3. Parallel Old GC
Parallel Old GC는 JDK5 update6부터 제공한 GC이며,
앞서 설명한 Parallel GC와 Old 영역의 GC 알고리즘만 다르다.
Parallel Old GC에서는 Mark Sweep Compact가 아닌 Mark Summary Compaction이 사용되는데,
Summary 단계에서는 앞서 GC를 수행한 영역에 대해서 별도로 살아있는 객체를 색별한다는 점에서 다르며 조금 더 복잡하다.
3-4. CMS(Concurrent Mark Sweep) GC
CMS(Concurrent Mark Sweep) GC는 Parallel GC와 마찬가지로 여러 개의 쓰레드를 이용한다.
하지만 기존의 Serial GC나 Parallel GC와는 다르게 Mark Sweep 알고리즘을 Concurrent하게 수행하게 된다.
이러한 CMS GC는 애플리케이션의 지연 시간을 최소화 하기 위해 고안되었으며,
애플리케이션이 구동중일 때 프로세서의 자원을 공유하여 이용가능해야 한다.
CMS GC가 수행될 때에는 자원이 GC를 위해서도 사용되므로 응답이 느려질 순 있지만 응답이 멈추지는 않게 된다.
하지만 이러한 CMS GC는 다른 GC 방식보다 메모리와 CPU를 더 많이 필요로 하며, Compaction 단계를 수행하지 않는다는 단점이 있다.
이 때문에 시스템이 장기적으로 운영되다가 조각난 메모리들이 많아 Compaction 단계가 수행되면 오히려 Stop The World 시간이 길어지는 문제가 발생할 수 있다.
// deprecated in java9 and finally dropped in java14
java -XX:+UseConcMarkSweepGC -jar Application.java
만약 GC가 수행되면서 98% 이상의 시간이 CMS GC에 소요되고,
2% 이하의 시간이 Heap의 정리에 사영된다면 CMS GC에 의해 OutOfMemoryError가 던져질 것이다.
물론 이를 disable 하는 옵션이 있지만,
CMS GC는 Java9 버젼부터 deprecated 되었고 결국 Java14에서는 사용이 중지되었기 때문에 굳이 알아볼 필요는 없을 것 같다.
3-5. G1(Garbage First) GC
G1(Garbage First) GC는 장기적으로 많은 문제를 일으킬 수 있는 CMS GC를 대체하기 위해 개발되었고, Java7부터 지원되기 시작하였다.
기존의 GC 알고리즘에서는 Heap 영역을 물리적으로 Young 영역(Eden 영역과 2개의 Survivor 영역)과 Old 영역으로 나누어 사용하였다.
G1 GC는 Eden 영역에 할당하고, Survivor로 카피하는 등의 과정을 사용하지만 물리적으로 메모리 공간을 나누지 않는다.
대신 Region(지역)이라는 개념을 새로 도입하여 Heap을 균등하게 여러 개의 지역으로 나누고,
각 지역을 역할과 함께 논리적으로 구분하여(Eden 지역인지, Survivor 지역인지, Old 지역인지) 객체를 할당한다.
G1 GC에서는 Eden, Survivor, Old 역할에 더해 Humonogous와 Availabe/Unused라는 2가지 역할을 추가하였다. Humonguous는 Region 크기의 50%를 초과하는 객체를 저장하는 Region을 의미하며, Availabe/Unused는 사용되지 않은 Region을 의미한다.
G1 GC의 핵심은 Heap을 동일한 크기의 Region으로 나누고, 가비지가 많은 Region에 대해 우선적으로 GC를 수행하는 것이다. 그리고 G1 GC도 다른 가비지 컬렉션과 마찬가지로 2가지 GC(Minor GC, Major GC)로 나누어 수행되는데, 각각에 대해 살펴보도록 하자.
1) Minor GC
한 지역에 객체를 할당하다가 해당 지역이 꽉 차면 다른 지역에 객체를 할당하고, Minor GC가 실행된다.
G1 GC는 각 지역을 추적하고 있기 때문에, 가비지가 가장 많은(Garbage First) 지역을 찾아서 Mark and Sweep를 수행한다.
Eden 지역에서 GC가 수행되면 살아남은 객체를 식별(Mark)하고, 메모리를 회수(Sweep)한다.
그리고 살아남은 객체를 다른 지역으로 이동시키게 된다.
복제되는 지역이 Available/Unused 지역이면 해당 지역은 이제 Survivor 영역이 되고, Eden 영역은 Available/Unused 지역이 된다.
2) Major GC(Full GC)
시스템이 계속 운영되다가 객체가 너무 많아 빠르게 메모리를 회수 할 수 없을 때 Major GC(Full GC)가 실행된다.
그리고 여기서 G1 GC와 다른 GC의 차이점이 두각을 보인다.
기존의 다른 GC 알고리즘은 모든 Heap의 영역에서 GC가 수행되었으며, 그에 따라 처리 시간이 상당히 오래 걸렸다.
하지만 G1 GC는 어느 영역에 가비지가 많은지를 알고 있기 때문에 GC를 수행할 지역을 조합하여 해당 지역에 대해서만 GC를 수행한다.
그리고 이러한 작업은 Concurrent하게 수행되기 때문에 애플리케이션의 지연도 최소화할 수 있는 것이다.
물론 G1 GC는 다른 GC 방식에 비해 잦게 호출될 것이다.
하지만 작은 규모의 메모리 정리 작업이고 Concurrent하게 수행되기 때문이 지연이 크지 않으며,
가비지가 많은 지역에 대해 정리를 하므로 훨씬 효율적이다.
java -XX:+UseG1GC -jar Application.java
이러한 구조의 G1 GC는 당연히 앞의 어떠한 GC 방식보다 처리 속도가 빠르며 큰 메모리 공간에서 멀티 프로레스 기반으로 운영되는 애플리케이션을 위해 고안되었다.
또한 G1 GC는 다른 GC 방식의 처리속도를 능가하기 때문에 Java9부터 기본 가비지 컬렉터(Default Garbage Collector)로 사용되게 되었다.
5. Garbage Collection(가비지 컬렉션)의 성능을 높이는 코딩 방법
애플리케이션의 성능은 가비지 컬렉션의 빈도수와 지연 시간에 직접적인 영향을 받기 때문에,
가비지 컬렉션을 최적화하는 것은 상당히 중요하다.
2가지 방법
- Young 영역과 Old 영역의 힙 크기를 알맞게 조정하는 것
- 객체의 할당(Allocation)이나 Old 영역으로의 이동(Promotion) 등의 작업을 줄이는 것이다.
우선 힙의 크기를 조정하는 방법은 Trade-Off가 있다.
힙의 크기를 줄이면 GC의 빈도수가 많아질 것이고, 늘리면 GC의 지연 시간이 길어질 것이기 때문이다.
그렇기 때문에 첫 번재 방법은 수치를 조절해가고 테스트하며 자신의 애플리케이션에 맞는 최적의 설정을 찾는 것이 필요할 것이다.
힙의 크기를 올바르게 설정하는 것도 중요하지만 더욱 중요한 것이 있다.
그것은 사실 Minor GC가 지속되는 시간은 힙의 크기보다 GC에서 살아남는 객체들의 영향이 크다는 것이다.
즉, Eden 영역에서 Survive 영역으로 복사되거나 Old 영역으로 Promotion 되는 등의 작업을 줄이는 것이 GC의 성능을 높일 수 있다는 것인데, 어떻게 코딩을 해야 이러한 작업을 줄여 GC의 성능을 높일 수 있는지 알아보도록 하자.
5-1. Collection의 크기를 예측하여 설정하라
모든 Java의 Collections와 그를 확장하여 구현한 구현체들(Trove나 Google의 Guava)은 내부적으로 배열을 사용한다. 배열의 크기는 불변의 값이라 초기에 할당 되면 수정이 불가능하다. 그렇기 때문에 처음에 설정한 크기를 초과하여 계속 item을 담으려고 하면 내부적으로 새로운 크기의 배열을 생성하고 item을 복사하게 된다. 그렇다면 기존의 배열은 어떻게 되는가? 더 이상 사용되지 않는 메모리 즉 가비지가 된다. 물론 대부분의 Collection은 이러한 재할당(Re-Allocation) 과정을 최적화하려고 노력하고 있지만 가비지가 생기는 것은 불가피하다. 그렇기 때문에 가능하다면 Collection의 크기를 예측하여, 생성 시에 직접 설정해주도록 하자.
// 크기를 예측하여 직접 설정하라
List<String> list = new ArrayList(5);
5-2. Stream을 사용하라
파일로부터 데이터를 읽거나 네트워크를 통해 파일을 받는 경우, 다음과 같은 코드를 쉽게 접할 수 있다.
byte[] fileData = readFileToByteArray(new File("myfile.txt"));
읽으려는 데이터의 크기가 작다면 상관이 없겠지만, 데이터의 크기가 크거나 예측할 수 없다면 그렇게 좋지 못한 방법이다. 왜냐하면 데이터의 크기가 너무 크다면 JVM이 해당 파일의 내용을 할당할 수 없어 OutOfMemoryErrors가 발생할 수 있으며, 할당이 되었다 하더라도 이후에 상당히 큰 규모의 가비지가 되기 때문이다. 이러한 문제를 예방하는 가장 좋은 방법은 InputStream을 직접 사용하는 것이다.
InputStream은 내부적으로 Buffer를 두고 있어 일정한 크기(Chunk)만큼씩 데이터를 조회한다. 그렇기 때문에 InputStream을 사용하면 Buffer를 재사용함으로써 OutOfMemoryErrors를 방지할 수 있고, 가비지의 생성을 최소화할 수 있다. 실제로 대부분의 Major한 도구들은 Stream을 직접 받아 처리하도록 되어 있다.
FileInputStream fis = new FileInputStream("myfile.txt");
MyProtoBufMessage msg = MyProtoBufMessage.parseFrom(fis);
5-3. String의 사용을 최적화하라
String은 거의 모든 자료구조에서 빼놓을 수 없는 부분이다. 그렇기에 String은 다른 값들보다 중요한 만큼 메모리에 더 큰 영향을 미친다. 그렇기 때문에 String을 다루는 것 역시 신경을 써야 한다.
1) 중복된 String이 생성되는 경우, JVM 옵션을 활용하라
애플리케이션을 개발하다보면 동일한 String 문자열을 많이 생성하게 된다. Java 8u20 업데이트부터는 동일한 문자열에 의해 불필요한 메모리를 사용을 줄이도록 새로운 JVM 파라미터(UseStringDeduplication)를 추가하였다. 해당 옵션을 사용하면 중복되는 String 인스턴스들을 Global Single Char[]로 관리하여 힙 메모리의 사용을 최적화할 수 있다.
java -XX:+UseStringDeduplication -jar Application.java
2) StringBuilder를 사전에 활용하라
(아래의 내용은 Java8을 기반으로 작성되었으며, Java9부터는 String의 concat 연산을 StringBuilder 대신 invokedynamic를 통해 처리하고 있습니다.)
String의 중요한 속성 중 하나는 불변이며, 할당 후에 수정이 불가능하다는 것이다. 그렇기 때문에 문자열을 연결하기 위한 "+" 등과 같은 연산은 String의 내용을 변경하는 것이 아니라, 새로운 문자열을 할당하는 것이다. Java에서는 이를 최적화하기 위해 StringBuilder를 제공해주고 있으며, Compiler는 String을 더하는 연산을 내부적으로 StringBuiler를 사용하여 처리하고 있다.
예를 들어 다음과 같은 두 문자열의 덧셈이 있다고 하자.
// b 역시 String 객체이다.
String a = a + b;
컴파일러는 이러한 문자열을 더하는 코드를 다음과 같이 변경하여 처리한다.
StringBuilder temp = new StringBuilder(a).
temp.append(b);
a = temp.toString(); // 새로운 String이 할당되고, 기존의 a의 데이터는 가비지가 됨
하지만 이러한 컴파일러의 동작 방식은 오히려 상황을 나쁘게 만들 수 있는데, 예를 들어 다음과 같은 문자열 덧셈 코드가 존재한다고 하자.
String result = foo() + arg;
result += boo();
System.out.println(“result = “ + result);
5-4. 불변성(Immutability)을 활용하라
불변성(Immutability)을 활용하는 것은 많은 이점을 가져다주는데, 그 중에서 많은 사람들이 놓치는 것이 바로 GC의 성능을 높여준다는 것이다. 불변의 객체는 한번 생성된 이후에 수정이 불가능한 객체로, Java에서는 final 키워드를 사용하여 불변의 객체를 생성할 수 있다. 이렇게 객체를 생성하기 위해서는 객체를 가지는 컨테이너도 존재한다는 것인데, 당연히 불변의 객체가 먼저 생성되어야 컨테이너가 이 객체를 참조할 수 있을 것이다. 즉, 컨테이너는 컨테이너가 참조하는 가장 젊은 객체들보다 더 젊다는 것(늦게 생성되었다는 것)이다. 이러한 점은 GC가 수행될 때, 가비지 컬렉터가 컨테이너 하위의 불변 객체들은 Skip할 수 있도록 도와준다. 왜냐하면 해당 컨테이너가 살아있다는 것은 하위의 불변 객체들 역시 처음에 할당된 그 상태로 참조되고 있다는 것을 의미하기 때문이다.
public class MutableHolder {
private Object value;
public Object getValue() { return value; }
public void setValue(Object o) { value = o; }
}
public class ImmutableHolder {
private final Object value;
public ImmutableHolder(Object o) { value = o; }
public Object getValue() { return value; }
}
결국 불변의 객체를 활용하면 가비지 컬렉터가 스캔해야 되는 객체의 수가 줄어서 스캔해야 하는 메모리 영역과 빈도수 역시 줄어들 것이고, GC가 수행되어도 지연 시간을 줄일 수 있을 것이다. 그렇기 때문에 필드값을 수정할 수 있는 MutableHolder보다는 필드값을 수정할 수 없는 ImmutableHolder를 사용하는 것이 좋다. (물론 GC의 성능을 높이는 것 외에도 불변성을 사용하는 것은 다양한 이점이 있으므로 적극 활용하는 것이 좋다.)
누군가는 위의 코드를 보고 Holder의 값이 바뀌는 경우라면 MutableHolder를 이용하는 것이 더 낫지 않냐고 의구심을 가질 수 있다. 하지만 앞선 포스팅에서 살펴보았듯 GC는 새롭게 생성된 객체는 대부분 금방 죽는다는 Weak Generational Hypothesis 가설에 맞추어 설계되었다. 가비지 컬렉터의 입장에서 생명 주기가 짧은(short lifespan) 객체를 처리하는 것은 그렇게 큰 문제가 아니며, 오히려 MutableHolder의 값이 지속되어 old-to-young 참조가 일어나는 것이 더 큰 성능 저하를 야기할 것이다.
5-5. 불필요한 Collection의 생성을 피해라
불변성(Immutability)은 상당히 훌륭하지만, 큰 규모의 시스템에서 심각한 문제를 유발할 수 있으므로 주의해야 한다. 그 중 대표적인 상황이 메소드를 통해 객체를 주고받을 때이다.
어떤 함수로부터 Collection을 반환받을 때, 일반적으로 메소드 내에서 컬렉션 객체를 생성하여 값을 채우고 변경이 불가능한 형태로 반환하는 것이 좋다.
public List<Item> readFileItem(FileData fileData) {
final List<Item> list = new ArrayList<>();
for (Data data : fileData.items()) {
list.add(new Item(data.getName(), data.getSize()));
}
return list;
}
위의 코드는 일반적인 경우라면 그렇게 나쁘지 않은 코드이다. 그러나 몇몇 상황에서는 오히려 역효과를 불러일으키게 되는데, 대표적인 경우가 함수로부터 생성된 Collection이 최종적인 Collection으로 더해지는 경우이다. 이는 불필요한 메모리 할당을 통해 가비지를 생성하게 된다. 예를 들어 다음과 같은 코드가 있다고 하자.
final List<Item> items = new ArrayList<>();
for (FileData fileData : fileDatas) {
items.addAll(readFileItem(fileData));
}
위의 코드는 readFileItem에서 새롭게 생성된 객체를 단순히 items라는 최종적인 Collection에 더해주고 있다. 그렇다면 readFileItem에서 생성된 list는 어떻게 되겠는가? 당연히 가비지가 될 것이고, 불필요한 메모리의 낭비를 유발하게 된다.
그렇기 때문에 이러한 경우라면 새로운 Collection을 할당하여 반환해주는 것이 아니라, 기존의 Collection을 재사용하도록 하는 것이 훨씬 메모리의 낭비를 방지할 수 있을 것이다. 위의 예제의 경우에는 최종 Collection인 items를 파라미터로 넘겨 이용하도록 수정할 수 있다.
public void readFileItem(List<Item> items, FileData fileData) {
for (Data data : fileData.items()) {
items.add(new Item(data.getName(), data.getSize()));
}
}
final List<Item> items = new ArrayList<>(10000);
for (FileData fileData : fileDatas) {
readFileItem(items, fileData);
}
참조
https://mangkyu.tistory.com/118
[Java] Garbage Collection(가비지 컬렉션)의 개념 및 동작 원리 (1/2)
1. Garbage Collection(가비지 컬렉션)이란? [ Garbage Collection(가비지 컬렉션)이란? ] 프로그램을 개발 하다 보면 유효하지 않은 메모리인 가바지(Garbage)가 발생하게 된다. C언어를 이용하면 free()라는 함
mangkyu.tistory.com
https://mangkyu.tistory.com/119
[Java] 다양한 종류의 Garbage Collection(가비지 컬렉션) 알고리즘 (2/2)
1. 다양한 Garbage Collection(가비지 컬렉션) 알고리즘 JVM이 메모리를 자동으로 관리해주는 것은 개발자의 입장에서 상당한 메리트이다. 하지만 문제는 GC를 수행하기 위해 Stop The World에 의해 애플리
mangkyu.tistory.com
https://mangkyu.tistory.com/120
[Java] Garbage Collection(가비지 컬렉션)의 성능을 높이는 코딩 방법
1. Garbage Collection(가비지 컬렉션)의 성능을 높이는 코딩 방법 애플리케이션의 성능은 가비지 컬렉션의 빈도수와 지연 시간에 직접적인 영향을 받기 때문에, 가비지 컬렉션을 최적화하는 것은 상
mangkyu.tistory.com
'STUDY > JAVA' 카테고리의 다른 글
[JAVA] Generic을 간단하게 알아보자 (1) | 2024.03.06 |
---|---|
[JAVA] 자바의 Reflection (0) | 2024.03.06 |
[JAVA] Java의 Synchronization이란? (0) | 2024.03.06 |
[쉽게 배우자! JAVA] 컴파일 과정 (0) | 2023.10.31 |
[쉽게 배우자! JAVA] String, StringBuffer, StringBuilder의 차이점을 알아보자 (4) | 2021.06.30 |