리키 ReLU 함수(Leaky Rectified Linear Unit, Leaky ReLU Function)는 인공신경망(Artificial Neural Network)에서 활성화 함수(Activation Function)로 사용되는 변형된 형태의 ReLU 함수다.
리키 ReLU 함수는 인공신경망에서 활성화 함수로 사용되는 비선형 함수 중 하나이다. 이는 표준 ReLU 함수의 변형 버전으로, ReLU가 가진 '죽은 뉴런(Dying ReLU) 문제'를 해결하기 위해 개발되었다. ReLU 함수는 입력 값이 양수일 때는 그대로 출력하지만, 음수일 때는 0으로 변환하는 특성을 가진다. 이로 인해 음수 값이 입력될 경우 뉴런이 비활성화되어 가중치가 업데이트되지 않는 문제가 발생할 수 있다. 반면, 리키 ReLU는 음수 값에 대해 일정한 기울기(
)를 부여하여 음수 입력 값도 일부 반영될 수 있도록 한다. 이를 통해 학습 과정에서 뉴런이 완전히 죽지 않고 계속해서 정보를 전달할 수 있게 된다.[1]
수식 및 동작 방식[편집]
리키 ReLU 함수는 다음과 같이 정의된다.

여기서
는 작은 양수(예:
이며, 일반적으로 하이퍼파라미터로 설정할 수 있다. 즉, 입력 값
가 양수일 때는 기존 ReLU와 동일하게
를 그대로 출력한다. 입력 값
가 음수일 때는 
를 출력하여 0이 아닌 작은 값이 출력되도록 한다. 이러한 방식으로 음수 영역에서도 일정한 기울기를 유지하면서 뉴런이 비활성화되지 않도록 조정하는 것이 리키 ReLU의 핵심이다.
특징과 장점[편집]
- 죽은 뉴런(Dying ReLU) 문제 해결
표준 ReLU 함수에서는 음수 입력 값이 계속해서 0으로 출력되기 때문에, 일부 뉴런이 학습 과정에서 영구적으로 죽어버릴 가능성이 있다. 그러나 리키 ReLU는 음수 값에서도 
를 출력하여 뉴런이 완전히 죽지 않도록 방지한다.
- 기울기 소실(Vanishing Gradient) 문제 완화
기울기 소실 문제는 신경망이 깊어질수록 역전파(Backpropagation) 과정에서 기울기 값이 0에 가까워지면서 학습이 진행되지 않는 현상을 의미한다. 시그모이드(Sigmoid)나 하이퍼볼릭 탄젠트 함수(Tanh)에서는 기울기 소실 문제가 심각할 수 있으나, 리키 ReLU는 입력 값이 음수일 때에도 기울기가
만큼 유지되므로 이 문제를 어느 정도 완화할 수 있다.
- 계산이 단순하여 빠른 연산 가능
리키 ReLU는 단순한 조건문을 기반으로 동작하기 때문에 시그모이드나 하이퍼볼릭 탄젠트 함수보다 계산량이 적고, 특히 딥러닝 모델에서 GPU 병렬 연산이 용이하다. 이는 학습 속도를 크게 향상시키는 요소 중 하나이다.
- 심층신경망에서 우수한 성능 발휘
ReLU 계열 함수들은 심층신경망(Deep Neural Networks)에서 성능이 뛰어난 것으로 알려져 있다. 리키 ReLU는 표준 ReLU의 장점은 유지하면서도 뉴런의 사망 문제를 해결하여, 복잡한 데이터 패턴을 학습하는 데 효과적이다.
한계점과 단점[편집]
- α 값 선택이 성능에 영향을 미침
리키 ReLU의 성능은 하이퍼파라미터인
값에 영향을 받을 수 있다.
-
값이 너무 작으면 표준 ReLU와 큰 차이가 없을 수 있다.
-
값이 너무 크면 음수 입력이 과도하게 반영되어 모델의 성능이 저하될 수 있다.
일반적으로
정도로 설정하는 경우가 많지만, 특정한 데이터셋과 모델에 따라 적절한 값을 조정해야 한다.
- 음수 값이 유지되면서 최적화에 미치는 영향
ReLU 함수는 음수 입력을 0으로 변환하여 희소성(Sparsity)을 제공하는 장점이 있다. 그러나 리키 ReLU는 음수 값을 그대로 반영하므로, 이 희소성이 일부 사라질 수 있으며, 일부 데이터셋에서는 과적합(Overfitting) 가능성이 높아질 수도 있다.
참고자료[편집]
같이 보기[편집]
 이 리키 ReLU 함수 문서는 인공지능 모델에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.
|
[접기]인공지능 : 인공지능 서비스, 인공지능 모델 □■⊕, 인공지능 데이터, 인공지능 개발, 인공지능 기술, 인공지능 로봇, 인공지능 기기, 인공지능 기업, 인공지능 인물, 인공지능 역사
|
|
인공지능 모델
|
CAG • FFN • GPT • GRU • GTE • GTR • ILSVRC • LAM • LMM • MCP • MHSA • NER • RAG • RoBERTa • SARSA • Seq2Seq • SLM • T5 • TTT • Vec2Vec • VGG넷 • Word2Vec • 거대언어모델(LLM) • 결정트리모델 • 그래프 신경망(GNN) • 다층퍼셉트론 • 단층퍼셉트론 • 레즈넷(ResNet, 잔차신경망) • 랜덤 포레스트 • 르넷(LeNet) • 모바일넷 • 방사신경망 • 버트(BERT) • 베이지안 신경망 • 볼츠만 머신 • 비전 트랜스포머(ViT) • 사이클 GAN • 상태공간모델(SSM) • 생성대립신경망(GAN) • 생성형 AI • 샴 네트워크 • 순환신경망(RNN) • 스타일 GAN • 신경 • 신경기계번역(NMT) • 신경망 • 신경망 구조 • 심층신경망(DNN) • 심층신뢰신경망(DBN) • 알렉스넷 • 앙상블 • 언어모델 • 예측모델 • 워드넷 • 이미지넷 • 인공신경망(ANN) • 장단기기억 네트워크(LSTM) • 제한 볼츠만 머신(RBM) • 전방전달신경망(FFNN) • 카페 • 코헨 자기조직 신경망 • 통계적 기계번역(SMT) • 트랜스포머 • 퍼셉트론 • 합성곱 신경망(CNN) • 홉필드 네트워크
|
|
인공지능 알고리즘
|
DDPG • DQN • K-NN 알고리즘 • K-평균 클러스터링 • RMSprop • VAE • VLA • 결정이론적 메타추론 • 결정트리 • 경사하강법 • 관계형 네트워크(RN) • 기울기 • 기울기 소실 • 기울기 폭발 • 뉴런 • 동적 계획법 • 디퓨전 모델 • 랜덤포레스트 • 레이어 정규화 • 마스킹 • 매개변수 • 멀티헤드 셀프어텐션 • 멀티헤드 어텐션 • 멀티헤드 잠재 어텐션(MLA) • 메타추론 • 모멘텀 • 미니배치 경사하강법 • 반영식 아키텍처 • 배깅 • 배치 경사하강법 • 배치 정규화 • 병렬분산처리(PDP) • 복잡도 • 부스팅 • 분산 샌드박스 • 셀프어텐션 • 수시 알고리즘 • 수퍼얼라인먼트 • 순전파 • 스태킹 • 아담(Adam) • 아담W • 양방향 비고정값 암호 체계(TSID) • 어텐션(주의 메커니즘) • 에이전트체인(CoA) • 역전파 • 역치 • 온도 • 욜로(YOLO) • 은닉층 • 인공지능(AI) • 인코더-디코더 어텐션 • 입력층 • 자비에르 초기화 • 잔차연결 • 잠재 디리클레 할당(LDA) • 잠재의미분석 • 장기의존성문제 • 정렬위장 • 주성분 분석(PCA) • 초기가중치 • 초매개변수(하이퍼 파라미터) • 출력층 • 층위 • 텍스트마이닝 • 파이 • 페이스넷 • 학습률 • 허 초기화(He 초기화) • 확률분포 • 확률적 경사하강법
|
|
인공지능 함수
|
GELU 함수 • ReLU 함수(렐루함수) • 가중치 • 가중합 • 거리 • 결과값 • 계단함수(스텝함수) • 교란변수 • 균등분포 • 노름 • 다중회귀분석 • 독립변수 • 로그함수 • 로지스틱 함수 • 로짓변환 • 리키 ReLU 함수 • 맨해튼 거리 • 몬테카를로 방법 • 미분 • 미시함수 • 미적분 • 민코프스키 거리 • 베이즈 정리 • 베이지안 추론 • 볼록함수 • 분산 • 비선형함수 • 빅-오 표기법 • 사인(sin) • 사전확률 • 사후확률 • 삼각함수 • 선형변환 • 선형함수 • 소프트맥스 함수 • 손실 • 손실함수 • 스위시 함수 • 시그모이드 함수 • 안장점 • 에너지 함수 • 연결함수(Concat 함수) • 연속변수 • 오목함수 • 웨이블릿 변환 • 유클리드 거리 • 이산변수 • 입력값 • 자카드 거리 • 적분 • 전이함수 • 정규분포 • 정규화 • 종속변수 • 지수함수 • 체비셰프 거리 • 체인룰 • 최소제곱법 • 출력값 • 코사인(cos) • 코사인 거리 • 코사인 유사도 • 탄젠트(tan) • 탄젠트 함수 • 통계 • 편미분 • 편향 • 평균절대오차 • 평균제곱근오차 • 평균제곱오차 • 표준편차 • 푸리에 변환 • 하이퍼볼릭 탄젠트 함수(tanh) • 합성곱 • 합성함수 • 확률 • 활성화 함수 • 후버손실함수
|
|
위키 : 인공지능, 개발, 자동차, 교통, 아시아, 세계, 산업, 기업, 단체, 업무, 생활, 지도, 블록체인, 암호화폐, 인물, 행사, 일반
|
|