목록AI (5)
Fear is a habit. I'm not afraid.

이상치 데이터(Outlier, 아웃라이어)는 전체 데이터의 패턴에섯 벗어난 이상 값을 가진 데이터로,이상치로 인해 머신러닝 모델의 성능에 영향을 받는 경우가 발생하기 쉽다.이러한 이상치를 찾아내는 방법은 여러가지가 있는데, IQR 기법을 활용하여 박스 플롯 방식으로 시각화하는 방법에 대해 정리해보았다.이상치를 탐지하는 방법시각적 방법 : 그래프를 사용하여 이상치를 시각적으로 탐지.박스플롯(Box Plot) : 데이터 분포를 시각화하고 이상치를 탐지하는데 유용산점도(Scatter Plot) : 두 변수 간의 관계에서 이상치를 시각적으로 탐지통계적 방법IQR(Interquartile Range) 방법 : 데이터의 1사분위수(Q1)와 3사분위수(Q3)를 사용하여 이상치를 탐지Z-점수(Z-score) 방법 : ..
어제 Orange Data Mining 툴을 이용하여 예측모델을 통해 확인하는 실습을 했다. GUI이기 때문에 간편하고 가시적으로 성능을 확인할 수 있었는데 강사님께서 왜 이 모델을 사용하였는지 궁금해져서 각 모델에 대해 공부해보았다. 분류란 기존 데이터가 어떤 레이블에 속하는지 패턴 알고리즘으로 인지한 뒤에 새롭게 관측된 데이터에 대한 레이블을 판별하는 것이다. 분류 알고리즘 종류나이브 베이즈 (Naïve Bayes)로지스틱 회귀 (Logistic regression)결정 트리 (Decision tree)서포트 벡터 머신 (SVM, Support Vector Machine)최소 근접 알고리즘 (Nearest Neighbor)신경망 (Neural Network)앙상블 (Ensemble) 앙상블 방법 (..

결정 클래스 값 종류의 유형에 따라 긍정/부정과 같은 2개의 결괏값만 가지는 이진 분류와 여러 개의 결정 클래스 값을 가지는 멀티 분류로 나눌 수 있다. 종류정확도오차 행렬정밀도재현율F1 스코어ROC AUC 이진/멀티 분류에 모두 적용되는 지표이지만, 특히 이진 분류에서 더욱 중요하게 강조하는 지표이다. 정확도 (Accuracy)실제 데이터에서 예측 데이터가 얼마나 같은지를 판단하는 지표.정확도 = 전체 예측 데이터 건수 / 예측 결과가 동일한 데이터 건수.하지만 이진 분류의 경우 데이터 구성에 따라 ML 모델의 성능을 왜곡할 수 있기 때문에 정확도 수치 하나만 가지고 성능을 평가하지 않는다.특히 불균형한 레이블 값 분포에서 ML 모델의 성능을 판단할 경우, 적합한 평가 지표가 아니다. 오차행렬 (con..
수업시간에 RAG와 Fine Tuning의 차이점에 대해 조사하는 팀프로젝트를 진행하였다.그 때 조사했던 것들을 다시 복습하는 차원에서 정리해본다.RAG· 개념RAG(Retrieval-Augmented Generation, 검색 증강 생성)메타 연구진이 개발한 아키텍처 프레임워크로, 범용 AI 모델이 조직에 관련성 있고 유용한 결과를 제공할 수 있도록 지원한다. RAG는 대규모 언어 모델(LLM)이 내부 지식 베이스에 접근하여 원래 학습 데이터를 보강할 수 있도록 한다. 그 결과, LLM의 언어 유창성과 로컬 데이터를 결합하여 상황에 맞는 맞춤형 응답을 제공하는 AI 시스템이 탄생한다. 이러한 접근 방식은 AI 모델 미세 조정과 달리 기본 모델 자체를 수정하지 않고도 작동한다. LLM에 최신 정보를 추가..

개념퍼셉트론(perceptron)은 인공신경망의 한 종류로서, 1957년에 코넬 항공 연구소(Cornell Aeronautical Lab)의 프랑크 로젠블라트 (Frank Rosenblatt)에 의해 고안되었다. 이것은 가장 간단한 형태의 피드포워드(Feedforward) 네트워크, 선형분류기로도 볼 수 있다. 구조초기 신경망 분야의 연구에 커다란 영향을 미친 퍼셉트론은 본래 1950년대에 Rosenblatt가 제안한 것으로 수용층, 연합층, 반응층의 세 부분으로 구성되어 있다. 수용층에서는 외부 자극을 받아들이고, 연합층은 수용층의 가중 압력을 받아 반응층으로 전달하는 기능을 담당하며, 반응층은 최종 출력을 내보내는 기능을 한다. 퍼셉트론은 연결 강도를 조정하기 위하여 반복적 학습 방법을 사용한다.특히..