# 01. Pandas(판다스)의 장점
1. 기존 라이브러리와 다르게 판다스는 적은양의 코드로도 데이터를 간소화 시켜 표현가능하다. - 간소화 된 데이터 덕분에 과학적 데이터 분석에 용이하다.
2. 대용량의 데이터를 빠르게 가지고오고 사용자의 조건에 맞게 데이터를 필터링할 수 있다.
# 02. Matplotlib의 특징 5가지
1. python 을 이용한 시각화 라이브러리 - 시각화 자료는 텍스트 자료에 비해 이해하기 쉽다는 장점이 있어 복잡한 데이터를 이해하는데 있어 보다 쉽게 접근할 수 있다.
2. 정교하게 그래프의 크기를 조절하거나 각 축의 값을 조절할때 사용한다
3. matplotlib과 pyplot의 관계는 원래 matplotlib은 매트랩의 오픈소스에 이용했지만, 사용하기 어렵다는 단점이 있어 python에선 pyplot을 이용한 시각화로 이용한다 - 이러한 이유로 파이썬엔선 라이브러리를 정의할때, import matplotlib.pyplot as plt 를 이용한다.
4. 데이터 프레임 및 배열 작업에 용이하다. - 도형과 축은 객체로 취급하고(둘을 묶어서 연산하기 편하다는 장점) plot()은 매개변수 없이 사용가능하다.
5. 2D 이미지를 표현하는 라이브러리로 png, pdf등을 표현가능하고 이러한 것을 그림의 색상, 크기를 제어 가능
# 03. Boxplot의 역할 및 장점
1. 측정이나 실험에서 얻은 데이터의 특성을 분석하는것에 기반을 두고 있어 수치적 데이터를 표현하는 그래프다.
2. boxplot은 5가지 요약 수치를 이용하여 그래프를 그리는데, 제 1사분위(Q1, 25%), 제 2사분위(Q2, 50%), 제 3사분위(Q3. 75%), 최대값을 이용한다. 히스토그램과 다르게 집단이 여러개인 경우 한 공간에서 작업하기 수월하다. 이는 히스토그램처럼 분산같은 파라미터를 가지지 않기 때문이다.
1사분위 : 전체 데이터 중 하위 25% 값
3사분위 : 전체 데이터 중 상위 25% 값
사분위 범위수(IQR) : 데이터의 중간 50% Q3 - Q1
3. matplotlob 라이브러리중 pyplot모듈은 boxplot() 함수를 제공해준다.
4. boxplot을 통해 데이터의 값이 어떻게 퍼져있는지 파악하기 쉽고, 데이터가 대칭성을 가지는지, 얼마나 밀접하게 그룹화되어있는지, 왜곡이 있는지를 파악할 수 있다.
5. 데이터의 평균을 사용하는 pdf과 다르게 대표값을 중앙값을 이용하기 때문에 중앙값에서 데이터가 얼마나 떨어저 퍼져있는지를 확인할 수 있다.
# 04. pairplot의 역할 및 장점
1. EDA적 분석을 원할때, 사용한다. - 분석하고자 하는 데이터의 로우데이터부터 데이터를 이해하고 분석하기 위함이다
2. seaborn 라이브러리의 모듈이며, 데이터셋에 존재하는 변수간의 쌍별관계를 그릴수 있다.
3. 데이터가 3개 이상의 차원을 가지고 있을 경우 데이터를 시각화 하기 위해 pairplot을 이용한다.
4. 데이터가 저장된 각 변수가 행렬구조에서 열의 데이터 분포를 대각선으로 표시하는 분포도 이외에도 쌍별관계를 표시하기 위해 산점도를 만들수 있다.
(산점도 : 직교좌표계를 이용해 좌표상의 점을 이용해 두 변수간의 관계를 표현)
5. 이때, 같은 데이터가 만나는 대각선 영역에는 데이터의 히스토그램을 그린다는 점이 특징이다.
# 05. 데이터 분석에서 상관관계 분석을 하는 이유(1) 및 해석(2), 머신러닝에서 상관관계 분석을 쓰는 이유(3)
1. 회귀분석(선형회귀직선을 통해 연속적 종속변수와 독립변수간의 관계를 알기 위한 방법)을 시행하기 전에 하는 분석방법. 회귀분석 이전에 시행하기 때문에 비교하는 데이터간 선형적인 관계를 나타내는 상관계수를 얻는다.
2. 피어슨 상관계수는 -1 < r < 1 의 값을 가지고, 통계적 유의성은 p로 나타낸다.
2-1. r이 0에 근접할수록 선형관계는 약해진다.
2-2. r이 양수일때, 양의 상관관계를 가진다. 이는 두 변수 값이 함께 증가하는 경향을 가진다,
2-3. r이 음수일때, 음의 상관관계를 가진다. 이는 다른 변수 값이 감소할때, 나머지 변수는 증가하는 경향을 가진다.
2-4. p값은 가설 검증에 사용되는 척도로, 가정한 내용과 실제 얻은 사실과의 관계를 비교한다,
2-5. python에선 히트맵을 이용해 상관관계를 표현할 수 있다.
3. 입,출력간의 상관관계를 통해 다음 입력에 따른 출력값을 예측할 수 있다.
# 06. 데이터 기준에서 이상치의 정의(1), 이상치(2)와 극단치(3), 특이치(4)의 차이점
1. 관측된 데이터에서 기준치에 범위에서 많이 벗어난 작은값이나 큰값을 의미한다.
botplot같은 경우 중앙값을 찾기 위해 box를 가로지르는 실선으로 상위 사분위수(Q3, 75%)와 하위 사분위수(Q1. 25%)로 그려지는데 분포꼬리에서
ower inner fence: Q1 - 1.5*IQ
upper inner fence: Q3 + 1.5*IQ
lower outer fence: Q1 - 3*IQ
upper outer fence: Q3 + 3*IQ
로 분류되며 양쪽의 inner fence 지점은 약한 이상치, outer fence 지점은 강한 이상치로 분류된다.
통계학적 관점으론 이상치와 특이치는 같은 용어로 n개의 데이터에서 측정, 실험에서 과오로 인한 과대하게 커지거나 작아진 관측값을 의미한다.
# 07. 사분위수( 1사분위수(1),2사분위수(2),3사분위수(3), IQR(4) 정의)
1. 1사분위(Q1) : 전체 데이터 중 하위 25% 값 (데이터의 25%가 이 값보다 작거나 같음)
2. 2사분위(Q2) : 전체 데이터 중 하위 50% 값 (중위수 데이터의 50%가 이 값보다 작거나 같음)
3. 3사분위(Q3) : 전체 데이터 중 상위 25% 값 (데이터의 75%가 이 값보다 작거나 같음)
4. IQR : 데이터의 중간 50%에 대한 범위 (제1 사분위수와 제3 사분위수 간의 거리(Q3-Q1)를 의미)
# 08. IQR을 활용한 통계적 이상치 탐지의 장점과 단점 정리
<장점>
Q2와 사분위간 범위는 극단 관측치의 영향을 받지 않는다. 이는 평균 및 표준 편차보다 치우침이 많은 데이터의 중심 위치와 범위의 더 나은 측도가 될 수있다.
또한 IQR 값이 클수록 표준 편차 값이 커지는 것 처럼 데이터가 많이 흩어져있을 가능성이 있다,
<단점>
비대칭 방식으로 배포되어있는 데이터 셋에 사용 시 문제가 발생하기 때문에 이런 데이터셋의 경우 수정 후 사용해야 한다.
총 데이터의 개수가 홀수개일시 정확하게 중앙값이 데이터에 속하는 경우 데이터를 사분기를 정할 때 포함할 것인지에 대한 문제가 발생한다.
'AI > 공부' 카테고리의 다른 글
[인공지능]뉴런을 이용해 딥러닝 맛보기(유방암, 아이리스, 타이타닉) (0) | 2024.08.02 |
---|---|
[딥러닝]인공지능 모델의 레이어 (0) | 2024.08.01 |
인공지능 데이터 전처리방법 (0) | 2024.08.01 |
인공지능 모델 학습 시 설정해주는 파라미터 - 배치 사이즈, 학습률 (0) | 2023.08.03 |