엑셀분석(4)
-
Excel 데이터 분석 (분산 분석)
분산 분석이란 ? 쉽게 설명하자면 간 질환을 앓고있는 A환자와 B환자가 있다. 질병의 정도를 측정하는 값이 " 간수치 " 라고 한다면 두 환자의 간수치를 측정하고 평균을 비교해본 뒤 B환자에게 새로 개발중인 신약을 투여해본다. 그러고 다시 두 환자의 간수치를 측정하고 평균을 비교해본 뒤 복용 전 데이터와 복용 후 데이터를 비교해보는것이다. 분산 분석도 종류가 있는데 2개의 집단에는 T-Test 3개 이상 일 때에는 ANOVA 라고 한다. 우리는 T-Test를 먼저 배워보자 T-test를 하기 전 해야할 것이 있는데 F-검정이다. 두 집단의 분산이 같은지를 검정해보는 것이다. F 검정을 하게되면 P-Value 라는 P 값이 나오는데 이것이 0.05보다 크면 두 집단의 분산은 같다. 이것이 0.05보다 작으..
2023.12.06 -
Excel 데이터 분석 도구 추가하기 / 상관 관계 분석 및 활용하기
엑셀을 켜준 뒤 파일을 눌러 옵션에 들어와주자 추가기능에 들어가주자 분석 도구 팩을 눌러 아래에 관리(A): Excel 추가 기능 이동 부분에서 이동을 눌러주자 분석 도구 팩을 체크해 확인을 눌러주면 데이터 탭 맨 우측에 데이터 분석이라는 항목이 생긴것을 볼 수 있다. 이것을 이제 어떻게 사용하는지 알아보자 먼저 상관분석의 이해와 활용을 배워보자 선형적 : x가 증가할떄 y가 선 형식으로 증가하는지 비선형적 : x가 증가할떄 y가 파도형식처럼 비선형으로 증가하는지 상관 관계란 하나의 변수가 증가할때 또 다른 하나의 변수도 같이 증가하는지 아니면 하나의 변수가 증가할때 다른 하나의 변수는 감소하는지 관계를 살펴보는것 이러한 것들을 살펴보는 방법으로 상관계수를 활용한다 상관 계수란? 수식을 외울 필요 없다...
2023.12.06 -
Excel 탐색적 데이터 분석 (기초 통계랑 분석)
EDA로 불리는 탐색적 데이터 분석은 말 그대로 데이터 자체가 가지고 있는 본연의 의미를 탐색하는 것 탐색적 데이터 분석을 어떻게 하냐에 따라 데이터의 결과가 달라진다. VAR 분산이란? 데이터의 흩어짐 마트에서 10만원어치의 구매가 평균이라면 A라는 사람이 200원어치, B라는 사람이 50만원어치를 구매했다면 분산이 크다 라고 한다 평균과 가까울 수록 분산이 적다라고 함 RAW DATA를 이용해서 기초통계량을 계산해보자 RAW DATA의 Sales로 구해보자 함수들로 쉽게 구할 수 있다.
2023.12.05 -
Excel *Superstore 대쉬보드 만들기 * !!
엑셀로 만드는 마지막 대쉬보드를 만들어보자 완성된 모습은 이렇다. 년도별, 도시별, 지역별로 통계를 볼 수 있다. 대쉬보드는 중요해지고있다. 데이터의 양이 기하급수적으로 늘어나기에 대쉬보드 하나만 배워둔다면 편리하게 사용할 수 있을것이다. 굉장히 많은 양의 raw data가 있다. 자세히보면 city, state, county 등 카테고리가 나눠져있는데 우선 중요하게 보이는 위 3가지를 빈시트지로 옮겨서 중복된 항목을 제거해 보자 중복된 항목 9천여개를 제거했다 엄청난 양의 rawdata이다. 주 별로 묶고 그 안에 도시별로 묶는다면 구조화된 대쉬보드를 만들 수 있을것이다. 이런 구조화를 쉽게 보려면 간단하게 피벗테이블을 사용하면된다. 피벗테이블을 만들고 행 필드에 을 넣으면 위계가 잘 잡힌 테이블이 만..
2023.12.04