본문 바로가기

코린이 탈출일지/R

R 필수 함수, R 기본 함수 모음 - select(), filter(), mutate(), summarise(), arrange(), group_by()/ungroup(), str_ 등

728x90
반응형

#R 필수 함수 / R  기본 함수

저는 지금 연세대학교 백영민 교수님의 R 특강을 들으면서 공부하고 있는데요,
교수님께서 정리해주신 R 필수함수들입니다. 

저도 외우기 위해서 정리하는.. 중!

 

단어나 함수로 외우는 것보다 아래처럼 줄글로, 쓰임을 외우는게 중요하다고 합니다!

 

# 필수함수들 이해
# 아래의 기본 함수들은 반드시 숙지할 것! 
# select(), filter(), mutate(), summarise(), arrange() group_by()/ungroup() 


# select() 데이터의 변수(column)을 선택/제거할 때 사용한다
# filter() 데이터의 사례(row)를 선택/제거할 때 사용한다

→ select와 filter 둘을 같이 사용할 때는, select and filter로 and로 연결해서 써야 함!

# mutate() 데이터내 변수/변수들을 변환할 때 사용한다 


# summarise() 데이터의 변수별 요약통계치를 계산할 때 사용한다 
→ 요약통계치 : 평균, 표준편차 등. 개별변수, 변수들 모두 사용 가능
→ 스펠링이 summarise인 이유는 영국식으로 써서. 미국식도 가능!

# count() 변수의 빈도를 계산할 때 사용한다 


# across() 데이터의 변수들을 지정된 방식으로 변환하거나, 요약통계치 계산할 때 사용한다 

→ mutate랑 summarise랑 보통 같이 씀. 해당 변수들에 걸쳐서 mutate를 계산해라. 이런거 할 때 씀!


# arrange() 데이터의 사례들을 지정된 변수의 순서에 따라 정렬할때 사용한다. desc() 함수와도 같이 사용

→ 분석결과를 깔끔하게 외부로 공유할 때 


# group_by()/ungroup() 데이터를 지정된 방식에 따라 내부적으로 구분할 때 사용하고, 내부적으로 구분된 데이터를 다시 원위치로 바꿀 때 사용한다 

→ 괄호 안 조건에 따라 데이터를 그룹. 그룹by성별, 이런식으로! 


# drop_na() 지정된 변수/변수들을 기준으로 결측값이 존재하는 사례를 제거한다 (filter() 함수의 특수사례)

→ 데이터가 많을 때는 주의해서 사용 필요 

 

 

#빈번하게 세트로 같이 사용되는 함수들

# summarise()에 매우 빈번하게 사용되는 함수들
# mean(), sd(), median(), max(), min(), sum() 

→ 평균, 표준편차, 중위값, 최대값, 최소값, 합

# quantile() 사용시에는 주의할 것 

→ quantile 분위값, 분위수. 1개 값이 나오는 게 아니라  3개가 나오거나, 가끔 오류가 나옴. special care가 필요함. 

 

# mutate()에 매우 빈번하게 사용되는 함수들 
# ifelse(), cut(), is.na(), abs(), 

  ifelse() 특정한 조건을 충족하면 어떤값, 아니면 어떤 값

→ cut()은 집단 나눠줌

→ is.na()는 결측값인지 판단. 실측값이면 false, 결측이면 true

→ abs()는 절대값
# row_number()

→ 가로줄의 오더를 구할 때 씀. rank 구할때 좋음. arrange와 함께!
# character 타입 변수의 경우


help(package="stringr")  #tidyverse 패키지 설치시 같이 설치됨 
# str_으로 시작하는 함수들 

→ str_c() 문자통합

→ str_detect / str_extract / str_remove / str_replace / str_to lower / str_to upper
→ 이정도만 알아도 괜찮!

 

출처 - 연세대학교 백영민 교수님 [R 워크숍] 2강. 데이터 오브젝트 이해

반응형