1. ๋ฐ์ดํฐ ๋ถ์
head() - ๋ฐ์ดํฐ ์๋ถ๋ถ ์ถ๋ ฅ(๊ธฐ๋ณธ6๊ฐ)
tail() - ๋ฐ์ดํฐ ๋ท๋ถ๋ถ ์ถ๋ ฅ
View() - ๋ทฐ์ด ์ฐฝ์์ ๋ฐ์ดํฐ ํ์ธ(๋๋ฌธ์ ์ ์)
dim() - ๋ชํ ๋ช์ด๋ก ๊ตฌ์ฑ๋๋์ง ํ์ธ
str() - ๋ฐ์ดํฐ ์์ฑ ํ์ธ ๊ฐ๋ฅ
summary() - ์์ฝํต๊ณ๋ ์ฐ์ถํ๊ธฐ
2. ๋ฐ์ดํฐ ๊ฐ๊ณต
filter() - ํ์ถ์ถ, ์ค๋ผํด์ where ์ ๊ณผ ๊ฐ์ ์ญํ
select() - ์ด(๋ณ์) ์ถ์ถ
arrange() - ์ ๋ ฌ(๊ธฐ๋ณธ๊ฐ์ ์ค๋ฆ์ฐจ์, ๋ด๋ฆผ์ฐจ์ ์ arrange(desc(XXX)))
mutate()-ํ์๋ณ์ ์ถ๊ฐํ๊ธฐ(XXX >%> mutate(์์))
summarise()- ํ์ํ์๋ฃ๋ก ๊ฐ๊ณตํ์ฌ ์์ฝํ๊ธฐ ex.mean()
group_by()-๊ทธ๋ฃน๋ณ๋ก ๋ฌถ๊ธฐ
left_join()-์ผ์ชฝ๊ธฐ์ค์ผ๋ก ๊ฐ๋ก๋ก ํฉ์น๊ธฐ
bind_rows()- ์ธ๋ก๋ก ํฉ์น๊ธฐ
3. ๋ฐ์ดํฐ ์ ์ (๊ฒฐ์ธก์น ์ ์ )
*๊ฒฐ์ธก์น(NA) : ๋๋ฝ๋ ๊ฐ, ๋น์ด์๋ ๊ฐ, ๋ถ์๊ฒฐ๊ณผ๋ฅผ ์๊ณก์ํค๋ฏ๋ก ์ ๊ฑฐ ํ ๋ถ์ ์ค์
is.na(์ด์ ๊ฒฐ๊ณผ๊ฐ์ค ๊ฒฐ์ธก์น๊ฐ ๋ฐ๊ฒฌ๋๋ฉด ํ์ ๋ค ์ญ์ )) - ๊ฒฐ์ธก์น ํ์ธํ ์์์
table(is.na(XXX)) - ๊ฒฐ์ธก์น ๋น๋ ์ถ๋ ฅ(T,F๋ก ์ถ๋ ฅ)
filter(!is.na(์ด์ด๋ฆ)) - ๊ฒฐ์ธก์น ์ ๊ฑฐ ํ ๊ฒฐ๊ณผ ์ถ๋ ฅ
na.omit(XXX)- ๋ชจ๋ ๋ณ์์ ๊ฒฐ์ธก์น ์๋ ๋ฐ์ดํฐ ์ถ์ถ
mean(XXX$์ ํ์ด, na.rm = T) - ์ฐ์ฐ ์ ๊ฒฐ์ธก์น ์ ์ธํ๊ณ ํ๊ท ์ฐ์ถ
* ๊ฒฐ์ธก์น ํ๊ท ๊ฐ์ผ๋ก ๋์ฒดํ๊ธฐ
if๋ฌธ์ ๊ฑธ์ด ์ ํ์ด์ด na์ด๋ฉด ํ๊ท ๊ฐ์ผ๋ก ๋์ฒดํ์ฌ ์ฐ์ถ ๊ฐ๋ฅ
XXX$์ ํ์ด <- ifelse(is.na(XXX$์ ํ์ด), ๊ฐ,XXX$์ ํ์ด)
* ์ด์์น(์ ์๋ฒ์ฃผ์์ ํฌ๊ฒ ๋ฒ์ด๋ ๊ฐ, ๋ ผ๋ฆฌ์ ์ผ๋ก ์กด์ฌํ ์ ์๋ ๊ฐ) ๊ฒฐ์ธก์ฒ๋ฆฌํ๊ธฐ
๋ฐ์ดํฐ ํ์ XXX <- as.data.frame(ggplot2::XXX) ๋ฐ์ดํฐ ํ๋ ์ ํํ๋ก ๋ถ๋ฌ์ด
๋จ์ถํค strl + shit+m = %>% ๊ธฐํธ ์ ๋ ฅ ๊ฐ๋ฅ
%in% XXX(1,3,5) XXX๊ฐ 1,3,5์ ํด๋นํ๋ฉด ์ถ์ถ, ๋งค์น ํ์ธ ๊ธฐํธ
^, ** - ์ ๊ณฑ / %/% - ๋๋์ ์ ๋ชซ / %% - ๋๋์ ์ ๋๋จธ์ง ๊ธฐํธ
์์ฝํต๊ณ๋ ํจ์
mean() - ํ๊ท
sd() - ํ์คํธ์ฐจ
sum() - ํฉ๊ณ
median() - ์ค์๊ฐ
min() - ์ต์๊ฐ
max() - ์ต๋๊ฐ
n() -๋น๋
- R์ ๊ฐ์ฅ ํฐ ์ฅ์ ์ ๋น ๋ฐ์ดํฐ ๊ฐ์ํ๋ก์ ๋ฐ์ดํฐ๋ฅผ 2,3์ฐจ์ ๊ทธ๋ํ, ์ง๋๊ทธ๋ํ, ๋คํธ์ํฌ ๊ทธ๋ํ, ๋ชจ์ ์ฐจํธ, ์ธํฐ๋ํฐ๋ธ ๊ทธ๋ํ ๋ฑ์ ๊ทธ๋ํ๋ฅผ ๊ทธ๋ฆด์ ์์.
- ggplot2 ํจํค์ง ์ค์นํ์ฌ library
1. ์ฐ์ ๋ ๊ทธ๋ํ
- 1๋จ๊ณ ๋ฐฐ๊ฒฝ์ค์ / 2๋จ๊ณ ๊ทธ๋ํ ์ถ๊ฐ(๋ง๋, ์ , ์ ) / 3๋จ๊ณ ์ค์ ์ถ๊ฐ(์ถ๋ฒ์, ํ์)
- ggplot() : ์ต์ข ๋ณด๊ณ ์ฉ์ผ๋ก ์, ํฌ๊ธฐ, ํฐํธ ๋ฑ ์ธ๋ถ์กฐ์์ด ๊ฐ๋ฅํ๋ค.
qplot() : ์ ์ฒ๋ฆฌ ๋จ๊ณ ๋ฐ์ดํฐ ํ์ธ์ฉ์ผ๋ก ๋ฌธ๋ฒ์ด ๊ฐ๋จํ๊ณ ๊ธฐ๋ฅ์ด ๋จ์ํ๋ค.
2. ๋ง๋ ๊ทธ๋ํ
- ๋ฐ์ดํฐ์ ํฌ๊ธฐ๋ฅผ ๋ง๋์ ๊ธธ์ด๋ก ํํํ ๊ทธ๋ํ
- geom_col() : ๋ฐ์ดํฐ๋ฅผ ์์ญํ ํ๊ท ํ๋ฅผ ๋จผ์ ๋ง๋ ํ ํ๊ท ํฌ๋ฅผ ์ด์ฉํด ๊ทธ๋ํ ์์ฑ
deom_bar() : ๋ณ๋๋ก ํ๋ฅผ ๋ง๋ค์ง์๊ณ ์์๋ฃ๋ฅผ ์ด์ฉํด ๋ฐ๋ก ๊ทธ๋ํ ์์ฑ
3. ์ ๊ทธ๋ํ
- ๋ฐ์ดํฐ๋ฅผ ์ ์ผ๋ก ํํํ ๊ทธ๋ํ
- ์๊ผ์ด ๊ทธ๋ํ : ์ผ์ ์๊ฐ ๊ฐ๊ฒฉ์ ๋๊ณ ๋์ด๋ ๊ธฐ์ ฐ์ด ๋ฐ์ดํฐ๋ฅผ ์ ์ผ๋ก ํํํ ๊ทธ๋ํ
* ggplot2 ํจ์
- geom_point() : ์ฐ์ ๋
- geom_col() : ๋ง๋ ๊ทธ๋ํ - ์์ฝํ
- geom_bar() : ๋ง๋ ๊ทธ๋ํ - ์์๋ฃ
- geom_lone() : ์ ๊ทธ๋ํ
- geom_boxlpot(): ์์ ๊ทธ๋ฆผ
'์๊ฐ์ ๋ฆฌ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
git ์ฌ์ฉํ๊ธฐ (0) | 2021.02.28 |
---|---|
ubuntu ๋ช ๋ น์ด (0) | 2021.02.27 |
AWS ์ฌ๋ฐฐํฌํ๊ธฐ (0) | 2021.02.27 |
Rํ๊ฒฝ ๊ตฌ์ถ (0) | 2020.10.28 |
๋น ๋ฐ์ดํฐ ์์ง (0) | 2020.10.28 |