์ƒ๊ฐ์ •๋ฆฌ

R-1

dev_summer 2020. 10. 30. 16:53

 

1. ๋ฐ์ดํ„ฐ ๋ถ„์„

head() - ๋ฐ์ดํ„ฐ ์•ž๋ถ€๋ถ„ ์ถœ๋ ฅ(๊ธฐ๋ณธ6๊ฐœ)

tail() - ๋ฐ์ดํ„ฐ ๋’ท๋ถ€๋ถ„ ์ถœ๋ ฅ

View() - ๋ทฐ์–ด ์ฐฝ์—์„œ ๋ฐ์ดํ„ฐ ํ™•์ธ(๋Œ€๋ฌธ์ž ์œ ์˜)

dim() - ๋ช‡ํ–‰ ๋ช‡์—ด๋กœ ๊ตฌ์„ฑ๋˜๋Š”์ง€ ํ™•์ธ

str() - ๋ฐ์ดํ„ฐ ์†์„ฑ ํ™•์ธ ๊ฐ€๋Šฅ

summary() - ์š”์•ฝํ†ต๊ณ„๋Ÿ‰ ์‚ฐ์ถœํ•˜๊ธฐ

 

 

 

2. ๋ฐ์ดํ„ฐ ๊ฐ€๊ณต

filter() - ํ–‰์ถ”์ถœ, ์˜ค๋ผํด์˜ where ์ ˆ๊ณผ ๊ฐ™์€ ์—ญํ• 

select() - ์—ด(๋ณ€์ˆ˜) ์ถ”์ถœ

arrange() - ์ •๋ ฌ(๊ธฐ๋ณธ๊ฐ’์€ ์˜ค๋ฆ„์ฐจ์ˆœ, ๋‚ด๋ฆผ์ฐจ์ˆœ ์‹œ arrange(desc(XXX)))

mutate()-ํŒŒ์ƒ๋ณ€์ˆ˜ ์ถ”๊ฐ€ํ•˜๊ธฐ(XXX >%> mutate(์ˆ˜์‹))

summarise()- ํ•„์š”ํ•œ์ž๋ฃŒ๋กœ ๊ฐ€๊ณตํ•˜์—ฌ ์š”์•ฝํ•˜๊ธฐ ex.mean()

group_by()-๊ทธ๋ฃน๋ณ„๋กœ ๋ฌถ๊ธฐ

left_join()-์™ผ์ชฝ๊ธฐ์ค€์œผ๋กœ ๊ฐ€๋กœ๋กœ ํ•ฉ์น˜๊ธฐ

bind_rows()- ์„ธ๋กœ๋กœ ํ•ฉ์น˜๊ธฐ

 

3. ๋ฐ์ดํ„ฐ ์ •์ œ(๊ฒฐ์ธก์น˜ ์ •์ œ)

*๊ฒฐ์ธก์น˜(NA) : ๋ˆ„๋ฝ๋œ ๊ฐ’, ๋น„์–ด์žˆ๋Š” ๊ฐ’, ๋ถ„์„๊ฒฐ๊ณผ๋ฅผ ์™œ๊ณก์‹œํ‚ค๋ฏ€๋กœ ์ œ๊ฑฐ ํ›„ ๋ถ„์„ ์‹ค์‹œ

is.na(์—ด์˜ ๊ฒฐ๊ณผ๊ฐ’์ค‘ ๊ฒฐ์ธก์น˜๊ฐ€ ๋ฐœ๊ฒฌ๋˜๋ฉด ํ–‰์„ ๋‹ค ์‚ญ์ œ)) - ๊ฒฐ์ธก์น˜ ํ™•์ธํ• ์ˆ˜์žˆ์Œ

table(is.na(XXX)) - ๊ฒฐ์ธก์น˜ ๋นˆ๋„ ์ถœ๋ ฅ(T,F๋กœ ์ถœ๋ ฅ)

filter(!is.na(์—ด์ด๋ฆ„)) - ๊ฒฐ์ธก์น˜ ์ œ๊ฑฐ ํ›„ ๊ฒฐ๊ณผ ์ถœ๋ ฅ

na.omit(XXX)- ๋ชจ๋“  ๋ณ€์ˆ˜์— ๊ฒฐ์ธก์น˜ ์—†๋Š” ๋ฐ์ดํ„ฐ ์ถ”์ถœ

mean(XXX$์„ ํƒ์—ด, na.rm = T) - ์—ฐ์‚ฐ ์‹œ ๊ฒฐ์ธก์น˜ ์ œ์™ธํ•˜๊ณ  ํ‰๊ท  ์‚ฐ์ถœ

* ๊ฒฐ์ธก์น˜ ํ‰๊ท ๊ฐ’์œผ๋กœ ๋Œ€์ฒดํ•˜๊ธฐ

if๋ฌธ์„ ๊ฑธ์–ด ์„ ํƒ์—ด์ด na์ด๋ฉด ํ‰๊ท ๊ฐ’์œผ๋กœ ๋Œ€์ฒดํ•˜์—ฌ ์‚ฐ์ถœ ๊ฐ€๋Šฅ

XXX$์„ ํƒ์—ด <- ifelse(is.na(XXX$์„ ํƒ์—ด), ๊ฐ’,XXX$์„ ํƒ์—ด)

* ์ด์ƒ์น˜(์ •์ƒ๋ฒ”์ฃผ์—์„œ ํฌ๊ฒŒ ๋ฒ—์–ด๋‚œ ๊ฐ’, ๋…ผ๋ฆฌ์ ์œผ๋กœ ์กด์žฌํ• ์ˆ˜ ์—†๋Š” ๊ฐ’) ๊ฒฐ์ธก์ฒ˜๋ฆฌํ•˜๊ธฐ

 

 

 

 

๋ฐ์ดํ„ฐ ํŒŒ์•… XXX <- as.data.frame(ggplot2::XXX) ๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„ ํ˜•ํƒœ๋กœ ๋ถˆ๋Ÿฌ์˜ด

๋‹จ์ถ•ํ‚ค strl + shit+m = %>% ๊ธฐํ˜ธ ์ž…๋ ฅ ๊ฐ€๋Šฅ

%in% XXX(1,3,5) XXX๊ฐ€ 1,3,5์— ํ•ด๋‹นํ•˜๋ฉด ์ถ”์ถœ, ๋งค์น ํ™•์ธ ๊ธฐํ˜ธ

^, ** - ์ œ๊ณฑ / %/% - ๋‚˜๋ˆ—์…ˆ์˜ ๋ชซ / %% - ๋‚˜๋ˆ—์…ˆ์˜ ๋‚˜๋จธ์ง€ ๊ธฐํ˜ธ

 

 

์š”์•ฝํ†ต๊ณ„๋Ÿ‰ ํ•จ์ˆ˜

mean() - ํ‰๊ท 

sd() - ํ‘œ์ค€ํŽธ์ฐจ

sum() - ํ•ฉ๊ณ„

median() - ์ค‘์•™๊ฐ’

min() - ์ตœ์†Ÿ๊ฐ’

max() - ์ตœ๋Œ“๊ฐ’

n() -๋นˆ๋„

 

 

 

- R์˜ ๊ฐ€์žฅ ํฐ ์žฅ์ ์€ ๋น…๋ฐ์ดํ„ฐ ๊ฐ€์‹œํ™”๋กœ์„œ ๋ฐ์ดํ„ฐ๋ฅผ 2,3์ฐจ์› ๊ทธ๋ž˜ํ”„, ์ง€๋„๊ทธ๋ž˜ํ”„, ๋„คํŠธ์›Œํฌ ๊ทธ๋ž˜ํ”„, ๋ชจ์…˜ ์ฐจํŠธ, ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ๊ทธ๋ž˜ํ”„ ๋“ฑ์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ฆด์ˆ˜ ์žˆ์Œ.

- ggplot2 ํŒจํ‚ค์ง€ ์„ค์น˜ํ•˜์—ฌ library

 

 

1. ์‚ฐ์ ๋„ ๊ทธ๋ž˜ํ”„

 

- 1๋‹จ๊ณ„ ๋ฐฐ๊ฒฝ์„ค์ • / 2๋‹จ๊ณ„ ๊ทธ๋ž˜ํ”„ ์ถ”๊ฐ€(๋ง‰๋Œ€, ์„ , ์ ) / 3๋‹จ๊ณ„ ์„ค์ •์ถ”๊ฐ€(์ถ•๋ฒ”์œ„, ํ‘œ์‹)

- ggplot() : ์ตœ์ข… ๋ณด๊ณ ์šฉ์œผ๋กœ ์ƒ‰, ํฌ๊ธฐ, ํฐํŠธ ๋“ฑ ์„ธ๋ถ€์กฐ์ž‘์ด ๊ฐ€๋Šฅํ•˜๋‹ค.

qplot() : ์ „์ฒ˜๋ฆฌ ๋‹จ๊ณ„ ๋ฐ์ดํ„ฐ ํ™•์ธ์šฉ์œผ๋กœ ๋ฌธ๋ฒ•์ด ๊ฐ„๋‹จํ•˜๊ณ  ๊ธฐ๋Šฅ์ด ๋‹จ์ˆœํ•˜๋‹ค.

 

 

2. ๋ง‰๋Œ€ ๊ทธ๋ž˜ํ”„

 

- ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ๋ฅผ ๋ง‰๋Œ€์˜ ๊ธธ์ด๋กœ ํ‘œํ˜„ํ•œ ๊ทธ๋ž˜ํ”„

 

- geom_col() : ๋ฐ์ดํ„ฐ๋ฅผ ์š”์—ญํ•œ ํ‰๊ท ํ‘œ๋ฅผ ๋จผ์ € ๋งŒ๋“  ํ›„ ํ‰๊ท ํฌ๋ฅผ ์ด์šฉํ•ด ๊ทธ๋ž˜ํ”„ ์ž‘์„ฑ

deom_bar() : ๋ณ„๋„๋กœ ํ‘œ๋ฅผ ๋งŒ๋“ค์ง€์•Š๊ณ  ์›์ž๋ฃŒ๋ฅผ ์ด์šฉํ•ด ๋ฐ”๋กœ ๊ทธ๋ž˜ํ”„ ์ž‘์„ฑ

 

3. ์„  ๊ทธ๋ž˜ํ”„

 

- ๋ฐ์ดํ„ฐ๋ฅผ ์„ ์œผ๋กœ ํ‘œํ˜„ํ•œ ๊ทธ๋ž˜ํ”„

- ์‹œ๊ผ์—ด ๊ทธ๋ž˜ํ”„ : ์ผ์ • ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ์„ ๋‘๊ณ  ๋‚˜์—ด๋œ ๊ธฐ์…ฐ์—ด ๋ฐ์ดํ„ฐ๋ฅผ ์„ ์œผ๋กœ ํ‘œํ˜„ํ•œ ๊ทธ๋ž˜ํ”„

 

 

 

* ggplot2 ํ•จ์ˆ˜

- geom_point() : ์‚ฐ์ ๋„

- geom_col() : ๋ง‰๋Œ€ ๊ทธ๋ž˜ํ”„ - ์š”์•ฝํ‘œ

- geom_bar() : ๋ง‰๋Œ€ ๊ทธ๋ž˜ํ”„ - ์›์ž๋ฃŒ

- geom_lone() : ์„  ๊ทธ๋ž˜ํ”„

- geom_boxlpot(): ์ƒ์ž ๊ทธ๋ฆผ

 

 

 

 

'์ƒ๊ฐ์ •๋ฆฌ' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

git ์‚ฌ์šฉํ•˜๊ธฐ  (0) 2021.02.28
ubuntu ๋ช…๋ น์–ด  (0) 2021.02.27
AWS ์žฌ๋ฐฐํฌํ•˜๊ธฐ  (0) 2021.02.27
Rํ™˜๊ฒฝ ๊ตฌ์ถ•  (0) 2020.10.28
๋น…๋ฐ์ดํ„ฐ ์ˆ˜์ง‘  (0) 2020.10.28