λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°

𝟐𝟎𝟐𝟎 π›π«π’π π‘π­π’πœπ¬

[Brightics Studio μ‹€μŠ΅] Common : νšŒκ·€λΆ„μ„, ꡰ집뢄석 μ‹€μŠ΅


이번 ν¬μŠ€νŒ…μ—μ„œλŠ” Brightics Studio둜 νšŒκ·€λΆ„μ„κ³Ό ꡰ집뢄석을 μ‹€μŠ΅ν•œ λ‚΄μš©μ„ λ¦¬λ·°ν•΄λ³΄κ² μŠ΅λ‹ˆλ‹€!
μ•„λž˜ μ’…ν•© μ‹œλ‚˜λ¦¬μ˜€ κ΅μœ‘μ˜μƒμ„ ν† λŒ€λ‘œ μ‹€μŠ΅μ„ μ§„ν–‰ν–ˆμŠ΅λ‹ˆλ‹€.

www.youtube.com/watch?v=m7Xa-bfAXZ8&t=315s

 

μ•„λž˜λŠ” μ‹€μŠ΅μ΄ λλ‚¬μ„ λ•Œμ˜ λͺ¨λΈ μ „체 ν˜•νƒœ!


𝟎. πœπ₯𝐚𝐬𝐬𝐒𝐟𝐒𝐜𝐚𝐭𝐒𝐨𝐧 & π«πžπ π«πžπ¬π¬π’𝐨𝐧

이미지 좜처 https://dev.to/petercour/machine-learning-classification-vs-regression-1gn

 

λ¨Έμ‹ λŸ¬λ‹μ—μ„œ 지도 ν•™μŠ΅μ€ 주둜 λΆ„λ₯˜ λ¬Έμ œμ™€ 예츑 문제둜 λ‚˜λˆ„μ–΄ λ³Ό 수 μžˆλŠ”λ°μš”,

 

두 문제 λͺ¨λ‘ μ£Όμ–΄μ§„ λ°μ΄ν„°λ‘œ 결과값을 μ˜ˆμΈ‘ν•˜κ³ , μ •λ‹΅κ³Ό λΉ„κ΅ν•˜λ©΄μ„œ 반볡적으둜 ν›ˆλ ¨ν•˜λŠ” ν˜•νƒœμΈλ°

 

λΆ„λ₯˜ 문제의 경우 κ·Έ 정닡이 'μ–΄λ–€ 범주에 μ†ν•˜λŠ”μ§€'의 ν˜•νƒœμ΄κ³ 

예츑 문제의경우 'μ–΄λ–€ 값을 κ°€μ§€λŠ”μ§€'의 ν˜•νƒœλΌλŠ” μ μ—μ„œ 차이가 μžˆμŠ΅λ‹ˆλ‹€.

 

예λ₯Ό λ“€μ–΄ λ©”μΌμ˜ λ‚΄μš© ν…μŠ€νŠΈ 데이터λ₯Ό λ°”νƒ•μœΌλ‘œ μŠ€νŒΈ 메일인지 μ•„λ‹Œμ§€νŒλ‹¨ν•˜λŠ” λ¬Έμ œλŠ” λΆ„λ₯˜ 문제,

μ—¬λŸ¬ κ°€μ§€ 상황을 κ³ λ €ν•΄λ³΄μ•˜μ„ λ•Œ ν•™μƒμ˜ μ μˆ˜λŠ” λͺ‡ μ μΌμ§€νŒλ‹¨ν•˜λŠ” λ¬Έμ œλŠ” 예츑 λ¬Έμ œκ°€ 될 수 있겠죠?

 

λ¬Όλ‘  결과값을 μ–΄λ–€ ν˜•νƒœλ‘œ ν™•μΈν•˜κ³  싢은지에 따라 문제 μ’…λ₯˜λ₯Ό 선택할 수 μžˆλ“―,

κ²°κ³Ό ν˜•νƒœμ— 쑰금 λ³€ν˜•μ„ μ€€λ‹€λ©΄ νšŒκ·€ 문제λ₯Ό λΆ„λ₯˜ 문제둜, λΆ„λ₯˜ 문제λ₯Ό νšŒκ·€ 문제둜 λ°”κΏ€ μˆ˜λ„ μžˆμŠ΅λ‹ˆλ‹€.

 

이번 ν¬μŠ€νŠΈλŠ” 뢄석 μ‹€μŠ΅μ΄ μ£Όμš”ν•˜λ‹ˆ μ•Œκ³ λ¦¬μ¦˜ ν˜•νƒœμ˜ λ‚΄μš©μ€ κ°„λ‹¨ν•˜κ²Œλ§Œ λ‹€λ£¨μ–΄λ΄€μ–΄μš”.

μΆ”κ°€μ μœΌλ‘œ λ¨Έμ‹ λŸ¬λ‹ μ•Œκ³ λ¦¬μ¦˜μ— λŒ€ν•΄ μ•Œμ•„λ³΄κ³  μ‹ΆμœΌμ‹  뢄은 μ•„λž˜ 글을 μ½μ–΄λ³΄μ‹œλŠ” 것도 쒋을 것 κ°™μ•„μš”

 

m.post.naver.com/viewer/postView.nhn?volumeNo=19612670&memberNo=20717909

 

κΈ°κ³„ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μ˜ μ’…λ₯˜λ₯Ό μ•Œμ•„λ³΄μž

[BY 퀄컴 코리아] κΈ°κ³„ν•™μŠ΅(λ¨Έμ‹ λŸ¬λ‹)은 데이터λ₯Ό μ΄μš©ν•΄ 기계λ₯Ό ν›ˆλ ¨μ‹œμΌœ, 슀슀둜 결정을 λ‚΄λ¦¬κ±°λ‚˜ ...

m.post.naver.com


𝟏. π₯𝐒𝐧𝐞𝐚𝐫 𝐫𝐞𝐠𝐫𝐞𝐬𝐬𝐒𝐨𝐧

λ¨Όμ € νšŒκ·€ λΆ„μ„μ΄λž€ 'ν•œ λ³€μˆ˜λ₯Ό λ‹€λ₯Έ λ³€μˆ˜(λ“€)의 ν•¨μˆ˜ 관계λ₯Ό ν‘œν˜„ν•˜λŠ” 것'인데,

이 관계가 μ„ ν˜•μ (직선적) 관계라면 μ„ ν˜• νšŒκ·€(linear regression) 뢄석이라고 ν•©λ‹ˆλ‹€.

 

 

이번 μ‹€μŠ΅μ—μ„œλŠ” μ €λ²ˆκ³Ό λ™μΌν•˜κ²Œ iris λ°μ΄ν„°μ—μ„œ, 쒅이 setosa인 λ°μ΄ν„°λ§Œ filter ν•¨μˆ˜λ₯Ό 톡해 μΆ”μΆœν•΄

sepal length와 sepal width κ°„μ˜ μ„ ν˜• 관계λ₯Ό μ˜ˆμΈ‘ν•˜λŠ” 뢄석을 μ§„ν–‰ν–ˆμŠ΅λ‹ˆλ‹€.

(sepal lengthλ₯Ό λ…λ¦½λ³€μˆ˜λ‘œ 두고, sepal widthλΌλŠ” μ’…μ†λ³€μˆ˜λ₯Ό μ˜ˆμΈ‘ν•˜λŠ” μ„ ν˜• νšŒκ·€λΆ„μ„)

 

λ¨Όμ € Split Dataν•¨μˆ˜λ₯Ό 톡해 데이터λ₯Ό μΌμ •ν•œ λΉ„μœ¨(8:2)둜 train data setκ³Ό test data set으둜 λ‚˜λˆ„μ—ˆμŠ΅λ‹ˆλ‹€.

Linear Regression Trainν•¨μˆ˜μ—μ„œ train data set으둜 λͺ¨λΈμ„ ν•™μŠ΅μ‹œν‚€κ³ ,

Linear Regression Predictν•¨μˆ˜μ—μ„œ ν•™μŠ΅λœ λͺ¨λΈλ‘œ test data set의 sepal width κ°’ μ˜ˆμΈ‘ν•©λ‹ˆλ‹€.

그리고 Evalute Regressionν•¨μˆ˜μ—μ„œ μ‹€μ œ sepal width κ°’κ³Ό λΉ„κ΅ν•˜μ—¬ μœ νš¨μ„±μ„ ν…ŒμŠ€νŠΈν•©λ‹ˆλ‹€.

 

참고둜 Split Data μ—μ„œμ˜ Seedλ₯Ό 123라고 적어주면 μˆœμ„œμ™€ 상관없이 랜덀으둜 데이터가 λ‚˜λˆ„μ–΄μ§„λ‹€κ³  ν•΄μš”.

 

νŒŒμ΄μ¬μ΄λ‚˜ R둜 ν–ˆλ‹€λ©΄ κ½€ 였래 걸렸을 텐데 λΈŒλΌμ΄ν‹±μŠ€ μŠ€νŠœλ””μ˜€λ‘œ ν•˜λ©΄ 3뢄컷도 κ°€λŠ₯ν•˜λ‹€λ‹ˆ .. 쑰금 좩격적(?)

 

Evaluate Regression ν•¨μˆ˜μ˜ κ²°κ³ΌλŠ” μ΄λŸ° μ‹μœΌλ‘œ λ‚˜μ˜΅λ‹ˆλ‹€! κ²°μ •κ³„μˆ˜ κ°’이 κ΅μœ‘ μ˜μƒμ΄λž‘ μ°¨μ΄κ°€ λ§Žμ΄ λ‚˜λŠ” κ²ƒ κ°™κΈ΄ ν•˜μ§€λ§Œ ^_γ… 

 

 


𝟐. πœπ₯𝐚𝐬𝐬𝐒𝐟𝐒𝐜𝐚𝐭𝐒𝐨𝐧


λ‹€μŒμœΌλ‘œλŠ” K-means ν•¨μˆ˜λ₯Ό 톡해 꽃받침과 κ½ƒμžŽμ˜ 길이와 λ„ˆλΉ„ 데이터λ₯Ό 톡해 쒅을 λΆ„λ₯˜ν•΄λ³΄κ³ ,
Evaluate Classification ν•¨μˆ˜λ₯Ό ν†΅ν•΄ κ·Έ λΆ„λ₯˜ κ²°κ³Όκ°€ μ‹€μ œ μ’…κ³Ό μ–Όλ§ˆλ‚˜ μΌμΉ˜ν•˜λŠ”μ§€ ν™•μΈν•˜λŠ” μ‹€μŠ΅μ„ μ§„ν–‰ν•©λ‹ˆλ‹€!

μ™Όμͺ½κ³Ό κ°™μ΄ K-means ν•¨μˆ˜λ₯Ό μ‹€ν–‰ν•˜κ³  κ²°κ³Όκ°’을 Scatter plot으둜 μ„ νƒν•˜λ©΄ μ˜€λ₯Έμͺ½κ³Ό κ°™μ€ κ²°κ³Ό ν™”면을 ν™•인할 μˆ˜ μžˆμŠ΅λ‹ˆλ‹€.

λŒ€λž΅μ μœΌλ‘œ setosaκ°€ 1번, versicolorκ°€ 2번, virginicaκ°€ 3번으둜 λΆ„λ₯˜λ˜μ—ˆμŠ΅λ‹ˆλ‹€!

 


λΆ„λ₯˜ ν•¨μˆ˜λŠ” μ‹€ν–‰ν–ˆμ§€λ§Œ, 이 ν•¨μˆ˜λ₯Ό κ·ΈλŒ€λ‘œ Evaluate Classification ν•¨μˆ˜μ™€ μ—°κ²°ν•˜λ©΄ μ—λŸ¬κ°€ λœΉλ‹ˆλ‹€.
prediction κ²°κ³Όκ°€ μ‹€μˆ˜ν˜•μ΄κΈ° λ•Œλ¬Έμ—, Add Column ν•¨μˆ˜λ₯Ό 톡해 predλΌλŠ” λ³€μˆ˜λ₯Ό μƒˆλ‘œ λ§Œλ“€μ–΄
μ•„κΉŒ ν™•μΈν•œ λ²ˆν˜Έμ— λ§žκ²Œ μ˜ˆμΈ‘ν•œ κ²°κ³Όκ°’을 μš°λ¦¬κ°€ μ•Œκ³  μžˆλŠ” κ½ƒμ˜ μ΄λ¦„λŒ€λ‘œ λ‹€μ‹œ λ°”κΎΌ κ°’을 λ„£μ–΄μ€λ‹ˆλ‹€.

 

Evalute Classification κ²°κ³ΌλŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€. μƒκ°λ³΄λ‹€ μ •확도가 λ†’κ²Œ λ‚˜μ™”λ„€μš”!

 



μ—¬κΈ°κΉŒμ§€ iris λ°μ΄ν„°λ₯Ό ν™œμš©ν•΄ Brightics Studioμ—μ„œ (μ„ ν˜•)νšŒκ·€λΆ„μ„κ³Ό κ΅°μ§‘뢄석을 μ‹€μŠ΅ν•œ λ‚΄μš©μ„ λ¦¬λ·°ν•΄λ³΄μ•˜μŠ΅λ‹ˆλ‹€.

뢄석 μžμ²΄κ°€ μ–΄λ ΅μ§„ μ•Šμ§€λ§Œ Rμ΄λ‚˜ νŒŒμ΄μ¬μ„ μ‚¬μš©ν•΄ λΆ„μ„ν•˜λ©΄ 생각보닀 였래 κ±Έλ¦¬λŠ” 뢀뢄인데,
λΈŒλΌμ΄ν‹±μŠ€ μŠ€νŠœλ””μ˜€μ—μ„œλŠ” κ°„λ‹¨ν•˜κ²Œ ν•¨μˆ˜λ₯Ό λ„£κ³  μ—°κ²°ν•΄μ„œ μ‹€ν–‰ν•˜κΈ°λ§Œ ν•˜λ©΄ λ˜μ–΄μ„œ μ‰½λ‹€λŠ” μƒκ°κΉŒμ§€ λ“œλŠ” κ²ƒ κ°™μ•„μš”.

λ‹€μŒμ—λŠ” μ§€κΈˆ κ΄€μ‹¬ μžˆλŠ” λΆ„μ•Όμ˜ λ°μ΄ν„°λ₯Ό κ°™μ€ λ°©λ²•μœΌλ‘œ μ‹€μŠ΅ν•œ λ‚΄μš©λ„ κ°„λ‹¨νžˆ μ •리해보면 μž¬λ―Έμžˆμ„ κ²ƒ κ°™μ•„μš”!