본문 바로가기
my_lesson/_Korean and English

Kaggle's Learn Machine Learning step01 | Translate to Korea

by boolean 2018. 3. 20.
728x90

This is the first step in Kaggle's Learn Machine Learning series.

Kaggle의 머신러닝 첫번째 단계 입니다.


Introduction

We'll start with an overview of how machine learning models work and how they are used. 

우리는 머신러닝 모델들이 어떻게 작동하며 어떻게 사용되어지는지 개요를 통해서 시작할 것입니다.

This may feel basic if you've done statistical modeling or machine learning before. 

이전에 머신러닝을 해보았거나 통계학전 모델링을 해본적이 있다면 쉽게 느껴질 것입니다.

Don't worry, we will progress to building powerful models soon.

걱정하지 마십시오. 우리는 곧 강력한 모델들을 구축할 것입니다.

The course will have you build models for the following scenario:

이과정에서는 다음과 같은 시나리오에 데한 모델을 작성하게 됩니다.


Your cousin has made millions of dollars speculating on real estate. 

당신의 사촌은 수백만 달러로 가량의 부동산을 가지고 있읍니다.

He's offered to become business partners with you because of your interest in data science. 

당신의 데이터과학에 대한 관심 때문에 당신에게 동업자가 되어줄 것을 제안했읍니다.

He'll supply the money, and you'll supply models that predict how much various houses are worth.

그는 자본을 제공하고 당신은 부동산의 미래가치를 예측한 모델을 제공할 것입니다.


You ask your cousin how he's predicted real estate values in the past. 

과거에는 부동산의 가치예측을 어떻게 했는지 당신의 사촌에게 물어보았읍니다.

and he says it is just intuition.

그러자 당신의 사촌은 그저 직관적으로 예측했을 뿐이라고 말했읍니다.

 But more questioning reveals that he's identified price patterns from houses he has seen in the past, 

그러나 더 많은 질문을 통해서과거에 봐 왔던 집의 가격패턴을 식별해내었고,

and he uses those patterns to make predictions for new houses he is considering.

그가 생각하는 새 집의 가격을 예측하는데 그 패턴들을 이용하였읍니다.


Machine learning works the same way. 

머신러닝은 같은 방법으로 작업합니다.

We'll start with a model called the Decision Tree. 

우리는 결정트리라 불리는 모델로 시작을 할 것입니다.

There are fancier models that give more accurate predictions. 

보다 정확한 예측을 제공하는 멎진 모델이 있읍니다.

But decision trees are easy to understand, 

그러나 결정트리는 이해하기 쉬우며,

and they are the basic building block for some of the best models in data science.

데이터 과학분야에서 가장 좋은 모델의 기본 구성 요소입니다.


For simplicity, we'll start with the simplest possible decision tree.

간단히 하기위해 우리는 가장 간단한 가능한 결정트리를 시작할 것입니다.



It divides houses into only two categories.

부동산은 두가지 종류로 나눈다.

 You predict the price of a new house by finding out which category it's in, 

새집은 그 집이 속해있는 종류에 따라 기격이 예측되며

and the prediction is the historical average price from that category.

그 예측은 그집이 속해있는 종류의 지난 평균가격에 의해 예측된다.


This captures the relationship between house size and price.

주택의 크기와 가격의 관계를 파악한다.

We use data to decide how to break the houses into two groups, and then again to determine the predicted price in each group. 

우리는 데이터를 사용하여 두 그룹을 나누는 방법을 결정하며,  그 다음으로 각 그룹의 예측가격을 다시 결정한다.

This step of capturing patterns from data is called fitting or training the model. 

데이터로부터 패턴을 파악하는 이 단계를 피팅 또는 트레이닝모델 이라고 한다.

The data used to fit the model is called the training data.

그 모델을 핏하기위해 사용하는 해당 데이터를 트레이닝 데이타라고 한다.


The details of how the model is fit (e.g. how to split up the data) is complex enough that we will save it for later. 

모델을 핏하는 방법의 세부사항(예를 들어 데이터 분할 방법)은 복잡하기 때문에 나중에 저장할 것이다.

After the model has been fit, you can apply it to new data to predict prices of additional homes.

핏을 한 후에 추가적인 주택 가격을 예측하게 위해 새로운 데이터를 적용시킬 수 있읍니다.


Example

Assuming your decision tree works in a sensible way, 

당신의 결정트리가 합리적인 방법으로 작동한다고 가정하면

which of the two trees shown here do you think you might get from fitting this especially simple decision tree?

여기 보여지는 두개의 트리중에 어떤 간단한 결정트리가 피팅될 것이라고 생각하ᄂᅠᆫ가?



Improving the Decision Tree

The decision tree on the left (Decision Tree 1) probably makes more sense,

왼쪽의 결정트리가 아마 납득하기 좋을 것이다,

 because it captures the reality that houses with more bedrooms tend to sell at higher prices than houses with fewer bedrooms. 

이유는 방이 많은 주택이 방이 적은 주택보다 높은 가격을 형성하는 것이 공공연하기 때문이다.

The biggest shortcoming of this model is that it doesn't capture most factors affecting home price, like number of bathrooms, lot size, location, etc.

이 모델의 가장 큰 단점은  주택 가격에 대부분의 영향을 미치는 부분 (욕실의 숫자, 대지의 크기, 지역 등)을 반영하지 못하기 때문이다.

You can capture more factors using a tree that has more "splits." 

당신은 더 많은 분기를 한 트리를 사용해서 다양한 요인들을 반영할 수 있다.

These are called "deeper" trees. 

이 것들을 디퍼 트리 라고 부른다.

A decision tree that also considers the total size of each house's lot might look like this:

각각 주택의 대지의 총 크기라고 여겨지는 결정트리는 다음과 같다.


You predict the price of any house by tracing through the decision tree, always picking the path corresponding to that house's characteristics. 

항상 그 집의 특성에 맞는 경로를 선택해서, 결정트리의추적을 통해서 어떤 집이든 가격을 예측할 수 있다.

The predicted price for the house is at the bottom of the tree. 

그 집에 대한 예측 가격은 트리의 바닥부분이다.

The point at the bottom where we make a prediction is called a leaf.

우리가 예측하게 해주는 바닥 부분을 리프라고 부른다.

The splits and values at the leaves will be determined by the data, so it's time for you to check out the data you will be working with.

리프들에 있는 분기와 값은 데이터에 의해 결정되어 지므로 작업할 데이터를 체크해야 한다.


Continue

You will write code as part of an ongoing data science project for the rest of the tutorials.

나머지 자습서에서는 진행중인 데이터 과학 프로젝트의 일부로 코드를 작성한다.

  Click here to get started.


It is Translate to Korea Kaggle's  web page

Reference : Data Sience Competitions Kaggle

댓글