본문 바로가기
카테고리 없음

Kaggle's Learn Machine Learning step03 | Translate to Korea

by boolean 2018. 4. 10.
728x90

Kaggle's Learn Machine Learning step03 | Translate to Korea

This is part of Kaggle's Learn Machine Learning series.

이것은 Kaggle's Learn Machine Learning series의 부분이다.


Selecting and Filtering Data 데이터 선택과 필터링

Your dataset had too many variables to wrap your head around, or even to print out nicely. 

데이터 셋에는 너무 많은 변수가 있어서 머리를 감싸거나, 멋지게 인쇄할 수 없을 수도 있다.

How can you pare down this overwhelming amount of data to something you can understand?

이 압도적인 데이터의 양을 어떻게 하면 이해할 수 있는 수준으로 깍을수 있을까?

To show you the techniques, we'll start by picking a few variables using our intuition. 

그 기법을 보여주기 위해 직감을 이용하여 약간의 데이터를 선택할 것이다.

Later tutorials will show you statistical techniques to automatically prioritize variables.

다음 학습은 자동적으로 변수의 우선순위를 지정하는 통계기법을 보여줄 것이다.

Before we can choose variables/columns, it is helpful to see a list of all columns in the dataset. 

변수와 colunns를 선택하기 전에 데이터셋에 있는 모든 리스트를 보면 도움이 된다.

That is done with the columns property of the DataFrame (the bottom line of code below).

그것은 DataFrame의 columns(아래 코드의 하단부분)으로 

import pandas as pd

melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
print(melbourne_data.columns)
Index(['Unnamed: 0', 'Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method',
       'SellerG', 'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom',
       'Car', 'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea',
       'Lattitude', 'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')


There are many ways to select a subset of your data. We'll start with two main approaches:

데이터의 하위부분에 접근하는 방식은 많다. 우리는 두가지 주요 접근 방식으로 시작할 것이다.

Selecting a Single Column

You can pull out any variable (or column) with dot-notation.

점 표기법을 사용하여 변수 또는 열을 추출할 수 있다.

 This single column is stored in a Series, which is broadly like a DataFrame with only a single column of data. 

이 단일 열은 일련의 데이터 열만 있는 DataFrame과 매우 유사한 Series에 저장된다.

Here's an example:여기에 한 예가 있다.

# store the series of prices separately as melbourne_price_data.
melbourne_price_data = melbourne_data.Price
# the head command returns the top few lines of data.
print(melbourne_price_data.head())
0    1480000.0
1    1035000.0
2    1465000.0
3     850000.0
4    1600000.0
Name: Price, dtype: float64


Selecting Multiple Columns

 You can select multiple columns from a DataFrame by providing a list of column names inside brackets. 

대괄호 안에 컬럼의 이름을 제공하여 DataFrame으로부터 여러 컬럼을 선택할 수 있다.

Remember, each item in that list should be a string (with quotes).

대괄호 안의 아이템은 문자열어어야 한다.


columns_of_interest = ['Landsize', 'BuildingArea']
two_columns_of_data = melbourne_data[columns_of_interest]

We can verify that we got the columns we need with the describe command.

two_columns_of_data.describe()
Out[4]:
LandsizeBuildingArea
count13603.0000007762.000000
mean558.116371151.220219
std3987.326586519.188596
min0.0000000.000000
25%176.50000093.000000
50%440.000000126.000000
75%651.000000174.000000
max433014.000000

Your Turn

 1. In the notebook with your code: Print a list of the columns 
2. From the list of columns, find a name of the column with the sales prices of the homes. Use the dot notation to extract this to a variable (as you saw above to create melbourne_price_data.) 
3 .Use the head command to print out the top few lines of the variable you just created. 
4. Pick any two variables and store them to a new DataFrame (as you saw above to create two_columns_of_data.) 
5. Use the describe command with the DataFrame you just created to see summaries of those variables. 

Continue 

Now that you can specify what data you want for a model, you are ready to build your first model in the next step.

https://www.kaggle.com/dansbecker/selecting-and-filtering-in-pandas

댓글