Kaggle's Learn Machine Learning step03 | Translate to Korea
This is part of Kaggle's Learn Machine Learning series.
이것은 Kaggle's Learn Machine Learning series의 부분이다.
Selecting and Filtering Data 데이터 선택과 필터링
Your dataset had too many variables to wrap your head around, or even to print out nicely.
데이터 셋에는 너무 많은 변수가 있어서 머리를 감싸거나, 멋지게 인쇄할 수 없을 수도 있다.
How can you pare down this overwhelming amount of data to something you can understand?
이 압도적인 데이터의 양을 어떻게 하면 이해할 수 있는 수준으로 깍을수 있을까?
To show you the techniques, we'll start by picking a few variables using our intuition.
그 기법을 보여주기 위해 직감을 이용하여 약간의 데이터를 선택할 것이다.
Later tutorials will show you statistical techniques to automatically prioritize variables.
다음 학습은 자동적으로 변수의 우선순위를 지정하는 통계기법을 보여줄 것이다.
Before we can choose variables/columns, it is helpful to see a list of all columns in the dataset.
변수와 colunns를 선택하기 전에 데이터셋에 있는 모든 리스트를 보면 도움이 된다.
That is done with the columns property of the DataFrame (the bottom line of code below).
그것은 DataFrame의 columns(아래 코드의 하단부분)으로
import pandas as pd
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
print(melbourne_data.columns)
There are many ways to select a subset of your data. We'll start with two main approaches:
데이터의 하위부분에 접근하는 방식은 많다. 우리는 두가지 주요 접근 방식으로 시작할 것이다.
Selecting a Single Column
You can pull out any variable (or column) with dot-notation.
점 표기법을 사용하여 변수 또는 열을 추출할 수 있다.
This single column is stored in a Series, which is broadly like a DataFrame with only a single column of data.
이 단일 열은 일련의 데이터 열만 있는 DataFrame과 매우 유사한 Series에 저장된다.
Here's an example:여기에 한 예가 있다.
# store the series of prices separately as melbourne_price_data.
melbourne_price_data = melbourne_data.Price
# the head command returns the top few lines of data.
print(melbourne_price_data.head())
Selecting Multiple Columns
You can select multiple columns from a DataFrame by providing a list of column names inside brackets.
대괄호 안에 컬럼의 이름을 제공하여 DataFrame으로부터 여러 컬럼을 선택할 수 있다.
Remember, each item in that list should be a string (with quotes).
대괄호 안의 아이템은 문자열어어야 한다.
columns_of_interest = ['Landsize', 'BuildingArea'] two_columns_of_data = melbourne_data[columns_of_interest]
two_columns_of_data.describe()
Your Turn
Continue
https://www.kaggle.com/dansbecker/selecting-and-filtering-in-pandas
댓글