안녕하세요, 여러분! 데이터 분석의 세계에 빠지기 시작한 여러분을 환영합니다. 오늘은 데이터 분석의 핵심 도구 중 하나인 Python의 Pandas 라이브러리를 다뤄볼 거예요. Pandas는 데이터 조작과 분석을 하는 데 있어 가장 유용한 도구 중 하나인데요. 그럼 Pandas로 데이터 분석하는 기초를 한번 알아보도록 하죠!
Pandas란 무엇인가?
Pandas는 Python에서 데이터 조작과 분석을 위한 라이브러리로, 특히 테이블 형태의 데이터를 다루는 데 최적화되어 있어요. 엑셀이나 SQL 데이터를 다뤄본 적이 있다면, Pandas와 친숙해지기 쉬울 거예요. Pandas는 Series와 DataFrame이라는 두 가지 주요 데이터 구조를 제공하여 데이터를 쉽게 조작할 수 있게 도와줍니다.
기본적인 데이터 구조: Series와 DataFrame
Series
Series는 일차원 배열과 비슷하며, 데이터와 인덱스가 있습니다. 예를 들어, 간단한 Series를 만들어볼까요?
import pandas as pd
data = [10, 20, 30, 40]
series = pd.Series(data, index=['a', 'b', 'c', 'd'])
print(series)
위 코드를 실행하면, 각 값이 인덱스와 함께 출력되는 것을 볼 수 있습니다. Series는 하나의 열(Column)이라고 보시면 돼요.
DataFrame
DataFrame은 엑셀의 스프레드시트와 비슷한 이차원 데이터 구조입니다. 여러 개의 Series가 모여서 DataFrame을 이루게 됩니다. DataFrame을 생성해봅시다.
data = {
'Name': ['John', 'Anna', 'Peter', 'Linda'],
'Age': [28, 24, 35, 32],
'City': ['New York', 'Paris', 'Berlin', 'London']
}
df = pd.DataFrame(data)
print(df)
DataFrame을 사용하면 여러 열을 포함하는 복잡한 데이터셋도 쉽게 다룰 수 있습니다.
데이터 조작과 분석의 기본
Pandas를 사용하면 데이터를 필터링하거나 정렬하는 등의 작업을 아주 쉽게 수행할 수 있습니다. 예를 들어, 나이가 30 이상인 사람만 필터링해볼까요?
filtered_df = df[df['Age'] >= 30]
print(filtered_df)
또한, 데이터를 정렬할 수도 있습니다. 나이를 기준으로 오름차순으로 정렬해보겠습니다.
sorted_df = df.sort_values(by='Age')
print(sorted_df)
결론
오늘은 Pandas의 기본적인 데이터 구조인 Series와 DataFrame을 사용하여 데이터를 다루는 방법을 살펴보았습니다. Pandas는 이 외에도 훨씬 더 많은 기능을 제공하여 복잡한 데이터 분석 작업을 쉽게 수행할 수 있게 해줍니다. 이제 Pandas와 함께 데이터 분석의 즐거움을 느껴보세요. 다음에도 다양한 예제와 꿀팁을 소개해드릴게요. Happy Coding!