데이터 분석의 기본 방법
1. 문제를 명확히 하라
데이터 분석에서 가장 중요한 것은 데이터 분석 자체가 아니라 문제이다.
즉, 무엇을 알고 싶습니까?
문제를 해결하는 능력보다 질문하는 능력이 더 중요합니다.
나는 이 말에 깊이 동의합니다.
이 진술은 데이터 분석과 관련하여 특히 그렇습니다.
같은 것에 대해 사람들은 서로 다른 방향과 각도에서 서로 다른 질문을 할 것입니다. 명확하고 모호하지 않으며 구체적인 질문은 데이터 분석 자체를 간단하고 효과적으로 만듭니다.
많은 데이터 분석이 어려운 가장 큰 이유는 질문이 불분명하고 구체적이지 않기 때문입니다.
2. 문제 분석
질문에 대한 답변은 어떤 차원의 데이터에서 나오나요?
이 모든 데이터에 원본 데이터를 사용할 수 있나요?
원본 데이터를 모두 확보할 수 있으면 포인트 매립 단계로 진입할 수 있습니다.
일부 데이터에 대해 원본 데이터를 얻을 수 없는 경우 간단한 계산을 통해 결과를 얻을 수 있는지 판단할 수 있습니다. 가능하다면 포인트 매몰 단계로 들어가 데이터를 얻을 수도 있다. 간단한 계산으로 결과가 나오지 않으면 문제를 더 작고 단순한 문제로 나누어야 합니다.
문제를 분석하는데 있어 요컨대 두 가지 핵심이 있는데, 하나는 해당 차원의 데이터가 문제의 답을 결정한다는 것이고, 다른 하나는 최대한 많은 원본 데이터를 확보하는 것이다.
최대한 많은 원본 데이터를 확보해야 하는 이유는 이전에 경험했던 많은 양의 데이터 분석, 너무 많고 복잡한 계산으로 인해 최종 결과가 실제 상황에서 쉽게 벗어날 수 있기 때문입니다. 왜곡 확률은 상대적으로 높을 것이며 왜곡도 상대적으로 클 것입니다.
물론 이것이 절대적인 것은 아니며, 알고리즘이 충분히 엄격하다면 복잡한 계산을 통해 결과를 얻는 방법도 고려할 수 있습니다.
3. 데이터 획득
1. 매장지점
포인트를 묻어두는 것은 매우 기술적인 일이고, 쉽게 혼란을 야기할 수 있는 일이기도 합니다. 매장지의 통일된 계획과 관리를 갖는 것이 가장 좋습니다.
2. 데이터 크롤링
더 말하지 마.
3. 사용자 설문조사
더 말하지 마.
4. 데이터 시각화 및 비교
데이터 분석 결과를 시각화해야 문제를 확인하고 답을 얻을 수 있습니다.
데이터를 시각화할 때 흔히 접하게 되는 것 중 하나는 어떤 종류의 차트를 사용해야 하는가입니다.
데이터 테이블은 막대 차트, 선 차트 또는 원형 차트 등을 사용할 수 있습니다. 이때 선택하는 방법은 무엇입니까?
비교.
차트를 선택하는 기준입니다.
데이터 시각화는 주로 비교를 위한 것입니다. 비교를 통해서만 문제를 발견하고 답을 찾을 수 있습니다.
비교에는 두 가지 종류가 있는데, 하나는 동일한 차트 내에서 데이터를 비교하는 방식인데, 예를 들어 히스토그램을 통해 특정 차원의 데이터 양/크기를 명확하게 알 수 있습니다.
다른 하나는 여러 차트를 비교하는 것인데, 이를 통해 많은 사실을 알 수 있습니다.
따라서 시각화에 사용할 차트는 비교하려는 데이터와 비교 방법에 따라 다릅니다.