
103
4
장
초기 데이터셋 준비하기
]
has_accepted_answer = df[
df["is_question"]
& ~(df["AcceptedAnswerId"].isna())
]
print(
"총 질문: %s개, 1개 이상의 답변을 가진 질문: %s개, 답변이 채택된 질문: %s개"
% (len(df[df["is_question"]]), len(received_answers), len(has_accepted_answer))
)
총 질문: 7971개, 1개 이상의 답변을 가진 질문: 7827개, 답변이 채택된 질문: 4124개
답변이 채택된 질문과 그렇지 않은 질문을 비교적 균등하게 나눌 수 있습니다. 이는 합리적으
로 보이므로 데이터 탐색을 수행하는 데 자신감을 가질 수 있습니다.
데이터 포맷을 이해했고 시작하기에 충분한 것 같습니다. 프로젝트를 수행할 때 현재 데이터
셋이 너무 작거나 이해하기 힘든 특성이 대부분이라면 더 많은 데이터를 모으거나 완전히 다른
데이터셋을 시도해봐야 합니다.
이 데이터셋은 진행하기에 충분한 품질인 것 같습니다. 이제 모델링 전략에 도움이 되는 방향
으로 조금 더 자세히 알아보겠습니다.
4.3
레이블링으로 데이터 트렌드 찾기
데이터셋에서 트렌드를 식별하는 것은 품질 그 이상의 이미가 있습니다. 이 작업은 모델 입장
에서 어떤 종류의 ...