【AIエンジニア初心者必見！】Pythonで実装するK-NNアルゴリズムの基礎

2023/03/09

飯沼佑太

【AIエンジニア初心者必見！】Pythonで実装するK-NNアルゴリズムの基礎

K-NN（K近傍法）は、新しいデータを分類する際に、既存のデータのうち距離が近いk個のデータで多数決や平均を取り分類・回帰する手法です。本記事では、K-NNのアルゴリズムとPythonを用いたモデル実装のチュートリアルを、初心者でも理解しやすいように解説します。

機械学習Vertex AIVertex AI WorkbenchAIデータ分析

K-NN（K近傍法）とは？

K-NN（K近傍法）は、新しいデータを分類する際に、既存のデータのうち距離が近いk個のデータで多数決や平均を取り分類・回帰する手法です。具体的には、K-NNは以下の手順で分類を行います。

既存のデータの中から、新しいデータに最も近いk個のデータを選びます。

距離の計算には、ユークリッド距離やマンハッタン距離などが使われます。

k個のデータの中で最も多く存在するカテゴリー（分類問題の場合）や平均値（回帰問題の場合）を求め、新しいデータをそのカテゴリーまたは平均値で分類します。

このように、K-NNは単純で理解しやすい手法ですが、kの値や距離の計算方法などのパラメーターの設定によって性能が大きく変わります。また、大量のデータを扱う場合は計算コストが高くなるため、効率的な実装が必要です。

画像引用：https://xtrend.nikkei.com/atcl/contents/18/00076/00007/

プログラム解説〜データ前処理〜

今回はこちらのKaggleのKickstarter Projectsのデータを例に実践していきます。KaggleのKickstarter Projectsは、クラウドファンディングサイト「Kickstarter」で行われたプロジェクトのデータセットです。データセットには、プロジェクト名、カテゴリー、開始日、終了日、目標金額、資金調達額、支援者の数、プロジェクト状況など、さまざまな情報が含まれています。

Kickstarter Projects

データ前処理を済ませたデータがこちらになります。