【キノカレッジ|機械学習実践クラス】スパムメールの分類

分析の概要

機械学習の分析対象となるデータの1つとして、自然言語(人間の言語)があり、この自然言語を機械で扱うことを目的とした研究領域のことを自然言語処理(NLP:Natural Language Processing)と呼びます。自然言語処理とは、自然言語を機械で処理し、内容を抽出することです。
「話し言葉」から、論文のような「書き言葉」までの自然言語を対象として、それらの言葉が持つ意味を様々な方法で解析する処理技術を指します。

自然言語処理を利用した課題は色々ありますが、「スパムメール分類」は文書分類での最も代表的な実用事例となります。
機械は人間のように言葉の意味を容易には理解・処理できないことから、分析に取り掛かる前の前処理が特に重要であり、自然言語処理独特な工夫が必要となります。言語データ処理の仕方を試行錯誤してください。

データセット

訓練用データはこちら
提出用データはこちら

※保存方法
Mac:右クリック⇒「リンク先を別名で保存」
Windows:右クリック⇒「名前を付けてリンク先を保存」

データセットのカラム説明

カラム名説明
IDインデックスとして使用
v1ラベル(spam=スパムメール, ham=それ以外)
v2メッセージのテキストデータ

評価方法

・評価方法は、「F1score」を使用してください。
・評価値は0~1の間をとり、精度が高いほど大きな値となります。

【参考】
PythonのF1score実装方法(sklearn公式ページ)
https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html

提出フォーム

∞∞∞∞∞∞∞∞∞∞∞
※キノカレッジのユーザー様のみ閲覧できます。
※キノクエストにログインをしてご利用ください。
∞∞∞∞∞∞∞∞∞∞∞

提出フォームはこちら