データセット

SSCMA はさまざまなデータセットをサポートしています。インターネット上で異なるデータセットを閲覧およびダウンロードすることができるほか、自分でデータセットをアノテーションして作成することも可能です。

インターネットデータセット

SSCMA

SSCMA は現在、対応するモデルのトレーニングおよびテスト用に以下の公式データセットを提供しています。

特定のデータセットをダウンロードするコマンドを実行する前に、必ず SSCMA のルートディレクトリ にいることを確認してください。このコマンドはデータセットを自動的にダウンロードし、現在のディレクトリ内の datasets というフォルダに保存し、最終的に解凍します。

カスタムメーターデータセットをダウンロード:

wget https://files.seeedstudio.com/sscma/datasets/meter.zip -P datasets && unzip datasets/meter.zip -d datasets

COCO_MASK データセットをダウンロード:

wget https://files.seeedstudio.com/sscma/datasets/coco_mask.zip -P datasets && unzip datasets/coco_mask.zip -d datasets

Roboflow

Roboflow は、CreateML JSON、COCO JSON、Pascal VOC XML、YOLO、Tensorflow TFRecords などの形式をサポートする、公開コンピュータビジョンデータセットの無料ホスティングプラットフォームです。また、対応するデータセットの縮小版や拡張版も追加されています。

ヒント

Roboflow でデータセットを探すことを強くお勧めします。アカウントを作成するだけで、数百種類の異なるデータセットを無料でダウンロードし、特定のニーズに対応することができます。

以下は、SSCMA 用のデータセットを Roboflow で見つけることができる例です：

データセット	説明
Digital Meter Water	デジタルメーターウォーターデータセット
Digital Meter Seg7	デジタルメーター Seg7 データセット
Digit Seg7 Classification	Digit Seg7 分類データセット

Kaggle

Kaggle はデータモデリングおよびデータ分析の競技プラットフォームです。企業や研究者がデータを公開し、統計学者やデータマイニングの専門家が最適なモデルを作成するために競い合います。Kaggle では数千ものデータセットが提供されており、Kaggle データセットを訪問して、自分のニーズに合ったものを選ぶことができます。

カスタムデータセット

カスタムデータセットを作成するには、通常以下の手順を実行します。

データ収集: 問題領域に関連するデータを収集します。このデータはテキスト、画像、音声、または動画形式である場合があります。
データ整理: 収集したデータをクリーンアップし、アノテーションを行い、重複を削除して正確性と一貫性を確保します。このステップは、トレーニングされたモデルの精度を確保するために重要です。
データセットの分割: 整理されたデータセットをトレーニングセット、検証セット、テストセットに分割します。通常、70%、15%、15% の比率で分割します。
データ形式の変換: 整理されたデータセットをモデルが読み取れる形式（テキスト形式、画像形式など）に変換します。
データセットの読み込み: 変換されたデータセットをモデルに読み込んでトレーニングおよびテストを行います。データセットを読み込む際には、適切なデータローダーとバッチサイズを使用することが重要です。
データ拡張（オプション、SSCMA による実施を推奨）: データセットに対して回転、反転、切り抜きなどのデータ拡張を行い、データセットの多様性と量を増やします。