Pular para o conteúdo principal

Datasets

SSCMA oferece suporte a uma variedade de conjuntos de dados. Você pode navegar e baixar diferentes conjuntos de dados na Internet ou anotar e criar seus próprios conjuntos de dados.

Conjuntos de dados da Internet

SSCMA

SSCMA atualmente fornece os seguintes conjuntos de dados oficiais para treinamento e teste dos modelos correspondentes.

Certifique-se de estar no Diretório Raiz do SSCMA antes de executar o comando para baixar conjuntos de dados específicos. O comando baixará automaticamente os conjuntos de dados e os salvará em uma pasta chamada datasets no diretório atual e, por fim, os descompactará.

  • Download Custom Meter Datasets:

    wget https://files.seeedstudio.com/sscma/datasets/meter.zip -P datasets && unzip datasets/meter.zip -d datasets
  • Download COCO_MASK Datasets:

    wget https://files.seeedstudio.com/sscma/datasets/coco_mask.zip -P datasets && unzip datasets/coco_mask.zip -d datasets

Roboflow

Roboflow é uma plataforma gratuita de hospedagem para conjuntos de dados públicos de visão computacional, com suporte a formatos incluindo CreateML JSON, COCO JSON, Pascal VOC XML, YOLO e Tensorflow TFRecords, além de versões reduzidas e aprimoradas adicionais dos respectivos conjuntos de dados.

dica

Recomendamos fortemente procurar conjuntos de dados no Roboflow; você pode baixar centenas de diferentes conjuntos de dados do Roboflow gratuitamente para atender às suas necessidades específicas, bastando criar uma conta.

Você pode encontrar alguns conjuntos de dados para SSCMA no Roboflow abaixo:

DatasetDescrição
Digital Meter WaterConjunto de dados de medidor de água digital
Digital Meter Seg7Conjunto de dados de medidor digital Seg7
Digit Seg7 ClassificationConjunto de dados de classificação de dígitos Seg7

Kaggle

Kaggle é uma plataforma de competições de modelagem e análise de dados. Empresas e pesquisadores podem publicar dados nela, e estatísticos e especialistas em mineração de dados podem competir para produzir os melhores modelos. O Kaggle também oferece milhares de conjuntos de dados, e você pode visitar Kaggle datasets para escolher o mais adequado às suas necessidades.

Conjuntos de dados personalizados

Criar um conjunto de dados personalizado geralmente envolve as seguintes etapas.

  1. Coletar Dados: Coletar dados relacionados ao domínio do problema. Esses dados podem estar nos formatos texto, imagem, áudio ou vídeo.

  2. Organizar Dados: Os dados coletados são limpos, anotados e desduplicados para garantir precisão e consistência. Esta etapa é crucial para garantir a precisão do modelo treinado.

  3. Dividir o Conjunto de Dados: O conjunto de dados organizado é dividido em conjunto de treinamento, conjunto de validação e conjunto de teste. Geralmente, utiliza-se uma proporção de 70%, 15% e 15% para dividir o conjunto de dados.

  4. Converter o Formato dos Dados: Converter o conjunto de dados organizado para um formato que possa ser lido pelo modelo, como formato de texto, formato de imagem, etc.

  5. Carregar o Conjunto de Dados: Carregar o conjunto de dados convertido no modelo para treinamento e teste. Ao carregar o conjunto de dados, é importante usar o carregador de dados apropriado e o tamanho de lote adequado.

  6. Aprimoramento de Dados (opcional, recomendado ser feito pelo SSCMA): Realizar aprimoramento de dados no conjunto de dados, como girar, espelhar, recortar, etc., para aumentar a diversidade e a quantidade de dados.

Anotação de conjuntos de dados

Rotular um conjunto de dados é o processo de classificar ou rotular amostras em um conjunto de dados, o que geralmente requer intervenção manual.

O processo de rotulagem de um conjunto de dados é muito crítico e determina a qualidade do modelo treinado. A seguir estão alguns métodos e ferramentas comuns para rotular conjuntos de dados.

  • Anotação Manual: Anotar o conjunto de dados manualmente, amostra por amostra, garante a precisão da anotação, mas é mais lento.

  • Anotação Semiautomática: Aplicar os resultados da anotação manual a outros conjuntos de dados para reduzir o tempo de anotação, mas a precisão da anotação pode ser reduzida.

  • Anotação Automática: Anotar dados automaticamente usando alguns modelos algorítmicos, como extração de palavras-chave, classificação de texto, etc. Embora possa melhorar a eficiência da anotação, a precisão também pode ser afetada.

Ferramentas de rotulagem de dados comumente usadas:

  • LabelImg: Uma ferramenta para rotulagem de imagens, com suporte a vários formatos de anotação, como PASCAL VOC, YOLO, etc.

  • Labelbox: Uma ferramenta de rotulagem online que suporta imagem, texto, vídeo e outros formatos, com vários modelos de anotação e modelos personalizados.

  • Doccano: Uma ferramenta de anotação de código aberto para classificação de texto e anotação de sequência, com suporte a vários formatos de anotação, como NER, POS, etc.

  • Annotator: Uma ferramenta de anotação online leve que suporta imagem, texto, áudio e outros formatos.

  • VGG Image Annotator (VIA): Uma ferramenta de código aberto para anotação de imagens, com suporte a vários formatos de anotação, como PASCAL VOC, YOLO, etc.

  • COCO Annotator: Uma ferramenta de anotação de imagem e vídeo baseada na web para tarefas de detecção de objetos, segmentação, anotação de pontos-chave e outras tarefas.

As ferramentas acima são alguns instrumentos comuns de anotação de dados; diferentes ferramentas são adequadas para diferentes tipos de conjuntos de dados e necessidades de anotação, e você pode escolher de acordo com as necessidades reais.

Loading Comments...