MO434A Projeto Final
MO434A Projeto Final
MO434A Projeto Final
Nesse trabalho, analisamos diferentes modelos de redes neurais convolucionais (CNNs) aplicados
aos conjuntos de dados Fish e Corel. Comparamos o desempenho de três modelos CNNs criados
manualmente com dois modelos de redes neurais profundas (DNNs) pré-treinados na ImageNet
(EfficientNetB4 e ResNet50), tanto fine-tuned quanto treinados do zero. Em seguida, utilizamos a
melhor CNN para realizar análises de gradientes (Grad-CAM) nos dois conjuntos de dados, a fim
de identificar as regiões mais relevantes das imagens para a classificação. Além disso, realizamos o
pré-treinamento da mesma CNN utilizando aprendizado contrastivo, utilizando Contrastive Loss e
depois a Triplet Loss. Por fim, visualizamos a projeção 2D das imagens do conjunto de dados Corel
após os treinamentos contrastivos. Nossos resultados mostram que das CNNs, a mais profunda
obteve um melhor desempenho. As DNNs pré-treinadas na ImageNet apresentaram ótima acurácia
com estabilização rápida. Vimos que o background foi levado em consideração em algumas classes do
conjunto de dados Fish, e na análise de separação das classes, vimos que o aprendizado contrastivo
fornece bons resultados visivelmente na projeção 2D.
1
Figure 1: Algumas samples do dataset Fish
Todas as redes foram treinadas para classificação utilizando o otimizador Adam com um termo de
regularização (weight decay) definido como 1e-5. A função de perda utilizada foi a CrossEntropyLoss.
Além disso, foi aplicado um scheduler de taxa de aprendizado do tipo ”Cosine Annealing”, em que
a taxa de aprendizado variou de 5e-4 a 5e-6 ao longo do treinamento das redes. Para o conjunto
de dados Fish, não utilizamos augmentation pois as imagens foram geradas com a técnica, também
para cada rede treinamos 3 vezes durante 20 épocas, para obtenção de média e desvio padrão das
métricas. Para o conjunto de dados Corel, utilizamos data augmentation, e treinamos cada rede 4
vezes por 100 épocas.
ADICIONAR RESULTADOS, COMPARACOES E GRAFICOS DO TREINAMENTO
2
As DNNs foram avaliadas em dois cenários: uma em que foram pré-treinadas na base de dados
ImageNet e outra em que foram treinadas do zero. Essa abordagem foi adotada para investigar
se o pré-treinamento na ImageNet realmente contribui para o desempenho dos modelos na tarefa
especı́fica em estudo. Nos treinamentos, foram utilizados os mesmos parâmetros explicitados na
seção sobre as CNNs.
ADICIONAR RESULTADOS, COMPARACOES E GRAFICOS DO TREINAMENTO
3
Figure 6: Exemplo da marca d’água da data sendo relevante classificação
5 Aprendizado Contrastivo
Paragrafo sobre implementacao da Contrastive Loss [1]
Paragrafo sobre implementação da Triplet Loss [2]
Figure 7: Projeções das ativações para cada convolucional após utilizar a Triplet Loss
Figure 8: Projeções das ativações para cada convolucional após utilizar a Contrastive Loss
4
References
[1] Raia Hadsell, Sumit Chopra, and Yann LeCun. “Dimensionality reduction by learning an in-
variant mapping”. In: 2006 IEEE computer society conference on computer vision and pattern
recognition (CVPR’06). Vol. 2. IEEE. 2006, pp. 1735–1742.
[2] Florian Schroff, Dmitry Kalenichenko, and James Philbin. “Facenet: A unified embedding for
face recognition and clustering”. In: Proceedings of the IEEE conference on computer vision
and pattern recognition. 2015, pp. 815–823.
[3] Ramprasaath R. Selvaraju et al. “Grad-CAM: Visual Explanations from Deep Networks via
Gradient-Based Localization”. In: International Journal of Computer Vision 128.2 (Oct. 2019),
pp. 336–359. doi: 10 . 1007 / s11263 - 019 - 01228 - 7. url: https : / / doi . org / 10 . 1007 %
2Fs11263-019-01228-7.