Nous avons 25 000 photos étiquetées de chiens et de chats. Les données proviennent du défi chiens vs Cats de Kaggle. C`est comme ça qu`un groupe d`entre eux ressemblent à: une explication intuitive des neurones convolutionnels NetworksCS231n — réseaux neuronaux convolutionnels (CNNs/ConvNets) chats et chiens et réseau neuronal convolutif apprentissage basé sur le gradient appliqué à la reconnaissance des documents le seule chose à gauche pour vous de faire est de prendre une photo de votre chat ou un chien et l`exécuter à travers votre modèle. Le filet était-il correct? Ensuite, une couche convolutionnelle avec 32 filtres et STRIDE = 5 est créée. La fonction d`activation est ReLU. Juste après cela, une couche de pool maximale est ajoutée. Cette même ruse est répétée à nouveau avec des filtres 64. OK, compris? C`était une grande explication. Vous pouvez penser à des circonvolutions comme petites lentilles coulissantes (disons un 5 x 5) qui sont «activés» quand sont placés au-dessus d`une fonction qui leur est familier.

De cette façon, les circonvolutions peuvent avoir un sens de plus grandes portions de l`image, pas seulement des pixels simples. Nous avons redimensionné nos images à 50 x 50 x 1 matrices et c`est la taille de l`entrée que nous utilisons. Téléchargez le train et testez les fichiers zip de Kaggle et extrayez-les dans votre répertoire de travail actuel. Maintenant, divisons les données. 24 500 images de formation et 500 pour les tests. Nous devons également remodeler les données de manière appropriée pour TensorFlow: maintenant, pour la lecture réelle des données de formation et de test. Chaque image sera redimensionnée à 50 x 50 pixels et lue en niveaux de gris: cela ne semble pas correct. Que diriez-vous d`autres prédictions: tout ce qui est grand, mais notre exactitude de validation ne semble pas si bon. Renverser une pièce pourrait être un meilleur modèle que celui que nous avons créé.

Let`s Go plus grand et mieux (espérons): concentrons-nous sur une image spécifique. Chaque image peut être représentée sous la forme d`un tableau à 3 dimensions. Nous allons redimensionner toutes les images d`entraînement à 50 x 50 pixels. Voici un exemple fou: ensuite, une couche entièrement connectée avec 1024 neurones est ajoutée. Enfin, une couche de décrochage avec une probabilité de garde de 0,8 est utilisée pour terminer notre modèle. Dans le passé, les gens devaient penser et coder différents types de caractéristiques qui pourraient être pertinentes à la tâche à la main. Des exemples de ce serait des moustaches, des oreilles, des queues, des jambes, des détecteurs de type fourrure. Ces jours-ci, nous pouvons simplement utiliser des NNs convolutionnels. Ils peuvent apprendre des fonctionnalités à partir de données brutes. Comment fonctionnent-ils? Nous utilisons Adam comme optimiseur avec un taux d`apprentissage fixé à 0,001. Notre fonction de perte est une entropie croisée catégorique.

Enfin, nous formons notre Deep neural net pendant 10 époques. Nous avons 25 000 images pour la formation et 12 500 pour les tests. Créons une fonction qui encode les étiquettes des images d`entraînement: c`est à peu près le même modèle. Une différence est le nombre de couches de piscine convolutionnelle et Max que nous avons ajoutées. Ainsi, notre modèle a beaucoup plus de paramètres et peut apprendre des fonctions plus complexes.