Intelligence artificielle et apprentissage supervisé

En 2018, IMOSE a recruté un ingénieur de recherche pour travailler sur des sujets liés à l’intelligence artificielle. IMOSE a développé en interne un logiciel d’apprentissage supervisé baptisé CPP-NN.

Actuellement, la maintenance et le développement du logiciel sont assurés par la société VO2.

Qu’est-ce que l’apprentissage supervisé ?

L’apprentissage supervisé consiste à utiliser des données entièrement connues pour prédire des informations à partir de données partielles . Ces données peuvent prendre des formes extrêmement diverses : images, sons, tableaux de nombres, textes, etc. L’exemple le plus connu est le jeu de données MNIST dans lequel on dispose d’une image d’un chiffre manuscrit (entre 0 et 9) et l’on veut déterminer automatiquement la valeur de ce chiffre. Pour ce faire, on entraîne d’abord un modèle sur les données d’entraînement pour lesquelles l’image et la valeur du chiffre (l’étiquette) sont connus. On utilise ensuite ce modèle entraîné sur des données test pour lesquelles seule l’image est connue : on cherche alors à déterminer la valeur du chiffre.

 

Chiffres manuscrits noirs sur fond blanc
Jeu de données MNIST

Pour quels problèmes utiliser l’apprentissage supervisé ?

De nombreux types de problèmes peuvent être traités avec des méthodes d’apprentissage. En voici une liste non-exhaustive :

 

  • La classification. On cherche à classifier des données (images, sons, etc.) suivant leurs caractéristiques. Parmi les exemples on retrouve la reconnaissance des visages, des caractères manuscrits,etc. Citons également la reconnaissance de faux billets.

  • La régression. On cherche à prédire une ou plusieurs valeurs continues à partir d’autres valeurs continues. Une application est la détection d’anomalies lorsque la valeur prédite est située en dehors d’un intervalle « raisonnable ».

  • La réduction de dimension qui consiste à tenter de trouver une description plus compacte de données complexes pour en tirer des informations interprétables par un humain ou un algorithme de décision.

  • La traduction qui consiste à convertir une donnée d’un langage vers un autre, par exemple du français à l’allemand.

 

Pourquoi utiliser l’apprentissage supervisé ?

L’apprentissage supervisé permet aujourd’hui de faire des prédictions d’une qualité et d’une finesse supérieures aux opérateurs humains. Ainsi, le meilleur taux d’exactitude atteint sur le jeu de données MNIST présenté ci-dessus est de 99,79 %, tandis que le taux obtenu par l’homme est proche de 98 %. Au-delà de cet exemple académique, les techniques récentes ont permis de résoudre des problèmes non-résolus jusqu’ici parmi ceux cités plus haut. Ces nouvelles techniques ont également créé de nouveaux usages pour des tâches telles que la classification automatique d’e-mails, la recommandation de produits ciblée, etc.

 


Quelques exemples de réalisations d’IMOSE

Ce paragraphe recense quelques exemples de réalisation obtenues grâce au logiciel CPP-NN sur des données réelles.

 

Prévision de la production d’une éolienne

A partir des données recueillies par Engie grâce à des capteurs sur quatre éoliennes, il s’agit de prédire la production électrique. Il s’agit d’un problème de régression avec données manquantes. Ces prédictions permettent de faire de la maintenance prédictive en inspectant les éoliennes dont la production réelle diffère de la production prédite.

Télécharger les données 

 

 

Éolienne blanche devant un ciel bleu

Diagnostic d’une colonne vertébrale

Radio en niveau de gris d'une colonne vertébrale

A partir de six données biomécaniques (angles, etc.) mesurées sur une colonne vertébrale, on cherche à déterminer si la colonne est normale ou anormale. Il s’agit d’un problème de classification pour lequel CPP-NN atteint un taux de reconnaissance de 90 %. La principale difficulté ici est la petitesse du jeu de données qui ne contient que 310 observations.

 

Télécharger les données


Détection de faux billets

A partir de mesures optiques obtenues sur 1300 billets, on souhaite détecter les faux billets. Le taux de reconnaissance obtenu par CPP-NN est de 98 % sur ce jeu de données.

 

Télécharger les données

Billets de 50 euros en lumière sous lumière UV