La "logique" derrière l'intelligence artificielle

En réalité, l’objectif ultime de l’Intelligence Artificielle en recrutement, c’est de permettre d’assurer un traitement aussi objectif et aussi efficient que possible de dizaines, de centaines voire de milliers de candidatures :

en s’appuyant sur un certain nombre de données,
en appliquant à ces données un traitement consistant d’une candidature à l’autre,
en s’affranchissant de l’ensemble des représentations/stéréotypes et des biais cognitifs.

La formalisation de ce traitement systématique appliqué aux données, c’est ce que l’on appelle un algorithme.

Les algorithmes en question…

Un algorithme, c’est (selon Wikipedia) : “Une suite finie et non ambiguë d'opérations ou d'instructions permettant de résoudre une classe de problèmes.”

On pourrait croire à première vue que c’est un peu “mécanique » voire primaire comme façon de fonctionner, en particulier lorsqu’il s’agit de traiter des candidatures (avec des “vrais gens” derrière chacune d’entre elles)…

On peut en effet facilement imaginer un algorithme un peu simpliste du type :

Si le candidat présente la caractéristique A (par ex. Formation = École de commerce) alors on ajoute 20 point à sa candidature.

Si ensuite il a la caractéristique B (par ex. Expérience dans le même secteur que la boite qui veut recruter) alors on ajoute 40 points.

Et ainsi de suite…

Ce qu’il faut bien comprendre, c’est que les algorithmes peuvent également être extrêmement sophistiqués et élégants. Ils peuvent par exemple comporter des “logiques imbriquées » de type :

Si A est compris entre 70 et 100

ET que B a une valeur comprise entre 40 et 60

ET que C…

ET que D….

ET/OU que…

ET que … Ceci quasiment à l’infini.

Mais là, même si on dépasse déjà de très loin les capacités de traitement des données dont serait capable le cerveau de 100% des recruteurs (et de n’importe quel être humain du coup), on en reste toujours à un niveau assez sommaire de l’algorithmie !

On peut en effet – lorsque l’on paramètre un algorithme – facilement intégrer d’autres types de traitements qui impliquent notamment le calcul de corrélations, de régressions linéaires sur un pool de données afin d’en extraire des valeurs seuils que l’on peut ensuite appliquer au traitement particulier d’un ensemble de candidatures pour un poste donné.

A noter que l’intelligence artificielle en recrutement est également extrêmement utile pour identifier – en amont du lancement d’une mission – les facteurs qui conditionnent la réussite et l’engagement pour un poste donné, dans un contexte spécifique.

En gros, l’I.A. peut aider à dresser la liste des qualités requises pour réussir et être engagé.e sur un job particulier. L’air de rien… c’est quand même la condition essentielle de base à un recrutement réussi. Sans ça, bonne chance pour trouver la perle rare !

Le Machine Learning : Comment les machines peuvent apprendre toutes seules !

Le Machine Learning (ou “apprentissage automatique” en français) peut être défini comme : “Un ensemble d’approches mathématiques et statistiques permettant de donner à un système informatique la capacité d’apprendre à partir de données.”

Le Machine Learning, même s’il est clairement sous exploité (voir pas du tout exploité) par la plupart des éditeurs de solutions de la HR Tech aujourd’hui constitue pourtant l’une des branches les plus prometteuses de l’Intelligence Artificielle appliquée au recrutement.

En gros, le Machine Learning en recrutement c’est ce qui permet “d’apprendre de ses recrutements précédents”.

Appliqué de façon systématique, le Machine Learning a en effet le pouvoir de permettre d’affiner progressivement ses critères de sélection – pour un poste donné – pour tendre vers des capacités de plus en plus puissantes à “prédire la réussite et l’engagement des personnes” dans ce poste donné.

Quels facteurs impactent la qualité du Machine Learning ?

Les facteurs qui déterminent la qualité et le caractère discriminant ou non d’un dispositif de Machine Learning sont principalement de 2 ordres :

Le type de données qui sont employées,

La représentativité de la base de données sur laquelle est conduit l’apprentissage automatique.

Le type de données employées en Machine Learning

Il va de soi que pour ne pas introduire d’effets pervers, le Machine Learning doit s’exercer sur des données qui ne portent pas “en puissance” un caractère discriminant direct (âge , sexe, etc…) ou indirect (adresse, écoles, expériences etc…)

Les critères directs, s’ils sont définis comme critères d’exclusion, écartent directement certaines catégories d’individus, sans que le lien absolu avec la performance réelle en poste ne soit établi.

Des critères sont dits “indirects” car même si ils ne semblent pas cibler une catégorie spécifique de personnes, cela peut quand même être le cas. Si l’on prend l’adresse par exemple, il va de soi que si j’exclue l’ensemble des candidatures du département de la Seine-Saint-Denis (93), je vais écarter majoritairement les candidatures de candidat.e.s issu.e.s des quartiers et/ou de l’immigration (qu’elle soit de 1ère, 2ème ou 3ème génération).

L’idéal, lorsque l’on travaille sur la sélection de personnes à l’embauche, c’est de faire tourner le système de Machine Learning sur des données qui ne sont pas (ou peu) impactées par l’un ou l’autre des critères considérés comme facteurs de discrimination à l’embauche par la législation du pays dans lequel on opère.

Le cas spécifique des variables psychologiques et comportementales

Les caractéristiques psychologiques et comportementales en revanche constituent une alternative particulièrement intéressante. Ceci pour la simple et bonne raison que ces caractéristiques se retrouvent plutôt très bien distribuées, ceci à peu près quels que soient les critères que l’on utilise pour définir une population.

Si je choisis de présélectionner mes candidat.e.s sur la base de leur capacités cognitives telles qu’évaluées au travers d’un test standardisé plutôt que de passer par le critère “a fait telle ou telle école”, forcément je vais neutraliser le facteur “a été procréé par des parents qui ont réussi socialement”. Ce qui représente quand même un pas en avant dans le cadre de l’équité en recrutement.

De la même manière, si je fais tourner le Machine Learning sur un set de données qui comporte cette information (la capacité cognitive des individus) plutôt que l’information sur l’école fréquentée, le système au final aura tendance à me proposer des candidatures bien plus diversifiées en termes de genre, d’origine ou encore d’âge des personnes.

La représentativité de la base de données sur laquelle est réalisé l’apprentissage

Ce critère est particulièrement intéressant à étudier. Si dans mon entreprise, pour un job spécifique j’ai eu tendance à recruter essentiellement des hommes qui sont passés par une école d’ingénieur et que je lance un algorithme de Machine Learning sur la base de leur CV… à votre avis qu’est ce qui va ressortir ?

Il y a de fortes probabilités pour que parmi les critères qui ressortent il y ait le fait d’être passé par telle ou telle école d’ingénieurs. Or les bancs des écoles d’ingénieurs sont majoritairement constitués de jeunes homme blancs issus de famille favorisées.

Si la diversité est quelque chose d’important pour moi (en plus d’être – soit dit en passant – une obligation d’un point de vue légal), alors j’ai sans doute plus intérêt à intégrer d’autres facteurs qui – comme on l’a vu juste au-dessus – sont moins susceptibles d’être impactés par l’origine sociale des candidats.

Si j’analyse en revanche les données issues des résultats à des tests cognitifs sur ma population d’ingénieurs, je vais sans doute me rendre compte que l’algorithme de Machine Learning va faire ressortir un critère du type : “Capacités cognitives supérieures”.

Ce qu’il faut bien comprendre, c’est que si les critères d’analyse sont des critères non impactés par des variables potentiellement discriminantes, la représentativité de l’échantillon devient tout à fait secondaire.

Pourquoi ? Et bien parce qu’au fond, peu importe que j’ai – au moment où je fais l’analyse dans ma boite – essentiellement des “jeunes hommes blancs issus de familles bien installées” dans mes effectifs.

Vu que ce qui ressort comme critère c’est “capacités cognitives supérieures”. Vu également que la proportion de personnes qui ont des capacités cognitives supérieures est aussi importante chez les hommes que chez les femmes, chez les personnes habitant à Paris 16 ou à Neuilly qu’à Marseille, Bondy ou au Mirail…

Si je choisis d’appliquer ce critère “d’aptitude cognitive” à l’avenir, tout en laissant tomber le critère “école d’ingénieurs”, cela ne risque pas de me pousser uniquement à sélectionner à l’avenir des “jeunes hommes blancs dont les parents sont issus de classes sociales supérieures”. Je vais au contraire mécaniquement augmenter la diversité au sein de mes équipes ! (Pour peu bien évidemment que je diversifie également mon sourcing).

Certes l’échantillon de base (personnes dans ma boite au départ) était “fortement caractérisé” mais il a permis de mettre en évidence une caractéristique distinctive qui elle n’est pas “propre à cette population en particulier”. En quelque sorte, l’exercice a permis de faire émerger une caractéristique “Universelle”.

Ceci juste pour bien comprendre que l’argument du “il faut une base de données énorme pour faire du Machine Learning et il faut que la population de base soit suffisamment diversifiée sinon ça ne marche pas”… est juste inexacte !