Avec l’apparition de la numérisation de documents depuis n’importe quel terminal est née la technologie OCR de nouvelle génération. Cette technologie qui traduit les images de textes imprimés ou dactylographiés en fichiers de texte a considérablement amélioré le traitement automatique des documents papier, et fait gagner du temps aux collaborateurs d’entreprises issues de différents secteurs (droit, voyages d’affaires, assurances, comptabilité…).
Cependant, une technologie ne doit pas restée figée, si on veut qu’elle puisse pallier efficacement aux erreurs persistantes de reconnaissance des caractères. En effet, il est déjà temps de passer à la prochaine génération en rendant plus agiles les outils qui se basent sur les nouveaux supports (smartphones, tablettes…), et en élargissant le spectre des données traitées.
Optimiser l’apprentissage automatique des outils de reconnaissance
Un peu d’histoire : la première machine de ROC (reconnaissance optique de caractères) ou
OCR en anglais (Optical Character Recognition), créée par l’ingénieur allemand Gustav Tauschek en 1929, fonctionnait grâce à un détecteur photosensible qui comparait les caractères au gabarit contenu dans sa mémoire. L’idée a fait son chemin depuis, jusqu’à ce que les procédés de numérisation soient améliorés grâce à l’online : aujourd’hui, la technologie OCR permet de photographier des documents manuscrits ou dactylographiés et d’en organiser les informations par catégories.
Que ce soit pour envoyer le constat d’un sinistre ou pour envoyer plus rapidement une facture, ces procédés permettent, grâce à une simple photographie avec un smartphone, de classer les informations contenues dans le document et de l’envoyer, au format requis, au service concerné. Une avancée sans précédent, puisqu’elle permet un gain de temps considérable aux collaborateurs des entreprises de l’assurance, aux avocats ou encore à ceux en déplacement – et peut-être bientôt à nos parlementaires !
Cependant, la technologie OCR actuelle recèle encore de nombreuses erreurs : montants ou noms des commerçants mal saisis, absence de certains champs ou catégories d’information, décalage entre le temps de saisie des données et le temps de traitement. Autant d’erreurs qui sollicitent tout de même la vigilance des utilisateurs : pour certaines polices de caractères, par exemple, l’œil humain reste le référent le plus fiable.
Il est pourtant possible de réduire la marge d’erreur. Pour cela, il est nécessaire d’optimiser la capacité d’apprentissage (machine learning) des logiciels équipés d’OCR. Plus ceux-ci apprendront de leurs erreurs, plus ces logiciels seront exacts et fiables dans les informations qu’ils traitent, et mieux ils nous assisteront !
Devenir plus agile en matière de capture des données
L’une des faiblesses de la technologie OCR est qu’elle se fonde encore sur un mode de capture « fixe » : distance invariable entre le document et les capteurs, luminosité constante, et donc algorithmes construits en conséquence. Ces conditions n’étant plus réunies aujourd’hui, certains algorithmes de reconnaissance s’adaptent donc mal à l’évolution des modes d’extraction des données : difficile de placer son document à la « bonne » distance de son smartphone et de rester immobile le temps de la capture ! Les erreurs de saisie ou l’absence de certains champs sont par conséquent inévitables. Il devient impératif de miser sur des logiciels plus agiles, pour lesquels les limitations inhérentes à la manipulation des smartphones ne constituent pas un obstacle à une capture précise et à la restitution exacte des données.
Aller chercher les données de « niveau 3 » : vers une catégorisation plus détaillée
En matière de classification, nombre de logiciels équipés de la technologie OCR sont encore limités aux catégories liées à des domaines spécifiques.
Si l’on considère qu’elle est utilisée dans de plus en plus de secteurs, cette limite réduit le spectre des catégories de données qui peuvent être contenues dans le logiciel, et donc sa capacité de classement et de transfert rapide des bonnes informations aux bons services. Or, intégrer plus de champs dans le classement des données en y incluant des catégories relatives aux détails du document recouvre plusieurs avantages : en ce qui concerne les frais professionnels, un salarié pourrait non seulement bénéficier de la saisie des montants de ses dépenses et des montants de la TVA, mais également des pénalités de retard d’avion, du classement des vols, du prix des nuitées à l’hôtel, etc. Autant de données, connues sous le nom de données de niveau 3, qui optimiseront le traitement des documents.
Un autre critère concerne la capacité de l’outil à traiter et à transmettre les données en temps réel. Dans une économie désormais régie par la donnée, le traitement des données en temps réel est l’indicateur de performance que toute entreprise doit surveiller de près.
Il devient urgent d’amener les technologies de reconnaissance vers une nouvelle étape de leur évolution. Dans le domaine des notes de frais, notamment, des entreprises s’apprêtent à faire ce pas vers des outils toujours plus performants de la Fintech. La marche vers une simplification des processus de saisie doit se poursuivre dans ce sens !