Extraction automatique de la liasse fiscale
du PDF aux données structurées.

Chaque liasse fiscale, c'est 15 à 25 pages de grilles denses. Les experts-comptables y passent 30 à 60 minutes par dossier, à ressaisir des chiffres déjà imprimés. Holofin extrait l'ensemble des formulaires CERFA 2033 et 2050 avec plus de 97 % de précision, et trace chaque valeur jusqu'à sa zone source dans le PDF.

Demander une démo

Qu'est-ce que la liasse fiscale ?

La liasse fiscale est l'ensemble des documents comptables et fiscaux qu'une entreprise française doit transmettre chaque année à l'administration fiscale, en annexe de sa déclaration de résultat. Elle constitue la photographie officielle de la santé financière de l'entreprise : bilan, compte de résultat, tableau des immobilisations, état des provisions, détermination du résultat fiscal.

Concrètement, il s'agit d'un jeu de formulaires CERFA normalisés par la Direction Générale des Finances Publiques (DGFiP). Deux régimes coexistent, chacun avec sa propre série de formulaires :

Régime Simplifié d'Imposition (RSI)

Pour les entreprises dont le chiffre d'affaires ne dépasse pas les seuils RSI (environ 840 000 euros pour les ventes, 254 000 euros pour les services).

  • CERFA 2033-A : Bilan simplifié
  • CERFA 2033-B : Compte de résultat simplifié
  • CERFA 2033-C : Immobilisations, amortissements, plus-values
  • CERFA 2033-D à 2033-G : Provisions, déficits, filiales

Régime Normal

Pour les entreprises dépassant les seuils RSI, ou celles qui optent volontairement pour le régime normal.

  • CERFA 2050 : Bilan actif
  • CERFA 2051 : Bilan passif
  • CERFA 2052 / 2053 : Compte de résultat
  • CERFA 2054 à 2059 : Immobilisations, provisions, filiales, affectation

Chaque formulaire CERFA existe en plusieurs millésimes : la version du formulaire change chaque année pour refléter les évolutions législatives. Le millésime 2025, par exemple, est utilisé pour déclarer l'exercice clos en 2024. La mise en page, l'ordre des champs et même les codes de ligne peuvent varier d'un millésime à l'autre. C'est l'un des défis majeurs de l'extraction automatique.

Chaque case du formulaire est identifiée par un code de champ. Dans le régime simplifié, les codes sont numériques (010, 012, 014...), tandis que dans le régime normal, ils sont alphabétiques (AA, AB, AC...). Ces codes sont la clé de voûte de toute extraction structurée : ils permettent d'identifier sans ambiguïté chaque donnée, quel que soit le millésime ou la mise en page.

La liasse est typiquement produite par le logiciel comptable de l'entreprise (Sage, Cegid, EBP, Quadratus) ou par l'expert-comptable via sa solution de production (ACD, Cegid Expert). Elle est transmise par voie électronique à la DGFiP via la procédure EDI-TDFC. Mais en amont de cette transmission, elle circule entre l'entreprise, l'expert-comptable, les banques et les investisseurs, souvent sous forme de PDF, et c'est là que le besoin d'extraction se manifeste.

Pourquoi l'extraction automatique
est devenue indispensable.

Quatre scénarios où la ressaisie manuelle ne tient plus. Un cabinet avec 200 clients, c'est 200 liasses minimum. Une fintech qui traite 1 500 dossiers de crédit par mois, c'est potentiellement 750 heures de saisie. Chaque mois.

Scoring & crédit

Analyse crédit et scoring

Les fintechs et les banques analysent la liasse fiscale pour évaluer la solvabilité d'un emprunteur. Chiffre d'affaires, endettement net, capacité d'autofinancement : tout doit être extrait en quelques secondes, pas en quelques heures. L'extraction automatique permet de scorer un dossier de crédit en temps réel.

Consolidation comptable

Un expert-comptable qui gère 200 dossiers clients doit chaque année consolider, comparer et analyser les liasses. Recopier manuellement les chiffres du bilan et du compte de résultat dans un tableur, c'est 30 minutes par liasse, soit plus de 100 heures de travail à faible valeur ajoutée.

L'extraction en liasse fiscale Excel automatisée libère ce temps.

200 clients × 30 min = 100 heures/an de ressaisie. Ramenées à quelques minutes avec l'extraction automatique.

Audit et conformité

Les commissaires aux comptes et auditeurs doivent vérifier la cohérence de la liasse avec les écritures comptables. L'extraction automatique leur fournit des données structurées qu'ils peuvent immédiatement croiser avec le fichier des écritures comptables (FEC), sans passer par une phase de numérisation manuelle.

Les défis de l'extraction
de la liasse fiscale.

Extraire les données d'une liasse fiscale n'est pas un simple problème d'OCR. C'est un problème de compréhension de mise en page, de gestion de variantes et de validation croisée.

Variations entre millésimes

Chaque année, la DGFiP publie de nouveaux millésimes. Les colonnes se déplacent, des champs apparaissent ou disparaissent, les marges changent. Un extracteur entraîné sur le millésime 2023 peut échouer sur le millésime 2025 sans mise à jour.

Qualité de numérisation variable

Les liasses arrivent sous toutes les formes : PDF natifs générés par le logiciel comptable, scans à 150 dpi avec des pages de travers, photos prises au smartphone. Chaque niveau de qualité impose des traitements différents (deskew, denoising, binarisation) avant même l'OCR.

Grilles denses et champs minuscules

Un CERFA 2033-A contient plus de 60 cases réparties dans une grille serrée. Les montants sont imprimés en police 7 ou 8 points. Une erreur d'alignement de quelques pixels peut faire basculer une valeur dans la mauvaise ligne, et fausser tout le bilan.

Champs manuscrits et annotations

Certaines liasses sont partiellement remplies à la main : mentions complémentaires, corrections au stylo, paraphes dans les marges. L'extracteur doit distinguer les données imprimées des annotations manuscrites et ne pas confondre un paraphe avec un montant.

Le problème du PDF

Le PDF est un format de présentation, pas un format de données. Deux liasses visuellement identiques peuvent avoir des structures internes radicalement différentes selon le logiciel qui les a générées. L'extraction doit fonctionner indépendamment du producteur : Sage, Cegid, EBP, ACD, ou un simple scan.

Comment Holofin extrait
la liasse fiscale.

Quatre étapes, du PDF brut aux données structurées et validées. Chaque valeur est traçable jusqu'à sa zone source dans le document original.

Classification

Le module HoloRecall identifie chaque page grâce à des empreintes visuelles. Il distingue un CERFA 2033-A d'un 2033-B, et un millésime 2023 d'un 2025, en moins de 200 ms par page.

Segmentation

Une liasse de 15 à 25 pages est découpée automatiquement en formulaires individuels (2033-A, 2033-B, 2033-C, etc.). Chaque segment est traité indépendamment, en parallèle.

Extraction

Un modèle visuel reconnaît la structure de la grille CERFA et mappe chaque valeur à son code de champ. Le résultat est un JSON structuré avec valeur, libellé et coordonnées source.

Exemple de sortie JSON pour un CERFA 2033-A :

{
  "form": "CERFA_2033_A",
  "millesime": 2025,
  "exercice": {"debut": "2024-01-01", "fin": "2024-12-31"},
  "fields": {
    "010": {"value": 50000, "label": "Capital social"},
    "012": {"value": 125000, "label": "Immobilisations corporelles - Brut"},
    "014": {"value": 45000, "label": "Amortissements"},
    "016": {"value": 80000, "label": "Immobilisations corporelles - Net"},
    "070": {"value": 312500, "label": "Total actif"},
    "150": {"value": 312500, "label": "Total passif"}
  }
}

Validation

Les données extraites passent par le moteur de validation Hololang. Il vérifie :

  • Équilibre du bilan: total actif = total passif, pour chaque formulaire.
  • Cohérence du résultat: le résultat net du compte de résultat doit correspondre au résultat inscrit au passif du bilan.
  • Totaux de colonnes: la somme des lignes doit correspondre au total affiché.

Équation d'équilibre du bilan :

Millésimes supportés

FormulaireMillésimes supportés
CERFA 2033-A, B, C, D, E, F, G 2023, 2024, 2025
CERFA 2050, 2051, 2052, 2053 2023, 2024, 2025
CERFA 2054, 2055, 2056, 2057, 2058, 2059 2023, 2024, 2025

Les nouveaux millésimes sont ajoutés dans les semaines qui suivent leur publication par la DGFiP. Contactez-nous si vous avez besoin d'un millésime antérieur.

Questions fréquentes
sur l'extraction de la liasse fiscale.

Oui. Holofin combine un moteur OCR haute résolution avec des modèles de reconnaissance de mise en page entraînés spécifiquement sur les formulaires CERFA. Les liasses scannées à 200 dpi ou plus sont traitées avec une précision supérieure à 95 %. Pour les scans de meilleure qualité (300 dpi), la précision dépasse 97 %. Les images redressées, le bruit éliminé et le contraste ajusté sont des pré-traitements appliqués automatiquement.

Sur les liasses fiscales générées numériquement (PDF natifs issus de logiciels comptables comme Sage ou Cegid), la précision champ par champ dépasse 99 %. Sur les scans de bonne qualité, elle est supérieure à 97 %. Chaque valeur extraite est accompagnée d'un indice de confiance et d'une bounding box pointant vers la zone source dans le document. Les champs dont la confiance est inférieure au seuil configuré sont signalés pour revue manuelle.

Oui. Holofin extrait les deux régimes : le régime simplifié d'imposition (RSI) avec les formulaires CERFA 2033-A à 2033-G, et le régime normal avec les formulaires CERFA 2050 à 2059. Le système identifie automatiquement le type de formulaire et le millésime, puis applique le schéma d'extraction correspondant. Aucune configuration manuelle n'est requise.

Holofin est hébergé en Europe (infrastructure OVHcloud, France). Les documents sont traités en mémoire et ne sont pas conservés après extraction sauf demande explicite. Les données ne sont jamais utilisées pour entraîner des modèles tiers. Un DPA (Data Processing Agreement) est disponible sur demande. L'architecture est conforme aux exigences de la norme ISO 27001.

Oui. Le moteur de validation Hololang vérifie la cohérence arithmétique de chaque formulaire : totaux d'actif et de passif au bilan, résultat net au compte de résultat. Les écarts sont signalés avec le détail du calcul attendu et la déviation constatée, ce qui permet un contrôle humain ciblé.

Les données sont disponibles en JSON structuré (via API) ou en Excel/CSV (téléchargement ou envoi automatisé). Le format JSON inclut pour chaque champ : la valeur, le libellé, le code CERFA, la page source et les coordonnées de la bounding box. Le format Excel propose un onglet par formulaire avec les codes de champ en en-tête de colonne.

Si vous cherchez à convertir une liasse fiscale PDF en Excel, Holofin le fait automatiquement. Chaque formulaire CERFA est exporté dans un onglet séparé du fichier Excel, avec les codes de champ en en-tête de colonne et les libellés en deuxième ligne. C'est plus fiable qu'un copier-coller manuel et cela fonctionne même sur les liasses scannées. Vous pouvez aussi télécharger un fichier CSV plat si votre workflow l'exige.

Extraction liasse fiscale

Testez l'extraction sur
votre liasse fiscale.

Envoyez-nous vos documents les plus complexes. Voyez comment ils ressortent de l'autre côté.

100 000+ documents traités par mois
Précision enterprise-grade
Holofin