Etude de Critères de Caractérisation des Tables de Généalogie

par A. Accary

Introduction

L'idée dresser des tables de données relationnelles pour gérer des listes de généalogie est assez largement répandue. Cependant, l'utilisation des requêtes des langages de traitement des données comme MySQL pour extraire les informations de plusieurs tables : calcul des âges des individus de nom et prénom donnés à la naissance et au décès et comparaison avec l'âge évoqué par le Prêtre (ou l'officier d'Etat-Civil) est encore peu en usage dans les cercles de généalogie. Cette possibilité devrait grandement faciliter le choix du bon ancêtre, parmi tous les homonymes souvent rencontrés dans les registres paroissiaux et de trouver les antécédents d'un ancêtre donné. Il resterait, bien-sûr à affiner la recherche dans le cas où des solutions multiples seraient fournies par le programme d'identification.

Par ailleurs de tels programmes, bien construits, devraient également permettre de mesurer la fiabilité d'un site généalogique informatisé.

Ne disposant pas d'outil de mesure de qualité des relevés BMS, comme nous avons dépassé l'âge du Fer et atteint celui de l'Informatique (et des mathématiques), nous nous en sommes forgé un... et allons, avec lui, tenter de caractériser les relevés des registres paroissiaux et de l'état civil de deux communes : Mussy-sous-Dun et Chauffailles, en utilisant des méthodes de la logique.

Le but de cet article est de rendre compte de la qualité des résultats que l'on peut obtenir des tables de Baptêmes et Sépultures. Nous espérons à terme disposer d'un outil de fiabilité connue, permettant de débuter une recherche dans quelques communes de notre région de l'Est-Brionnais.... où l'on disposerait déjà d'une base de données relationnelle.

Les tables d'actes

Notre travail a commencé par la photographie numérique des registres, beaucoup de fichiers numérisés sont maintenant disponibles pour une somme modique, sous forme de CD ROM1. L'étape suivante consista à trouver des lecteurs-traducteurs qui furent chargés d'établir la saisie, selon une grille précise, des informations (nom, prénom, date de l'évènement, ... , témoins à l'établissement de l'acte).

Nous avons utilisé une grille de saisie largement diffusée dans la région : Nimègue-version 2. Le travail fastidieux de traduction des actes est fait par ces nombreux collaborateurs qui se forment à la lecture (au déchiffrement) des actes manuscrits anciens. Les erreurs de transcription restent assez nombreuses, mais elles peuvent être corrigées a postériori par qui vient consulter nos listes.

Afin de faciliter des opérations de correction ultérieures, nous avons choisi d'une part de donner l'accès à l'acte original, depuis son extraction de la table et, d'autre part, de rajouter des colonnes de noms de familles, avec une forme orthographique normalisée unique et actuelle, qui jouxtent la colonne des noms fournis dans les actes avec l'orthographe incertaine des Prêtres des XVII et XVIIIè siècles2. Le recadrage des noms devrait faciliter la première opération de recherche.

Exemple 2.1   Toutes les orthographes des patronymes voisins : Bidaud, Bidot, Bideau, Bidaut, ... sont recodées dans une colonne supplémentaire sous une seule forme Bidaud, choisie pour être la plus représentée à notre époque.

Les tables ainsi saisies sont tout d'abord vérifiées et enregistrées dans une base de donnée relationnelle qui permet d'aller effectuer des opérations de tri sélectifs, selon des critères multiples choisis, reliés entre-eux par des opérateurs logiques.

Qualité de la base

Nous avons cherché à estimer la qualité de nos bases de données. Un premier travail consiste à comparer les nombres d'évènements relevés par nos traducteurs et ceux donnés par l'instituteur Jean Nesly dans son ouvrage célèbre :Livre de M. Nesly

Comparaison de deux études

Au XVIIIè siècle, Jean Nesly a regroupé les naissances sur deux périodes de 50 ans, les valeurs indiquées par Nesly sont voisines de celles que nous avons relevé.

Table: Analyse comparative des naissances à Mussy sous Dun au XVIIIè siècle
Périodes Jean Nesly Nos relevés
1700-1750 1919 1919
1750-1800 2390 2333

Il apparaît une différence assez peu significative.

L'analyse comparative des nombres de décès, classés cette fois par tranches de dix années, donne encore des différences qui peuvent être plus significatives:


Table: Analyse comparative des décès (tranches de dix ans)
Périodes Jean Nesly Nos relevés
1700-1709 316 341
1710-1719 142 151
1720-1729 123 183
1730-1739 284 303
1740-1749 243 250
1750-1759 237 248
1760-1769 326 308
1770-1779 285 309
1780-1789 400 413
1790-1799 406 415

Les valeurs indiquées par Jean Nesly sont toujours légèrement inférieures aux notres, à l'exception des années vingt où il y a un décalage trop important !

Relations d'identification

Passons maintenant à la mise en place des relations d'identification des individus que l'on peut établir à partir des enregistrements de nos tables de données.

Les relations d'identification

Un individu est identifié par une variable $ x$ s'il est à Mussy ou $ y$ , si il est décédé à Mussy. Il est aussi identifié dans la base des Naissances $ \mathcal{B}$ ou des Décès $ \mathcal{S}$ par une ligne de trente à quarante champs3. Afin de mettre en place une étude significative portant sur tous les individus, ayant pour but d'attribuer à l'un quelconque d'entre eux ses dates de naissance et de décès, il est nécessaire d'utiliser les informations essentielles qui figurent dans nos tables : l'âge au décès, le sexe, les noms, prénoms.

Soit $ y$ un élément caractérisé dans la table de décès et $ x$ un autre dans celle des naissances.

Chercher à identifier un individu précis d'une manière unique revient donc à chercher les correspondances d'un certain nombre de champs de $ y$ avec ceux de $ x$ tels que la relation :

% latex2html id marker 1040
$\displaystyle y=\left\{ nom,\, prenom,\, sexe,\, d...
...{dc}\right\} \leftarrow x=\left\{ nom,\, prenom,\, sexe,\, date_{naiss}\right\}$ (4.1)

renvoit de la table des naissances dans celle des décès4.

On cherchera à identifier un individu par la fonction $ u$ construite à partir de l'égalité des nom, prénom, sexe, et de l'appartenance de l'âge calculé ($ e$ ) à un voisinage de l'âge indiqué par le prêtre au moment du décès.

$\displaystyle u=f\left(x,y\right)$

$\displaystyle e\in\vartheta\left(age_{DC}\left(y\right)\right)$ (4.2)

Cette relation (eq: [*]) est calculée dans une requête SQL5.

Une relation de correspondance devrait vérifier:

$\displaystyle u=1\;\; sss\;(y\leftarrow x)\; vrai,\, sinon\,0$

Exemple 4.1 Parmi les éléments issus des relations $ y\leftarrow x$ nous avons obtenu un $ y$ issu d'une identification avec les relations d'égalité des nom prenom et sexe, le calcul d'âge est vrai à $ 5\%$ près:

\begin{displaymath}
\begin{array}{c}
y=\left\{ Auberger,\, Benoite,\, F,\,19,\,1...
...dc}}{age_{dc}}<a\,;\, a=5\%\\
u=f\left(x,y\right)=1\end{array}\end{displaymath}

Cette relation implique donc que :

Auberger Benoite née le 7 Octobre 1751, décèda le 18 Juin 1771 à l'âge de 19 ans et huit mois.

Nota bene: La table des naissances peut encore donner les parents et on peut poursuivre l'identification des parents.

Cependant, certaines difficultés vont immédiatement apparaître :

  1. Les prénoms ne sont pas toujours orthographiés de la même manière dans deux tables d'actes ( $ \mathcal{B}$ et $ \mathcal{S}$ ),
  2. Les prénoms peuvent être différents dans les deux actes (Thomas Auberger peut devenir Claude Auberger mort à 50 ans, bien que le calcul des dates $ e$ ne donne qu'un seul individu de sexe masculin nommé Auberger, décédé à 50 ans à la date donnée),
  3. Les âges peuvent être donnés, au moment du décès, de façon approximative (Jean Martin décédé à 50 ans pouvait en fait avoir 48 comme 52 ans !)6

Les sous-ensembles

Le classement que nous avons choisi d'appliquer repose sur le regroupement des individus de la table des décès en sous-ensembles de noms obtenus à partir des critères d'analyse des âges de ces individus, au moment de leur décès7.

Proposition 4.2   Si l'âge d'un individu identifié $ y$ est connu, on le range dans $ S_{k}$

Si l'âge n'est pas connu, on le range dans $ S_{u}$ .

Présentation de la démarche d'identification

La démarche suivie est la suivante:

  1. On détermine dans la table des décès le nombre $ N$ d'individus dont l'âge est noté par le prêtre au moment du décès, survenu entre 1750 et 1799 (période d'essai de notre test qui est incluse dans nos relevés actuels) : $ N=1446$ pour $ 1693$ actes relevés. La probabilité maximale de trouver une correspondance est donc $ Pr_{max}=0.716$ , en se restreignant au cas où l'âge au décès est donné par le prêtre.
  2. Dans une deuxième phase, pour tout individu $ y=\left\{ nom,\,\cdot,\, sexe,\, date_{dc},\, age_{dc}\right\} $ de nom, sexe, âge au décès donné, prénom, on cherche à vérifier les relations :

    \begin{displaymath}
% latex2html id marker 1113\begin{array}{lll}
nom\left(y\r...
...ight)=prenom\left(x\right) & \Leftrightarrow & C_{4}\end{array}\end{displaymath}

    on utilise l'âge au moment du décès : $ e$ et introduit le critère d'âge :

    $\displaystyle e=\frac{\left(date_{dc}(y)-date_{naiss}\left(x\right)\right)-age_{dc}}{age_{dc}}<a$ (4.3)

  3. On fait varier $ a$ de $ 0.03$ à $ 0.5$
  4. Enfin, pour chaque valeur de $ a$ , on totalise le nombre d'éléments ($ n$ ) tels que les $ n-uplets$ de $ x$ et $ y$ coïncident :

    $\displaystyle u=f\left(x,y\right),\; f=\left\{ 0,1\right\} \; ou\; u=g\left(x,y\right),\; g=\left\{ 0,1\right\} $

Si $ f=1$ alors $ C_{1}$ , $ C_{2}$ , de plus $ e<a\Rightarrow C_{3}$ (eq: [*]) et $ C_{4}$ ; sont vérifiés, la sélection est maximale et renvoit de la base des Naissances $ \mathcal{B}$ à une partie de celle des décès $ S_{k}$ .

Une sélection minimale vérifie $ C_{1}$ , $ C_{2}$ , $ C_{3}$ et renvoit de $ \mathcal{B}$ à $ S_{k}$ .

si $ f=0$ aucune des conditions n'est vérifiée.

Il en va de même avec la fonction $ g$ qui renvoit une partie de $ \mathcal{B}$ dans une partie de la base des décès où l'âge du mort n'a pas été dopnnée par le Prêtre $ S_{u}$ , mais la condition $ C_{3}$ n'existe pas !

Remarque 4.3   Tous les éléments de la table des décès $ \mathcal{S}$ ne sont pas classés.

Ceux qui sont classés appartiennent à $ S_{k}$ (âge au décès connu) ou à $ S_{u}$ (âge au décès non donné).

$ S_{k}$ et $ S_{u}$ sont inclus dans $ S$

$ \overline{S}=C_{S}\left(S_{k}\cup S_{u}\right)$ ce complément de $ S_{k}\cup S_{u}$ dans $ \mathcal{S}$ représenterait donc l'ensemble des individus décédés dans la paroisse sur la période donnée, mais nés en dehors d'icelle.

L'outil ainsi développé pourrait nous permettre d'étudier la démographie d'un village sous l'ancien régime ? Il suffirait de rechercher les individus nés sur une période donnée dans une paroisse dont on n'a pas de trace dans les décès une centaine d'années après la naissance...

La figure ci-dessous (fig : [*]) donne un graphe de correspondances $ y\rightarrow x$

Nota bene: Le nombre d'éléments $ x_{i}\,,i=0\cdots m\in\mathcal{B}$ pouvant correspondre à un élément $ y\in\mathcal{S}$ varie de zéro (inconnu à la naissance) à plusieurs unités (attribution impossible par le test).
Figure: Les parties de l'ensemble des individus décédés à Mussy et leurs relations avec les naissances
% latex2html id marker 1203
\includegraphics[%
scale=0.8]{/home/armand/lang_C/Mussy/congres/dessins/rc1.eps}

Résultats:

  1. Le nombre total $ n$ de personnes ainsi classées de date de décès connue, ayant au moins un antécédent de même nom dans la base de naissances ($ y$ possèdant une image i.e. $ u=f\left(x,y\right)=1$ ) varie de $ n=506$ pour $ a=3\%$ 8 à $ n=770$ pour $ a=50\%$
  2. Le nombre de personnes $ n$ classées donnant une correspondance unique (prénoms égaux à une altération d'orthographe près $ C_{4}$ vrai, $ y\in S_{k}$ ) est de $ 255$ pour $ a=3\%$ ,
  3. Enfin, le nombre total de correspondances $ y\in S_{k}\cup S_{u}$ pour $ a=50\%$ est de $ 1050$ (critère à 50%). Ce nombre avoisine le nombre d'individus dont l'âge est connu au moment du décès ($ 1446$ ). Ceci justifie, selon nous, l'arrêt de l'augmentation de $ a$ (on atteint 1079 pour $ a=75\%$ ),

Analyse des résultats

Sélection minimale

On définit la sélection minimale comme il a été dit ci-dessus (sans le prénom):

$\displaystyle pour\; y=\left\{ nom,\,\cdot,\, sexe,\, date_{dc},\, age_{dc}\right\} \exists x=\left\{ nom,\,\cdot,\, sexe,\, date_{naiss}\right\} \; tq\; u\ne0$

Remarque   Un individu décédé à Mussy entre $ 1750$ et $ 1799$ a de fortes chances d'être né à Mussy.

Un individu né à Mussy avant $ 1750$ peut être vivant après $ 1800$ , il y a probablement plus de $ 50\%$ de chances qu'il décède à Mussy.

Il est intéressant de noter que le fait d'augmenter le taux d'erreur de l'âge donné par le prêtre de $ 5$ à $ 50\%$ entraine presque le doublement du nombre de correspondances décès-naissance résolues par la fonction inverse (on passe de $ 618$ à $ 1036$ ).

Un individu qui serait mort à l'âge estimé de $ 40$ ans (espérance de vie milieu du XVIIIè siècle) verrait son âge réel situé entre $ 39$ et $ 41$ ans dans la détermination à $ 5\%$ et entre $ 30$ et $ 50$ ans dans le second cas.

Le faible recouvrement des décès par les naissances (nombre d'éléments en correspondance avec $ a=3\%$ ) pourrait-être dû aux erreurs d'orthographe dans l'écriture des prénoms, au changement du prénom donné au décès, à une approximation trop grande de l'âge du défunt relevé par le prêtre au décès ?

La correspondance obtenue en augmentant $ a$ s'améliore faiblement....

Nous pouvons regrouper ultérieurement les individus par nom et prénom (altéré ou modifié).

Exemple 5.1   Illustrons les cas de prénoms altéré et modifié. Prénom altéré non trouvé lors de la recherche précédente: Desmurger Benoist né le 8 janvier 1714 devient Benoit à son décès le 20 avril 1778, il serait âgé de 66 ans ($ a<5\%$ ). Desmurger Pierre $ y_{1}$ décédé le 27 mars 1776 âgé de 50 ans correspond à Guillaume ($ x_{1}$ ) né le 14 novembre 1725, un autre individu correspondant approximativement à l'âge pourrait être Jean ($ x_{2}$ ), né le 10 février 1724... dans ce dernier cas pour $ y_{1}\leftarrow\left\{ x_{1},\, x_{2}\right\} $ . Nous n'avons pas trouvé la naissance de Pierre ? viendrait-il d'une autre Paroisse ?

Nous trouvons environ $ 830$ individus en correspondance d'âge et de sexe, avec un taux de confiance à $ a<5\%$ , au moment du décès. Le nombre d'individus correctement isolés des tables avec l'orthographe des prénoms altérée passe de $ 360$ à $ 618$ dans $ S_{k}$ .

$\displaystyle \; Pr_{0.95}=\frac{830}{1693}\simeq49\%$

La figure (fig: fig: evpr ) donne l'évolution du taux d'identification des individus avec une sélection maximale (resp: minimale). On voit que pour atteindre une bonne précision dans nos estimations, il faut fixer $ a\simeq0.3$ Au delà de cette valeur, le taux n'augmente que faiblement et la marge d'erreur sur l'âge augmente énormément.

Figure: Evolution de l'identification en fonction du taux de confiance sur l'âge au décès(a)
Image sk

Le tableau suivant donne une liste des sépultures attibuées (colonne 2) ainsi que celles restant à résoudre (colonne 3), pour les familles les mieux représentées à Mussy sous Dun. La colonne 5 donne le pourcentage de sépultures expliquées par famille ; le chiffre indiqué est le quotient du nombre en colonne 2 par la somme des nombres en colonnes 2 et 3 (colonne 4).


Table: Liste des principales familles dont les individus sont identifiables (de 1738 à 1812)
Nom cas résolus restant à préciser Total Qualité de
col 2+3 l'estimation %
Auberger 26 16 42 62
Augagneur 6 5 11 55
Bajard 27 26 53 51
Ballandras 8 6 14 57
Bidaud 44 13 57 77
Chemier 28 8 36 78
Chizelle 42 17 59 71
Corneloup 15 7 22 68
Desmurger 21 5 26 80
Duris 15 6 21 71
Jolivet 1 6 7 14
Labrosse 23 19 42 55
Lachize 11 18 29 38
Lacombe 27 5 32 84
Laroche 18 13 31 58
Lathuillière 10 7 17 59
Livet 17 14 31 55
Martin 38 10 48 79
Millet 30 6 36 83
Troncy 11 8 19 58
Trouillet 27 7 34 79
Verchère 20 8 28 71
Total : 465 230 695


On remarque que certaines familles ont été bien suivies par le Prêtre, lorsqu'elles ont plus de 75 % de sépultures décelées

: $ u=1$ et le mort est classé dans la partie $ S_{k}$ .

Analyse dans un voisinage à 0.3

Nous avons donc repris la recherche des noms dans la liste de $ 1693$ décès survenus dans la période test : $ 1750-1799$ , en fixant la valeur du test $ \left\vert e\right\vert<0.3$ afin d'identifier environ $ 70\%$ de la population.

$\displaystyle e\in\vartheta\left(age_{DC}\left(y\right)\right)$ (5.1)

Les valeurs obtenues sont reportées dans le tableau suivant (tab :tab:2).

Les résultats sont assez satisfaisants puisqu'environ $ 50\%$ de la population décédée dans cette tranche est identifiée , ($ 63\%$ ) si l'on suppose que les prénoms peuvent changer entre l'acte de naissance et celui de décès !

Table: Résultats d'identification (1750-1799) avec $ \left\vert e\right\vert<0.3$
Sous-espace $ S_{k}$ $ S_{u}$ $ \overline{\mathcal{S}}$ $ \mathcal{S}$ non classés
Sélection nom, prénom 884 140 1693 669
Sélection nom seul 1069 424 30 1693 170
Total classé (%) : 63% 25% 1.7% 100% 10.3%

Conclusions et Perspectives

Le recouvrement des tables de naissance - décès reste faible $ Pr_{0.95}\simeq50\%$ , on s'attendait à trouver beaucoup plus.

Faut-il conclure que les prénoms des individus pouvaient varier entre la naissance et le décès ?

Il est a peu près certain que de nombreuses erreurs ou des défauts d'attribution peuvent être commis par les généalogistes amateurs, lorsqu'ils cherchent à suivre leurs ancêtres dans une lecture hâtive des archives !

Nous poursuivrons ce travail sur les périodes $ 1700-1749$ , $ 1800-1849$ , $ 1850-1899$ .

Les relations d'équivalence $ C_{1}$ à $ C_{4}$ seront appliquées à partir de la base des Naissances survenues dans le village entre 1700 et 1749 et celle des décès de 1700 à 1849, car un seul individu est mort à plus de 100 ans ! Ce dernier travail devrait nous donner une certaine image de la démographie locale.

Nous tenons à disposition des personnes intéressées le tableau des derniers résultats que nous jugeons les plus aptes à être exploités pour relever correctement nos ancêtres à Mussy sous Dun9.

About this document ...

Etude de Critères de Caractérisation des Tables de Généalogie

This document was generated using the LaTeX2HTML translator Version 2002-2-1 (1.71)

Copyright © 1993, 1994, 1995, 1996, Nikos Drakos, Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999, Ross Moore, Mathematics Department, Macquarie University, Sydney.

The command line arguments were:
latex2html -html_version 4.01 -no_math -split 2 qualite.tex

The translation was initiated by Armand on 2006-07-18



Retour

Valid HTML 4.01 Transitional

Armand 2006-07-18