Aller au contenu principal

Les bases de 3M

Info

Cette page web a été traduite automatiquement par DeepL. Bien que nous nous efforcions d'être précis, nous vous informons que les traductions peuvent contenir des erreurs ou des inexactitudes. Pour obtenir les informations les plus précises, reportez-vous à la version originale.

Conditions préalables à la visite guidée

Avant de commencer l'exercice, téléchargez ce fichier XML. Ce fichier est la source de données pour votre projet de cartographie et contient les données des années quatre-vingt-dix pour trois entités (personnes).

3M Principes de base

Une fois les données préparées, elles deviennent XML. Le XML peut être considéré comme un arbre d'éléments imbriqués. Au niveau le plus élevé, voici ce que vous faites dans 3M :

  1. Orienter 3M vers des éléments spécifiques du XML source à l'aide du langage XPath.
  2. Attribuer à ces éléments des classes et des propriétés provenant de votre schéma cible. Ensuite, 3M produira des triples RDF basés sur les valeurs de ces éléments.

En suivant cette procédure, réfléchissez à ce que 3M va extraire de vos données d'origine et à l'endroit où cet élément d'information se retrouvera dans vos données converties.

Un exemple de base

3M produit des triples RDF comme données converties. Ces triples suivent le modèle suivant

sujet → prédicat → objet

Si nous avons ces données XML de départ :

<main_element>
<nested_element>my_value</nested_element>
</main_element>

Nous pouvons fournir l'XPath main_element pour dire à 3M de répéter une certaine étape de conversion chaque fois qu'un nouveau <main_element> apparaît dans nos données XML.

Ensuite, nous pouvons donner le XPath nested_element/text() pour que 3M prenne my_value et que cette valeur apparaisse dans les données converties.

Dans cet exemple, il y aurait un nouveau sujet pour chaque <main_element>, avec le prédicat défini par <nested_element> et l'objet my_value.

<main_element> → <nested_element> → “my value”

Understanding the Data

Pour cartographier vos données, il faut d'abord les comprendre. The source data for this walkthrough est un fichier XML qui contient certaines des données des années quatre-vingt-dix pour Henry Harland et Ethel Colburn Mayne.

Examinons le dossier ensemble :

<rdf:RDF xmlns:dcterms="http://purl.org/dc/terms/" xmlns:owl="http://www.w3.org/2002/07/owl#" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:y90s="https://personography.1890s.ca/ontology/">
<rdf:Description rdf:about="https://personography.1890s.ca/persons/yeats-w-b/">
<y90s_name>Yeats, W. B.</y90s_name>
<y90s_birth_name>Yeats, William Butler</y90s_birth_name>
<y90s_birth_date rdf:datatype="http://www.w3.org/2001/XMLSchema#gYear">1865</y90s_birth_date>
<y90s_birth_place>1 George's Ville, 5 Sandymount Avenue, Dublin, Ireland</y90s_birth_place>
<y90s_birth_place_uri rdf:resource="http://www.wikidata.org/entity/Q1761"/>
</rdf:Description>
<rdf:Description rdf:about="https://personography.1890s.ca/persons/smith-pamela-colman/">
<y90s_name>Smith, Pamela Colman</y90s_name>
<y90s_aka>P. C. S.</y90s_aka>
<y90s_birth_date rdf:datatype="http://www.w3.org/2001/XMLSchema#gYear">1878</y90s_birth_date>
<y90s_birth_place>28 Belgrave Road, Pimlico, Middlesex, England</y90s_birth_place>
<y90s_birth_place_uri rdf:resource="http://www.wikidata.org/entity/Q2894393"/>
</rdf:Description>
<rdf:Description rdf:about="https://personography.1890s.ca/persons/yeast-john-butler/">
<y90s_name>Yeats, John Butler</y90s_name>
<y90s_birth_date rdf:datatype="http://www.w3.org/2001/XMLSchema#gYear">1839</y90s_birth_date>
<y90s_birth_place>Tullylish, Down, Ireland</y90s_birth_place>
<y90s_birth_place_uri rdf:resource="http://www.wikidata.org/entity/Q60557195"/>
</rdf:Description>
</rdf:RDF>

Ce dossier comporte trois entités :

  1. W. B. Yeats qui est représenté par l'URI <https://personography.1890s.ca/persons/yeats-w-b/> qui est l'attribut de l'élément <rdf:Description>
  2. Pamela Colman Smith, représentée par l'URI <https://personography.1890s.ca/persons/smith-pamela-colman/> qui est l'attribut de l'élément <rdf:Description>
  3. John Butler Yeats qui est représenté par l'URI <https://personography.1890s.ca/persons/yeats-john-butler/> qui est l'attribut de l'élément <rdf:Description>

Ces trois entités sont les sujets de notre cartographie.

Les autres éléments de ce fichier sont tous des prédicats et les valeurs qu'ils contiennent sont des objets.

<y90s_name> est le nom de l'entité.

<y90s_birth_name> est le nom de naissance de l'entité.

<y90s_aka> est le nom supplémentaire de l'entité.

<y90s_birth_date> est la date de naissance de l'entité.

<y90s_birth_place> est le lieu de naissance de l'entité (<y90s_birth_place_uri> est l'URI de ce lieu).

Si nous imaginons qu'il s'agit de triplets sujet → prédicat → objet, les données de base disent ce qui suit à propos de W. B. Yeats :

W. B. Yeats → a le nom → "Yeats, W. B." W. B. Yeats → a pour nom de naissance → "Yeats, William Butler" W. B. Yeats → est né en → "1865" W. B. Yeats → est né à → "1 George's Ville, 5 Sandymount Avenue, Dublin, Irlande"

remarquer

Avant de poursuivre la lecture, essayez de comprendre ce que les données sources disent à propos des deux autres entités. Lisez ensuite la suite pour vérifier si vous avez raison.

Voici ce que disent les données de base sur Pamela Colman Smith et John Butler Yeats :

Pamela Colman Smith → a le nom → "Smith, Pamela Colman" Pamela Colman Smith → a le nom supplémentaire → "P. C. S." Pamela Colman Smith → est née en → 1878" Pamela Colman Smith → est née à → "28 Belgrave Road, Pimlico, Middlesex, England"

John Butler Yeats → porte le nom → "Yeats, John Butler" John Butler Yeats → est né en → "1839" John Butler Yeats → est né à → "Tullylish, Down, Ireland"

En utilisant 3M, nous pouvons transformer ces triples sujet → prédicat → objet en triples RDF réels, lisibles par une machine, qui peuvent ensuite être liés à d'autres ensembles de données et créer des connaissances partagées. Dans l'ensemble de données Yellow Nineties, il y a des milliers d'entités (personnes) et des dizaines de milliers de prédicats qui les décrivent. En établissant des correspondances dans 3M, les mêmes modèles peuvent être appliqués à des milliers d'entités, pour autant que la structure des données sources soit cohérente. C'est ce type d'automatisation qui rend 3M si utile pour la création de triples RDF.

Maintenant que vous comprenez ce que les données essaient de dire, vous êtes prêt à les cartographier. Tout d'abord, [configurez votre projet de cartographie] (/docs/tools/x3ml/create-mapping/project-setup).