Damien Belvèze – formateur en recherche et évaluation de l'information

12 septembre 202112 septembre 2021

Exporter en PDF depuis Obsidian : gérer les références bibliographiques et les liens internes avec Pandoc

Depuis février 2020, j’utilise Obsidian pour gérer toutes mes notes de lecture et les fichiers où je consigne mes réflexions, des traces de mon parcours intellectuel et de mes apprentissages. Obsidian permet de lier chaque nouvelle note aux précédentes, favorisant ainsi des rencontres entre des concepts différents, des secteurs d’étude que je n’aurais pas pensé à croiser de prime abord. On reconnaît là le profit qu’on peut tirer de la méthode Zettelkasten sur laquelle le web permet de disposer d’une littérature désormais abondante.

Obsidian n’était pas un choix évident pour moi, car ce logiciel n’est pas libre. Avec l’aide d’un ami co-concepteur du logiciel org-roam (en référence au logiciel propriétaire et payant Roam), je me suis d’abord tourné vers cet outil conçu pour fonctionner avec l’éditeur emacs et org-mode. En dépit de l’aide précieuse de cet ami aux moments cruciaux de ma prise en main d’org-roam, je me suis peu à peu éloigné d’emacs trouvant que sans doute « la voie est libre » mais la courbe d’apprentissage un peu longue et pour commencer un peu haute. J’aurais sans doute persévéré, si de nouveaux logiciels comme Obsidian et Zettlr n’étaient pas venus à ma connaissance grâce à un doctorant américain qui en faisait la promotion sur Twitter.

Obsidian et le plugin d’export pandoc-obsidian

Ce post toutefois n’est pas destiné à présenter mon usage d’Obsidian mais à traiter le problème de l’export en PDF d’un texte en markdown (puisqu’Obsidian comme Zettlr ou encore Roam utilisent cette syntaxe). Je renoue avec un thème dont j’ai déjà traité sur ce blog, mais cette fois en partant d’Obsidian et non de l’éditeur Atom.

J’apprécie qu’Obsidian me permette de jeter très rapidement quelques notes structurées dans un fichier en markdown et de les relier très facilement aux précédentes. Mais dans le cas où ce fichier prendrait de l’ampleur et que j’y ajoute des références bibliographiques, des schémas, des images, voire du code, je souhaiterais pouvoir en faire un export sous la forme d’un PDF ou d’une page web (dans ce ce dernier cas, une page web accessible en ligne depuis un site statique comme Netlify ou Jekyll).

Ce post se concentre sur l’export en PDF.

Obsidian dispose d’une fonctionnalité toute simple d’export en PDF : tout fichier peut être exporté en PDF en un clic ou bien avec le raccourci-clavier de son choix qu’on aura défini pour cette fonction. La présentation finale du PDF peut-être modifiée au moyen d’un template (css) qu’on peut créer dans Obsidian.

Toutefois lorsqu’on commence à sourcer ses articles à partir de sa bibliothèque Zotero au moyen de l’indispensable plugin Citations, cette fonction basique d’export de suffit plus. Le PDF produit ne comportera aucune des références insérée avec Citations.

Dans ce cas, une alternative s’offre à nous :

Ou bien nous nous en remettons à un autre plugin communautaire intitulé pandoc-obsidian
Ou bien nous convertissons depuis le répertoire source de nos notes celle qui nous intéresse au moyen de Pandoc. Pour rappel, ce dernier logiciel ne dispose pas d’interface graphique et fonctionne uniquement en lignes de commande exécutées sur un terminal. Lorsque j’utilise mon ordinateur sous Windows, j’utilise l’interpréteur de commandes Powershell. On peut l’ouvrir très facilement : shift + clic droit pour l’ouvrir dans le répertoire où l’on se trouve.

J’ai d’abord opté pour la première solution, à partir du mois de juillet. Oliver Balfour, le concepteur de pandoc-obsidian, était en train de perfectionner son plugin et avec quelques autres, nous lui avons fait remonter sur Github des propositions d’amélioration ou des dysfonctionnements que nous avions pu observer.

En ajoutant quelques arguments supplémentaires nécessaires pour générer la bibliographie contenue dans l’article, comme le filtre citeproc ou bien le chemin vers le fichier-source de la biblio (car j’ai remarqué qu’Obsidian ne le traite pas correctement quand il est indiqué dans l’entête YAML), on arrive à avoir un rendu qui se rapproche de ce que l’on souhaite obtenir.

les références insérées dans le texte avec Citations (qui fait le lien avec Zotero) sont bien transformées en appels de citations, la bibliographie apparaît bien à la fin du fichier MAIS les wikiliens qui caractérisent Obsidian sont toujours là. Pour les éliminer, en théorie, il serait nécessaire de les supprimer dans une copie du fichier source de la note et ensuite d’exporter cette copie en PDF avec Pandoc-Plugin.

Les Wikiliens dans Obsidian (et comment les gérer avec Pandoc)

A ce stade, une explication s’impose : qu’est-ce qu’un wikilien (wikilink)?

La syntaxe Markdown prévoir qu’un lien s’écrive de cette manière : [texte du lien](URL ou chemin vers le fichier)

Toutefois, dans Obsidian, lorsque le lien pointe vers une autre note du répertoire, Obsidian permet de simplifier l’écriture de ce lien de la manière suivante : [[lien vers une autre note]]

C’est extrêmement pratique et rapide : on n’a pas besoin de se préoccuper d’indiquer un chemin ou un texte de lien. On reconnaît dans cette syntaxe les liens qui unissent les articles de Wikipédia entre eux, d’où cette appellation de wikiliens.

Toutefois, comme l’a fait remarquer plusieurs fois Oliver Balfour, son plugin ne permet pas de gérer à la fois le module Citations propre à Obsidian et qui incruste les clés des références sous la forme de Wikiliens et l’export d’un texte avec sa bibliographie selon les règles habituelles de Pandoc. Or il nous faut à la fois Citations et les Wikiliens dans Obsidian et un export propre (où les wikiliens se transforment en texte) vers un document PDF.

Moonbase59 explique assez clairement en quoi l’usage des wikiliens est à la fois un atout et une limite ; un atout tant qu’on reste dans Obsidian, une limite quand on commence à vouloir utiliser d’autres éditeurs en markdown ou bien un gestionnaire de conversions de fichiers comme pandoc.

Pour traiter ce problème des marques des wikiliens qui persistent dans le PDF obtenu avec pandoc, et en m’inspirant de ce que j’avais appris cet été en suivant un cours en ligne sur la gestion d’un serveur sur GNU/Linux, je me suis mis à imaginer une chaîne de commandes sur Powershell qui puisse réaliser les opérations suivantes :

sélection d’une note à convertir
suppression dans le contenu de cette note des balises qui encadrent les wikiliens ([[ et ]]) et envoi du texte résultant de cette suppression dans un autre répertoire
conversion du document résultant de cette opération en PDF avec Pandoc.

Mes premiers pas avec Powershell

Ne connaissant rien à Powershell, je me suis mis à interroger la documentation en ligne pléthorique qu’on trouve à ce sujet sur le web et en l’espace d’une heure ou deux, je suis arrivé à réaliser cette suite d’opérations :

# sélection du fichier à convertir
$filename = Read-Host "entrer le nom du fichier sans l'extension"
# suppression de la suite de caractères [[ et ]], copie du résultat dans un dossier qui devra être préalablement créé (mypdf)
(Get-content .\$filename.md -Raw).replace("[[","").replace("]]","") | Set-content mypdf\$filename.md
# export de cette copie en markdown purgée des wikilinks sous forme de document PDF dans mypdf. Le pdf créé prend le nom du fichier d'origine. Seul l'extension du fichier change (.md -> /pdf )
pandoc mypdf\$filename.md --bibliography .\biblio\mylibrary.bib --csl .\csl\ieee.csl --pdf-engine=xelatex --citeproc -f markdown+smart -o mypdf\$filename.pdf
# suppression de la copie en markdown dans mypdf
Remove-Item mypdf\$filename.md

Ce code fonctionne si :

on a bien pandoc et un éditeur LaTeX installés sur sa machine
si dans son répertoire de notes dans Obsidian on dispose d’un dossier csl où l’on a préalablement chargé la feuille de style ieee.csl
si on a préalablement dans le répertoire de notes un dossier intitulé mypdf où l’on va retrouver le produit de notre export de la note avec pandoc
si on a ses références bibliographiques dans un fichier mylibrary.bib dans un répertoire biblio.
(et bien sûr si on travaille avec un ordinateur Windows et le terminal de commandes Powershell)

A partir de ce premier succès, je n’ai eu de cesse les jours suivants d’essayer d’améliorer ce code en y ajoutant des fonctionnalités particulières :

Si le répertoire mypdf n’existe pas, peut-on le créer instantanément ? (#1)
Supposons que je ne dispose pas déjà d’un dossier intitulé csl où je range mes feuilles de style, l’application peut-elle me créer le dossier et me charger automatiquement au moins trois feuilles de styles puis me donner à choisir l’une des trois (#2)
Peut-on à l’occasion proposer à l’utilisateur de charger dans le dossier csl une feuille de style qu’il aurait quelque part dans ses fichiers (sur son bureau par exemple)(#3)
Supposons que je ne dipose pas déjà d’un dossier intitulé mypdf, ce dossier peut-il être créé à la volée ? (#4)
Peut-on demander à l’utilisateur de sélectionner le fichier qui contient la biblio (.bib) plutôt que lui demander de modifier le code en remplaçant le chemin .\biblio\mylibrary.bib par le bon chemin et le bon fichier (#5)
Peut-on demander seulement à l’utilisateur de sélectionner avec l’explorateur Windows le dossier où se trouvent les notes qu’il veut exporter en PDF ? (cela permettra ensuite de travailler avec des chemins relatifs .\mypdf ou .\csl ) (#6)
Peut-on présenter le tout comme un fichier exécutable à des utilisateurs qui n’ont pas l’habitude de faire fonctionner des scripts depuis un interpréteur de commandes (#7)
Peut-on traduire ces commandes écrites pour powershell en commandes interprétables par un ordinateur fonctionnant sur GNU/Linux ? (#8)

cela donne pour l’instant le programme suivant :

# présentation du logiciel
Write-Host "ce programme va vous permettre de convertir une note de votre bibliothèque  de notes en PDF en générant la bibliographie qui lui est liée" -ForegroundColor blue
# pause pour permettre à l'utilisateur de lire la présentation
read-host "appuyer sur Entrée pour continuer..."
# sélection du répertoire de notes de l'utilisateur avec l'explorateur Windows
Write-Host "veuillez sélectionner le répertoire qui contient vos notes" -ForegroundColor Green
Add-Type -AssemblyName System.Windows.Forms
$browser = New-Object System.Windows.Forms.FolderBrowserDialog
$null = $browser.ShowDialog()
$path = $browser.SelectedPath
Set-Location $path
# si le dossier mypdf n'existe pas encore dans le répertoire de notes, il sera créé automatiquement
If(!(test-path $path\mypdf))
{
      New-Item -ItemType Directory -Force -Path $path\mypdf
}
# sélection de la note à exporter en PDF
$filename = Read-Host "entrer le nom du fichier sans l'extension"
# si le dossier mypdf n'existe pas encore dans le répertoire de notes, il sera créé automatiquement
# dans ce cas, on y chargera automatiquement depuis le site de Zotero trois feuilles de style (ieee, nature et Vancouver)
If(!(test-path $path\csl))
{
      New-Item -ItemType Directory -Force -Path $path\csl
Invoke-WebRequest -Uri "https://www.zotero.org/styles/vancouver" -OutFile $path\csl\vancouver.csl
Invoke-WebRequest -Uri "https://www.zotero.org/styles/ieee" -OutFile $path\csl\ieee.csl
Invoke-WebRequest -Uri "https://www.zotero.org/styles/nature" -OutFile $path\csl\nature.csl

      Write-Host "voici la liste des styles disponibles" -ForegroundColor Green
      Get-ChildItem .\csl\ -name
}
else
{
Write-Host "voici la liste des styles disponibles" -ForegroundColor Green
Get-ChildItem .\csl\ -name
}
# choix du style entre ceux présents dans le dossier csl
$stylename = Read-Host "entrer le nom du style"
# conversion de la note avec pandoc et suppression des wikiliens
(Get-content .\$filename.md -Raw).replace("[[","").replace("]]","") | Set-content mypdf\$filename.md
pandoc mypdf\$filename.md --bibliography .\biblio\mylibrary.bib --csl .\csl\$stylename --pdf-engine=xelatex --citeproc -f markdown+smart -o mypdf\$filename.pdf
# suppression du fichier markdown dans mypdf correspondant à la note exportée en pdf
Remove-Item mypdf\$filename.md

Ce script enregistré en format .ps1 sera ensuite converti en .exe avec un utilitaire trouvé en ligne et téléchargé « Ps1 to exe« .

Les points #1, #2, #4, #6 et #7 sont donc déjà réalisés dans le programme ci-dessus.

Dans la résolution du point #3 je me heurte au fait que le programme ne peut pas faire une copie du fichier csl présent dans un dossier du répertoire de notes pour des raisons de paramétrage de droits que je n’ai pas encore bien comprises.

Quant au point #5, cela ne devrait pas poser de difficulté. Mais le mieux serait encore de définir le chemin vers la biblio dans l’entête YAML du fichier à convertir. Je trouverais cela beaucoup plus satisfaisant, mais en dépit de mes tentatives, ça ne fonctionne pas.

Pour le point #8, j’attendrais d’avoir un peu de temps pour tout réécrire sous la forme d’un programme compatible avec GNU/Linux.

Pour moi qui n’avais jamais rien développé de programme original en powershell auparavant (ni dans un autre langage d’ailleurs), ce simple script issu d’un besoin très particulier m’a valu des heures de recherche. Il m’a fallu me lever une heure plus tôt pendant une semaine et m’endormir une heure plus tard pour y travailler. Il a d’ailleurs été assez difficile ces derniers jours de délaisser le programme en cours de construction pour revenir à mes affaires quotidiennes de bibliothécaire, mais ça a été un travail aussi réjouissant et instructif que prenant et je suis très content d’y avoir consacré tout ce temps d’apprentissage, même si le résultat sera jugé banal pour les personnes qui connaissent powershell et ne sera utile qu’aux très rares utilisateurs d’obsidian qui se seront posé les mêmes questions que moi.

20 décembre 202020 décembre 2020

Former à Zotero, le casse-tête des systèmes fermés

Un peu de curiosité sur la manière dont son ordinateur fonctionne et comment il agence des logiciels entre eux (par exemple, Zotero, Java et LibreOffice) n’a jamais fait de mal. Cela fait partie des apprentissages qui devraient être mieux valorisés à l’Université. Ils le sont dans la recherche qui doit reposer sur un strict contrôle des opérations réalisées par ces différents logiciels, mais cette approche est encore très peu présente au niveau de la formation où la gestion de son ordinateur n’est jamais vraiment enseigné (Les équipes qui gèrent Pix et les DSI ne peuvent pas apporter une aide individualisée dans ce domaine).

Lors de nos séances de formation à Zotero en bibliothèque universitaire, nous rencontrons un nombre croissant d’étudiant.e.s qui nous demandent si Zotero est compatible avec le traitement de texte Page. A vrai dire, je ne suis même pas sûr que Page soit un traitement de texte, je veux dire par là : au même titre que LibreOffice ou Word. Je le vois plutôt comme un éditeur de notes, à la façon d’Evernote. Pour ce que j’en sais, il me paraît difficile d’écrire une thèse d’exercice avec cet éditeur. D’autant plus que Zotero, justement n’est pas compatible avec Page. La raison de cet état de fait intéresse peu les étudiant.e.s, mais pour nous, elle est significative : si Page ne fonctionne pas avec Zotero, c’est parce que cet éditeur conçu pour les macs est une boîte noire pour les personnes qui développent du logiciel libre. Comme une bonne partie de ce qui constitue l’écosystème d’Apple. C’est d’ailleurs ce qui est rappelé sur le forum de Zotero. Qu’à cela ne tienne, ces étudiant.e.s sont comme moi tous pourvus d’identifiants Google. Il leur suffit de savoir que Zotero fonctionne bien avec Google doc, pour qu’ils décident d’y rédiger la thèse. Le choix peut avoir du sens dans un projet d’écriture collaborative. Certain.e.s étudiant.e.s de médecine rédigent une thèse en binôme. Toutefois, comme Office365 auquel tous les étudiant.e.s et personnels de mon université ont accès depuis avril dernier, Google Doc est un éditeur très limité par rapport à un logiciel comme Word ou LibreOffice. Il suffit d’essayer de gérer finement les styles ou la numérotation pour s’en rendre compte.

Les étudiant.e.s en médecine sont peu soucieux des risques en matière de confidentialité ou de respect des données personnelles que l’usage des outils de Google fait peser sur eux-même (et plus tard éventuellement sur leurs patients). Que Google ait par ailleurs investi dans plusieurs projets d’hébergement ou de rachat de données médicales ne paraît pas les troubler le moins du monde. Le problème n’est pas récent et peut concourir au fait qu’on se retrouve aujourd’hui avec des praticiens qui ne voient pas le problème dans le fait d’utiliser un hub de microsoft pour héberger les données de santé des Français.

L’origine du mal remonte évidemment à l’Education Nationale dont on ne cessera jamais de dénoncer le partenariat irresponsable avec Microsoft. Mais en dehors de l’école, Google étend son influence auprès de chaque utilisateur particulier et chacun a pu constater à quel point le confinement avait accentué ces tendances.

Les étudiant.e.s en médecine sont donc largement ignorants des enjeux du logiciel libre ou de la monétisation de nos données et de nos comportements en ligne On pourrait dire qu’il vaut mieux qu’ils sachent réparer un fémur plutôt que de taper une ligne de commande sur un terminal, mais c’est un argument qui ne va pas bien loin. L’exercice de la médecine ne devrait-il pas s’accompagner d’une ouverture d’esprit suffisante pour intégrer ces questions sur les technologies et le monde qu’elles dessinent ? Quand on voit à quel point la première année de médecine sert davantage à formater les esprits (et les sélectionner bien sûr) plutôt qu’à les préparer, on comprend que ces étudiants n’entendent jamais parler de ces choses avant de nous rencontrer sur la question en apparence anodine de la gestion d’une bibliographie.

D’après ce que j’observe, ce public a très peu de recul critique sur ses usages de Google ou bien cela se limite à utiliser Liloo ou Ecosia en lieu et place de Google Search, des moteurs à prétention « écologique » qui pourtant exploitent leurs données pour leur envoyer de la publicité ciblée.

Lorsqu’on mentionne aux étudiants qu’avec LibreOffice, ils disposeront d’un outil complet, libre, gratuit pour lequel ils n’auront pas à payer ni à craquer et que ce logiciel fonctionnera de manière optimale avec Zotero, ils ne sont souvent pas intéressés. Certain.e.s ne voient d’ailleurs pas l’intérêt de télécharger un logiciel pour éditer du texte. Ces étudiant.e.s sont souvent pourvus d’ordinateurs très performants (En médecine, des Macs pour la très grande majorité) qui valent quatre à cinq fois le prix de mon ordinateur personnel que j’ai acheté d’occasion, mais renâclent à y installer des logiciels. Quand on leur demande de charger Zotero sur leur machine, certain.e.s, c’est l’occasion pour certain.e.s de procéder à leur premier téléchargement. Installer ensuite LibreOffice puis l’environnement Java qu’on leur indique pour que ces deux logiciels soient parfaitement interopérables leur semble être un pensum bien inutile. Je ne leur jette pas la pierre, j’ai certainement été comme eux si on excepte le fait que j’avais à leur âge un matériel bien moins performant et surtout moins coûteux que le leur. Je veux dire que, comme eux je me concentrais alors sur les échéances académiques qui m’étaient fixées (rendre le plan de mon mémoire, son introduction, son premier chapitre, etc.) et j’utilisais alors l’outil de mise en page vendu avec mon ordi (à l’époque on n’avait pas à payer pour Word ou Excel) sans me poser de questions sur ce qui pouvait exister au dehors.

Pourtant les normes universitaires ne nous permettent plus aujourd’hui de persévérer bien longtemps dans cette ignorance. Avec le premier mémoire (la thèse d’exercice en l’occurrence) survient pour la première fois (dans certains cas la dernière) la nécessité d’appliquer une feuille de style, de constituer une table des matières, de gérer des notes de bas de page, d’assurer la numérotation des pages, et bien sûr de produire une bibliographie normée, c’est-à-dire, aujourd’hui, produite automatiquement à partir d’un gestionnaire de références comme Zotero.

Les enseignant.e.s de médecine de plus de 40 ans savent que ces aspects sont devenus plus importants pour leurs étudiants qu’ils ne l’étaient pour eux-mêmes à l’époque de l’écriture de leur thèse et ils/elles ont compris pour la plupart qu’ils/elles pouvaient compter sur les bibliothécaires pour leur enseigner la gestion d’une feuille de style pour un traitement de texte ou bien l’insertion d’une bibliographie avec Zotero.

Mais il reste à convaincre leurs étudiant.e.s que s’ils/elles souhaitent garder un contrôle sur leur texte, cela ne leur coûtera pas rien (laissons donc tomber Word et toute sa suite) mais plus sûrement un peu de temps et d’attention à consacrer au fonctionnement de leur machine et particulièrement d’un logiciel comme LibreOffice.

9 novembre 202010 novembre 2020

Garder un accès pérenne aux références citées dans un travail

Internet Archive : une ressource à disposition de tous les internautes

Le site Actualitté a rappelé récemment le rôle important joué par Internet Archive dans la conservation de la mémoire du web et comment chacun pouvait contribuer à cette oeuvre collective d’archivage de pages web. Un simple clic dans son navigateur permet la conservation à long terme de la page qu’on consulte. A partir de la même extension pour navigateur, on peut aussi retrouver une page retirée d’un serveur sous réserve que celle-ci ait bien été archivée. L’archivage des sources fait aussi partie de l’attirail des journalistes pour conserver des traces que certains acteurs auraient tendance à vouloir supprimer après coup comme des menaces ou des contenus haineux envoyés sur les réseaux sociaux mais aussi -même si tout le monde a le droit de changer d’avis, la base de l’honnêteté est de reconnaître ces changements- des déclarations antérieures d’hommes ou de femmes politiques qui s’avèreraient contradictoires avec des déclarations ou des décisions récentes, etc. Lorsqu’un responsable politique affirme avec aplomb l’inverse de ce qu’il soutenait quelques mois plus tôt, son équipe de communication n’a besoin que de quelques heures pour supprimer les contenus gênants sur le site officiel, mais les utilisateurs d’Internet Archive sont souvent plus rapides encore pour garder la trace de ces revirements (quand cela n’est pas pris en charge par une collecte automatique).

Lorsqu’on fait de la recherche en open source, Internet Archive est aussi le lieu où l’on archive ses preuves. C’est ainsi par exemple qu’Internet Archive a pu copier et conserver le message démontrant la responsabilité d’une milice du Donbass dans le crash du vol Malaysian Airlines MH17

Liens cassés : une malédiction qui touche également les sites d’information scientifique

La relative éphemérité des contenus du web se pose également dans le domaine de l’information scientifique et technique. On sait qu’il existe un risque important de déperdition des publications scientifiques, notamment du côté des revues en open access comme en témoigne un article d’août 2020 opportunément intitulé Open is not Forever.

En 2015, un article du New Yorker dressait un tableau de la situation. A l’époque, le site InternetActu s’en était fait l’écho :

Comme nous l’explique le New Yorker, une étude parue en 2014 et commanditée par l’école de droit de Harvard montre que 70 % des références données par la Harvard Law Review et d’autres journaux de droit, et 50 % des URLs pointant sur les opinions de la Cour Suprême ne fournissent pas les liens corrects vers l’information originale citée. » Par ailleurs, continue le New Yorker, une équipe de l’institut de Los Alamos a étudié plus de trois millions d’articles universitaires parus dans les domaines scientifiques médicaux et technologiques entre 1997 et 2002. Un lien sur cinq était mort.

Perma.cc : une solution pour nantis

L’étude commanditée par l’Ecole de Droit de Harvard dont il est question plus haut ne se contente pas de tirer le bilan préoccupant de l’obsolescence des liens dans les textes juridiques, elle présente sous la forme d’un service web intitulé perma.cc une solution destinée à limiter cette perte d’information. Ce site permet en effet de créer des permaliens et de conserver avec un compte individuel la capture des articles qui nous intéressent. Ces captures peuvent être rendues accessibles à tout le monde quand la publication est ouverte ou bien seront restreintes aux membres de la communauté qui a souscrit un abonnement à cette ressource si son accès est payant.

Bien qu’il soit normalement accessible aux seuls abonné.e.s, l’article du New-Yorker qui est également plus haut, se trouve justement accessible à tout.e.s sous la forme d’une capture d’écran depuis le site de Perma.cc.

Les créateurs de Perma.cc vendent des abonnements aux bibliothèques (particulièrement aux bibliothèques juridiques) qui permettent à leurs abonnés de conserver ainsi sous la forme de liens pérennes l’intégrité des citations qu’ils insèrent dans leurs publications.

C’est précisément là que le bât blesse : je ne vois pas beaucoup de bibliothèques qui accepteraient de payer pour que leurs abonnés puissent rédiger des bibliographiques utilisables sur le long terme. A chaque besoin documentaire dans le domaine juridique correspond en général un produit coûteux et réservé aux happy few, quand dans les autres disciplines on apprend à faire avec ce que le web met à notre disposition. Internet Archive existe, pourquoi ne pas s’en servir pour réaliser des webographies durables ?

Fatcat : l’initiative d’Internet Archive pour sauvegarder les articles en open access

Depuis 2017, Internet Archive fait grandir son archive Fatcat destinée à archiver une part importante des publications scientifiques en open access (articles, mais aussi prépublications, actes de conférence, et tout le champ de la littérature grise). Cette collecte est très largement opérée par des bots. Les utilisateurs en se créant un compte peuvent compléter les métadonnées qui accompagnent les documents. Celles-ci proviennent de datacite, crossref, Unpaywall ou encore Pubmed. Fatcat récupère également sur le web des PDF dépourvus de métadonnées et grâce à l’extracteur Grobid (de mémoire le même qui fonctionne sur HAL) extrait le plus grand nombre de métadonnées possibles du fichier. Ce sont surtout ces dernières qui auraient besoin d’être complétées par des humains. Un chercheur peut donc espérer trouver l’article qu’il cherche dans ce catalogue d’archives en interrogeant le moteur de recherche associé à Fatcat. Pour en savoir plus sur Fatcat, je recommande la lecture du billet d’Aaron Tay consacré à cette initiative.

texte de 1894 conservé dans les Keepers Registry et accessible depuis Fatcat. Le texte est par ailleurs disponible dans le corpus Istex auquel ont accès toutes les personnes relevant de l’enseignement supérieur en France

Memento : ou comment archiver l’information scientifique depuis Zotero

A côté des moyens développés pour mettre en place Fatcat, ce qui suit relève plutôt de l’artisanat, mais un artisanat où le chercheur a une part dans la collecte mondiale à travers un outil qu’il utilise quotidiennement, son gestionnaire de références.

Permettre à chacun d’archiver durablement les références qui soutiennent son travail, c’est vraisemblablement le but que s’est fixé le concepteur de Memento, un plugin pour Zotero, le gestionnaire de références bibliographiques qu’on ne présente plus.

Memento ne se charge pas exactement comme les autres plugins pour Zotero. Il faut suivre les instructions d’installation à la lettre, et notamment archiver le contenu en .zip et non pas en .7z (pour ceux qui ont l’habitude d’utiliser ce service pour compresser des fichiers). La conversion du .zip en .xpi fonctionne, ce qui n’est pas le cas pour la conversion depuis .7z. Puis dans le gestionnaire des extensions de Zotero (comme d’habitude cette fois), il convient de sélectionner l’option installer depuis un fichier et sélectionner le fichier .xpi obtenu à partir de l’archive de ces fichiers. Il ne reste plus alors qu’à redémarrer Zotero pour rendre actif le plugin.

A partir du moment où le plugin est activé, chaque référence ajoutée à une collection se voit attribuer automatiquement un lien vers sa copie sauvegardée sur Internet Archive. Ce lien est pérenne et ne peut donc être cassé en cas de changement opéré sur le site du fournisseur. Ne pas en déduire, s’il s’agit d’un article à péage, que la version sauvegardée de l’article sera la version complète à laquelle on a soi-même accès en tant qu’abonné : Internet Archive n’est pas un site destiné à contourner les verrous numériques. Toutefois le résumé de l’article au moins continuera d’être accessible et le lien dans la citation ne mènera jamais à une erreur 404.

Dans les métadonnées de la référence, le champ extra reçoit l’URL de la page correspondant à l’article sur Internet Archive. Si le champ comporte déjà des informations (ajoutées à la main ou provenant d’un autre plugin), le lien vers l’archive s’ajoute simplement au texte déjà présent.

Il est donc théoriquement possible, comme le recommande le Bluebook, le référentiel de citations juridiques américains, d’associer à ses références bibliographiques systématiquement deux liens : celui qui mène vers le site du fournisseur et celui qui mène vers la page d’Internet Archive où l’article (ou son résumé) a été conservé.

Memento : un plugin lui-même menacé d’obsolescence

Toutefois, à l’usage deux obstacles viennent entraver ce fonctionnement.

Le premier est je l’espère temporaire : jusqu’à une date récente (mi-septembre ?), le plugin fonctionnait très bien lors de l’import de la référence ou bien lorsque par un clic droit sur la référence déjà présente dans la collection on cherchait à archiver une copie de l’article dans Internet Archive ou Archive.is. Ce n’est plus le cas aujourd’hui semble t-il. L’envoi vers ces serveurs est bloqué sans qu’il soit toujours possible d’obtenir un message d’erreur. J’espère qu’il ne s’agit que d’un bug qui pourra être résolu rapidement.

Le second me semble plus sérieux : comment obtenir l’inscription de ce deuxième lien dans la bibliographie ? Le style bibliographique choisi devrait être conçu de telle sorte que le champ extra s’affiche. En CSL, la grammaire dans laquelle les styles bibliographiques sont rédigés, le champ note est l’équivalent du champ extra. Certains styles affichent par défaut ce champ, c’est le cas par exemple du style « APA annotated bibliography ». Tous les autres styles peuvent être modifiés de sorte qu’ils permettent à l’instar de ces styles adaptés aux bibliographies annotées l’inscription du contenu du champ extra dans la note précédé du préfixe souhaité, mettons lien pérenne: . Avec un peu de pratique des styles, un outil comme CSL visual editor permet de modifier son style de référence de sorte qu’il intègre l’affichage des notes.

Toutefois, même avec un style correctement modifié en ce sens ou acceptant nativement les notes, le lien vers internet archive ne s’affiche que s’il est précédé d’un caractère ou d’une espace, ce qui n’est pas le cas par défaut. J’ai signalé ce problème sur le forum Zotero. La demande a suscité très rapidement une réaction de la part des développeurs de Zotero, mais à ce jour aucune solution n’a encore été trouvée.

Je regrette de n’avoir par les compétences nécessaires pour contribuer à la restauration de ce plugin, et j’espère que d’autres utilisateurs à la fois convaincus par l’importance de conserver des liens pérennes dans des travaux universitaires et capables d’améliorer le code de cette extension pourront remettre les choses d’aplomb. Internet Archive est un outil formidable contre l’érosion des connaissances, nous ne devrions pas avoir à dépendre de services payants comme Perma.cc pour faire de nos notes de bas de page des ponts et non des cul-de-sacs.

27 septembre 202028 septembre 2020

Hypercritique : à propos de la rationalisation

Plusieurs tragédies grecques montrent un héros qui ignore les signes pourtant évidents au spectateur de l’issue tragique qui l’attend s’il persévère dans son erreur. Ces signes sont également transparents pour les autres personnages de l’histoire, mais le héros tragique dont la raison est soudainement obscurcie par l‘hybris – terme tantôt traduit par déraison, tantôt par orgueil- les ignore et se précipite vers sa perte. C’est notamment le sort de Penthée dans les Bacchantes d’Euripide qui finit en pièces faute d’avoir reconnu dans le rituel des fidèles de Dionysos la marque d’un Dieu dont la puissance excède de très loin la sienne.

Dans ce type de scénario, l’hybris est présenté comme une rage -parfois d’origine divine- qui court-circuite le raisonnement. Pourtant, dans de nombreux cas, on peut observer chez les autres que ce type d’aveuglement est la plupart du temps lié à une volonté de justification qui emprunte les chemins de la raison et qu’on appelle habituellement en termes psychologiques la rationalisation. La rationalisation consiste à justifier une décision prise sur des bases rationnelles et à écarter ou minimiser la valeur des contre-arguments qui s’opposeraient à cette décision, ceci afin d’éviter l’inconfort d’une situation où la réalité contredit de front nos croyances et que l’on qualifie habituellement de dissonance cognitive. C’est un puissant ressort à l’action, spécialement pour sortir de situations où tout paraît bouché ou perdu d’avance. Dans certaines situations à risques, prenons le cas d’une armée qui à bout de vivres et de munitions cherche à briser son encerclement, les illusions dès lors qu’elles sont mobilisatrices peuvent contribuer à sauver celui qui les entretient, particulièrement s’il a les moyens intellectuels de les soutenir au moyen d’un raisonnement approprié et volontairement aveugle à certains aspects de la réalité.

On peut même considérer que la vie humaine n’est pas possible sans la faculté de rationaliser qui nous permet de nous extraire d’une confrontation désespérante avec la réalité brute : human being cannot bear too much reality

Pour autant, la rationalisation peut aussi prolonger des situations de danger, de détresse ou d’isolement. La vie du Sous-Lieutenant Onoda, telle que racontée dans un récent ouvrage de Bernard Cendron et Gérard Chenu nous en donne un exemple particulièrement intéressant.

Sorti d’une école de renseignement militaire, le sous-lieutenant Onoda est affecté en 1943 sur l’île de Lubang qui appartient aujourd’hui aux Philippines. La mission d’Onoda consiste à recueillir du renseignement sur les activités des Alliés dans la région, notamment pour prévenir une invasion des îles voisines. L’avancée des Américains dans ce secteur et la stratégie du saute-moutons qui vise à désorganiser la chaîne de commandement militaire en laissant certaines îles ennemies intactes mais sans communication avec le reste du dispositif impérial a contribué à créer ces groupes de traînards (stragglers) qui ont maintenu une activité guerrière derrière les lignes bien après l’armistice. Onoda a été le dernier de ces « Traînards » à se rendre. C’était en 1973.

Pendant ces trente années, les relations qu’Onoda et ses derniers compagnons d’infortune ont entretenu avec le monde extérieur ont été de deux natures : d’une part guerrière (les tirs de la police philippine répondant aux rapines et aux attaques perpétrées par les soldats japonais contre les populations locales), d’autre part informationnelle. D’année en année, dans l’espoir d’obtenir leur reddition, les Alliés puis les autorités de l’archipel ont laissé intentionnellement au petit groupe des objets susceptibles de les reconnecter à la marche du monde. Ce sera d’abord un transistor avec lequel Onoda et ses deux derniers compagnons vont surtout écouter de la musique, puis après la mort de ces derniers dans les combats, des effets personnels leur ayant appartenu ou bien des objets et des messages provenant de la famille même d’Onoda et l’implorant de se rendre pour ne pas se faire tuer inutilement.

Ce qui est significatif est que tous ces indices vont être interprétés dans un sens qui va renforcer Onoda dans sa décision ne pas se rendre. La radio annonce que le Japon est la troisième puissance économique du monde : comment cela serait-il possible si le pays avait perdu la guerre ? Les journaux japonais qu’on lui envoie par avion continuent de paraître : cela signifie à coup sûr que la défaite n’est qu’une rumeur, car si cela n’était pas le cas toute activité journalistique aurait cessé. Les civils ne juraient-ils pas au plus fort de la guerre qu’ils se suicideraient plutôt que d’être occupés par une force étrangère ? Les proches d’Onoda écrivent leurs noms sur un drapeau japonais mais de manière abrégée selon la mode d’après-guerre (Noriko devient Nori par exemple) ce qui est perçu par les soldats comme une erreur de graphie volontaire destinée à les prévenir d’un danger :

« J’ai compris, dit Kozuka, et un large sourire éclaire son visage, les Américains les ont obligés à écrire leur nom sur ce drapeau, mais pour nous avertir du piège, ils ont fait des erreurs volontaires.
-Ah ils sont vraiment intelligents les Japonais ! Et toi Kozuka, bien que simple soldat tu as l’étoffe d’un officier de renseignement. »

Ainsi toutes pièce qui n’entre pas dans le puzzle construit année après année est systématiquement et minutieusement retaillée pour y entrer.

Finalement, après une trentaine d’années d’auto-intoxication informationnelle et de rendez-vous manqués, il faudra tirer de sa retraite l’officier supérieur en charge du sous-lieutenant pendant sa mission à Lubang pour que celui-ci accepte de se rendre. La seule autorité qui reconnecte Onoda avec la réalité est également la principale autorité de son système de référence.

La jungle de Lubang dans laquelle se réfugient les soldats Japonais forme une sorte de chambre d’écho d’où rien ne peut venir qui soit susceptible de démentir leur vision du monde. Celle-ci est informée par un instinct de survie bien naturel dans un univers où la nature et les autochones sont hostiles. La différence avec notre situation d’internaute captif d’une bulle informationnelle réside en cela que pour nous l’enjeu n’est pas vital. Il ne s’agit pas pour nous de survivre mais d’échapper à la dissonance cognitive. Une autre différence de taille est que nous sommes entourés d’informations, que nous choisissons simplement de ne pas voir, celles qui sont défavorables à notre point de vue, tandis que le sous-lieutenant se trouve dans une situation où l’information à traiter est rare et ambigüe, rare parce que les heures d’écoute de la radio sont rationnées pour éviter d’être repérés au moyen des ondes ; ambigüe parce que certaines tentatives d’approche mises en place par les autorités de l’île étaient de véritables pièges mortels. Par ailleurs, l’union de la Grande Asie (incluant le Japon) contre l’impérialisme américain qu’Onoda se figure en suivant la guerre du Viet-Nâm à la radio n’est pas entièrement délirante : d’autres soldats perdus de l’ancien empire du Soleil Levant ont bel et bien surmonté leur anticommunisme pour rejoindre le Viet-Minh dès 1945. Enfin les informations qui proviennent de proches et qui sont le plus susceptibles de l’influencer sont rejetées pour cette raison même, ce qui est le contraire de ce que nous vivons quand un proche nous partage une information sur les réseaux sociaux : dans ce cas, nous avons davantage tendance à la prendre pour vraie.

En dehors de ces différences notables, Onoda incarne une figure saisissante du processus de rationalisation quand il est associé à un haut niveau de raisonnement, comme c’est le cas chez des agents de renseignement compétents. De façon générale, son histoire est utile pour comprendre en quoi, comme l’a montré Kahan dans une étude de 2016, un niveau de diplôme important et une culture scientifique bien ancrée sont insuffisants à détourner certaines personnes de théories pour lesquelles le consensus scientifique est pourtant écrasant, comme c’est le cas avec l’origine anthropique du réchauffement climatique .

Références

17 septembre 202017 septembre 2020

Concevoir une présentation en markdown

Cela fait quelques mois que je rédige tous mes textes en markdown. Cette syntaxe est basique et simple à apprendre et permet de se concentrer sur la structure du texte et sur sa pensée plus qu’à des éléments de détail relatifs à la mise en page.

Pour mes supports de présentation, j’utilisais naguère Impress, l’outil de présentation de LibreOffice. Je conservais mon fichier en local, et je l’enrichissais progressivement jusqu’à ce qu’il soit terminé et prêt à être présenté. Juste avant mon cours, j’avais l’habitude d’en faire la conversion en PDF au cas où le support LibreOffice ne serait pas lisible sur l’ordi de présentation qui n’est pas forcément le mien.

Toutefois, comme j’utilise plusieurs machines pour travailler et de plus, comme je suis amené à enregistrer plusieurs versions d’un même fichier (en local ou sur des disques partagés plus ou moins accessibles depuis l’extérieur du campus), je me retrouvais invariablement avec des versions différentes d’un même fichier disséminées un peu partout. Retrouver la dernière version à jour était souvent un casse-tête dont je me serais bien passé. J’ai donc choisi cette fois-ci d’utiliser Git et un répertoire sur Github pour gérer les différentes versions de mon travail. Je ne compte pas approfondir cet aspect des choses, le web étant plein de tutoriels pour apprendre à se servir de Git. Je vais plutôt détailler mon autre choix qui a consisté à ne plus utiliser Impress pour mettre au point mon diaporama et à lui substituer Beamer, l’outil de présentation en LaTeX, et cela en travaillant sur un fichier source rédigé en Markdown. Dans ce scénario, la transformation d’un fichier à l’autre serait assuré avec Pandoc.

En effet, en plus de sa faible courbe d’apprentissage (contrairement à LaTex), l’intérêt du Markdown tient aussi à ce qu’on peut facilement transformer un texte dans des formats différents sans que cela ne pose de problème. Même si j’utilise mon éditeur de texte en markdown principalement pour produire des PDF, Pandoc peut très bien gérer des conversions du markdown en format open document, HTML ou epub.

Toutefois la conversion de fichiers markdown en fichiers PDF requiert l’usage d’un éditeur LaTeX. Pour ma part, j’ai téléchargé Texlive. De tous les programmes qui vont être cités dans ce post, c’est le plus long à installer (même si cela présente peu de difficultés en soi).

Quand on dispose sur sa machine d’un éditeur en LaTeX et de Pandoc, pour convertir son document du markdown en PDF, il convient d’ouvrir un terminal de commande dans le répertoire où se trouve le fichier source en MD (appelons-le document.md). L’ouverture du terminal dans Windows se fait avec la commande SHIFT + clic droit, puis en sélectionnant dans le menu « Ouvrir la fenêtre Powershell ici ». Pour Linux, c’est le Ctrl+Alt T habituel. Reste à taper dans ce terminal la commande suivante :

pandoc document.md -o document.pdf

Séquençage du fichier source

La création d’une présentation en markdown requiert de donner quelques instructions supplémentaires afin que Beamer interprète les sections du fichier source comme des chapitres ou des diapositives

Pour cela, il faut partir du principe que chaque chapitre de la présentation correspondra à un <h1> (titre 1 ou # titre) en markdown. Chaque titre 2 (<h2> ou ## texte) fera l’objet d’une slide.

# Première partie (= slide 1 titre de la première partie)

## première diapositive (= slide 2)

## deuxième diapositive (= slide 3)

# Deuxième partie (= slide 4 titre de la deuxième partie)

etc.

La conversion du fichier source dans ce format se fait de la manière suivante :

pandoc document.md --slide-level 2 -t beamer --pdf-engine=xelatex -o document.pdf

–slide-level 2 définit comme on l’a vu qu’une diapositive correspond à un titre 2 (<h2> en HTML)

-t beamer précise qu’on ne veut pas obtenir une lettre ou un article en PDF mais bien une présentation à base de diapositives.

–pdf-engine=xelatex précise comment cette présentation va être convertie en document PDF

Je n’aime pas le thème par défaut de LaTeX, j’ai donc été dans la galerie de thèmes de Beamer et j’ai choisi le thème Goettingen qui permet d’afficher la table des matières à droite de la diapo. La partie active est mise en évidence dans ce cadre. Avec l’ajout du thème, la commande est donc la suivante :

pandoc document.md --slide-level 2 -t beamer -V theme:goettingen --pdf-engine=xelatex -o document.pdf

Intégrer des références dans le document avec Zotero

Utiliser Zotero avec Markdown

Lorsqu’on a comme moi l’habitude d’utiliser Zotero, il est hors de question de s’en passer quand on doit faire une présentation. On attend à la fin du document une bibliographie qui comporte l’ensemble des références citées dans le cours de la présentation.

Utilisant Atom comme éditeur de texte, j’ai suivi la méthode exposée sur le blog Zotero francophone. J’ai pas mal tâtonné avant d’arriver à produire le résultat voulu. L’une des dfficultés que j’ai rencontrées est que le filtre qui permet de gérer les références (Pandoc-citeproc) n’était pas présent dans la version du logiciel Pandoc que j’avais téléchargée sur sous Linux, alors que je n’ai pas eu besoin de le charger sur un autre ordi fonctionnant sous Windows. Après avoir fait ce constat, j’ai procédé à l’installation manquante :

apt install pandoc-citeproc

J’ai enregistré durant l’été un tuto qui montre comment on peut synchroniser une collection Zotero avec un fichier de références en format bib(tex). Il faut ensuite charger dans Atom un package qui gère l’insertion de références depuis ce fichier (autocomplete-bibtex). Dans ce package, on précise le lien vers le fichier bib synchronisé avec Zotero.

A partir de ce moment, chaque fois qu’on insère un @ dans Atom suivi d’une lettre la liste des références à disposition apparaît dans un cadre : il n’y a plus qu’à sélectionner la bonne.

Il reste cependant à conserver ces appels de citation dans le texte ainsi que la bibliographie qui doit s’afficher à la fin du texte au moment de la conversion en PDF avec Pandoc. Il est possible d’ajouter dans la ligne de commande le fichier source qui contient les références (references.bib) ainsi que le style bibliographique sélectionné dans la bibliothèque de styles disponibles sur le site de Zotero. J’ai une préférence pour le style IEEE, appelons ce dernier fichier ieee.bib. Comme l’indique le billet de blog déjà cité, la commande à entrer pour cette conversion devrait donc être la suivante :

pandoc document.md --pdf-engine=xelatex --filter pandoc-citeproc --bibliography=references.bib --csl=ieee.csl -f markdown+smart -o article.pdf

Cela fonctionnera si le fichier .bib et le fichier .csl sont au même niveau dans le répertoire où l’on a ouvert le terminal de commandes que le fichier .md

Utiliser l’entête YAML pour régler la mise en page du texte

Toutefois je préfère utiliser le pavé YAML du document pour indiquer le chemin vers l’un et l’autre. Le pavé YAML (on parle plus souvent d’un bloc de métadonnées ou d’un entête de fichier) est séparé du reste du document en markdown par des tirets (—). Lisible à la fois par la « machine » et l’oeil humain, il permet de définir un certain nombre de paramètres et de métadonnées relatifs au document. A ma connaissance, il n’y a pas d’information minimale à y inscrire, mais j’ai pris l’habitude d’y indiquer ce qui va constituer la page de titre du document, à savoir le titre, le sous-titre, la date, l’auteur. C’est basique et on peut certainement faire mieux en créant pour la page de titre un fichier à part, mais pour l’instant, cela suffit à mes besoins.

---
title: évaluer l'information à l'ère des fake-news
subtitle: présentation au CFCB
date: 17 septembre 2020
author: Damien Belvèze
---

Quand c’est pertinent, j’y ajoute aussi quelques lignes pour insérer une table des matières (toc [Table of Contents] = true) et l’intitulé sous lequel elle doit apparaître :

---
title: évaluer l'information à l'ère des fake-news
[...]
author: Damien Belvèze
toc: true
toc-title: Plan
---

Certains champs YAML sont propres à l’ensemble des documents, d’autres ont plus précisément vocation à servir dans le cas d’une conversion en PDF

C’est dans le pavé YAML que je vais indiquer quel fichier contient la bibliographie et quel fichier contient le style bibliographique:

---
[...]
bibliography: references.bib
biblio-style: ieee.csl
---

On peut aussi préciser le thème choisi (en l’occurrence Goettingen) mais cela aussi peut se retrouver dans la commande envoyée à Pandoc (voir plus haut)

J’ai également utilisé l’attribut link-citation: true afin que les liens soient cliquables dans le fichier en PDF. A noter aussi, l’attribut nocite: true pour que l’ensemble des références du fichier bib apparaissent même quand elles ne font pas l’objet d’un appel de citation dans le texte.

Gérer les images dans le document Markdown

En markdown, l’insertion de l’image se fait de la manière suivante :

![titre de l'image](URL ou chemin de l'image)

J’ai placé toutes mes images dans un dossier à part, cela donne donc quelque chose du genre :

![titre de l'image](images/image.jpg)

L’image peut prendre trop d’espace sur la page. Dans ce cas, il convient de déterminer sa dimension pour qu’elle s’insère sans problème sur la page. Cela se fait au moyen d’un attribut HTML. De manière générale, on en verra un autre exemple plus tard, tout ce que le markdown ne peut gérer lui-même peut être inséré dans le doc MD sous la forme de commandes LaTeX ou bien de balises HTML :

![titre de l’image](images/image.jpg){ width= »70% » } réduit de 30% la largeur initiale de l’image (on ne touche pas à la hauteur pour garder les proportions) ; on peut évidemment définir cette largeur en pixels : ![titre de l’image](images.image.jpg){ width= »100px » }

Quant à l’alignement du texte, cela peut se traiter avec des lignes de HTML insérées dans le document ou bien en renvoyant vers un fichier CSS, comme le suggère cet internaute.

Régler de la taille de la police

La taille des caractères et la police sont fixées par défaut. On peut changer l’une et l’autre dans l’entête Yaml, mais ce qui peut être plus intéressant pour une présentation est de distinguer certaines lignes qui doivent s’afficher en plus large caractères, par exemple une URL simple que les apprenants puissent recopier dans leur navigateur.

Pour gérer cela, j’ai téléchargé un programme complémentaire qui fournit un autre filtre dans la conversion que citeproc qui gère l’affichage des références. Il s’agit du paquet pandoc-latex-fontsize qu’on trouve sur Github.

Cette installation requiert l’usage de Python que j’avais déjà installé sur mon ordi windows en vue d’autres travaux. Je suis parvenu à installer ce package avec la commande pip3 (plutôt que pip) :

pip3 install pandoc-latex-fontsize

Puis j’ai inscrit un lien vers ce programme dans l’entête YAML :

pandoc-latex-fontsize:
  - classes: [smallcontent]
    size: tiny
  - classes: [largecontent, important]
    size: huge
---

La classe smallcontent correspond à la taille tiny (petits caractères) prédéfinie dans LaTeX, la classe largecontent ou important correspond à la taille huge également reconnue par LaTeX

Je peux donc afficher cet URL en l’inscrivant dans le texte en markdown de la manière suivante :

[https://focus.univ-rennes1.fr/cfcb_fakenews]{latex-fontsize=huge}

J’ai remarqué que j’avais un problème dans l’affichage de la bibliographie : la taille des caractères par défaut empêchait que l’ensemble de la biblio ne tienne dans une seule diapo.
a ce jour, je n’ai pas encore trouvé comment répartir sur plusieurs diapos cette biblio qui est générée automatiquement à l’endroit voulu par des balises HTML (div id="refs"><div>)

D’une part, je ne savais pas comment disposer la biblio sur deux slides au lieu d’une salle (ce qui se règle en LaTeX avec la fonction allowbreakframe

Restait la possibilité de réduire la taille des caractères de la biblio pour tout faire tenir dans une seule diapo (après tout, la biblio n’a d’intérêt que pour une lecture sur écran du PDF et pas pour une présentation dans le cours d’une séance). Le recours à pandoc-latex-fontsize ne donnait rien. Je ne savais pas comment articuler cela avec la classe id=refs.

J’ai donc pris le parti d’intégrer juste avant la balise div une commande LaTeX :

\tiny

Cela réduit la taille des caractères de la section qui suit (pour revenir à la taille par défaut : \small ou \normalsize selon le type de document (article ou diaporama)

en suite de quoi, la commande suivante :

pandoc document.md --slide-level 2 -t beamer -V theme:goettingen --pdf-engine=xelatex --filter pandoc-citeproc --filter pandoc-latex-fontsize -f markdown+smart -o document.pdf

permet d’obtenir le rendu souhaité.

On trouvera la présentation et les fichiers associés sur mon répertoire Github.

Tout cela représente plusieurs heures de recherche sur le web, d’autoformation et de tâtonnements divers, mais aujourd’hui, je n’envisage plus de faire différemment et au passage j’ai appris beaucoup en ce qui concerne markdown, HTML et LaTeX.

4 juin 2020

Géolocaliser et dater une image

Juste après le début du confinement, dans un temps où les tâches quotidiennes avaient été brusquement suspendues pour la plupart de mes collègues et jusqu’à ce que d’autres tâches exécutables à distance puissent leur être attribuées, j’ai été chargé de trouver de concevoir un plan de tâches transitoires avec un fort volet formation continue. A mes collègues formateurs, j’ai proposé d’affûter leurs techniques de recherche sur le web en leur lançant un défi bi-hebdomadaire (du moins dans les premières semaines).

Ce défi consistait à retrouver -en général à partir des éléments contenus dans l’image- le lieu et parfois la date de la prise de vue. Dans la majeure partie des cas, ces photos n’étaient pas originales mais prises sur le compte twitter de Quiztime.

Concrètement, je m’essayais moi-même à la résolution de ces défis lancés sur twitter par une petite dizaine de journalistes et spécialistes en OSINT, et si j’y parvenais seul ou avec le concours d’autres internautes, je proposais les mêmes défis à mes collègues qui ne connaissaient pas encore le compte, le but étant bien entendu non de plagier ce compte mais de les introduire au sujet et de leur présenter cette ressource tout à fait intéressante (et les blogs de ceux qui l’alimentent). Ma BU disposant d’un site exclusivement consacré à la formation de ses utilisateurs, j’y ai reproduit les images de ces énigmes en y ajoutant la solution et la méthode que j’avais pour ma part employée.

Pour un public d’étudiant, cette activité me semble tout à fait intéressante pour les raisons suivantes :

Elle favorise la lecture attentive de l’image dans un contexte où la technique de désinformation la plus massivement utilisée consiste à poster une photo avec une légende qui ne lui correspond pas.
Elle favorise le raisonnement hypothético-déductif : il n’y a pas d’outil miraculeux, juste des bases (images, météo historique, archives du web, plans de vol ou routes maritimes, etc.) accessibles à tous mais qu’il faut avoir la bonne idée d’interroger pour confirmer une hypothèse.
Elle favorise la synthèse. Bien que nous manquions d’outil libre qui permette de le faire facilement, il est possible d’organiser l’ensemble des éléments en graphe pour ensuite les présenter dans une forme qui soit convaincante.
Elle leur donne quelques compétences utiles dans leurs usages de l’image numérique. La plus importante est la recherche inverse d’images. Mais dans de nombreux cas elle ne suffit pas où alors elle ne se fait pas avec l’outil approprié (dans bien des cas, Yandex s’avère plus utile que Google ou Bing pour cet exercice). Par ailleurs, les étudiants apprendront ainsi à supprimer ou modifier les métadonnées d’une image ou bien à inclure dans leur prise de vue des éléments qui permettront à des journalistes de les identifier si leur publication s’accompagne d’une suppression automatique des métadonnées (prenons le cas par exemple d’une vidéo prise dans une manifestation et envoyée sur les réseaux sociaux).

Il ne s’agit évidemment pas de transformer nos étudiants en fact-checkers mais seulement de leur donner quelques méthodes de vérification utiles dans le quotidien. Le fait de disposer de ces outils et de ces connaissances donne la confiance nécessaire pour retrouver un lien avec le réel à l’heure de la « post-vérité ».