Author Topic: [Résolu] ged2web > gestion du Charset  (Read 2456 times)

0 Members and 1 Guest are viewing this topic.

Offline creusois

  • VIP
  • Sr. Member
  • *
  • Posts: 91
    • View Profile
[Résolu] ged2web > gestion du Charset
« on: November 27, 2021, 12:09:07 »
Bonjour,

Je me permet de poser une question ici qui ne concerne pas directement ANCESTRIS et je comprendrais très bien que vous supprimiez mon message pour cette raison.
Je le poste néanmoins car je suppose que cela pourrrait interresser certaines personnes  8)

J'ai l'habitude metre à jour une instance GENEWEB sur un serveur distant à partir de mes fichiers GED sur lesquels je travaille et j'ai remarqué qu'en sortie de mes GED générés via ANCESTRIS, les caractères accentués et spéciaux n'était pas pris en compte par GWB
Mon fichier de départ contient bien en en-tête
Code: [Select]
HEAD
1 NOTE bla bla bla
1 SUBM @X1@
1 SOUR ANCESTRIS
2 VERS 12.0.11315
2 NAME Ancestris
2 CORP Ancestris Team
3 ADDR http://www.ancestris.org
1 DEST ANY
1 DATE 21 NOV 2021
2 TIME 18:26:38
1 FILE ma_base.ged
1 GEDC
2 VERS 5.5.1
2 FORM LINEAGE-LINKED
1 CHAR UTF-8
1 LANG French

J'utilisais jusqu'à présent
Code: [Select]
ged2gwb -f ma_base.ged -o ma_base.gwb sur mon serveur distant et que ce soit avec une gestion par défaut du charset ou en ajoutant cette commande dans ma ligne de terminal, je ne retrouvais toujours pas mes accents et une bonne gestion des caract. spéciaux.
L'utilisation de
Code: [Select]
ged2gwb -f -charset ANSEL (ou ASCII ou même MSDOS) ma_base.ged -o ma_base.gwb ne change rien.

Vous avez une idée ?
« Last Edit: November 27, 2021, 18:00:43 by creusois »
Creusois
-----------
Ancestris 12.0...............
Java 11.0.12 - build 11.0.12+7-post-Debian-2
Linux 5.10.0-8-amd64
Debian 11 (Bullseye)

Offline Zurga

  • VIP
  • Supernatural Member
  • *
  • Posts: 3 856
    • View Profile
Re: ged2web > gestion du Charset
« Reply #1 on: November 27, 2021, 13:08:22 »
On ne supprime pas les sujets, même si cela ne nous concerne pas directement, on indique seulement qu'on ne sera pas en mesure de donner une réponse.

Personnellement, de base, j'aurais bien essayé :
Code: [Select]
ged2gwb -f -charset UTF-8 ma_base.ged -o ma_base.gwb
Cela m'aurait semblé le plus naturel.

Mais apparemment, ce n'est pas si naturel que cela :
https://github.com/geneweb/geneweb/issues/714

Maintenant, cela date un peu et en fonction de ce que vous avez comme version, il peut y avoir une évolution de ce système.

Enfin, le problème peut être au niveau du transfert du fichier de votre ordinateur vers le serveur distant (avant l'import dans Geneweb).
Comment transférez-vous le fichier sur votre serveur ?

Zurga

Offline creusois

  • VIP
  • Sr. Member
  • *
  • Posts: 91
    • View Profile
Re: ged2web > gestion du Charset
« Reply #2 on: November 27, 2021, 13:30:18 »
Bonjour,
Merci pour votre retour même si mon sujet était hors Ancestris.

J'avais bien sûr tenté sans succès
Code: [Select]
ged2gwb -f -charset UTF-8 ma_base.ged -o ma_base.gwb
Pour le transfert c'est tout simplement
Code: [Select]
scp ma_base.ged user@serveur.distant:
Ma version GWB = 6.08
Creusois
-----------
Ancestris 12.0...............
Java 11.0.12 - build 11.0.12+7-post-Debian-2
Linux 5.10.0-8-amd64
Debian 11 (Bullseye)

Offline Zurga

  • VIP
  • Supernatural Member
  • *
  • Posts: 3 856
    • View Profile
Re: ged2web > gestion du Charset
« Reply #3 on: November 27, 2021, 13:57:40 »
Le problème est peut-être bien scp :
https://www.ibm.com/docs/en/zos/2.2.0?topic=client-configuring-scp
J'y lis :
Quote
By default, scp treats files as text. It assumes that all data going over the network is encoded in ASCII coded character set ISO 8859-1.

Avez-vous essayé de visualiser le fichier GEDCOM une fois transmis directement dans la console ?
Il n'est pas exclu que les accents aient déjà sautés.

Zurga


Offline creusois

  • VIP
  • Sr. Member
  • *
  • Posts: 91
    • View Profile
Re: ged2web > gestion du Charset
« Reply #4 on: November 27, 2021, 15:43:27 »
Malheureseument non le pb en ce qui me concerne n'est pas dans SCP. Effectivement j'ai vérifé dans le dichier GED après transfert, les accents sont bien conservés.

Je fait aussi des tests avec une instance locale pour identifier plus facilement le dysfonctionnement. J'ai un exemplaire de GEDCOM (que nous appellerons GED_OK) généré par HEREDIS qui lui passe bien et l'autre par ANCESTRIS qui ne passe pas (que nous appellerons GED_NOK.

J'ai réduit ces 2 fichiers à leur strict minimum puis ensuite j'ai procédé à tous les cas de figure (sauf un à priori puisque je n'ai pas trouvé le dysfonctionnement) pour tester les fichiers.
J'ai remplace les lignes d'entête dans GED_NOK par celles de GED_OK, une par une puis groupe par groupe, en conservant ou non les contenus de chacune des balise et le plus étonnant c'est que lorsque je place les 14 lignes d'en tête du fichier GED_OK à la place des 21 lignes d'en tête de GED_NOK cela fonctionne (avec ou sans contenu à l'exception bien sur de CHAR UTF-8)

Voici GED_OK
Code: [Select]
0 HEAD
1 SOUR Heredis PC2021
2 VERS 2021
2 NAME Heredis PC
2 CORP Heredis SCOP
3 WWW www.heredis.com
1 DATE 20 JUN 2021
1 GEDC
2 VERS 5.5.1
2 FORM LINEAGE-LINKED
1 CHAR UTF-8
1 _GUID 76B3912E-8D93-4DE2-ACAE-5667E9632656
1 PLAC
2 FORM Town, Area code, County, Region, Country, Subdivision

0 @X1@ SUBM
1 NAME éàüùç
1 EMAIL test@test.ext
1 WEB http://www.test.ext
0 @3@ INDI
1 NAME éàüùç/éàüùç/
2 GIVN éàüùç
2 SURN éàüùç

et
Voici GED_NOK
Code: [Select]
0 HEAD
1 NOTE bla bla
1 SUBM @X1@
1 SOUR ANCESTRIS
2 VERS 12.0.11315
2 NAME Ancestris
2 CORP Ancestris Team
3 ADDR http://www.ancestris.org
1 DEST ANY
1 DATE 21 NOV 2021
2 TIME 18:26:38
1 FILE ma_base.ged
1 GEDC
2 VERS 5.5.1
2 FORM LINEAGE-LINKED
1 CHAR UTF-8
1 LANG French
1 _GUID 76B3912E-8D93-4DE2-ACAE-5667E9632656
1 PLAC
2 FORM Town, Area code, County, Region, Country, Subdivision

0 @X1@ SUBM
0 @3@ INDI
1 NAME éàüùç/cr9c/
2 GIVN éàüùç
2 SURN cr9c
Creusois
-----------
Ancestris 12.0...............
Java 11.0.12 - build 11.0.12+7-post-Debian-2
Linux 5.10.0-8-amd64
Debian 11 (Bullseye)

Offline Zurga

  • VIP
  • Supernatural Member
  • *
  • Posts: 3 856
    • View Profile
Re: ged2web > gestion du Charset
« Reply #5 on: November 27, 2021, 15:46:54 »
Que dit la BOM des deux fichiers ?
https://fr.wikipedia.org/wiki/Indicateur_d%27ordre_des_octets#UTF-8

Est-ce que le fichier OK est reconnu comme de l'UTF-8 dans votre éditeur de texte ?
(Il y a toujours la possibilité d'indiquer UTF-8 et de coder de l'ISO).
Avez-vous la possibilité d'afficher en Hexadécimal pour voir si les accents ont les mêmes codes dans les deux fichiers ?

Zurga

Offline creusois

  • VIP
  • Sr. Member
  • *
  • Posts: 91
    • View Profile
Re: ged2web > gestion du Charset
« Reply #6 on: November 27, 2021, 15:52:51 »
Pour info, je suis sous Linux Debian et j'utilise principalement GEDIT pour les gros fichier et VI dans le terminal pour les petits.
Les deux fichiers dont je parle sont manipulés exclusivement sous GEDIT en écrasant à chaque fois le fichier précédent.

... je vais aller voir plus précisément ce dont ous me parlez, au sujet de l'encodage de mes fichiers !
Creusois
-----------
Ancestris 12.0...............
Java 11.0.12 - build 11.0.12+7-post-Debian-2
Linux 5.10.0-8-amd64
Debian 11 (Bullseye)

Offline creusois

  • VIP
  • Sr. Member
  • *
  • Posts: 91
    • View Profile
Re: ged2web > gestion du Charset
« Reply #7 on: November 27, 2021, 16:20:52 »
En insératn en début de GED l'indicateur de point de code unicode U+233B4 le pb des accents dans mon GED pour GWB est OK !
Merci bien pour votre aide.
Creusois
-----------
Ancestris 12.0...............
Java 11.0.12 - build 11.0.12+7-post-Debian-2
Linux 5.10.0-8-amd64
Debian 11 (Bullseye)

Offline Zurga

  • VIP
  • Supernatural Member
  • *
  • Posts: 3 856
    • View Profile
Re: ged2web > gestion du Charset
« Reply #8 on: November 27, 2021, 16:40:07 »
En pratique, Ancestris mets systématiquement la BOM (EF BB BF) en début de fichier pour indiquer facilement qu'on est en UTF-8.
Mais je ne sais pas si scp la transfère correctement.

Tel que vous annoncez les choses, cela voudrait dire que vous n'avez pas la BOM avec Ancestris.

Si tout fonctionne pour vous, c'est le principal, mais si vous avez un peu de temps pour chercher pourquoi la BOM n'est pas transmise ou reconnue, je suis preneur.

Zurga

Offline creusois

  • VIP
  • Sr. Member
  • *
  • Posts: 91
    • View Profile
Re : ged2web > gestion du Charset
« Reply #9 on: November 27, 2021, 18:00:02 »
Il est vrai que lorsque j'étais avec HEREDIS je ne me posais pas la question puisque les caractères étaient tous reconnu dans GENEWEB (que ce soit en local ou à distance) et depuis mon passage chez ANCESTRIS (que je suis loin de regretter  8)) j'ai rencontré ce problème (en local en utilisant GWSETUP sur le port 2316 ... ou bien à distance via SCP)

Je vais être attentif sur le comportement de mes fichiers lors de mes manipalations pour revenir vers vous et vous apporter des éléments de comprehension.

Encore merci.
Creusois
-----------
Ancestris 12.0...............
Java 11.0.12 - build 11.0.12+7-post-Debian-2
Linux 5.10.0-8-amd64
Debian 11 (Bullseye)