Unicode en RIMMF3

Desde la actualización del 06/12/2014 (mediados de diciembre de 2014), todos los datos no -ASCII en RIMMF3 (ya se hayan creado de cero en el programa o se hayan importado) están codificados como '\u'.

Por ejemplo:

\u00E9

donde '00E9' es un número hexadecimal que representa el código UTF-16 del carácter.

Esta codificación de caracteres es compatible con Unicode.

A partir de la actualización del 1 de agosto de 2015 (01/08/2015), la propia aplicación RIMMF soporta la visualización de caracteres Unicode. No hay ningún cambio en la forma de almacenamiento de estos caracteres, sin embargo, siguen estando codificados como '\u'.


Algunas capturas de pantalla para ilustrarlo:

1. La pantalla de diacríticos RIMMF3 entre la actualización del 06/12/2014 y la del 01/08/2015:

2. La pantalla de diacríticos RIMMF3 a partir de la actualización del 01/08/2015

3. Fragmento de texto (snippet) en RDF tanto para #1 como para #2 (a partir de la actualización del 06/12/2014)


RIMMF no Unicode

Los signos diacríticos en los datos generados en las versiones de RIMMF anteriores al 06/12/2014 no son compatibles con Unicode.

Hemos intentado agregar una herramienta de conversión de codificación de caracteres en RIMMF3 al mismo tiempo que añadíamos la ayuda de codificación-u, pero esta herramienta solo funciona con los signos diacríticos más sencillos.

Cómo trabajar con los problemas de codificación

En la actual aplicación RIMMF3 (a partir de la actualización del 01/08/2015), la descarga de datos antiguos con signos diacríticos no codificados como Unicode puede generar una excepción de codificación de caracteres cuando se inicia el programa1).

Cuando esto sucede, la forma de funcionamiento predeterminada es eliminar el registro. RIMMF lo hace moviendo el registro que generó el error de la carpeta de datos al subdirectorio denominado '__history' (_historia).

RIMMF también registra el error en 'RIMMF3.log' (que se encuentra en la carpeta 'RIMMF3'):

08/11/15 8:15:10 PM
EI Indexing Error: Exception trapped processing D:\Demo data\qpq00000036.txt
EI Indexing Error: Exception trapped processing D:\Demo data\qpq00000099.txt
EI Indexing Error: Exception trapped processing D:\Demo data\qpq00000182.txt
EI Indexing Error: Exception trapped processing D:\Demo data\qpq00000183.txt
EI Indexing Error: Exception trapped processing D:\Demo data\qpq00000015.txt
73 records indexed for EI; 5 errors during indexing.

Por desgracia, eliminar el registro de esta manera rompe los enlaces presentes en él.

Para solucionar este problema, hemos añadido una opción con un funcionamiento predeterminado diferente en la actualización del 12/08/2015.

La nueva opción se encuentra en el formulario 'Data options’ (Opciones de datos) al que se accede desde el menú principal:

La nueva opción se denomina:

During EI creation, try to automatically fix character encoding errors [Durante el proceso de creación del EI (Entity Index, Índice de Entidades), intenta corregir de forma automática los errores de codificación de caracteres]

y está habilitada por defecto. Funciona de la siguiente manera: cuando se encuentra una excepción en la codificación de caracteres al iniciar el programa, en vez de quitar el registro de la carpeta de datos, RIMMF intentará solucionar el problema de codificación y guardar el registro.

En el IE (Entity Index, Índice de Entidades), estos problemas de codificación se mostrarán así:

Para solucionar el problema, abra el registro y vuelva a colocar el 'diamante' con el diacrítico correcto

Para una información más completa sobre diacríticos en RIMMF, véase el artículo Diacritics and Unicode (Diacríticos y Unicode).

1)
porque en este momento, cuando se crea el EI (Entity Index, Índice de Entidades), se analiza cada registro
es/details/unicode.txt · Last modified: 2023/06/07 20:39 by 127.0.0.1
Back to top
CC Attribution-Share Alike 4.0 International
Driven by DokuWiki