El grupo holandés trabaja en la digitalización de archivos de colaboradores creados después de la Segunda Guerra Mundial


Archivos digitalizados en el Proyecto de Archivos de Tribunales Holandeses (Triado)

El proyecto Triad comenzó hace tres años, con el objetivo

"Por supuesto, no somos los primeros en trabajar en esto, pero queríamos averiguar qué podríamos hacer con la tecnología disponible". especialmente para la Colección del CABR Central del Archivo Nacional, Edwin Klijn .

Este archivo fue creado poco después y contiene se sospechaba que los archivos de 300,000 personas colaboraban con los ocupantes alemanes en la Segunda Guerra Mundial.

"Un archivo de perpetradores, como se lo llama en la jerga profesional", dijo.

Además, probablemente sea t El archivo más importante sobre la Segunda Guerra Mundial en los Países Bajos.

"Queríamos ver si podíamos hacer 13 metros de los archivos, que contienen principalmente documentos mecanografiados, pero también escritos a mano, legibles por máquina, cuál es el margen de Klijn

Paquetes de software

ABBYY FineReader y Tesseract. "ABBYY es en realidad solo reconocimiento óptico de caracteres (OCR), pero Tesseract ya aprendió más aprendizaje automático", dijo.

Además de digitalizar, se puede encontrar otro objetivo a nivel de documento

"Intentamos extraer nombres de personas, nombres de lugares y fechas del texto legible por máquina utilizando el reconocimiento de entidad con nombre", dijo Klijn.

para víctimas de persecución (NDVS) creado por el Centro de Recuerdos Camp Westerbork y el Barrio Cultural Judío ".

Esta base de datos contiene todos los nombres de personas que fueron perseguidas durante la guerra. "Esperamos reconocer nombres del NDVS en nuestro archivo digitalizado de 13 metros". Esto resulta en algunos casos, debido al hecho de que están en los archivos de los perpetradores, muchos nombres de las víctimas también, por supuesto ".

El gran margen de error del software al reconocer nombres es sorprendente dijo Klijn.

Clasificación automática

Además del enriquecimiento, se llevaron a cabo experimentos para identificar ciertos tipos de documentos. El CABR contiene muchos documentos estándar y predecibles, como tarjetas de membresía, estados de inteligencia e informes oficiales.

"Teníamos un puntaje de 80% correcto y 20% incorrecto", dijo Klijn. "Bueno, hay mucho margen de mejora en los proyectos de seguimiento.

La ventaja de este experimento de autoclasificación es que es posible recuperar tipos específicos de documentos del archivo

Grandes desafíos

"Finalmente, al final del proyecto, creamos un prototipo, un sitio web interno donde podemos buscar el archivo de 13 metros que hemos digitalizado, "Dijo Klijn. El archivo contiene material público limitado, por lo que no es posible hacer que el archivo sea accesible desde el exterior. Pero el prototipo mostró lo que es concretamente posible con colecciones y archivos de textos históricos digitalizados.

"Voy a continuar con las nuevas tecnologías y el resto de los archivos", dijo.

"Es un archivo increíblemente sensible, no solo por los nombres". contiene, pero también por su carácter: un 'archivo de perpetrador'. Aparte de eso, sospecho que otro desafío importante radica en la tecnología y la infraestructura. Digitalizar todo el archivo llevaría unos seis años.

"Es por eso que es esencial tener en cuenta el desarrollo progresivo de la tecnología y por qué se debe establecer una infraestructura que permita innovar continuamente", dijo Klijn.

Por ejemplo, hoy, Transkribus también está disponible, que es cómo leer el resto de los documentos sobre la base de documentos escritos a mano. ] "Desafortunadamente, en 2016, cuando comenzamos el proyecto, el software aún no estaba completamente desarrollado, por lo que no trabajamos con él", dijo. "Optamos por productos estándar y medimos el margen de error. En el caso del material escrito, resultó ser del 15%. Así que todavía hay margen de mejora.

"La reescritura fue libros

Es importante que los archivos de este tipo están disponibles, por ejemplo, para investigación en humanidades. Los miembros de la familia, pero los historiadores, quieren usar estos datos para hacer preguntas sobre los archivos o para probar los antiguos.

Es una enorme cantidad de datos nuevos de una fuente original texto

"Sospecho que esta información se reescribirá", dijo Klijn. "Significa que los investigadores, científicos e historiadores tienen que adaptar su caja de herramientas.

Triado muestra que las nuevas tecnologías tienen mucho que ofrecer para digitalizar y desbloquear archivos. Esto es muy revolucionario en el sector de archivo holandés, porque significa que es posible buscar hasta el nivel de documento.

"Si no puede encontrar el archivo CABR, este será un proyecto gigantesco", dijo.

"No debemos subestimar eso", dijo Klijn. "Pero una vez más, no puedo esperar. No son solo las manos las que pican, sino también las manos de las personas de mi equipo de proyecto "



Software trazabilidad de Cea Ordenadores