El blog de la empresa vasca Información diaria relevante para tu empresa

16 octubre, 2019
El euskera es el idioma que tiene un mayor número de significados en Wikidata

Se encuentra en el sexto lugar en cuanto al número de lexemas
Ocupa el segundo puesto en cuanto al número de formas de las palabras
Es el principal idioma en cuanto al número de significados

Gracias a la colaboración entre Euskal Wikilarien Kultur elkartea y Elhuyar, de entre todas las lenguas incluidas en Wikidata el euskera se encuentra en el sexto lugar en cuanto al número de lexemas, ocupa el segundo puesto en cuanto al número de formas de las palabras (teniendo en cuenta todas las formas que se crean al declinar cada lexema) y es el principal idioma en cuanto al número de significados, por delante del inglés, el castellano y el francés, entre otros.
Wikidata es una enorme base de datos que se edita de forma colaborativa. Lo gestiona la Fundación Wikimedia, con el fin de utilizarlo en sus proyectos; por ejemplo, en Wikipedia.

 

Se puso en marcha en 2012, y hemos ido alimentándolo progresivamente. Hace dos años, por ejemplo, incluimos alrededor de 6.500 conceptos provenientes del Diccionario Enciclopédico de la Ciencia y la Tecnología, así como varios vídeos de nuestro programa de televisión, Teknopolis.

 

A lo largo de estos últimos años, Wikidata ha comenzado a guardar nuevos tipos de datos, correspondientes a varios idiomas, en una estructura similar al de los diccionarios. Toda esta información se guarda clasificada en tres grupos: raíces de palabras (entradas de diccionario o lexemas), formas (las formas que puede tomar cada palabra en función del caso de declinación) y significados o definiciones.

 

Gracias a la colaboración entre Euskal Wikilariak Kultur Elkartea y Elhuyar, hemos podido incluir en Wikidata un gran número de palabras o lexemas (de la categoría de los sustantivos) de nuestro Ikaslearen Hiztegia, diccionario dirigido especialmente al alumnado. En total, se han añadido 10.000 lexemas, 65 formas de cada uno de estos lexemas (de todos los casos de declinación, en singular, plural e indeterminado) y sus definiciones.

 

Gracias a este trabajo, ahora resulta más fácil identificar las palabras en euskera, por ejemplo, en los textos de Wikipedia, y en un corto plazo se podrán desarrollar nuevas tecnologías a partir de estas bases de datos.

 

El código de programación desarrollado por el grupo de trabajo I+D de Elhuyar para este proyecto está disponible en GitHub.

Innovación 28 mayo, 2020
Las empresas vascas podrán acceder el 13 y 16 de junio a las ayudas de Internacionalización e Innovacion del Grupo SPRI

Grupo SPRI abrirá los días 13 y 16 de junio los plazos de solicitud de las primeras ayudas de...Leer más

Bexen Medical se convertirá en las próximas semanas en una de las mayores productoras de mascarillas del Estado
Innovación 25 mayo, 2020
La empresa guipuzcoana Bexen Medical se convertirá en una de las mayores productoras de mascarillas del Estado

Es tal la dimensión de las solicitudes, que al llamar a la empresa una voz explica que todas las...Leer más

Lantegi Batuak generó 207 millones de euros en Valor Social Integrado en 2019

  La entidad ha generado 127 nuevos empleos para personas con discapacidad   A...Leer más

Innovación 22 mayo, 2020
Entrevista con Iñigo Ucín, presidente de Corporación Mondragón

Ante la amenaza real de un mayor empobrecimiento y un incremento del desempleo, el mayor grupo...Leer más

Linkedin

Información diaria, segmentada por sectores de actividad y
países de interés para tomar las decisiones más
competitivas.

Última hora sobre Nuevas ayudas

Para pymes, para diversificar mercados, becas en el extranjero, licitaciones internacionales, subvenciones a fondo perdido para afinzar la exportación, ayudas para implantaciones o formación específica en internacionalización.

Te interesa ¿verdad?