El blog de la empresa vasca Información diaria relevante para tu empresa

16 octubre, 2019
El euskera es el idioma que tiene un mayor número de significados en Wikidata

Se encuentra en el sexto lugar en cuanto al número de lexemas

Se encuentra en el sexto lugar en cuanto al número de lexemas
Ocupa el segundo puesto en cuanto al número de formas de las palabras
Es el principal idioma en cuanto al número de significados

Gracias a la colaboración entre Euskal Wikilarien Kultur elkartea y Elhuyar, de entre todas las lenguas incluidas en Wikidata el euskera se encuentra en el sexto lugar en cuanto al número de lexemas, ocupa el segundo puesto en cuanto al número de formas de las palabras (teniendo en cuenta todas las formas que se crean al declinar cada lexema) y es el principal idioma en cuanto al número de significados, por delante del inglés, el castellano y el francés, entre otros.
Wikidata es una enorme base de datos que se edita de forma colaborativa. Lo gestiona la Fundación Wikimedia, con el fin de utilizarlo en sus proyectos; por ejemplo, en Wikipedia.

 

Se puso en marcha en 2012, y hemos ido alimentándolo progresivamente. Hace dos años, por ejemplo, incluimos alrededor de 6.500 conceptos provenientes del Diccionario Enciclopédico de la Ciencia y la Tecnología, así como varios vídeos de nuestro programa de televisión, Teknopolis.

 

A lo largo de estos últimos años, Wikidata ha comenzado a guardar nuevos tipos de datos, correspondientes a varios idiomas, en una estructura similar al de los diccionarios. Toda esta información se guarda clasificada en tres grupos: raíces de palabras (entradas de diccionario o lexemas), formas (las formas que puede tomar cada palabra en función del caso de declinación) y significados o definiciones.

 

Gracias a la colaboración entre Euskal Wikilariak Kultur Elkartea y Elhuyar, hemos podido incluir en Wikidata un gran número de palabras o lexemas (de la categoría de los sustantivos) de nuestro Ikaslearen Hiztegia, diccionario dirigido especialmente al alumnado. En total, se han añadido 10.000 lexemas, 65 formas de cada uno de estos lexemas (de todos los casos de declinación, en singular, plural e indeterminado) y sus definiciones.

 

Gracias a este trabajo, ahora resulta más fácil identificar las palabras en euskera, por ejemplo, en los textos de Wikipedia, y en un corto plazo se podrán desarrollar nuevas tecnologías a partir de estas bases de datos.

 

El código de programación desarrollado por el grupo de trabajo I+D de Elhuyar para este proyecto está disponible en GitHub.

Innovación 30 julio, 2020
Informe Innobasque de prospectiva 2020

Innovación en colaboración, sostenibilidad y digitalización principales aliadas de las empresas...Leer más

“Orbea es una cooperativa que debe tener, y tiene, luces con foco muy largo”

El fabricante de bicicletas del Grupo Mondragón sortea el impacto de la Covid-19 con solidez,...Leer más

First Lego League España
Innovación 28 julio, 2020
La innovación y el emprendimiento de dos equipos vascos, premiados en First Lego League España

Euskadi es una región puntera en el sector de la innovación, que cuenta con una gran cantera de...Leer más

Innovación 24 julio, 2020
371 entidades vascas consiguen acceder a subvenciones por casi 700 millones del fondo de innovación europeo

  Euskadi es la comunidad autónoma con mayor subvención lograda del programa Horizonte 2020...Leer más

Oveja Latxa Ternua
Empresas vascas participan en diferentes proyectos para poner en valor la lana de oveja latxa en el sector textil

La oveja latxa es un símbolo del País Vasco. Hoy en día hay alrededor de un millón de...Leer más

Linkedin

Información diaria, segmentada por sectores de actividad y
países de interés para tomar las decisiones más
competitivas.

Última hora sobre Nuevas ayudas

Para pymes, para diversificar mercados, becas en el extranjero, licitaciones internacionales, subvenciones a fondo perdido para afinzar la exportación, ayudas para implantaciones o formación específica en internacionalización.

Te interesa ¿verdad?