El buscador perfecto en español

Internet. Un equipo de programadores y filólogos desarrolla herramientas para facilitar la navegación por la Red

JOSÉ MARÍA MATEOS MADRID 11/03/2010 08:00

Si en algún momento del futuro apareciese en castellano el verbo ofuseír, sea cual sea su significado, podemos asegurar que la primera persona de singular del presente de indicativo tomará la forma de "yo ofusío". Al menos, esa es la conjugación proporcionada por Onoma, el primer conjugador automático de lengua española que funciona a partir de un infinitivo dado, aunque este sea inventado, informando además de las irregularidades del verbo en cuestión. Este proyecto, desarrollado por la empresa española El Molino de Ideas, fue presentado recientemente en el CosmoCaixa de Alcobendas (Madrid).

El equipo programador, formado por ingenieros, filólogos y lingüistas, ha descubierto siete rasgos de las formas verbales que determinan que se produzca una irregularidad por ejemplo, que la sílaba tónica esté en la raíz del verbo y ha agrupado estas en únicamente cinco grupos diferenciados. El resultado de esta investigación es el software que se puede utilizar gratuitamente desde su página web.

Además, las ideas lingüísticas que hay detrás del conjugador están explicadas en El verbo en español. Construye tu propio verbo 1.0, un libro descargable de forma gratuita desde la web de El Molino y licenciado mediante Creative Commons. Se espera que este método de publicación permita que el trabajo desarrollado pueda llegar a más gente que si se hubiese optado por el modelo editorial clásico. "Primero, porque nos parece interesante: es una cosa que hemos descubierto y lo queremos compartir. Y luego, desde el punto de vista de la empresa, nos parece que preferimos invertir en prestigio para que El Molino sea conocido a esperar a que salga algo, ya que las editoriales no se están moviendo", afirma Eduardo Basterrechea, director general de El Molino y cofundador de la misma hace casi dos años junto con Miguel Ángel Jorge. Los editores, por el momento, "están observando". Han tenido conversaciones con Anaya y SM.

Pero Onoma, aún siendo el motivo de la presentación, no fue la estrella del evento. El objetivo de El Molino, tal y como se desveló al final de la presentación, es el desarrollo de un buscador que comprenda el lenguaje natural, sea capaz de entender la pregunta que realiza el usuario y ofrezca la respuesta basándose en lo que el sistema ha aprendido de forma automática, navegando por la red como lo haría una persona de carne y hueso. Este proyecto recibe el nombre de Ishmov (en homenaje a Isaac Asimov) y las previsiones de la empresa apuntan a que podría empezar a utilizarse a finales de 2011. Todo surge de un proceso de investigación lingüística: "En el fondo lo que queremos es entender el lenguaje humano, y creemos que el mejor negocio que hay es el buscador", comenta Basterrechea. Microsoft ya ha expresado su interés por este proyecto, aunque aún no se ha concretado nada.

Diferente a todo

El concepto suena similar a Wolfram Alpha (un buscador inteligente ideado por el físico británico Stephen Wolfram), pero va más allá: "Es algo completamente diferente. En nuestro caso queremos crear una especie de Wikipedia, pero hecha automáticamente por la máquina. Queremos que la máquina sea la que vaya investigando y encontrando soluciones, y que nos responda con ellas."

Hay más proyectos que han surgido en el camino hacia el buscador y que se encuentran en distintas etapas de desarrollo: Plankton, un corpus etiquetado de palabras en español; y Ashmera, un analizador morfológico y semántico.

"Nuestra idea era ir generando proyectos e ir vendiéndolos. Este proyecto [Onoma], más Ashmera, más Plankton, están pensados así. Lo ideal sería que llegase alguien y nos comprase el conjugador y el libro. Con el dinero seguiríamos desarrollando Ishmov", dice Basterrechea. Aunque a corto plazo el asunto de la financiación está resuelto, es un tema importante para una empresa que se dedica en exclusiva a investigar y desarrollar proyectos propios en el campo de la lingüística computacional. "Hay dos tipos de empresa: una que realiza un proyecto y luego lo explota, y empresas que los hacen porque se los encargan. Nosotros tenemos ideas, las desarrollamos y las vendemos", explica el director.

Adaptación a otras lenguas

Por el momento, Onoma solamente funciona con el español, aunque la adaptación a otras lenguas es un proyecto futuro. Luz Rello, responsable del área de lingüística, aclara que "en principio, se puede hacer con idiomas que se parezcan al español: lenguas románicas, porque se basa en la morfología del verbo. Con inglés no es posible porque la morfología del verbo es más simple, la modelización tendría que trascender hacia el nivel sintáctico más que a la morfología".

Hasta el momento, la investigación ha proporcionado resultados para publicar en revistas científicas, como explica Rello: "Tenemos dos futuras publicaciones, una en la Asociación Norteamericana de Lingüística Computacional; ahí publicaremos cómo se procesan los neologismos. La segunda publicación la queremos hacer en la Asociación de Lingüística Computacional, y ahí vamos a presentar el conjugador".

11 Comentarios
  • Bedri
    #2 Vota Vota

    8 i Bedri 11-03-2010 10:09

    Solo si creemos que las lenguas en lugar de servir para comunicarnos sirven para no entendernos.

  • PREingenieros
    #10 Vota Vota

    4 i PREingenieros 15-03-2010 20:49

    Cada vez hay más empresas de software y dedicadas al mundo de Internet que apuestan por traductores fidedignos.

    El otro día apareció en el New York Times una noticia similar: tomaban un fragmento de varias obras literarias y en una columna ponían la versión original, en otra una traducción automática (como el traductor de Google) y en otra una traducción humana. Entre las obras seleccionadas estaban "Le petit prince" y "Cien años de soledad".

    Un buen traductor automático, que sepa conjugar bien los verbos, que no cometa errores, etc., es el futuro. Para los que escribimos en una página web sería una herramienta espléndida: escribes en tu lengua materna pero cualquier internauta puede leerte en su lengua.

    http://www.preingenieros.com

  • Almenara
    #9 Vota Vota

    2 i Almenara 15-03-2010 01:06

    Según la Asociación de Academias de la Lengua Española, español y castellano son oficialmente sinónimos. Claro que el catalán, vasco y gallego también son lenguas españolas, es algo compatible. ¿Por qué creamos polémicas donde no las hay?

  • luisitirrin
    #6 Vota Vota

    1 i luisitirrin 11-03-2010 17:03

    A ver, la torre de Babel es una metáfora por la que la Humanidad hablando una sola lengua y unidos en el mismo empeño eran capaces de construir una torre que llegaba hasta el infinito. Pero eso, a Dios, que nos hizo a su imagen y semejanza pero que no permite que nos pongamos a su altura(¿a que me suena esto?) le pareció tan avasallador que creó todas las lenguas del mundo para confundirnos y dividirnos. Nada, que nadie quiere bajarse del burro. El día que el burro se emancipe...

  • Espectador social
    #4 Vota Vota

    0 i Espectador social 11-03-2010 12:46

    Respondiendo a enrique2.- Verás en Francia, no existe ninguna división territorial llamada así. Tampoco en Alemania existe ningún estado que se llame alemán. Sin embargo si existe una división territorial en España que se llama castilla, de ahí que lo que hablan en la misma se denomine castellano. Resulta también que existen en lo que llamamos España, otras lenguas a las que cabe denominar como españolas, pues se hablan en el territorio que engloba a ésta.

    Tampoco entiendo que sea tan difícil comprender que haya gentes con una sensibilidad diferente a la de la España, Una, Grande y Libre que nos transmitieron de niños, con todo lo que ello conlleva. No deja de resultar curioso que los nacionalistas españoles, le nieguen el pan y la sal a los nacionalistas catalanes, vascos o gallegos... como si sólo ellos tuvieran derecho a sentirse nacionalistas.

    Yo, que no comulgo con ideas nacionalistas, observo divertido, como para unos su nacionalismo es válido y el de los demás no lo es... si esto lo llevamos al plano de las lenguas no es difícil entender porqué no se abrió camino un proyecto esperanzador, como lo fue el esperanto, para rebasar de una vez las estrechas miras de los nacionalistas.

  • LUIS MIGUEL
    #11 Vota Vota

    -1 i LUIS MIGUEL 15-03-2010 21:10

    Soy de Zaragoza y hablo el español, el de la Real Academia de la Lengua Española. Manuko el español tiene cientos de palabras arabes, como acera, acequia, carroza, etc. ,el castellano será la legua madre pero nadie la habla ni siquiera "vuesa merced". Es increible que en España no se hable español y en America si.

  • luisitirrin
    #8 Vota Vota

    -1 i luisitirrin 13-03-2010 14:37

    Cuando los Reyes Católicos unificaron España y el castellano comenzaron a realizar políticamente el imperio español que Carlos V llevó hasta Flandes(en Europa). El castellano comenzó a llamarse español en la Europa conquistada pues era señal de prestigio conocer nuestra lengua, y en Francia, Italia y Flandes se traducían al español obras literarias, gramáticas y diccionarios, pues eran territorios bilingües. Con la colonización de América el español adquirió categoría de idioma universal.

  • Manuko
    #7 Vota Vota

    -1 i Manuko 12-03-2010 04:59

    enrique2, deja de crear falsas polémicas españolistas. El Castellano se llama español fuera de España porque proviene de España, y en España, se llama castellano porque proviene de Castilla. Por lo demás, "castellano" y "español" son simples sinónimos.

    Yo soy de Madrid, y para nada nacionalista, y considero que mi idioma original es el castellano. Personalmente, considero que el español es otra cosa, una lengua más completa e internacional que incluye miles de modismos que no se utilizan en España.

    Aparte, actualmente se identifican cinco lenguas españolas (castellano, catalán, aranés, euskera y galego), por eso la diferenciación es necesaria. Que haya quien no quiera reconocer las lenguas territoriales como lenguas españolas, y por lo tanto insista en decir que el castellano es el único y hegemónico idioma español, es una cuestión completamente distinta que no tiene nada que ver con la lengua.

  • enrique2
    #5 Vota Vota

    -5 i enrique2 11-03-2010 15:05

    Espectador social: En Francia existe una division territorial como Corcega que se habla corso y la lengua d'oil (perdon si no se escribe así) tampoco se denominó en origen Francés y hoy es el Francés... y como esto cien mil. El castellano o español es conocido como tal en el resto del mundo y aquí antes del empuje de los nacionalismos.

    Para no ser tú nacionalista tienes la posición más tipicamente del nacionalista periférica: que es achacar cualquier expresion de la realidad que incomode y no digamos cuando se ataca al nacionalismo o es politicamente incorrecta a las ideologias de derecha, y lo peor, hacer analogias con el fascismo de lo que ellos, y no sé si tu también, tienen mas puntos en común que yo, que por supuesto no soy nacionalista.

  • luisitirrin
    #1 Vota Vota

    -10 i luisitirrin 11-03-2010 09:49

    ¿Algún día demostraremos que la torre de Babel es posible?.

  • enrique2
    #3 Vota Vota

    -13 i enrique2 11-03-2010 12:20

    Me alegra que se llame español, y sobre todo en este periodico, al castellano o español como ocurre en todo el mundo, excepto en Españo desde hace más de veinte años para no molestar a los nacionalistas. Lo que no entiendo es porque se cabrean los nacionalistas cuando nos referimos al castellano por su otra acepción o sinónimo reconocido.

    Con respecto al buscador en sí yo creo que hace mucho tiempo que esto técnicamente está resuelto y solo faltaba ponerse a trabajar; mas que investigación es desarrollo.

Cargando...

Cargando

Generado: 2012-05-28 23:24:03