Lingua Finder | Instituto de Filología y Literaturas Hispánicas "Doctor Amado Alonso"

13/03/2017 - De 18:00 hasta 19:30

El Grupo de Estudio de Lingüística Formal del Instituto de Filología y Literaturas Hispánicas "Dr. Amado Alonso" invita a la charla que darán la Prof. Andrea Bohrn (UBA, UNGS) y el Ing. Pablo Scolpino (UTN) titulada "Lingua Finder: herramienta para la búsqueda de datos lingüísticos en internet". El encuentro se realizará el lunes 13 de marzo, de 18.00 a 19.30 en la sede del Instituto (25 de Mayo 217, primer piso).

Presentamos el Lingua Finder (LF), un programa de código libre, diseñado para la extracción de datos lingüísticos que utiliza internet como corpus. El criterio de búsqueda del LF permite la búsqueda de ítems léxicos y sus contextos (gato <?>; café <?>; boicot <?>) y de construcciones sintagmáticas de tipo categorial, basadas en concordancia gramatical (<artículo femenino> <nombre femenino>; <artículo femenino/masculino> <nombre> <?>). Posibilita el trabajo con la estructura subléxica de la palabra, a través de morfemas derivativos, flexivos o apreciativos (<?ción>; <?miento>; <?ción/miento>; <cito>), lo que constituye un criterio de búsqueda novedoso. Como resultado, es posible obtener sintagmas o contextos oracionales que constituyen una base de datos donde también se registra el link de la página de la que proviene la unidad. Cada uno de los resultados de la búsqueda (página web, documento, etc.) es parseado, de acuerdo con el criterio solicitado, y, de encontrarse el contexto o ítem solicitado, se registra la ocurrencia, para luego generar el reporte de resultado. Asimismo, debemos mencionar que el LF cuenta, en su constitución, con una base de datos morfológica y un sistema de marcaje categorial lo que permite la construcción de los criterios de elicitación. A diferencia de otros sistemas de búsqueda que cuentan con sus propios corpus (Corde, Crea, Corpus de Davis), el Lingua Finder explota internet en su totalidad, sin restricción de género discursivo y permitiendo el acceso a formas próximas a la oralidad, lo que resulta relevante para la descripción de las variedades del español, entre otras finalidades ulteriores. En tanto programa de código abierto presenta acceso irrestricto, por lo que puede contribuir a múltiple investigaciones en el campo.

Ver más noticias