Tu estás aquí: Inicio > es > labda_personal > proyectos_jmschnei
 

LaBDA
Julian Moreno Schneider

Grupo Labda

Proyectos

TRENDMINER: Large-scale Cross-lingual Trend Mining of Real-time media streams

The recent massive growth in online media and the rise of user-authored content (e.g weblogs, Twitter, Facebook) has lead to challenges of how to access and interpret these strongly multilingual data, in a timely, efficient, and affordable manner. Scientifically, streaming online media pose new challenges, due to their shorter, ...  [+]

Referencia:FP7-ICT 287863
Resumen en español:

The recent massive growth in online media and the rise of user-authored content (e.g weblogs, Twitter, Facebook) has lead to challenges of how to access and interpret these strongly multilingual data, in a timely, efficient, and affordable manner. Scientifically, streaming online media pose new challenges, due to their shorter, noisier, and more colloquial nature. Moreover, they form a temporal stream strongly grounded in events and context. Consequently, existing language technologies fall short onaccuracy, scalability and portability. The goal of this project is to deliver. innovative, portable open-source real-time methods for cross-lingual mining and summarisation of large-scale stream media. TrendMiner will achieve this through an inter-disciplinary approach, combining deep linguistic methods from text processing, knowledge-based reasoning from web science, machine learning, economics, and political science. No expensive human annotated data will be required due to our use of time-series data (e.g. financial markets, political polls) as a proxy. A key novelty will be weakly supervised machine learning algorithms for automatic discovery of new trends and correlations. Scalability and affordability will be addressed through a cloud-based infrastructure for real-time text mining from stream media. Results will be validated in two high-profile case studies: financial decision support (with analysts, traders, regulators, and economists) and political analysis and monitoring (with politicians, economists, and political journalists). The techniques will be generic with many business applications: business intelligence, customer relations management, community support. The project will also benefit society and ordinary citizens by enabling enhanced access to government data archives, summarisation of online health information, and tracking of hot societal issues.

Investigador principal:Paloma Martínez Fernández
Otros investigadores:Isabel Segura Bedmar, Julián Moreno Schneider, Lourdes Moreno López, María González García, María Herrero Zazo, Paloma Martínez Fernández, Ricardo Revert Arenaz,
Año inicio:2013
Año fin:2014
[Enlace]
[-]

MULTIMEDICA: Extracción de Información Multilingüe en Sanidad y su aplicación a documentación divulgativa y científica

El proyecto tiene como objetivo la definición y desarrollo de técnicas de extracción y búsqueda de información a partir de textos en el dominio biomédico, en particular, en dos líneas especiales: en primer lugar, el tratamiento de documentación científica en inglés sobre farmacología y en segundo lugar, el procesamiento ...  [+]

Referencia:TIN2010-20644-C03-01
Resumen en español:

El proyecto tiene como objetivo la definición y desarrollo de técnicas de extracción y búsqueda de información a partir de textos en el dominio biomédico, en particular, en dos líneas especiales: en primer lugar, el tratamiento de documentación científica en inglés sobre farmacología y en segundo lugar, el procesamiento de textos divulgativos sobre salud en idiomas como español y árabe. Estas técnicas de extracción incluyen el reconocimiento de entidades propias del dominio, aplicación de patrones y aprendizaje automático a la extracción de relaciones semánticas de interés, la integración de recursos léxicos específicos de sanidad (UMLS, SNOMED, etc.) para la mejora de aplicaciones. Por otro lado, la información extraída debe organizarse para su utilización en las herramientas de búsqueda e integración de información. Así, para mostrar la viabilidad de las técnicas propuestas se desarrollarán tres prototipos para búsqueda de información: el primero de ellos una aplicación orientada a farmacéuticos para extraer conocimiento sobre interacciones entre fármacos a partir de publicaciones científicas; el segundo prototipo será una herramienta orientada al público en general para buscar información sobre enfermedades y medicamentos; el tercero aplicará la extracción terminológica al corpus paralelo español-árabe para la enseñanza de la terminología en el dominio biomédico.

Investigador principal:Paloma Martínez Fernández
Otros investigadores:Ana M. Iglesias Maqueda, Daniel Sánchez Cisneros, Elena Castro Galán, Isabel Segura Bedmar, José Luis Martínez Fernández, Julián Moreno Schneider, Lourdes Moreno López, María Herrero Zazo, María Teresa Vicente-Díez, Paloma Martínez Fernández,
Año inicio:2011
Año fin:2013
[Enlace]
[-]

BRAVO: Búsqueda de respuestas avanzada multimodal y multilingüe

El proyecto BRAVO está dedicado a investigar en tecnologías para mejora la búsqueda de respuestas tanto con entrada en texto como en voz y cuyo principal resultado es una plataforma para un sistema de búsqueda de respuestas modular que permita medir la mejora de distintas técnicas para clasificación de preguntas, extracción ...  [+]

Referencia:TIN2007-67407-C03-01
Resumen en español:

El proyecto BRAVO está dedicado a investigar en tecnologías para mejora la búsqueda de respuestas tanto con entrada en texto como en voz y cuyo principal resultado es una plataforma para un sistema de búsqueda de respuestas modular que permita medir la mejora de distintas técnicas para clasificación de preguntas, extracción de respuestas, recuperación de pasajes, etc. Entre las técnicas desarrolladas en este proyecto se encuentra SPINDEL, un reconocedor de entidades independiente del idioma que aplica aprendizaje automático basado en boostraping. En el marco del proyecto BRAVO, una de las áreas específicas en las que el equipo de UC3M en la actualidad es en la localización de principios activos de medicamentos e interacciones entre ellos en la literatura médica haciendo uso de UMLS, diccionarios y reglas USAN de denominación de fármacos. Como resultado de este trabajo se dispone de un corpus anotado automática con nombres de fármacos genéricos y otros conceptos biomédicos utilizando la herramienta DrugNer desarrollada en el grupo y manualmente revisado por un experto farmacológico. DrugNer combina información obtenida de UMLS, el programa MetaMap Transfer (MMTx) y las reglas de nomenclatura recomendadas por la Organización Mundial de la Salud (OMS) para identificar y clasificar sustancias farmacológicas

Investigador principal:Paloma Martínez Fernández
Otros investigadores:Ana M. Iglesias Maqueda, Belén Ruiz-Mezcua, César De Pablo Sánchez, Elena Castro Galán, Isabel Segura Bedmar, José Luis Martínez Fernández, Julián Moreno Schneider, Lourdes Moreno López, María Teresa Vicente-Díez, Mario Crespo,
Año inicio:2007
Año fin:2010
[-]

Universidad Carlos III de Madrid