María González García (Proyectos)

The recent massive growth in online media and the rise of user-authored content (e.g weblogs, Twitter, Facebook) has lead to challenges of how to access and interpret these strongly multilingual data, in a timely, efficient, and affordable manner. Scientifically, streaming online media pose new challenges, due to their shorter, noisier, and more colloquial nature. Moreover, they form a temporal stream strongly grounded in events and context. Consequently, existing language technologies fall short onaccuracy, scalability and portability.

The goal of this project is to deliver. innovative, portable open-source real-time methods for cross-lingual mining and summarisation of large-scale stream media. TrendMiner will achieve this through an inter-disciplinary approach, combining deep linguistic methods from text processing, knowledge-based reasoning from web science, machine learning, economics, and political science. No expensive human annotated data will be required due to our use of time-series data (e.g. financial markets, political polls) as a proxy. A key novelty will be weakly supervised machine learning algorithms for automatic discovery of new trends and correlations. Scalability and affordability will be addressed through a cloud-based infrastructure for real-time text mining from stream media.

Results will be validated in two high-profile case studies: financial decision support (with analysts, traders, regulators, and economists) and political analysis and monitoring (with politicians, economists, and political journalists). The techniques will be generic with many business applications: business intelligence, customer relations management, community support. The project will also benefit society and ordinary citizens by enabling enhanced access to government data archives, summarisation of online health information, and tracking of hot societal issues.

  • Referencia: FP7-ICT 287863
  • Financiación: European Commission
  • Tipo de proyecto: publico
  • Estado: activo
  • Investigador principal: Paloma Martínez Fernández
  • Otros investigadores: Paloma Martínez Fernández, Lourdes Moreno, Isabel Segura Bedmar, Julián Moreno Schneider, María González García, María Herrero Zazo, Ricardo Revert Arenaz
  • Duración: -
  • http://www.trendminer-project.eu/

El Consorcio MAVIR es una red de investigación co-financiada por la Comunidad de Madrid y el Fondo Social Europeo bajo los programas de I+D en TIC MA2VICMR (2010-2013) y MAVIR (2006-2009) formada por un equipo multidisciplinar de científicos, técnicos, lingüistas y documentalistas para desarrollar un esfuerzo integrador en las áreas de investigación, formación y transferencia de tecnología.

El núcleo del consorcio está formado por siete grupos de investigación de universidades y centros de la Comunidad de Madrid que, desde un perspectiva pluridisciplinar, se complementan en varias dimensiones: mundo académico vs. mundo profesional, investigación vs. oferta de servicios, generación de recursos vs. aplicaciones:
•Laboratorio de Cibermetría (CybermetricsLab-CSIC)
•Human Language Technologies & Information Retrieval (HLT&IR-UAM)
•Laboratorio de Bases de Datos Avanzadas (LABDA-UC3M)
•Grupo de Sistemas Inteligentes (GSI-UEM)
•Natural Language Processing and Information Retrieval Group (NLP&IR-UNED)
•Tecnologías de Audio, Habla y Lenguaje Natural en Sistemas Inteligentes (THALES-UPM)
•Grupo de Algorítmica aplicada a la Visión Artificial y la Biometría (GAVAB-URJC)

  • Referencia: S2009/TIC-1542
  • Financiación: Programas de I+D de la Comunidad de Madrid y FSE
  • Tipo de proyecto: publico
  • Estado: activo
  • Investigador principal: Paloma Martínez Fernández
  • Otros investigadores: Paloma Martínez Fernández, María González García, María Herrero Zazo
  • Duración: -
  • http://www.mavir.net

BUSCAMEDIA es un proyecto que trata la investigación en múltiples líneas paralelas para la consecución de un verdadero buscador multimedia semántico, basado en una ontología multilingüe, multidominio y multimedia revolucionaria definida en el proyecto que permita adaptarse dinámicamente a cualquier red, terminal, contexto y usuario, ya sea profesional o simplemente un usuario que quiera compartir sus fotos, vídeos o blog con su red social. El grupo de Bases de Datos Avanzadas es OPI de la empresa DAEDALUS y nuestro papel en el paquetes de trabajo PT5:Búsqueda semántica con interacción en lenguaje natural y en concreto en las tareas 5.1:Sistemas de búsqueda basados en lenguaje natural y 5.2: Interpretación de consultas multilingües por voz. BUSCAMEDIA cuenta con un consorcio con amplia experiencia y con una contrastada trayectoria en la investigación a realizar, compuesta por grandes empresas, PYMES y OPIs. En BUSCAMEDIA participan empresas líderes en su sector como: ATOS, ACTIVA MULTIMÈDIA, GFI, INDRA, DAEDALUS, FRACTALIA, BMAT, ISID, ISOCO, CCMA y BILBOMÁTICA, con la colaboración de los organismos públicos de investigación: UPM, ROBOTIKER, UPF, UC3M, UNED, UPC, FUNDACIÓN MEDIA BARCELONA UPF y Fundación CTIC.

  • Referencia: CEN-20091026
  • Financiación: DAEDALUS S.A dentro del SUBPROGRAMA DE APOYO A CONSORCIOS ESTRATÉGICOS NACIONALES DE INVESTIGACIÓN TÉCNICA (CENIT-E), CEN-20091026
  • Tipo de proyecto: Público
  • Estado: Activo
  • Investigador principal: Paloma Martínez Fernández
  • Otros investigadores: Paloma Martínez Fernández, Dolores Cuadra Fernández, Lourdes Moreno, Elena Castro Galán, Ana M. Iglesias Maqueda, Francisco Javier Calle Gómez, Harith AlJumaily, César De Pablo Sánchez, Isabel Segura Bedmar, María Teresa Vicente-Díez, David del Valle Agudo, José Luis Martínez Fernández, Jesica Rivero Espinosa, Daniel Sánchez Cisneros, María González García, María Herrero Zazo
  • Duración: -
  • http://www.cenitbuscamedia.es

El objetivo principal del proyecto es el diseño y desarrollo de un sistema que implemente un proceso de generación automática de subtítulos para grabaciones de vídeo o audio acompañadas de una transcripción fiel (guión).
Se quiere desarrollar un prototipo para una herramienta de soporte al subtitulado de contenidos audiovisuales en diferido (películas, documentales, series, etc.) para diversos medios: televisión, Internet y dispositivos móviles. En este contexto, se denomina subtitulado en diferido, off-line (fuera de línea) o enlatado porque no se trata de un proceso en tiempo real sino que se realiza previamente, en principio sin necesidades temporales.
Este soporte consiste en la automatización del proceso de sincronización del guión con el audio mediante la adición de marcas de tiempo, así como el tratamiento de revisión de errores y la segmentación del texto en subtítulos conformes a la normas de calidad establecidas.

  • Referencia: Proyecto Avanza - TSI-020100-2010-184
  • Financiación: Ministerio de Industria, Turismo y Comercio (proyecto AVANZA)
  • Tipo de proyecto: publico
  • Estado: activo
  • Investigador principal: Lourdes Moreno
  • Otros investigadores: Paloma Martínez Fernández, Lourdes Moreno, Ana M. Iglesias Maqueda, José Luis Martínez Fernández, Belén Ruiz-Mezcua, María González García
  • Duración: -
  • http://labda.inf.uc3m.es/sagas