Welcome to EmergiaTech  
Last update 2009.06.22, 13:07.
[es] [eu]


Today's Selected Articles:

About us

Leer más

Emergiatech, spin-off del Grupo DELi de la Universidad de Deusto está especializada en el procesamiento inteligente de la información basado en ingeniería lingüística. Tiene como objetivo dar respuesta a la creciente demanda de soluciones en el tratamiento eficiente de la información.

Ingeniería lingüística

Leer más

EmergiaTech diseña, desarrolla e implanta soluciones a las diferentes necesidades de nuestros clientes a través de productos como Buscadores semánticos, Gestión inteligente de información, Gestión de contenidos multilingües, Traducción automática, y Respuestas inteligentes a preguntas (Q/A).

Semantic Web

Leer más

EmergiaTech produces and markets products, solutions and services related to semantic technologies. The aforementioned technologies are perfect for any organisation interested in an intelligent exploitation of its information by means of the computational understanding of the data's meaning.

BasqueLem, the Basque Stemmer

BasqueLem

BasqueLem, the new Basque stemmer, is already here.

BasqueLem will allow to identify the canonic form of any Basque word and find its grammatical category as well as the inflection or derivation that generates it. Among the most outstanding characteristics BasqueLem has, we can mention its speed.

This speed is obtained by means of reducing the application of rules to the minimum.

Read more

KnowBoard

Big Image

KnowBoard is capable of building a representation of the content documents contain by means of Natural Language Processing technologies. Moreover, it is also capable of using this knowledge in order to facilitate the finding of the needed information.

KnowBoard simplifies the search and finding of information: it allows to surf through the concepts the database contains and it collaborates with the user in the task of refining and finding the documents searched.

Read more

Today's Selected Article

Posted on 2008.03.14, 09:56 | by Edurne Andrés

Big Image CATS, un sistema de resumen multidocumental

CATS es un sistema de resumen multidocumental desarrollado por la Universidad de Montreal para DUC 2005 (Document Understanding Conferences) que utiliza la extracción de oraciones para crear resúmenes de 250 palabras.

Este sistema se encarga de producir un resumen integrado a un nivel de granularidad concreto a partir de un conjunto de documentos que tratan sobre un determinado tema. El resumen se lleva a cabo en varias fases:

En primer lugar, CATS realiza un análisis temático de los documentos relacionando los temas de los que tratan con los temas reconocidos en la pregunta inicial. De esta forma, CATS identifica una lista de segmentos temáticos que contienen aspectos interesantes relacionados con el tema. Posteriormente, se seleccionan los segmentos que más interesan rechazando los que sean similares ya que estos últimos suelen provenir de distintos documentos que versan sobre un mismo tema. Finalmente, para mejorar la coherencia del resultado final, se identifican las expresiones de tiempo y se reemplazan las referencias temporales relativas.

¿Cómo procesa este sistema?

Según explican Farzindar, Rozon y Lapalme, el procesamiento de CATS consta de varias fases:

1) Análisis de la/s pregunta/s
La pregunta o preguntas de las que parte CATS para la realización del resumen han de versar sobre un determinado tema y han de especificar la granularidad que se espera del resumen (éste puede ser específico o general). El análisis de las cuestiones se lleva a cabo en dos pasos: la identificación del tipo de entidades citadas y la división de las oraciones en elementos básicos.

2) Análisis de los documentos:
El análisis de los documentos determina qué información es importante para incluirla en el resumen y se realiza después de llevar a cabo un preprocesamiento en el que identifica la fecha de publicación del texto y se divide en párrafos.

3) Puntuación de las oraciones.
La puntuación y la selección de las oraciones son dos fases importantes en este sistema de resumen automático. En primer lugar, antes de calcular la puntuación de las oraciones hay que realizar una filtración a nivel de segmentos temáticos. Después, a cada oración se le atribuye una puntuación en un corpus asociado a la pregunta. Dicha puntuación es una combinación lineal de las siguientes siete medidas (todas normalizadas a un valor entre 0 y 1):

  • Elementos básicos. Se comparan los elementos básicos en las oraciones de la pregunta con aquellos elementos básicos en las oraciones del corpus. Se computa una puntuación basada en la similitud de las palabras en los constituyentes que componen los elementos básicos de las dos oraciones.
  • Función del coseno. Se computa la función del coseno en las oraciones de la pregunta y en las oraciones del corpus.
  • Peso de la oración.
  • Posición absoluta. Es la puntuación basada en la posición en el texto.
  • Posición relativa. Es la puntuación basada en la posición en el párrafo.
  • Entidades citadas. Se cuenta el número de entidades citadas en la oración del corpus que tienen la misma categoría que la entidad citada de la pregunta.
  • Expresiones prototípicas. Se computa el número de expresiones prototípicas en las oraciones. Estas expresiones indican las oraciones que tienen una probabilidad má salta de contener información importante. Por otra parte, se incrementa un contador por cada expresión prototípica que se encuentre en la oración.

Finalmente, las oraciones se clasifican de mayor a menor puntuación.

La falta de información superflua es un rasgo importante de un buen resumen así que se han de eliminar las oraciones que contengan mucha información similar a otras oraciones. Para hacer esto, se utiliza de nuevo la función coseno, una función que ayuda decidir si dos oraciones son similares basándose en un umbral empírico determinado. Además, también se comparan las entidades citadas en las dos oraciones, ya que éstas son un buen indicador para saber si dos oraciones hablan de lo mismo.

4) Post-procesamiento. Para obtener un resumen más conciso y coherente se eliminan las partes menos importantes y se reemplazan ciertas expresiones por otras más concisas.

5) Selección de oraciones. Mediante un algoritmo se eligen las oraciones con la puntuación más salta de las que hemos seleccionado hasta que el resumen tenga como máximo 250 palabras. Finalmente, dichas oraciones se clasifican por fecha y en orden creciente.

Conclusión sobre CATS

Como conclusión se puede decir que CATS es un buen sistema de resumen automático que mediante técnicas estadísticas y algoritmos crea fácilmente resúmenes de 250 palabras. A pesar de ello y tal y como afirman Farzindar, Rozon y Lapalme, este sistema se podría mejorar sobre todo en dos aspectos como son la compresión de las oraciones y la distinción de las dos granularidades. Además, también se podría mejorar la selección de oraciones si, por ejemplo, se identificasen las palabras clave de la pregunta y cada segmento temático en los documentos, y se comparasen las dos listas.

Referencia

- Farzindar, Atefeh, Rozon Frédérik y Lapalme, Guy. 2005. CATS a topic-oriented multi-document summarization system at DUC 2005. RALI-DIRO Université de Montrèal.