Ongi etorri Emergiatechera  
Azkenengo gaurkotzea 2009.06.22, 13:07.
[en] [es]


Gaurko artikulu interesgarriak:

Nor garen

Leer más

EmergiaTech enpresak oinarri zientifikoa eta teknologikoa du. Bere helburua produktuak ekoiztu eta merkaturatzea da; halaber, informazio sistemen negozio ezarpenen zerbitzuak eta konponbideak eskaintzeaz batera, merkatuko estandar teknologikoen bidezko eragingailu industrialen interoperabilitatea ahalbidetzea.

Ingeniería lingüística

Leer más

EmergiaTech diseña, desarrolla e implanta soluciones a las diferentes necesidades de nuestros clientes a través de productos como Buscadores semánticos, Gestión inteligente de información, Gestión de contenidos multilingües, Traducción automática, y Respuestas inteligentes a preguntas (Q/A).

web semantikoa

Leer más

EmergiaTechek teknologia semantikoekin harremana duten produktuak, konponbideak eta zerbitzuak sortu eta komertzializatzen ditu. Teknologia horiek datuen esanahiaren ulermen konputazionalaren bidez haien informazioa modu argian lantzea nahi duen edozein erakundearentzat idealak dira.

BasqueLem, euskararako lematizatzailea

BasqueLem

Euskararako lematizatzailea jaio da: BasqueLem.

BasqueLemek euskarazko edozein hitzen forma kanonikoa identifikatuko du eta zein den kategoria gramatikala aztertuko du.

BasqueLemen ezaugarri nagusien artean azkartasuna dugu, hori arauen aplikazioa ahalik eta gutxien erabiltzearen eta 55.000 lema inguru eta beste hainbat datu (aditzen paradigmak, esaterako) datu-basean izatearen ondorio da.

Gehiago irakurri

KnowBoard

KnowBoard

KnowBoardek, Hizkuntza Naturalaren Prozesamenduaren teknologien (HNP) bitartez, dokumentuetako ezagutza aditzera eman dezake eta ezagutza hori nahi dugun informazioa aurkitzeko erabiliko du behingo batean.

KnowBoardek informazioaren bilaketa mugatzen du. Horrek datu baseetan dauden kontzeptuen bitartez nabigatzeko aukera eman eta erabiltzaileari lagungarri izango zaio bilatu nahi dituen dokumentuak aurkitzeko orduan.

Gehiago irakurri

Gaurko artikulu interesgarria:

Posted on 2008.03.14, 09:56 | by Edurne Andrés

Big Image CATS, un sistema de resumen multidocumental

CATS es un sistema de resumen multidocumental desarrollado por la Universidad de Montreal para DUC 2005 (Document Understanding Conferences) que utiliza la extracción de oraciones para crear resúmenes de 250 palabras.

Este sistema se encarga de producir un resumen integrado a un nivel de granularidad concreto a partir de un conjunto de documentos que tratan sobre un determinado tema. El resumen se lleva a cabo en varias fases:

En primer lugar, CATS realiza un análisis temático de los documentos relacionando los temas de los que tratan con los temas reconocidos en la pregunta inicial. De esta forma, CATS identifica una lista de segmentos temáticos que contienen aspectos interesantes relacionados con el tema. Posteriormente, se seleccionan los segmentos que más interesan rechazando los que sean similares ya que estos últimos suelen provenir de distintos documentos que versan sobre un mismo tema. Finalmente, para mejorar la coherencia del resultado final, se identifican las expresiones de tiempo y se reemplazan las referencias temporales relativas.

¿Cómo procesa este sistema?

Según explican Farzindar, Rozon y Lapalme, el procesamiento de CATS consta de varias fases:

1) Análisis de la/s pregunta/s
La pregunta o preguntas de las que parte CATS para la realización del resumen han de versar sobre un determinado tema y han de especificar la granularidad que se espera del resumen (éste puede ser específico o general). El análisis de las cuestiones se lleva a cabo en dos pasos: la identificación del tipo de entidades citadas y la división de las oraciones en elementos básicos.

2) Análisis de los documentos:
El análisis de los documentos determina qué información es importante para incluirla en el resumen y se realiza después de llevar a cabo un preprocesamiento en el que identifica la fecha de publicación del texto y se divide en párrafos.

3) Puntuación de las oraciones.
La puntuación y la selección de las oraciones son dos fases importantes en este sistema de resumen automático. En primer lugar, antes de calcular la puntuación de las oraciones hay que realizar una filtración a nivel de segmentos temáticos. Después, a cada oración se le atribuye una puntuación en un corpus asociado a la pregunta. Dicha puntuación es una combinación lineal de las siguientes siete medidas (todas normalizadas a un valor entre 0 y 1):

  • Elementos básicos. Se comparan los elementos básicos en las oraciones de la pregunta con aquellos elementos básicos en las oraciones del corpus. Se computa una puntuación basada en la similitud de las palabras en los constituyentes que componen los elementos básicos de las dos oraciones.
  • Función del coseno. Se computa la función del coseno en las oraciones de la pregunta y en las oraciones del corpus.
  • Peso de la oración.
  • Posición absoluta. Es la puntuación basada en la posición en el texto.
  • Posición relativa. Es la puntuación basada en la posición en el párrafo.
  • Entidades citadas. Se cuenta el número de entidades citadas en la oración del corpus que tienen la misma categoría que la entidad citada de la pregunta.
  • Expresiones prototípicas. Se computa el número de expresiones prototípicas en las oraciones. Estas expresiones indican las oraciones que tienen una probabilidad má salta de contener información importante. Por otra parte, se incrementa un contador por cada expresión prototípica que se encuentre en la oración.

Finalmente, las oraciones se clasifican de mayor a menor puntuación.

La falta de información superflua es un rasgo importante de un buen resumen así que se han de eliminar las oraciones que contengan mucha información similar a otras oraciones. Para hacer esto, se utiliza de nuevo la función coseno, una función que ayuda decidir si dos oraciones son similares basándose en un umbral empírico determinado. Además, también se comparan las entidades citadas en las dos oraciones, ya que éstas son un buen indicador para saber si dos oraciones hablan de lo mismo.

4) Post-procesamiento. Para obtener un resumen más conciso y coherente se eliminan las partes menos importantes y se reemplazan ciertas expresiones por otras más concisas.

5) Selección de oraciones. Mediante un algoritmo se eligen las oraciones con la puntuación más salta de las que hemos seleccionado hasta que el resumen tenga como máximo 250 palabras. Finalmente, dichas oraciones se clasifican por fecha y en orden creciente.

Conclusión sobre CATS

Como conclusión se puede decir que CATS es un buen sistema de resumen automático que mediante técnicas estadísticas y algoritmos crea fácilmente resúmenes de 250 palabras. A pesar de ello y tal y como afirman Farzindar, Rozon y Lapalme, este sistema se podría mejorar sobre todo en dos aspectos como son la compresión de las oraciones y la distinción de las dos granularidades. Además, también se podría mejorar la selección de oraciones si, por ejemplo, se identificasen las palabras clave de la pregunta y cada segmento temático en los documentos, y se comparasen las dos listas.

Referencia

- Farzindar, Atefeh, Rozon Frédérik y Lapalme, Guy. 2005. CATS a topic-oriented multi-document summarization system at DUC 2005. RALI-DIRO Université de Montrèal.