ingeniería linguística y web semántica
Artículos destacados hoy:
Acerca de
Emergiatech, spin-off del Grupo DELi de la Universidad de Deusto está especializada en el procesamiento inteligente de la información basado en ingeniería lingüística. Tiene como objetivo dar respuesta a la creciente demanda de soluciones en el tratamiento eficiente de la informaci¢n.
Ingeniería lingüística
EmergiaTech diseña, desarrolla e implanta soluciones a las diferentes necesidades de nuestros clientes a través de productos como Buscadores semánticos, Gestión inteligente de información, Gestión de contenidos multilingües, Traducción automática, y Respuestas inteligentes a preguntas (Q/A).
La web semántica
EmergiaTech produce y comercializa productos, soluciones y servicios relacionados con las tecnologías semnticas. Dichas tecnologías son ideales para cualquier organización interesada en explotar su información de forma inteligente mediante el entendimiento computacional del significado de los datos.
BasqueLem, el lematizador de euskara
Ya está aquí BasqueLem, el lematizador de euskera.
Basquelem permitirá identificar la forma canónica de cualquier palabra en euskera y hallar su categoría gramatical así como la flexión o derivación que la genera.
Entre las características más destacables de BasqueLem se encuentra su rapidez, que se consigue reduciendo al mínimo la aplicación de reglas.
KnowBoard
KnowBoard, mediante tecnologías de Procesamiento del Lenguaje Natural (PLN), es capaz de construir una representación del conocimiento contenido en los documentos, y utilizar este conocimiento para facilitar la localización de aquella información que necesitamos.
KnowBoard simplifica la búsqueda y localización de información, permitiendo navegar a través de los conceptos presentes en la base de datos, y colaborando con el usuario en la tarea de afinar y localizar los documentos buscados.
Artículo destacado hoy
Posted on 2008.03.14, 09:56 | by Edurne Andrés
CATS, un sistema de resumen multidocumental
CATS es un sistema de resumen multidocumental desarrollado por la Universidad de Montreal para DUC 2005 (Document Understanding Conferences) que utiliza la extracción de oraciones para crear resúmenes de 250 palabras.
Este sistema se encarga de producir un resumen integrado a un nivel de granularidad concreto a partir de un conjunto de documentos que tratan sobre un determinado tema. El resumen se lleva a cabo en varias fases:
En primer lugar, CATS realiza un análisis temático de los documentos relacionando los temas de los que tratan con los temas reconocidos en la pregunta inicial. De esta forma, CATS identifica una lista de segmentos temáticos que contienen aspectos interesantes relacionados con el tema. Posteriormente, se seleccionan los segmentos que más interesan rechazando los que sean similares ya que estos últimos suelen provenir de distintos documentos que versan sobre un mismo tema. Finalmente, para mejorar la coherencia del resultado final, se identifican las expresiones de tiempo y se reemplazan las referencias temporales relativas.
¿Cómo procesa este sistema?
Según explican Farzindar, Rozon y Lapalme, el procesamiento de CATS consta de varias fases:
1) Análisis de la/s pregunta/s
La pregunta o preguntas de las que parte CATS para la realización del resumen han de versar sobre un determinado tema y han de especificar la granularidad que se espera del resumen (éste puede ser específico o general). El análisis de las cuestiones se lleva a cabo en dos pasos: la identificación del tipo de entidades citadas y la división de las oraciones en elementos básicos.
2) Análisis de los documentos:
El análisis de los documentos determina qué información es importante para incluirla en el resumen y se realiza después de llevar a cabo un preprocesamiento en el que identifica la fecha de publicación del texto y se divide en párrafos.
3) Puntuación de las oraciones.
La puntuación y la selección de las oraciones son dos fases importantes en este sistema de resumen automático. En primer lugar, antes de calcular la puntuación de las oraciones hay que realizar una filtración a nivel de segmentos temáticos. Después, a cada oración se le atribuye una puntuación en un corpus asociado a la pregunta. Dicha puntuación es una combinación lineal de las siguientes siete medidas (todas normalizadas a un valor entre 0 y 1):
- Elementos básicos. Se comparan los elementos básicos en las oraciones de la pregunta con aquellos elementos básicos en las oraciones del corpus. Se computa una puntuación basada en la similitud de las palabras en los constituyentes que componen los elementos básicos de las dos oraciones.
- Función del coseno. Se computa la función del coseno en las oraciones de la pregunta y en las oraciones del corpus.
- Peso de la oración.
- Posición absoluta. Es la puntuación basada en la posición en el texto.
- Posición relativa. Es la puntuación basada en la posición en el párrafo.
- Entidades citadas. Se cuenta el número de entidades citadas en la oración del corpus que tienen la misma categoría que la entidad citada de la pregunta.
- Expresiones prototípicas. Se computa el número de expresiones prototípicas en las oraciones. Estas expresiones indican las oraciones que tienen una probabilidad má salta de contener información importante. Por otra parte, se incrementa un contador por cada expresión prototípica que se encuentre en la oración.
Finalmente, las oraciones se clasifican de mayor a menor puntuación.
La falta de información superflua es un rasgo importante de un buen resumen así que se han de eliminar las oraciones que contengan mucha información similar a otras oraciones. Para hacer esto, se utiliza de nuevo la función coseno, una función que ayuda decidir si dos oraciones son similares basándose en un umbral empírico determinado. Además, también se comparan las entidades citadas en las dos oraciones, ya que éstas son un buen indicador para saber si dos oraciones hablan de lo mismo.
4) Post-procesamiento. Para obtener un resumen más conciso y coherente se eliminan las partes menos importantes y se reemplazan ciertas expresiones por otras más concisas.
5) Selección de oraciones. Mediante un algoritmo se eligen las oraciones con la puntuación más salta de las que hemos seleccionado hasta que el resumen tenga como máximo 250 palabras. Finalmente, dichas oraciones se clasifican por fecha y en orden creciente.
Conclusión sobre CATS
Como conclusión se puede decir que CATS es un buen sistema de resumen automático que mediante técnicas estadísticas y algoritmos crea fácilmente resúmenes de 250 palabras. A pesar de ello y tal y como afirman Farzindar, Rozon y Lapalme, este sistema se podría mejorar sobre todo en dos aspectos como son la compresión de las oraciones y la distinción de las dos granularidades. Además, también se podría mejorar la selección de oraciones si, por ejemplo, se identificasen las palabras clave de la pregunta y cada segmento temático en los documentos, y se comparasen las dos listas.
Referencia
- Farzindar, Atefeh, Rozon Frédérik y Lapalme, Guy. 2005. CATS a topic-oriented multi-document summarization system at DUC 2005. RALI-DIRO Université de Montrèal.
Recursos etiquetados como Emergiatag en del.icio.us
Artículos marcados como compartidos en Google Reader
- What is the Semantic Web? shared by Joseba
- Big legal publishers and semantic web technology shared by Joseba
- NAACL-HLT 2009 Retrospective shared by Joseba
- Erabili: Aleman eta Lakarra euskaltzain oso shared by Arrate
- El gadget que sabe de medicina shared by Edurne
- Inventing The Future shared by Edurne
- 10 errores del diseño de iconos shared by Edurne
- Connecting digital libraries to eScience shared by Maria
- Anthony Lilley doesn't seem keen on Web 3.0 shared by Maria
- Sobre la organización del conocimiento en una empresa Web 2.0 de éxito shared by Maria
Cambios recientes en EmergiaTech wiki
Emergia Planet is powered by PlanetPlanet and the CSS template is taken from Solucija.
Envíanos un email si quieres contactar con EmergiaTech o realizar algún comentario..