Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la espol, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de Datos



Descargar 239,08 Kb.
Página1/2
Fecha de conversión05.08.2017
Tamaño239,08 Kb.
  1   2

Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de Datos


Allan Avendaño, Cristina Abad. MsC.

Facultad de Ingeniería en Electricidad y Computación

Escuela Superior Politécnica del Litoral

Campus “Gustavo Galindo V.”, Km 30.5, Vía Perimetral, Guayaquil, Ecuador

aavendan@espol.edu.ec, cabadr@espol.edu.ec


Resumen
En la actualidad, la proliferación de las redes sociales en la Web permite crear redes de contactos confiables y establecer espacios de colaboración digital. Estos espacios han proporcionado nuevas estrategias para la difusión de los contenidos que se generan en empresas o instituciones educativas.

En este contexto, en la Escuela Superior Politécnica del Litoral se ha adaptado el mecanismo de publicación de información en blogs para la conformación de una red digital compuesta por los miembros de la comunidad politécnica, y que además funcione como un medio de divulgación de los contenidos que la comunidad genere.

En el presente documento se plantea la implementación de un sistema de búsqueda y recomendación de entradas de la blogosfera politécnica, que a más de ser una herramienta para la difusión de los contenidos de la comunidad politécnica, también ayude a mejorar la visibilidad del dominio de ESPOL en la Web.
Palabras Claves: Hadoop, Map/Reduce, Information Retrieval, Blogs, ESPOL
Abstract
Nowadays, the proliferation of social networks on the Web enables the creation of networks of contacts and the establishment of reliable and digital collaboration spaces. This spaces provide new strategies for the dissemination of information generated by different institutions.

The Escuela Superior Politécnica del Litoral has adapted the mechanism of blogging for the formation of a digital network consisting of the community members, and also as a means to disseminate information that the community generates.

In this paper, we present an implementation of a system that allows to users to search entries within the ESPOL blogosphere.

1. Introducción
Desde el 2007, la Escuela Superior Politécnica del Litoral se ha planteado el objetivo de mejorar la visibilidad del contenido que se genere en su dominio Web, a fin de posicionarse en los primeros lugares de la lista de sitios Webs de universidades en el Ecuador y a nivel mundial.

Una de las medidas adoptadas para lograr este propósito consistió en crear la blogosfera1 politécnica, cuya comunidad de autores estaría conformada por estudiantes, profesores y personal relacionado a la ESPOL.

Si bien es cierto, que con el desarrollo de la blogosfera politécnica se ha logrado diversificar los temas con los que se relaciona la ESPOL y así aportar al cumplimiento del objetivo planteado inicialmente; también resulta necesario analizar otros factores implícitos de la comunidad, como la relación de lectura [8], que podrían aportar a la mejora de la visibilidad del contenido de la ESPOL en la Web.

En la actualidad, el directorio de blogs de la ESPOL [1] funciona como punto de entrada a la comunidad al mostrar los blogs recientemente actualizados. No obstante, resulta imposible realizar tareas sencillas como la búsqueda de entradas por términos específicos o que hayan sido publicadas en una fecha determinada.

En este documento se describe el proceso de desarrollo del “Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de Datos”, diseñado como una herramienta de ayuda para la difusión de los contenidos que se genera en la blogosfera politécnica.
2. Motivación
Según Porter [2], las aplicaciones sociales en la Web se fundamentan en siete características que motivan la participación activa de los miembros en la comunidad.

Dos de estas características, están estrechamente relacionadas al comportamiento de los usuarios, las cuales, son el sentido de eficacia y de pertenencia, con las que se mantiene el esquema colaborativo de las comunidades Web. El sentido de eficacia se refiere a la percepción positiva de las aportaciones de los miembros de la comunidad; y el sentido pertenencia es expresado por el compromiso de los usuarios con la información que se maneja en la comunidad. Debido a estos criterios, cada miembro de la blogosfera desarrolla una reputación, expresada por el número de citaciones en la blogosfera o por la cantidad de comentarios por cada entrada.

Para lograr esta notoriedad, es necesario visibilizar el contenido publicado en los blogs, a través de sitios como Technorati [5], o al permitir el tracking2 de la información publicada.

Es por esto, que para aplicaciones sociales que involucran la expresión de los usuarios a través de sus publicaciones en la Web, que resulta imprescindible un medio de difusión de los contenidos que se genera en la comunidad, como motores de búsqueda o directorios de contenidos.

En el presente trabajo se considera la implementación de un sistema de búsqueda y recomendación de entradas, como una herramienta para la difusión de los contenidos que se genera en la blogosfera politécnica; y que además, servirá de para mejorar la visibilidad del dominio de ESPOL en la Web.
3. Fundamentación Teórica
3.1. Paradigma Map/Reduce
Desde el año 2000 el equipo de Google, realiza cientos de transacciones computacionales para resolver problemas que comprenden numerosas unidades de procesamiento y grandes conjuntos de datos, por ejemplo: Escaneo de patrones de texto, Conteo de unidades ó Problemas de indexación términos.

Es por esto, que decidieron implementar una plataforma que permita paralelizar tareas y distribuir los datos a procesar en un clúster de máquinas de propósito general. De acuerdo al diseño original, la plataforma debía permitir la planificación, seguimiento y reporte de tareas por cada nodo del clúster; además, debía detectar y recuperarse de las fallas comunes para este tipo de equipos [3].



Map/Reduce es el modelo de programación desarrollado por Google para resolver sus tareas de procesamiento de datos a larga escala, inspirado en las operaciones que implementan lenguajes funcionales como Lisp [6].

Figura 1. Ejecución de un proceso Map/Reduce [7]
En la Figura 1, se muestra el esquema de ejecución de un proceso Map/Reduce. La función map procesa pares del tipo clave/valor para generar un conjunto intermedio de pares del mismo tipo, los cuales son parcialmente agrupados y ordenados. Esto pares intermedios son procesados con funciones llamadas reduce, las cuales emiten un archivo final con cada claves y sus respectivos valores asociados.
3.2. Hadoop: Plataforma de procesamiento masivo de datos
Hadoop [4]Error: Reference source not found es un proyecto de Apache Software Foundation, que provee una plataforma para el procesamiento en distribuido y masivo de datos en computadores de propósito general, basada en el estilo de programación Map/Reduce desarrollado por Google.

Esta plataforma, se presenta como una solución de código abierto para los programadores sin experiencia en desarrollo de aplicaciones para ambientes distribuidos, ya que oculta la implementación de detalles propios de estos sistemas: paralelismo de tareas, tolerancia a fallos, administración de procesos y balanceo de carga [3][9]Error: Reference source not found.


3.3. Recuperación de Información (Information Retrieval)
En la era de la información, ha aumentado la generación de documentos y, de igual manera, la capacidad de almacenamiento de los dispositivos electrónicos, aunque sigue siendo mínima la extracción de información contextual de los documentos.

El proceso de extracción de información consiste en representar, almacenar, organizar y acceder a documentos relevantes tomados a partir de una colección de documentos sin estructurar (generalmente en lenguaje natural), con el objetivo de satisfacer las necesidades de los usuarios [10].

Mediante estos sistemas de extracción de información permite a los usuarios obtener una visión más detallada de las características que posee una colección de documentos, sin realizar un análisis minucioso.
4. Metodología de Desarrollo
4.1. Diseño
El sistema planteado en el presente trabajo está compuesto por los siguientes componentes: un módulo de agrupamiento de contenidos y un módulo de indexación y búsqueda por términos.

El módulo de agrupamiento de contenidos es el encargado de procesar y agrupar las entradas de blogs de acuerdo a la similitud en su contenido.



El módulo de indexación y búsqueda por términos funciona como un motor de búsquedas sobre las entradas extraídas de la blogosfera politécnica a partir de los términos recibidos desde la interfaz Web; además, provee los blogs relacionados a los resultados de las búsquedas. Estas recomendaciones de entradas son obtenidas a partir de los resultados del módulo de agrupamiento de contenidos.
  1   2


La base de datos está protegida por derechos de autor ©absta.info 2016
enviar mensaje

    Página principal