\documentclass[letterpaper,
10 pt, conference]{ieeeconf}
\title{\LARGE
\bf
PUBLICIDAD
WEB
}
\author{CEDE\~{N}O ESPINOZA KAREN$^{1}$ \ \ \ VEGA MORAN
RICARDO$^{2}$\\ \\
UNIVERSIDAD DE GUAYAQUIL\\
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS\\
CARRERA DE INGENIERIA EN SISTEMAS COMPUTACIONALES
}
\usepackage{fancyhdr}
\usepackage{graphicx}
\begin{document}
\maketitle
\section{
\bf Abstract}
The
Internet of things increasingly more close to us, in education, medicine,
engineering, etc. All this makes the Internet more used in households, but not
everything is wonder as there are positive points so there is also negative, as
it is the case that you can find material or malicious software that we are not
aware and we are downloading without knowing what is bad or asks us to enter
such information which hurts us.\\ \\
An
important point today are the advertisements on the website, pages us when
sailing out ads, advertisements, to even be down or settling an Adware which is
very harmful as not is opened but I download at the moment and runs
automatically in the machine without that user is account of such false
application much us happens to click takes us back to another page advertising,
whether for theft of information or inappropriate material. The article shows
how to avoid or give one of many solutions to the problem through various
algorithms that are created to prevent this type of Web advertising should take
into account that not all advertising is harmful, some are legal or paid as the
pages of shopping Amazon, eBay, Google, etc. Large companies have that kind of
bonds but the only difference are treated safely and help people bring new
products to offer, many pages are victims of these ads on social networks;
should be noted that there was a time where they were attacked with various
advertising Facebook was the first Twitter the second, etc. To submit
algorithms are used to optimize the problem and we will discuss each one with
its own methodology since they use different mathematical models including the
algorithm online, Offline, Greedy algorithm and algorithm of
coincidence.\\ \\
\section{ \bf INTRODUCCI\'ON}
El Internet de las cosas cada vez esta mas cerca de
nosotros,en el ambito educacional, medicina, ingenieria, etc. Todo esto hace
que el Internet sea mas utilizado en los hogares, pero no todo es maravilla
como hay puntos positivos tambien lo hay negativos, como es el caso de que se
pueden encontrar material o software malicioso que no tenemos conocimiento y
estamos descargando sin saber que es malo o nos pide ingresar dicha informacion
lo cual nos perjudica.\\ \\
Un punto importante hoy en dia son las publicidades en la
Web, paginas que nosotros al momento de navegar salen anuncios, propagandas,
hasta incluso estar bajando o instalandose un Adware que es muy perjudicial ya
que no se abrio pero se descargo al momento y se ejecuta automaticamente en la
maquina sin que el usuario se de cuenta de dicha aplicación falsa, mucho nos
ocurre al dar click nos traslada a otra pagina publicitaria, ya sea para robo
de informacion o material inadecuado. El articulo muestra como evitar o dar una
de tantas soluciones al problema por medio de distintos algoritmos que son
creados para prevenir este tipo de publicidad Web hay que tener en cuenta que
no toda publicidad es perjudicial, algunas son legales o pagadas como las paginas de compras Amazon,
eBay, Google, etc. Grandes compañias tienen ese tipo de enlaces pero la unica
diferencia son tratadas con seguridad y ayudar a las personas llevarle
productos nuevos que ofrecer, muchas paginas son victimas de estas publicidades
en las redes sociales; cabe indicar que hubo un tiempo donde fueron atacadas
con diversas propagandas Facebook fue la primera, Twitter la segunda, etc. Los
Algoritmos a presentar son utilizados para optimizar el problema y hablaremos
de cada uno con su propia metodologia ya que utilizan diferentes modelos
matematicos entre ellos el algoritmo On-line, Offline, Algoritmo de Greedy y
Algoritmo de Coincidencia.\\ \\
La publicidad digital influye actualmente en el mercado,
dificil de creerlo pero este sector es muy joven teniendo en cuenta lo mucho
que ha crecido dentro del Internet. A partir de 1993 y 1994 la publicidad en la
Web era casi nula hasta que en 1995 aumento a mas de \$300.000 dolares, llegando
hasta 2014 que se hiso un calculo estimado de \$121 mil millones y cabe indicar
que la inversion global que esta liderando ahora es Google con diversos
anuncios de busqueda. Cuando empezo esta nueva era en la decada de los 90 no
era considerado como una publicidad si no como intercambio de informacion via
correo electronico. Y entonces fue la idea de pioneros de Marketing potenciar
mas la publicidad ya que veian que cada vez era mas frecuente los internautas
verlos iniciar sesion para busqueda de informacion. Poco despues los banners
comenzaron a aparecer con informacion tentadora, Microsoft Corporation y Yahoo
comenzaron a implementar via Internet sus anuncios.\\
Pero a medida que paso el tiempo diversas caracteristicas
fueron añadidas a la publicidad transformandose en una eficaz publicidad. Fue
muy satisfactorio ver como esta herramienta ayudaba a generar ingresos para
ciertas compañias pero todo tiene sus consecuencias ya que a medida que fueron
aumentando millones de usuarios, ciertos adquirian estas publicidades para
provocar daños o introducir dentro de cierto anuncio un Adware lo cual se
ejecutaria automaticamente en cualquier maquina PC’s introduciendo desde virus
hasta robo de informacion, cosa que hasta la fecha se han aumentado la Seguridad
Web pero no basta solo eliminar cierta publicidad ya que no se sabe donde esta
la raiz o la principal de donde se derivo esa, nacen los Algoritmos que ayudan
a optimizar y combatir lo malicioso que hay en la Internet.\\ \\
Se maneja mucho el termino de la publicidad online ya que
este busca atraer mas cibernautas o usuarios y formen parte activa de los
mismos, como los eventos del cine, lanzamientos de productos, etc que llamen la
atencion de todos y se involucren mas. Tanto asi que revistas, television,
correos, la publicidad ha mostrado una rapida evolucion van a la mano con la
tecnologia siendo la razon principal el medio Internet.
La evolucion de la publicidad web se ha caracterizado por
sus populares banners con movimientos y colores que llaman la atencion de los
usuarios los cuales son colocados en diferentes paginas web quienes mediante un
link se enganchen directamente con la pagina publicitaria.
Sabiendo todo esto podemos analizar mediante un algoritmo de
Coincidencia que analizaria cada Tweet con otro Tweet hasta incluso documentos
o paginas publicadas, se ve la duplicacion de estas y las eliminaria totalmente
una ayuda el cual previene que se propaguen mas, muchas formas hay de
eliminarlas, investigar radica bastante esto ya que solo estariamos dando una
solucion pero encontrar la raiz de todo implicaria hacer una busqueda mas extensa.
\section{\bf TRABAJOS RELACIONADOS}
Algoritmo Web es propio de cada buscador y trata de una
formula que determina la importancia de cada Web,\cite{briggs1997advertising} siempre estara formado por un ingrediente (de
la formula) que seran palabras.\\
Aquellos ingredientes o palabras pueden ser muchisimos y
cada uno de menor ponderacion que con el tiempo pueden ampliarse. Las formulas
de los algoritmoss Web de cada buscador son secretas por lo tanto si se sabe el
contenido original y no los duplicados, la densidad de las palabras metas,
etiquetas, descripciones y otros, determinarian un lugar de posicionamiento,
por ello es importante la optimizacion externa de cada pagina para adecuarla a
criterios que esten dentro de esto algoritmos.\\
El crecimiento de la publicidad en la World Wide Web
requiere una investigación sobre las
\cite{ducoffe1996advertising} percepciones generales de los
usuarios ya que estos afectan a las actitudes hacia los anuncios
individuales.\\ \\
El valor de la publicidad sostiene un criterio de mediacion
par evaluar los efectos en general y en particular del caso, para que el uso de
este medio sea efectivo aquellos vendedores o usuarios se benefician de la
comprension de los demas perciben la Web como una publicidad cosa que afectan
las actitudes hacia los anuncios. La Web ofrece beneficios que mejoran el valor
de la publicidad pero hay que entender como puede servir mejor a los consumidores,
ademas se encuentran 3 puntos importantes donde la publicidad posee poco
valor:\\
\begin{enumerate}
\item La enorme cantidad de publicidad que los individuos
estan expuestos hace que sea imposible dar la atencion adecuada a la pagina y
se prevee una mayor cantidad en un futuro cercano.
\item Los anuncion
llegan a los usuarios cuando no estan interesados en comprar o revisarlos.
\item El gran problema de la publicidad es el riesgo debido
a la cantidad y de tipo paridad.\\ \\ \\ \\ \\ \\ \\ \\ \\ \\
\end{enumerate}
\section{\bf DATOS}
Presentamos una tabla Estadistica la cual esta conformada
por las variables que vamos a manejar.\\
\begin{figure}[bh]
\centering
\includegraphics[width=0.4\textwidth]{tabla.JPG}
\caption{Tabla Estadistica}
\label{tabla}
\end{figure}
\begin{figure}[bh]
\centering
\includegraphics[width=0.4\textwidth]{MEDIA.JPG}
\caption{Tabla Estadistica 2}
\label{tabla2}
\end{figure}
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{datosss.JPG}
\caption{Tabla Estadistica 3}
\label{figura}
\end{figure}
\section{\textbf{METODOLOGIA} }
\textbf{ALGORITMO EN LINEA}
Es aquel algoritmo en el cual puede seguir trabajando sin
necesidad de tomar o procesar todos los datos de entrada. Pero el problema aquí
radica en que como no sabe toda la entrada deberá tomar decisiones para
realizar alguna acción en el momento en que se ingrese un nuevo conjunto de
entradas, estas decisiones tal vez no sean buenas para el desarrollo del mismo.
Para esto un algoritmo en línea puede realizar parte de su
trabajo con pocas entradas de datos, ya que el procesamiento de datos depende
de los datos leídos hasta en ese momento y no esperará a que termine de
procesar todas las entradas. Para esto \cite{rajaraman2012mining} utilizaremos el
método de ordenamiento por inserción en donde nos ayudara a procesar los datos
y a ordenarlos.\\
Los algoritmos en línea procesan información al momento que
la reciben, una aplicación importarte e interesante es en la detención del
spam, para esto se está trabajando con las máquinas de soporte vectorial y se
sigue investigando.\\
\begin{itemize}
\item \bf Ordenamiento
por Inserci\'on
\end{itemize}
Es aquel algoritmo que puede insertar un numero o elemento
en lista de n elementos \cite{salgadorestricciones} e ir comparando este elemento con la parte
ordenada del algoritmo hasta ubicarlo en la posición correcta de la parte
ordenada y así conseguir la lista totalmente ordenada.\\
\begin{itemize}
\item \bf Ventajas de la Inserci\'on
\end{itemize}
\begin{itemize}
\item Implementación sencilla.
\item Es un algoritmo sencillo de entender y de codificar.
\item Si el tamaño de la entrada es N, entonces el orden del
tiempo de ejecución, para el peor caso es O(N2 ).
\item Eficiente para (muy) pequeñas series de datos, al
igual que otros algoritmos de clasificación de segundo grado.
\item Mayor eficiencia en la práctica que la mayoría de
otros sencilla cuadrática (es decir, o(n 2 ) algoritmos tales como ordenación
por selección o clasificación en burbuja.
\item Adaptativa, es decir, eficaz para conjuntos de datos
que ya están ordenadas sustancialmente.
\item En el lugar; es decir, sólo requiere una cantidad
constante O (1) de espacio de memoria adicional.
\item Online; es decir, puede ordenar una lista, ya que lo
recibe.\\
\end{itemize}
\begin{itemize}
\item \bf EXPLICACI\'ON DEL ALGORITMO
\end{itemize}
Una vez insertado el elemento se debe comparar con el
elemento anterior de dicho numero insertado utilizando la f\'ormula de que
si X es menor que los elementos anteriores pues estos se desplazaran a la
derecha y luego se colocara el elemento X en la posición que corresponde.
En resumen con cada elemento mayor que X se desplazara a la
derecha ya que se compara con X y se ubica en la posición correcta.\\ \\
Veamos un pequeño ejemplo del algoritmo ordenamiento por
inserción para comprender mejor.
Ejemplo:
32 debe ser insertado entre 26 y 47, y por lo tanto 47, 59 y
96 deben ser desplazados.
\begin{table}[h!]
\centering
\caption{Ejemplos del Algritmo en linea.}
\label{rules-example}
\begin{tabular}{l|l|l|l|l|l}
\hline
{\bf k + 1}
& & & & & \\
\hline
11 & 26
& 47 & 59 & 96 & 32 \\
11 & 26
& & 47 & 59 & 96 \\
11 & 26
& 32 & 47 & 59 & 96 \\
\hline
\end{tabular}
\end{table}
En la implementación computacional, el elemento k+1 va
comparándose de atrás para adelante, deteniéndose con el primer elemento menor.
Simultáneamente se van haciendo los desplazamientos.\\ \\ \\ \\ \\ \\ \\ \\ \\ \\
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{rr.jpg}
\caption{Tabla}
\label{figura5}
\end{figure}
tema de las ordenaciones es muy interesante desde el punto
de vista matematico y computacional. Tiene su aplicacion en la vida diaria
cuando \cite{aquinoalgoritmos}
se tienen que ordenar cosas como fichas de un directorio
personal, publicaciones periodicas que estan en desorden. Sin duda esto
adquiere mayor importancia ahora que las personas manejamos volumenes de
informacion cada vez mas grandes dada la revolucion en las
telecomunicaciones.\\
\textbf{ALGORITMO FUERA DE L\'INEA}
Es un algoritmo el cual se debe tener una secuencia de
entradas para que pueda funcionar de la mejor manera, pero aquellos datos de
entradas que se van a obtener se necesita que estén completos.
Toda carga de trabajo debe \cite{chui2003new} ser comunicada
al algoritmo fuera de línea antes de que comience con el procesamiento de
datos.
El algoritmo fuera de línea es muy importante por los datos
que se extraen o que se obtienen por medio de este método. Aquí encontraremos
al Algoritmo de Greedy que será de gran ayuda para nuestro proyecto.\\
\begin{itemize}
\item \bf
ALGORITMO DE GREEDY
\end{itemize}
Las caracter\'isticas a tener en cuenta son:\\
\begin{itemize}
\item Se utiliza este tipo de algoritmo para resolver
problemas de optimizaci\'on de datos.
\item Se toman decisiones en base a la información que se
encuentra disponible en cada momento.
\item Una vez que se ha tomado la decisión, esta no se
vuelve a replantear despu\'es.
\item Este tipo de algoritmo suelen ser r\'apidos y
f\'aciles de implementar
\item No siempre garantizan alcanzar la soluci\'on \'optima,
pero son de gran ayuda cuando se tienen muchos datos de entrada.\\
\end{itemize}
\begin{itemize}
\item \bf ELEMENTOS DEL ALGORITMO DE GREEDY
\end{itemize}
Los elementos a considerar utilizando el método de greedy
que servir\'an para resolver problemas son:\\
\begin{itemize}
\item Conjunto de candidatos se encuentran los elementos
seleccionables.
\item Soluci\'on parcial los posibles candidatos
seleccionados.
\item Funci\'on de selecci\'on se debe determinar el
candidato más \'optimo del conjunto que anteriormente se ha seleccionado.
\item Funci\'on de factibilidad mira si la soluci\'on es
\'optima, para que esta se concluya totalmente completa.
\item Criterio que define lo que es una soluci\'on determina
si la soluci\'on que se escogi\'o realmente soluciona el problema.
\item Funci\'on objetivo obtiene una soluci\'on al
problema.\\ \\
\end{itemize}
\begin{itemize}
\item \bf Esquema De Greddy
\end{itemize}
\begin{figure}[bh]
\centering
\includegraphics[width=0.4\textwidth]{gre.JPG}
\caption{Algoritmo de Greddy}
\label{esquema}
\end{figure}
\begin{itemize}
\item \bf Explicaci\'on
\end{itemize}
\begin{itemize}
\item Se parte de un conjunto vac\'io: S = Ø
\item Utilizamos la lista de candidatos, y se escoge la
mejor opci\'on
\item Se debe comprobar si podemos llegar a una soluci\'on
factible con el candidato que hemos seleccionado. Si no es as\'i, simplemente
se lo elimina de la lista de candidatos que se tiene y no se lo vuelve a
considerar.
\item Y si no se ha llegado a la soluci\'on necesaria, se
seleccionara otro candidato y se repite todo el proceso, para obtener la
soluci\'on deseada.\\
\end{itemize}
\begin{itemize}
\item \bf Estrategias de Greedy
\end{itemize}
Aqu\'i consideramos el orden de las actividades y tenemos
las siguientes:
•
\begin{itemize}
\item Orden creciente de hora de comienzo.
\item Orden creciente de hora de finalizaci\'on.
\item Orden creciente de duraci\'on.
\item Orden creciente de conflictos.\\
\end{itemize}
\textbf{ALGORITMO DE COINCIDENCIA DE DOCUMENTOS Y OFERTA}\\
Este algoritmo se detallara sobre la coincidencia de varios
documentos y ofertas en la web primero
detallaremos las partes a tratar del algoritmo. \\ \\
\begin{itemize}
\item \textbf{Oferta} .-Es un grupo de palabras en la web
\item \textbf{Documentos}.- Es un grupo de mayores
cantidades de palabras como un tweet, email, un escrito etc.\\ \\
\end{itemize}
\begin{figure}[bh]
\centering
\includegraphics[width=0.2\textwidth]{mm.JPG}
\caption{Ofertas y
Documentos}
\label{documentos}
\end{figure}
Pueden haber varios
documentos , que se recibe a cada momento los cuales se pueden repartir en
varios ordenadores.
Este algoritmo asumir\'a que hay grandes cantidades de ofertas que llegan a
nuestras \cite{cardonaalgoritmos}
cuentas los cuales mediante an\'alisis lexicogr\'afico se ordenaran las
palabras extrañas primero.\\
\textbf{Ejemplo:}\\
Suponemos que nuestro
documento es:\\
\textbf{'Twas brillig, and the slithy toves'}\\
"The" es la palabra más frecuente en ingl\'es, y
"and" es medianamente frecuente, la palabra "twas" es la menos frecuente que "The" o "and".\\ Las
otras palabras no hacen la lista de palabras frecuentes.
Al final de la lista se compone de "twas",
"and", y "the", en ese orden, puesto que es el inverso de
la frecuencia. Los otros tres se colocan las palabras en la parte delantera de
la lista en el orden lexicogr\'afico.\\
\textbf{'brillig slithy toves twas and the'}\\
Es la secuencia de palabras en el documento, debidamente
ordenado, las ofertas se almacenan en una tabla hash, cuya clave hash es la
primera palabra de la oferta.
Informaci\'on acerca de qu\'e hacer cuando la oferta est\'a
conciliada , el estado es 0 y No necesitan ser almacenados de forma
explícita.\\ \\
La segunda tabla hash, su labor es almacenar copias de esas ofertas que han sido
parcialmente similares.
Estas ofertas tienen un Estado que sea al menos 1, pero
menos que el n\'umero de palabras en el conjunto. Si el estado es 1, entonces
el hash de la clave para esta tabla hash es el (i + 1) palabra. \\ \\ \\ \\ \\ \\
El siguiente esquema muestra el \cite{cotelobusqueda}
proceso interno que hace el algoritmo en el cual se va evaluando asi:\\
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{Captura.JPG}
\caption{Esquema del
Algoritmo de Coincidencia}
\label{proceso}
\end{figure}
\begin{itemize}
\item \bf PROCEDIMIENTO DEL ALGORITMO
\end{itemize}
\begin{enumerate}
\item Ordenar las palabras del documento lexicograficamente.
Eliminar palabras duplicadas.
\item Para cada palabra w, en el orden siguiente:
\begin{itemize}
\item Tomaremos w como hash, la clave para la tabla de las
ofertas que coinciden parcialmente, buscamos esas ofertas teniendo w como
clave.
\item Para cada oferta b, si w es la última palabra de b, se
mueve a la tabla de ofertas coincidentes.
\item Si w no es la última palabra de la b, agregamos un 1 a
b. La palabra cuya posición es uno más el nuevo estado, como la clave hash.
\item Usando w como
clave para la tabla hash de todas las ofertas, encontramos esas ofertas para W
pasan ha ser la primera palabra.
\item Para cada oferta b, si hay una sola palabra en su
lista, copiarlo a la tabla de ofertas coincidentes.
\item Si b consta de
más de una palabra, agréguelo con estado 1, a la tabla de ofertas que coinciden
parcialmente con la segunda palabra de b como Clave hash.
\end{itemize}
\item Se produce la salida.
\begin{itemize}
\item La palabra mas rara deber\'ia ser visible ahora.
\item Una oferta s\'olo se copiara a la segunda tabla hash
si la palabra aparece en el documento.
En Comparaci\'on, si se utiliz\'o el orden lexicogr\'afico de las ofertas, se
copiar\'a en la Segunda tabla hash.
\item Minimizando el tama\~no de la tabla.
\item La Tabla puede guardarse en la memoria principal. \\ \\ \\ \\ \\ \\ \\ \\ \\ \\
\end{itemize}
\end{enumerate}
\begin{figure}[bh]
\centering
\includegraphics[width=0.5\textwidth]{fin.JPG}
\caption{Algoritmo
de coincidencia proceso}
\label{algoritmo}
\end{figure}
\section{\bf RESULTADOS}
Como resultado tenemos el algoritmo de Greedy el cual nos
permite ordenar cierta cadena de caracteres dada y cabe indicar que este mismo
algoritmo lo emplean otro tipo de algoritmos que sirven para optimizar.
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{greedy.JPG}
\caption{Greddy}
\label{Algoritmo}
\end{figure}
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{g2.JPG}
\caption{Greddy
Resultados}
\label{Algoritmo2}
\end{figure}
La intencion es que al considerar adyacentes caracteres,
tomo en cuenta no sólo los personajes, sino también del orden de los caracteres
en la cadena original, ya que cada par de caracteres contiene un poco de
información acerca de la orden original.
Voy a explicar el algoritmo mediante la comparación de las
dos cadenas de 'France' y 'French', luego dividirlos en sus pares de
caracteres:
FRANCE: {FR, RA, AN, NC, CE}
FRENCH: {FR, RE, EN, NC, CH} \\
En este caso, la intersección es {FR, NC}. Ahora, me
gustaría expresar mi hallazgo como una métrica numérica que refleja el tamaño
de la intersección con relación a los tamaños de las cadenas originales. Si los
pares (x) es la función que genera los pares de letras adyacentes en una
cadena, entonces mi métrica numérico de similitud es:
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{111.JPG}
\caption{Formulas}
\label{Skect}
\end{figure}
Hay que tener en cuenta que las tasas de fórmula
completamente diferentes cadenas con un valor de 0 similitud, ya que el tamaño
de la intersección par en el numerador de la fracción serán cero. Por otro
lado, si se compara una cadena vacia a sí mismo, a continuación, la similitud
es 1. Para nuestra comparación de «FRANCE» y «French», la métrica se calcula de
la siguiente manera:
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{112.JPG}
\caption{Formula
finalizada}
\label{tomo}
\end{figure}
Entonces tenemos la siguiente tabla con resultados en
porcentaje:
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{4.JPG}
\caption{Tabla
porcentual}
\label{Porciento}
\end{figure}
En lo que respecta al proyecto vamos a resolver una
problematica que esta dando que hablar la publicidad Web para eso hemos hecho
enfasis anteriormente sobre como empezar e ir revisando de lo que trata por
ejemplo los algoritmos de Greedy, Fuera de Linea. \\ \\ \\ \\ \\ \\ \\ \\
Ahora presentaremos el algoritmo final el cual va a comparar
nuestros diccionario de datos bajados directamente desde la Api de Twitter
Streaming como podemos ver parte de nuestro codigo es el siguiente:\\ \\
\begin{figure}[bh]
\centering
\includegraphics[width=0.5\textwidth]{con1.JPG}
\caption{Clase
Comparadora}
\label{Python}
\end{figure}
Y luego tenemos nuestra parte principal del codigo donde
hace la comparacion de archivos.\\ \\ \\
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{con2.JPG}
\caption{Clase
Principal Coincidencia}
\label{Python
coincidencia}
\end{figure}
Como resultado nos debe generar un nuevo archivo y solo con
la informacion ya optimizada hemos hecho la prueba con pocos datos y grandes
datos que superan los 5 megas lo cual lleva a una extensa informacion al
momento de descargarla, nuestro codigo funciona correctamente tenemos estos
resultados con poca informacion. \\ \\
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{fin.JPG}
\caption{Resultados
de Coincidencia}
\label{Python 3}
\end{figure}
Asi demostramos que mediante el Algoritmo de Coincidencia
hecho en Python hemos logrado optimizar nuestros diccionarios de datos, pero
esto solo es una pequeña muestra vemos que el internet es un universo
informatico de informacion distintas por lo que tenemos que trabajar con
millones de datos para lo que hacemos uso de herramientas mas complejas como es
el caso de Hadoop el cual maneja grandes volumenes de informacion y como la
publicidad son datos en extenso crecimiento y tantas coincidencias hemos
implementado lo que es codigo mapreduce utilizando el sistema Operativo UBUNTU
como cluster en este caso de un solo nodo para eso necesitamos las configuraciones
necesarias y el codigo implementado en python.
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{mapper.JPG}
\caption{Mapper.py}
\label{Mapeo}
\end{figure}
Y por ultimo un Reducer lo que haria el proceso del mapeo.
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{reducer.JPG}
\caption{Reducer.py}
\label{Reducir}
\end{figure}
\section{\bf CONCLUSIONES}
Se evidenció que el trabajo arduo para la búsqueda,
coincidencia
de un conjunto de datos en este caso la api Twitter ha
generado varios algoritmos el cual resuelvan y optimizan aquella problematica
planteada que es la publicidad en la web, no obstante, el pre-procesamiento de
los datos puede ser un campo de investigación importante para hallar nuevas
técnicas de reduccion de datos, que permita al algoritmo que se elija buscar y
obtener el resultado deseado.\\
Hemos optado por la combinacion de algoritmos tanto
ordenacion, busqueda y comparacion, el cual nos genera resultados por separado;
pero se obtiene buenos resultados optimos al momento de utilizar el algoritmo
de Coincidencia ya que lo que queremos es comparar documentos y ofertas lo cual
lo resuelve por un proceso interno y nuestro resultado seria eliminar aquellas
publicidad repetitiva el cual se genera en las redes sociales en nuestro caso
Twitter y hace que se habran paginas extrañas,incluso se vuelve lenta, este es
una de muchas soluciones que uno puede plantear al momento de hacer un map
reduce a dicho conjunto de datos.
\bibliographystyle{plain}
\bibliography{biblio.bib}
\end{document}