\documentclass[letterpaper, 10 pt, conference]{ieeeconf}
\title{\LARGE \bf
PUBLICIDAD WEB
}
\author{CEDE\~{N}O ESPINOZA KAREN$^{1}$ \ \ \ VEGA MORAN RICARDO$^{2}$\\ \\
UNIVERSIDAD DE GUAYAQUIL\\
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS\\
CARRERA DE INGENIERIA EN SISTEMAS COMPUTACIONALES
}
\usepackage{fancyhdr}
\usepackage{graphicx}
 
\begin{document}
 
\maketitle
 
\section{ \bf Abstract}
 
 
The Internet of things increasingly more close to us, in education, medicine, engineering, etc. All this makes the Internet more used in households, but not everything is wonder as there are positive points so there is also negative, as it is the case that you can find material or malicious software that we are not aware and we are downloading without knowing what is bad or asks us to enter such information which hurts us.\\ \\
An important point today are the advertisements on the website, pages us when sailing out ads, advertisements, to even be down or settling an Adware which is very harmful as not is opened but I download at the moment and runs automatically in the machine without that user is account of such false application much us happens to click takes us back to another page advertising, whether for theft of information or inappropriate material. The article shows how to avoid or give one of many solutions to the problem through various algorithms that are created to prevent this type of Web advertising should take into account that not all advertising is harmful, some are legal or paid as the pages of shopping Amazon, eBay, Google, etc. Large companies have that kind of bonds but the only difference are treated safely and help people bring new products to offer, many pages are victims of these ads on social networks; should be noted that there was a time where they were attacked with various advertising Facebook was the first Twitter the second, etc. To submit algorithms are used to optimize the problem and we will discuss each one with its own methodology since they use different mathematical models including the algorithm online, Offline, Greedy algorithm and algorithm of coincidence.\\ \\
 
\section{ \bf INTRODUCCI\'ON}
 
El Internet de las cosas cada vez esta mas cerca de nosotros,en el ambito educacional, medicina, ingenieria, etc. Todo esto hace que el Internet sea mas utilizado en los hogares, pero no todo es maravilla como hay puntos positivos tambien lo hay negativos, como es el caso de que se pueden encontrar material o software malicioso que no tenemos conocimiento y estamos descargando sin saber que es malo o nos pide ingresar dicha informacion lo cual nos perjudica.\\ \\
Un punto importante hoy en dia son las publicidades en la Web, paginas que nosotros al momento de navegar salen anuncios, propagandas, hasta incluso estar bajando o instalandose un Adware que es muy perjudicial ya que no se abrio pero se descargo al momento y se ejecuta automaticamente en la maquina sin que el usuario se de cuenta de dicha aplicación falsa, mucho nos ocurre al dar click nos traslada a otra pagina publicitaria, ya sea para robo de informacion o material inadecuado. El articulo muestra como evitar o dar una de tantas soluciones al problema por medio de distintos algoritmos que son creados para prevenir este tipo de publicidad Web hay que tener en cuenta que no toda publicidad es perjudicial, algunas son legales o pagadas como las paginas de compras Amazon, eBay, Google, etc. Grandes compañias tienen ese tipo de enlaces pero la unica diferencia son tratadas con seguridad y ayudar a las personas llevarle productos nuevos que ofrecer, muchas paginas son victimas de estas publicidades en las redes sociales; cabe indicar que hubo un tiempo donde fueron atacadas con diversas propagandas Facebook fue la primera, Twitter la segunda, etc. Los Algoritmos a presentar son utilizados para optimizar el problema y hablaremos de cada uno con su propia metodologia ya que utilizan diferentes modelos matematicos entre ellos el algoritmo On-line, Offline, Algoritmo de Greedy y Algoritmo de Coincidencia.\\ \\
 
 
La publicidad digital influye actualmente en el mercado, dificil de creerlo pero este sector es muy joven teniendo en cuenta lo mucho que ha crecido dentro del Internet. A partir de 1993 y 1994 la publicidad en la Web era casi nula hasta que en 1995 aumento a mas de \$300.000 dolares, llegando hasta 2014 que se hiso un calculo estimado de \$121 mil millones y cabe indicar que la inversion global que esta liderando ahora es Google con diversos anuncios de busqueda. Cuando empezo esta nueva era en la decada de los 90 no era considerado como una publicidad si no como intercambio de informacion via correo electronico. Y entonces fue la idea de pioneros de Marketing potenciar mas la publicidad ya que veian que cada vez era mas frecuente los internautas verlos iniciar sesion para busqueda de informacion. Poco despues los banners comenzaron a aparecer con informacion tentadora, Microsoft Corporation y Yahoo comenzaron a implementar via Internet sus anuncios.\\
 
Pero a medida que paso el tiempo diversas caracteristicas fueron añadidas a la publicidad transformandose en una eficaz publicidad. Fue muy satisfactorio ver como esta herramienta ayudaba a generar ingresos para ciertas compañias pero todo tiene sus consecuencias ya que a medida que fueron aumentando millones de usuarios, ciertos adquirian estas publicidades para provocar daños o introducir dentro de cierto anuncio un Adware lo cual se ejecutaria automaticamente en cualquier maquina PC’s introduciendo desde virus hasta robo de informacion, cosa que hasta la fecha se han aumentado la Seguridad Web pero no basta solo eliminar cierta publicidad ya que no se sabe donde esta la raiz o la principal de donde se derivo esa, nacen los Algoritmos que ayudan a optimizar y combatir lo malicioso que hay en la Internet.\\ \\
 
 
Se maneja mucho el termino de la publicidad online ya que este busca atraer mas cibernautas o usuarios y formen parte activa de los mismos, como los eventos del cine, lanzamientos de productos, etc que llamen la atencion de todos y se involucren mas. Tanto asi que revistas, television, correos, la publicidad ha mostrado una rapida evolucion van a la mano con la tecnologia siendo la razon principal el medio Internet.
La evolucion de la publicidad web se ha caracterizado por sus populares banners con movimientos y colores que llaman la atencion de los usuarios los cuales son colocados en diferentes paginas web quienes mediante un link se enganchen directamente con la pagina publicitaria.
 
Sabiendo todo esto podemos analizar mediante un algoritmo de Coincidencia que analizaria cada Tweet con otro Tweet hasta incluso documentos o paginas publicadas, se ve la duplicacion de estas y las eliminaria totalmente una ayuda el cual previene que se propaguen mas, muchas formas hay de eliminarlas, investigar radica bastante esto ya que solo estariamos dando una solucion pero encontrar la raiz de todo implicaria hacer una busqueda mas extensa.
 
\section{\bf TRABAJOS RELACIONADOS}
 
Algoritmo Web es propio de cada buscador y trata de una formula que determina la importancia de cada Web,\cite{briggs1997advertising} siempre estara formado por un ingrediente (de la formula) que seran palabras.\\
Aquellos ingredientes o palabras pueden ser muchisimos y cada uno de menor ponderacion que con el tiempo pueden ampliarse. Las formulas de los algoritmoss Web de cada buscador son secretas por lo tanto si se sabe el contenido original y no los duplicados, la densidad de las palabras metas, etiquetas, descripciones y otros, determinarian un lugar de posicionamiento, por ello es importante la optimizacion externa de cada pagina para adecuarla a criterios que esten dentro de esto algoritmos.\\
 
El crecimiento de la publicidad en la World Wide Web requiere una investigación sobre las
\cite{ducoffe1996advertising} percepciones generales de los usuarios ya que estos afectan a las actitudes hacia los anuncios individuales.\\ \\
El valor de la publicidad sostiene un criterio de mediacion par evaluar los efectos en general y en particular del caso, para que el uso de este medio sea efectivo aquellos vendedores o usuarios se benefician de la comprension de los demas perciben la Web como una publicidad cosa que afectan las actitudes hacia los anuncios. La Web ofrece beneficios que mejoran el valor de la publicidad pero hay que entender como puede servir mejor a los consumidores, ademas se encuentran 3 puntos importantes donde la publicidad posee poco valor:\\
\begin{enumerate}
\item La enorme cantidad de publicidad que los individuos estan expuestos hace que sea imposible dar la atencion adecuada a la pagina y se prevee una mayor cantidad en un futuro cercano.
\item Los anuncion llegan a los usuarios cuando no estan interesados en comprar o revisarlos.
\item El gran problema de la publicidad es el riesgo debido a la cantidad y de tipo paridad.\\ \\ \\ \\ \\ \\ \\ \\ \\ \\
\end{enumerate}
 
\section{\bf DATOS}
 
Presentamos una tabla Estadistica la cual esta conformada por las variables que vamos a manejar.\\
 
\begin{figure}[bh]
\centering
\includegraphics[width=0.4\textwidth]{tabla.JPG}
\caption{Tabla Estadistica}
\label{tabla}
\end{figure}
 
 
\begin{figure}[bh]
\centering
\includegraphics[width=0.4\textwidth]{MEDIA.JPG}
\caption{Tabla Estadistica 2}
\label{tabla2}
\end{figure}
 
 
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{datosss.JPG}
\caption{Tabla Estadistica 3}
\label{figura}
\end{figure}
 
 
\section{\textbf{METODOLOGIA} }
 
\textbf{ALGORITMO EN LINEA}
 
 
Es aquel algoritmo en el cual puede seguir trabajando sin necesidad de tomar o procesar todos los datos de entrada. Pero el problema aquí radica en que como no sabe toda la entrada deberá tomar decisiones para realizar alguna acción en el momento en que se ingrese un nuevo conjunto de entradas, estas decisiones tal vez no sean buenas para el desarrollo del mismo.
Para esto un algoritmo en línea puede realizar parte de su trabajo con pocas entradas de datos, ya que el procesamiento de datos depende de los datos leídos hasta en ese momento y no esperará a que termine de procesar todas las entradas. Para esto  \cite{rajaraman2012mining} utilizaremos el método de ordenamiento por inserción en donde nos ayudara a procesar los datos y a ordenarlos.\\
Los algoritmos en línea procesan información al momento que la reciben, una aplicación importarte e interesante es en la detención del spam, para esto se está trabajando con las máquinas de soporte vectorial y se sigue investigando.\\
 
\begin{itemize}
\item \bf Ordenamiento por Inserci\'on
\end{itemize}
 
Es aquel algoritmo que puede insertar un numero o elemento en lista de n elementos \cite{salgadorestricciones} e ir comparando este elemento con la parte ordenada del algoritmo hasta ubicarlo en la posición correcta de la parte ordenada y así conseguir la lista totalmente ordenada.\\
\begin{itemize}
\item \bf Ventajas de la Inserci\'on
\end{itemize}
 
\begin{itemize}
\item Implementación sencilla.
\item Es un algoritmo sencillo de entender y de codificar.
\item Si el tamaño de la entrada es N, entonces el orden del tiempo de ejecución, para el peor caso es O(N2 ).
\item Eficiente para (muy) pequeñas series de datos, al igual que otros algoritmos de clasificación de segundo grado.
\item Mayor eficiencia en la práctica que la mayoría de otros sencilla cuadrática (es decir, o(n 2 ) algoritmos tales como ordenación por selección o clasificación en burbuja.
\item Adaptativa, es decir, eficaz para conjuntos de datos que ya están ordenadas sustancialmente.
\item En el lugar; es decir, sólo requiere una cantidad constante O (1) de espacio de memoria adicional.
\item Online; es decir, puede ordenar una lista, ya que lo recibe.\\
\end{itemize}
 
\begin{itemize}
\item \bf EXPLICACI\'ON DEL ALGORITMO
\end{itemize}
 
Una vez insertado el elemento se debe comparar con el elemento anterior de dicho numero insertado utilizando la f\'ormula de que si X es menor que los elementos anteriores pues estos se desplazaran a la derecha y luego se colocara el elemento X en la posición que corresponde.
En resumen con cada elemento mayor que X se desplazara a la derecha ya que se compara con X y se ubica en la posición correcta.\\ \\
 
Veamos un pequeño ejemplo del algoritmo ordenamiento por inserción para comprender mejor.
 
 
Ejemplo:
32 debe ser insertado entre 26 y 47, y por lo tanto 47, 59 y 96 deben ser desplazados.
 
\begin{table}[h!]
\centering
\caption{Ejemplos del Algritmo en linea.}
\label{rules-example}
\begin{tabular}{l|l|l|l|l|l}
 
\hline
{\bf k + 1} & & & & & \\
\hline
11 & 26 & 47 & 59 & 96 & 32 \\
11 & 26 & & 47 & 59 & 96 \\
11 & 26 & 32 & 47 & 59 & 96 \\
\hline
\end{tabular}
\end{table}
 
 
En la implementación computacional, el elemento k+1 va comparándose de atrás para adelante, deteniéndose con el primer elemento menor. Simultáneamente se van haciendo los desplazamientos.\\ \\ \\ \\ \\ \\ \\ \\ \\ \\
 
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{rr.jpg}
\caption{Tabla}
\label{figura5}
\end{figure}
 
 
tema de las ordenaciones es muy interesante desde el punto de vista matematico y computacional. Tiene su aplicacion en la vida diaria cuando \cite{aquinoalgoritmos}
se tienen que ordenar cosas como fichas de un directorio personal, publicaciones periodicas que estan en desorden. Sin duda esto adquiere mayor importancia ahora que las personas manejamos volumenes de informacion cada vez mas grandes dada la revolucion en las telecomunicaciones.\\
 
 
\textbf{ALGORITMO FUERA DE L\'INEA}
 
Es un algoritmo el cual se debe tener una secuencia de entradas para que pueda funcionar de la mejor manera, pero aquellos datos de entradas que se van a obtener se necesita que estén completos.
Toda carga de trabajo debe \cite{chui2003new} ser comunicada al algoritmo fuera de línea antes de que comience con el procesamiento de datos.
El algoritmo fuera de línea es muy importante por los datos que se extraen o que se obtienen por medio de este método. Aquí encontraremos al Algoritmo de Greedy que será de gran ayuda para nuestro proyecto.\\
 
 
\begin{itemize}
\item \bf ALGORITMO DE GREEDY
\end{itemize}
 
Las caracter\'isticas a tener en cuenta son:\\
\begin{itemize}
\item Se utiliza este tipo de algoritmo para resolver problemas de optimizaci\'on de datos.
\item Se toman decisiones en base a la información que se encuentra disponible en cada momento.
\item Una vez que se ha tomado la decisión, esta no se vuelve a replantear despu\'es.
\item Este tipo de algoritmo suelen ser r\'apidos y f\'aciles de implementar
\item No siempre garantizan alcanzar la soluci\'on \'optima, pero son de gran ayuda cuando se tienen muchos datos de entrada.\\
\end{itemize}
 
\begin{itemize}
\item \bf ELEMENTOS DEL ALGORITMO DE GREEDY
\end{itemize}
 
Los elementos a considerar utilizando el método de greedy que servir\'an para resolver problemas son:\\
\begin{itemize}
\item Conjunto de candidatos se encuentran los elementos seleccionables.
\item Soluci\'on parcial los posibles candidatos seleccionados.
\item Funci\'on de selecci\'on se debe determinar el candidato más \'optimo del conjunto que anteriormente se ha seleccionado.
\item Funci\'on de factibilidad mira si la soluci\'on es \'optima, para que esta se concluya totalmente completa.
\item Criterio que define lo que es una soluci\'on determina si la soluci\'on que se escogi\'o realmente soluciona el problema.
\item Funci\'on objetivo obtiene una soluci\'on al problema.\\ \\
\end{itemize}
 
\begin{itemize}
\item \bf Esquema De Greddy
\end{itemize}
 
\begin{figure}[bh]
\centering
\includegraphics[width=0.4\textwidth]{gre.JPG}
\caption{Algoritmo de Greddy}
\label{esquema}
\end{figure}
 
\begin{itemize}
\item \bf Explicaci\'on
\end{itemize}
 
\begin{itemize}
\item Se parte de un conjunto vac\'io: S = Ø
\item Utilizamos la lista de candidatos, y se escoge la mejor opci\'on
\item Se debe comprobar si podemos llegar a una soluci\'on factible con el candidato que hemos seleccionado. Si no es as\'i, simplemente se lo elimina de la lista de candidatos que se tiene y no se lo vuelve a considerar.
\item Y si no se ha llegado a la soluci\'on necesaria, se seleccionara otro candidato y se repite todo el proceso, para obtener la soluci\'on deseada.\\
\end{itemize}
 
 
\begin{itemize}
\item \bf Estrategias de Greedy
\end{itemize}
 
Aqu\'i consideramos el orden de las actividades y tenemos las siguientes:
\begin{itemize}
\item Orden creciente de hora de comienzo.
\item Orden creciente de hora de finalizaci\'on.
\item Orden creciente de duraci\'on.
\item Orden creciente de conflictos.\\
\end{itemize}
 
 
\textbf{ALGORITMO DE COINCIDENCIA DE DOCUMENTOS Y OFERTA}\\
 
Este algoritmo se detallara sobre la coincidencia de varios documentos y ofertas en la web primero detallaremos las partes a tratar del algoritmo. \\ \\
\begin{itemize}
\item \textbf{Oferta} .-Es un grupo de palabras en la web
\item \textbf{Documentos}.- Es un grupo de mayores cantidades de palabras como un tweet, email, un escrito etc.\\ \\
\end{itemize}
 
\begin{figure}[bh]
\centering
\includegraphics[width=0.2\textwidth]{mm.JPG}
\caption{Ofertas y Documentos}
\label{documentos}
\end{figure}
 
Pueden haber varios documentos , que se recibe a cada momento los cuales se pueden repartir en varios ordenadores.
Este algoritmo asumir\'a que hay grandes cantidades de ofertas que llegan a nuestras \cite{cardonaalgoritmos} cuentas los cuales mediante an\'alisis lexicogr\'afico se ordenaran las palabras extrañas primero.\\
 
 
\textbf{Ejemplo:}\\
 Suponemos que nuestro documento es:\\
 
\textbf{'Twas brillig, and the slithy toves'}\\
 
"The" es la palabra más frecuente en ingl\'es, y "and" es medianamente frecuente, la palabra "twas" es la menos frecuente que "The" o "and".\\ Las otras palabras no hacen la lista de palabras frecuentes.
Al final de la lista se compone de "twas", "and", y "the", en ese orden, puesto que es el inverso de la frecuencia. Los otros tres se colocan las palabras en la parte delantera de la lista en el orden lexicogr\'afico.\\
 
\textbf{'brillig slithy toves twas and the'}\\
 
Es la secuencia de palabras en el documento, debidamente ordenado, las ofertas se almacenan en una tabla hash, cuya clave hash es la primera palabra de la oferta.
Informaci\'on acerca de qu\'e hacer cuando la oferta est\'a conciliada , el estado es 0 y No necesitan ser almacenados de forma explícita.\\ \\
La segunda tabla hash, su labor es almacenar copias de esas ofertas que han sido parcialmente similares.
Estas ofertas tienen un Estado que sea al menos 1, pero menos que el n\'umero de palabras en el conjunto. Si el estado es 1, entonces el hash de la clave para esta tabla hash es el (i + 1) palabra. \\ \\ \\ \\ \\ \\
 
El siguiente esquema muestra el \cite{cotelobusqueda} proceso interno que hace el algoritmo en el cual se va evaluando asi:\\
 
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{Captura.JPG}
\caption{Esquema del Algoritmo de Coincidencia}
\label{proceso}
\end{figure}
 
 
\begin{itemize}
\item \bf PROCEDIMIENTO DEL ALGORITMO
\end{itemize}
 
 
\begin{enumerate}
\item Ordenar las palabras del documento lexicograficamente.
Eliminar palabras duplicadas.
 
\item Para cada palabra w, en el orden siguiente:
\begin{itemize}
\item Tomaremos w como hash, la clave para la tabla de las ofertas que coinciden parcialmente, buscamos esas ofertas teniendo w como clave.
\item Para cada oferta b, si w es la última palabra de b, se mueve a la tabla de ofertas coincidentes.
\item Si w no es la última palabra de la b, agregamos un 1 a b. La palabra cuya posición es uno más el nuevo estado, como la clave hash.
\item Usando w como clave para la tabla hash de todas las ofertas, encontramos esas ofertas para W pasan ha ser la primera palabra.
\item Para cada oferta b, si hay una sola palabra en su lista, copiarlo a la tabla de ofertas coincidentes.
\item Si b consta de más de una palabra, agréguelo con estado 1, a la tabla de ofertas que coinciden parcialmente con la segunda palabra de b como Clave hash.
\end{itemize}
 
 
\item Se produce la salida.
\begin{itemize}
\item La palabra mas rara deber\'ia ser visible ahora.
\item Una oferta s\'olo se copiara a la segunda tabla hash si la palabra aparece en el documento. En Comparaci\'on, si se utiliz\'o el orden lexicogr\'afico de las ofertas, se copiar\'a en la Segunda tabla hash.
\item Minimizando el tama\~no de la tabla.
\item La Tabla puede guardarse en la memoria principal. \\ \\ \\ \\ \\ \\ \\ \\ \\ \\
\end{itemize}
 
\end{enumerate}
 
\begin{figure}[bh]
\centering
\includegraphics[width=0.5\textwidth]{fin.JPG}
\caption{Algoritmo de coincidencia proceso}
\label{algoritmo}
\end{figure}
 
\section{\bf RESULTADOS}
 
Como resultado tenemos el algoritmo de Greedy el cual nos permite ordenar cierta cadena de caracteres dada y cabe indicar que este mismo algoritmo lo emplean otro tipo de algoritmos que sirven para optimizar.
 
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{greedy.JPG}
\caption{Greddy}
\label{Algoritmo}
\end{figure}
 
 
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{g2.JPG}
\caption{Greddy Resultados}
\label{Algoritmo2}
\end{figure}
 
 
 
La intencion es que al considerar adyacentes caracteres, tomo en cuenta no sólo los personajes, sino también del orden de los caracteres en la cadena original, ya que cada par de caracteres contiene un poco de información acerca de la orden original.
 
Voy a explicar el algoritmo mediante la comparación de las dos cadenas de 'France' y 'French', luego dividirlos en sus pares de caracteres:
 
FRANCE: {FR, RA, AN, NC, CE}
 
FRENCH: {FR, RE, EN, NC, CH} \\
 
En este caso, la intersección es {FR, NC}. Ahora, me gustaría expresar mi hallazgo como una métrica numérica que refleja el tamaño de la intersección con relación a los tamaños de las cadenas originales. Si los pares (x) es la función que genera los pares de letras adyacentes en una cadena, entonces mi métrica numérico de similitud es:
 
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{111.JPG}
\caption{Formulas}
\label{Skect}
\end{figure}
 
 
Hay que tener en cuenta que las tasas de fórmula completamente diferentes cadenas con un valor de 0 similitud, ya que el tamaño de la intersección par en el numerador de la fracción serán cero. Por otro lado, si se compara una cadena vacia a sí mismo, a continuación, la similitud es 1. Para nuestra comparación de «FRANCE» y «French», la métrica se calcula de la siguiente manera:
 
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{112.JPG}
\caption{Formula finalizada}
\label{tomo}
\end{figure}
 
Entonces tenemos la siguiente tabla con resultados en porcentaje:
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{4.JPG}
\caption{Tabla porcentual}
\label{Porciento}
\end{figure}
 
En lo que respecta al proyecto vamos a resolver una problematica que esta dando que hablar la publicidad Web para eso hemos hecho enfasis anteriormente sobre como empezar e ir revisando de lo que trata por ejemplo los algoritmos de Greedy, Fuera de Linea. \\ \\ \\ \\ \\ \\ \\  \\
Ahora presentaremos el algoritmo final el cual va a comparar nuestros diccionario de datos bajados directamente desde la Api de Twitter Streaming como podemos ver parte de nuestro codigo es el siguiente:\\ \\
 
\begin{figure}[bh]
\centering
\includegraphics[width=0.5\textwidth]{con1.JPG}
\caption{Clase Comparadora}
\label{Python}
\end{figure}
 
Y luego tenemos nuestra parte principal del codigo donde hace la comparacion de archivos.\\ \\ \\
 
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{con2.JPG}
\caption{Clase Principal Coincidencia}
\label{Python coincidencia}
\end{figure}
 
Como resultado nos debe generar un nuevo archivo y solo con la informacion ya optimizada hemos hecho la prueba con pocos datos y grandes datos que superan los 5 megas lo cual lleva a una extensa informacion al momento de descargarla, nuestro codigo funciona correctamente tenemos estos resultados con poca informacion. \\ \\
 
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{fin.JPG}
\caption{Resultados de Coincidencia}
\label{Python 3}
\end{figure}
 
Asi demostramos que mediante el Algoritmo de Coincidencia hecho en Python hemos logrado optimizar nuestros diccionarios de datos, pero esto solo es una pequeña muestra vemos que el internet es un universo informatico de informacion distintas por lo que tenemos que trabajar con millones de datos para lo que hacemos uso de herramientas mas complejas como es el caso de Hadoop el cual maneja grandes volumenes de informacion y como la publicidad son datos en extenso crecimiento y tantas coincidencias hemos implementado lo que es codigo mapreduce utilizando el sistema Operativo UBUNTU como cluster en este caso de un solo nodo para eso necesitamos las configuraciones necesarias y el codigo implementado en python.
 
 
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{mapper.JPG}
\caption{Mapper.py}
\label{Mapeo}
\end{figure}
 
Y por ultimo un Reducer lo que haria el proceso del mapeo.
\begin{figure}[bh]
\centering
\includegraphics[width=0.3\textwidth]{reducer.JPG}
\caption{Reducer.py}
\label{Reducir}
\end{figure}
 
 
 
\section{\bf CONCLUSIONES}
Se evidenció que el trabajo arduo para la búsqueda, coincidencia
de un conjunto de datos en este caso la api Twitter ha generado varios algoritmos el cual resuelvan y optimizan aquella problematica planteada que es la publicidad en la web, no obstante, el pre-procesamiento de los datos puede ser un campo de investigación importante para hallar nuevas técnicas de reduccion de datos, que permita al algoritmo que se elija buscar y obtener el resultado deseado.\\
 
Hemos optado por la combinacion de algoritmos tanto ordenacion, busqueda y comparacion, el cual nos genera resultados por separado; pero se obtiene buenos resultados optimos al momento de utilizar el algoritmo de Coincidencia ya que lo que queremos es comparar documentos y ofertas lo cual lo resuelve por un proceso interno y nuestro resultado seria eliminar aquellas publicidad repetitiva el cual se genera en las redes sociales en nuestro caso Twitter y hace que se habran paginas extrañas,incluso se vuelve lenta, este es una de muchas soluciones que uno puede plantear al momento de hacer un map reduce a dicho conjunto de datos.
 
 
 
\bibliographystyle{plain}
\bibliography{biblio.bib}
 
 
\end{document}