Behavior identification of flower-visiting bees using pattern recognition methods

AbstractThis Authorea document template can be used to prepare documents according to a desired citation style and authoring guidelines. Abstracts are not always required, but most academic papers have one and writers should know how to produce a useful abstract. An abstract should be a very short, clear and concise summation of the entire paper. An abstract should provide enough of a preview that a typical reader will know whether or not they wish to read the paper. It should reveal both the purpose and conclusions of the paper.

Introduction

Bees are the most common and most important pollinators in almost all ecosystems. The main floral resources explored by bees are pollen and nectar. Pollen is the most important floral resource for bees, since it is the main source of nitrogen and phosphorus for their larvae. Thus, pollen is a limiting resource for the maintenance of bee populations, for its availability directly influences the development of their larvae, and dictates the reproductive success of the population. Most angiosperms have their pollen readily accessible to flower visitors, but some ( 10%) species keep their pollen in anthers that present dehiscence by apical small openings (Buchmann 1983). While visiting the flowers of such kind of plants, the female bees vibrate the anthers using their wing muscles to collect pollen (Wille 1963); (Vogel 1978); (Buchmann 1983). Such ecological relationship is known as buzz pollination, and widely occurs across phylogenetically unrelated plant families, including several species of economic interest.

The species commonly reported as efficient pollinators in these systems are large and medium-sized bees, such as the Euglossini, Centridin, Bombini and Xylocopini. Interestingly, the plant species that provide pollen for the bees of such tribes are strongly overlapping. The bee species of such taxa are polylectic (Cane 2006), which means they are generalists as far as the utilization of pollen resources is concerned, and that they collect pollen from flowers of different plant families. The plant groups with poricidal anthers that contribute the most for the pollen diet of large bees are Solanum (Solanaceae), Cassia, Chamaecrista, Senna (Fabaceae) and Melastomataceae (Vogel 1978); (Buchmann 1983); (Schlindwein 2000); (Harter 2002); (Aguiar 2003); (Gottsberger 2006); (Silva 2010); (Burkart 2011). Besides the buzz pollinating bees, other bee species collect pollen via destructive floral visits (Wille 1963); (Thorp 2000) or collect the pollen grains adhered to the surface of petals and anthers after the visits of buzz pollinating bees (Wille 1963); (Gottsberger 2006). Bees other than the buzz pollinating bees usually do not contribute to the formation of fruits. Thus, the range of possible pollinators for plants with poricidal anthers is restricted, since the pollen of such species is extracted essentially by buzz pollinating bees. Such systems are, then, more vulnerable to co-extinction.

Several questions relative to the response of pollinators to floral characteristics associated with buzz pollination are still unanswered (Larson 1999). The analysis of the relationships between plants with poricidal anthers and their floral visitors at the community level are also lacking. Normally, suitable data to answer ecological communities issues are complex, missing data are frequently and non-linear. The advantage to used pattern recognition methods over traditional statistical techniques is the ability to model highly dimensional and non-linear data with complex interactions and missing values (Knudby 2010). A approach that considers the results of multiple algorithms may more reliable (Thessen 2016). Here we used pattern recognition methods to classify the behaviour of visitors bees in flowers with poricidal anthers.

Descrição dos dados

Método de coletas dos dados

O trabalho de campo foi realizado com um esforço amostral intensivo no Parque Estadual do Rio Preto, Minas Gerais, Brasil. Durante o período de maior sobreposição de floração das espécies com anteras poricidas, entre os meses de setembro e dezembro. A área possui cerca de 70 espécies de anteras poricidas catalogadas. Foram delimitadas populações vegetais para as análises de interação na polinização á nível de comunidade e adotado como critério para a escolha uma área com grande riqueza de espécies poricidas em co-floração, populações com número de indivíduos suficientes para estudo de polinização e acessibilidade do local. O estudo de biologia da polinização na comunidade de espécies de plantas com anteras poricidas envolveu a categorização de todos os visitantes florais das flores. Isto inclui as abelhas que vibram flores, abelhas que realizam coleta de grãos e abelhas que roubam pólen e causam dano às anteras. Foram realizadas expedições de reconhecimento ao Parque do Rio Preto para delimitação da comunidade focal, biologia floral e determinação das interações entre plantas e abelhas. Estudos da biologia floral e polinização serão realizados nas áreas de ocorrência, tanto nos estudos de caso como no nível de comunidade. Foi amostrado o espectro de abelhas visitando flores, frequência, duração das visitas e número de vibrações por flor. Paralelamente, serão amostradas anteras e estimado o número total de grãos de pólen presentes em cada antera, flor e planta. Os dados de frequência de visitantes em cada espécie vegetal foram tabulados e analisados em conjunto para a comunidade de espécies com anteras poricidas.

Classificadores

Radon Florest

O algoritmo aleatórios Florestas é um dos melhores entre os algoritmos de classificação - capaz de classificar grandes quantidades de dados com precisão. Florestas aleatórios são um método de aprendizagem conjunto (também pensado como uma forma de preditor vizinho mais próximo) para a classificação e regressão que construir um número de árvores de decisão em tempo de formação e emitir a classe que é o modo da saída por árvores individuais. Florestas aleatórios são uma combinação de preditores de árvore onde cada árvore depende dos valores de um vetor aleatório amostrado de forma independente com a mesma distribuição para todas as árvores da floresta. O princípio básico é que um grupo de ”aprendizes fracos” podem se unir para formar um ”aprendiz forte”. Florestas aleatórios são uma ferramenta maravilhosa para fazer previsões, considerando que eles não overfit por causa da lei dos grandes números. Árvores de decisão individuais muitas vezes têm alta variância ou alto viés. Aleatórios Florestas procura mitigar os problemas de alta variância e de alta polarização pela média de encontrar um equilíbrio natural entre os dois extremos. Considerando que a Random florestas têm alguns parâmetros para ajustar e pode ser usado apenas com parâmetros predefinidos, eles são uma ferramenta simples de usar, sem ter um modelo ou para produzir um modelo razoável rapidez e eficiência. Se o número de casos no conjunto de treino é N, N casos amostra ao acaso - mas com a substituição, a partir dos dados originais. Esta amostra será o conjunto de treinamento para o cultivo da árvore. Se existem M variáveis de entrada, um número m é especificado de modo a que em cada nó, as variáveis m são seleccionados aleatoriamente para fora do H e o melhor desdobramento sobre estas m é usado para dividir o nó. O valor de m é mantida constante durante o crescimento florestal. Cada árvore é cultivada na maior extensão possível. Não há poda. Principais Benefícios da Random Florestas é a precisão, funciona eficientemente em grandes bases de dados, gera estimativas de quais variáveis são importantes na classificação, fornece métodos eficazes para estimar os dados em falta e mantém a precisão quando uma grande proporção dos dados estão em falta.

J48

Lida tanto com atributos categóricos (ordinais ou não-ordinais) como com atributos contínuos. Para lidar com atributos contínuos, o algoritmo J48 define um limiar e então divide os exemplos de forma binária: aqueles cujo valor do atributo é maior que o limiar e aqueles cujo valor do atributo é menor ou igual ao limiar. O algoritmo J48 permite que os valores desconhecidos para um determinado atributo sejam representados como ‘?’, e o algoritmo trata esses valores de forma especial. Esses valores não são utilizados nos cálculos de ganho e entropia. Utiliza a medida de razão de ganho para selecionar o atributo que melhor divide os exemplos. Essa medida se mostrou superior ao ganho de informação, gerando árvores mais precisas e menos complexas. Lida com problemas em que os atributos possuem custos diferenciados. Apresenta um método de pós-poda das árvores geradas. O algoritmo J48 faz uma busca na árvore, de baixo para cima, e transforma em nós folha aqueles ramos que não apresentam nenhum ganho significativo. Executa sempre o melhor passo avaliado localmente, sem se preocupar se este passo, junto à sequência completa de passos, vai produzir a melhor solução ao final. “Dividir para conquistar”: partindo da raiz, criam-se sub-árvores até chegar nas folhas, o que implica em uma divisão hierárquica em múltiplos subproblemas de decisão, os quais tendem a ser mais simples que o problema original.

Support Vetor Machines

Support Vector Machines são baseadas no conceito de planos de decisão que definem limites de decisão. É essencialmente um método classificação que executa tarefas de classificação através da construção de hiperplanos em um espaço multidimensional que separa casos de diferentes rótulos de classe. SVM suporta ambas as tarefas de regressão e de classificação e pode lidar com múltiplas variáveis (contínuas e categóricas).

One of the reasons of this article would be estatitisticas techniques to analyze the data collected can be more sensitive to missing data, complex relationships between variables, among others. Therefore the use of pattern recognition algortimo, the advantage compared to usual methods besides estatitisticos sinteziar results.