CCMAR, Centro de Ciências do Mar - Authorea

http://www.ccmar.ualg.pt

by author

by title

by keyword

Apresentação do R com um exemplo de análise de regressão não-linear

Eduardo Esteves

July 02, 2017

ABSTRACT No seguimento dum artigo anterior acerca da análise de regressão não-linear (simples) utilizando a ferramenta Solver® do Excel® propõe-se neste artigo a apresentação do R, uma linguagem de programação e um ambiente para computação estatística e gráfica, através da sua aplicação na “descrição” de relações estatísticas (não-lineares) entre variáveis. PALAVRAS-CHAVE: R, Regressão não-linear. INTRODUÇÃO O R é ao mesmo tempo uma linguagem de programação e um ambiente para computação estatística e gráfica. Trata-se de uma linguagem de programação especializada em computação com dados. Uma das suas principais características é o seu carácter gratuito e a sua disponibilidade para uma gama bastante variada de sistemas operativos (vd. ). Apesar do seu carácter gratuito, o R é uma ferramenta bastante poderosa com boas capacidades ao nível da programação e um conjunto bastante vasto (e em constante crescimento) de packages que acrescentam bastantes potencialidades à já poderosa versão base do R . Contudo, o termo “ambiente” pretende caracterizar o R como um sistema completo e coerente ao invés dum conjunto de ferramentas muito específicas e relativamente inflexíveis . O R pode ser entendido como uma implementação da linguagem S desenvolvida por Rick Becker, John Chambers e Allan Wilks nos Bell Laboratories (E.U.A.), que também constitui a base do software S-Plus® (Insightful Corp.). A evolução da linguagem S está descrita em quatro livros de John Chambers e colaboradores. As “distribuições” do R incluem um bom conjunto de manuais (_vd_. ) e existem, actualmente, vários livros que descrevem a utilização do R para análise estatística de dados (_vd_. ), _e.g._ ou . Na última revisão deste artigo usei a versão 2.12.0 (embora sejam disponibilizadas regularmente “novas” versões do R). O ficheiro de instalação (R-X.XX.X-win32.exe) para Microsoft Windows® pode ser obtido em e o processo de instalação é simples. Também existem “versões” para Mac OS e Unix/Linux, e 64-bit para Windows. O sítio electrónico do projecto constitui a principal referência do R e funciona como ponto de partida para explorar mais este sistema. Boa parte das pessoas utiliza o R como um sistema para análise estatística de dados, uma vez que a maioria das “estatísticas clássicas” e muitas das metodologias mais recentes estão disponíveis, embora os promotores prefiram “pensar” o R como um ambiente no qual essas técnicas têm sido implementadas . Cerca de 25 pacotes (_i.e._ conjuntos de funções) fazem parte do sistema básico (os “recommended” packages), mas muitos outros estão disponíveis através do CRAN (via para instalação. Uma importante diferença entre a linguagem S (e o R) e outros sistemas (e.g. SPSS® ou SAS®) reside na (muito) menor quantidade de resultados apresentados para uma qualquer análise estatística, embora os resultados sejam guardados em objectos para posterior consulta ou utilização pelo R noutras funções . Neste artigo, pretende-se apresentar (muito sucintamente) o R, uma linguagem de programação especializada em computação com dados, utilizando-a para analisar problemas cujo objectivo é “descrever” relações estatísticas (não-lineares) entre variáveis. Não se pretende discutir aqui os aspectos estatísticos dos resultados obtidos, apenas o _modus operandi_ (ainda que de forma simplificada). REGRESSÃO NÃO-LINEAR (SIMPLES) Os vários aspectos relacionados com a regressão não-linear (simples) que servem de base a este artigo foram abordados, ainda que de forma informal e possivelmente incompleta, num artigo anterior . Em vários domínios do conhecimento, e.g. biologia, física, química, engenharia, etc., são usados modelos matemáticos para descrever um conjunto de dados empíricos, genericamente \(y=f\left(\theta\right)+\epsilon\) em que _y_ é a variável dependente, _x_ é a variável “independente” – por vezes, controlada pelo investigador – e _f(x)_ é uma função que pode incluir um ou mais parâmetros _θ_, e _ϵ_ são os erros aleatórios, independentes e com distribuição normal. Outra formulação, equivalente, é \(\ =f\left(x\right)\) (em que \(\) se lê valor esperado, ou estimado, de _y_). Quanto melhor _f(x)_ se ajustar aos dados, mais “rigorosamente” descreverá aquela relação . Pretende-se ajustar a função _f(x)_ aos dados empíricos de forma a minimizar os erros \(\epsilon_i\ =\ \left(y_i-\right)\). De facto, o objectivo é estimar o(s) parâmetro(s) da função _f(x)_ de modo a minimizar a soma dos quadrados dos erros, SQE – método dos mínimos quadrados. No caso de funções (ou modelos) não-lineares, e.g. \(y=a\exp(b\cdot x)\), não é possível obter as estimativas dos parâmetros num único passo, como no caso de regressões lineares, pelo que a SQE é minimizada através dum processo iterativo (cíclico) utilizando um algoritmo apropriado que necessita dos valores iniciais dos parâmetros \(\theta_0\) . Tradicionalmente, transformam-se as variáveis de alguns modelos não-lineares de forma a linearizar a relação e a permitir a sua análise através da regressão linear. Contudo, esta abordagem é válida se a(s) variável(is) transformadas se verificam os pressupostos da análise de regresão linear. EXEMPLO A utilização do R com um exemplo concreto (entretanto abordado por usando a ferramenta Solver® do Microsoft Excel®) permitirá mostrar o funcionamento e demonstrar as capacidades do software. Como se imagina, as funcionalidades não se esgotam no que aqui se apresenta. O aspecto do R ao iniciar uma sessão de trabalho em ambiente Windows® ilustra-se na Figura . Para além da barra de ferramentas no topo (que permite realizar as tarefas comuns: abrir/gravar ficheiros, cortar/colar texto, instalar pacotes, “gerir” as janelas, etc.) surge uma janela (_R Console_) na qual se introduzem os comandos, a seguir ao sinal >. Admita-se que os dados que se pretendem analisar estão num ficheiro do Excel®. Em primeiro lugar, será necessário guardar uma versão (*.txt ou *.csv) - a extensão txt diz respeito a ficheiros de texto separado por tabulações enquanto a extensão csv está relacionada com ficheiros de texto separados por vírgulas - desse ficheiro utilizável pelo R (devem usar-se pontos, em vez de vírgulas, como separadores decimais).