Design experimental

Os dados para estudos estatísticos são obtidos por meio de experimentos ou pesquisas. O design experimental é o ramo da estatística que trata do design e da análise de experimentos. Os métodos de desenho experimental são amplamente utilizados nas áreas da agricultura, medicamento , biologia, pesquisa de marketing e produção industrial.



Em um estudo experimental, as variáveis ​​de interesse são identificadas. Uma ou mais dessas variáveis, denominadas fatores do estudo, são controladas para que se possam obter dados sobre como os fatores influenciam outra variável denominada variável resposta, ou simplesmente a resposta. Como um caso em questão, considere um experimento projetado para determinar o efeito de três programas de exercícios diferentes sobre o colesterol nível de pacientes com colesterol elevado. Cada paciente é referido como uma unidade experimental, a variável de resposta é o nível de colesterol do paciente ao término do programa e o programa de exercícios é o fator cujo efeito sobre o nível de colesterol está sendo investigado. Cada um dos três programas de exercícios é denominado tratamento.



Três dos projetos experimentais mais amplamente utilizados são o delineamento inteiramente casualizado, o delineamento em blocos ao acaso e o delineamento fatorial. Em um delineamento experimental inteiramente casualizado, os tratamentos são atribuídos aleatoriamente às unidades experimentais. Por exemplo, aplicando este método de desenho ao estudo do nível de colesterol, os três tipos de programa de exercícios (tratamento) seriam atribuídos aleatoriamente às unidades experimentais (pacientes).



O uso de um projeto completamente aleatório produzirá resultados menos precisos quando fatores não considerados pelo experimentador afetam a variável de resposta. Considere, por exemplo, um experimento projetado para estudar o efeito de dois diferentes Gasolina aditivos no combustível eficiência , medido em milhas por galão (mpg), de automóveis de grande porte produzidos por três fabricantes. Suponha que 30 automóveis, 10 de cada fabricante, estivessem disponíveis para o experimento. Em um projeto completamente aleatório, os dois aditivos (tratamentos) de gasolina seriam atribuídos aleatoriamente aos 30 automóveis, com cada aditivo sendo atribuído a 15 carros diferentes. Suponha que o fabricante 1 tenha desenvolvido um motor que dá a seus carros de tamanho real uma maior eficiência de combustível do que os produzidos pelos fabricantes 2 e 3. Um projeto completamente aleatório poderia, por acaso, atribuir o aditivo de gasolina 1 a uma proporção maior de carros do fabricante 1 . Nesse caso, o aditivo de gasolina 1 pode ser considerado mais eficiente em termos de combustível quando, na verdade, a diferença observada é, na verdade, devido ao melhor projeto do motor dos automóveis produzidos pelo fabricante 1. Para evitar que isso ocorra, um estatístico poderia projetar um experimento em que ambos os aditivos de gasolina são testados em cinco carros produzidos por cada fabricante; desta forma, quaisquer efeitos devidos ao fabricante não afetariam o teste de diferenças significativas devido ao aditivo à gasolina. Neste experimento revisado, cada um dos fabricantes é referido como um bloco, e o experimento é chamado de desenho de bloco aleatório. Em geral, o bloqueio é usado a fim de permitir comparações entre os tratamentos a serem feitos dentro dos blocos de homogêneo unidades experimentais.

Os experimentos fatoriais são projetados para tirar conclusões sobre mais de um fator ou variável. O termo fatorial é usado para indicar que todas as combinações possíveis dos fatores são consideradas. Por exemplo, se houver dois fatores com para níveis para o fator 1 e b níveis para o fator 2, o experimento envolverá a coleta de dados sobre para b combinações de tratamento. O planejamento fatorial pode ser estendido a experimentos envolvendo mais de dois fatores e experimentos envolvendo planejamentos fatoriais parciais.



Análise de variância e teste de significância

Um procedimento computacional freqüentemente usado para analisar os dados de um estudo experimental emprega um procedimento estatístico conhecido como análise de variância. Para um experimento de fator único, esse procedimento usa um teste de hipótese relativo à igualdade das médias de tratamento para determinar se o fator tem um efeito estatisticamente significativo na variável de resposta. Para projetos experimentais envolvendo múltiplos fatores, um teste para a significância de cada fator individual, bem como efeitos de interação causados ​​por um ou mais fatores agindo em conjunto, pode ser feito. Uma discussão mais aprofundada do procedimento de análise de variância está contida na seção subsequente.



Análise de regressão e correlação

A análise de regressão envolve a identificação da relação entre uma variável dependente e uma ou mais variáveis ​​independentes. Um modelo da relação é hipotetizado e as estimativas do parâmetro os valores são usados ​​para desenvolver uma equação de regressão estimada. Vários testes são então empregados para determinar se o modelo é satisfatório. Se o modelo for considerado satisfatório, a equação de regressão estimada pode ser usada para prever o valor dos valores dados da variável dependente para as variáveis ​​independentes.

Modelo de regressão

Na regressão linear simples, o modelo usado para descrever a relação entre uma única variável dependente Y e uma única variável independente x é Y = β0+ β1 x + e. b0e β1são referidos como os parâmetros do modelo, e ε é um termo de erro probabilístico que explica a variabilidade em Y que não pode ser explicado pela relação linear com x . Se o termo de erro não estivesse presente, o modelo seria determinístico; nesse caso, o conhecimento do valor de x seria suficiente para determinar o valor de Y .



Na análise de regressão múltipla, o modelo de regressão linear simples é estendido para dar conta da relação entre a variável dependente Y e p variáveis ​​independentes x 1, x dois,. . ., x p . A forma geral do modelo de regressão múltipla é Y = β0+ β1 x 1+ βdois x dois+. . . + β p x p + e. O parametros do modelo são os β0, β1,. . ., β p , e ε é o termo de erro.

Método dos mínimos quadrados

Um modelo de regressão simples ou múltiplo é inicialmente apresentado como um hipótese quanto à relação entre as variáveis ​​dependentes e independentes. O método dos mínimos quadrados é o procedimento mais amplamente utilizado para desenvolver estimativas dos parâmetros do modelo. Para regressão linear simples, as estimativas de mínimos quadrados dos parâmetros do modelo β0e β1são denotados b 0e b 1. Usando essas estimativas, uma equação de regressão estimada é construída: ŷ = b 0+ b 1 x . O gráfico da equação de regressão estimada para regressão linear simples é uma aproximação em linha reta para a relação entre Y e x .



Como ilustração da análise de regressão e do método dos mínimos quadrados, suponha que um centro médico universitário esteja investigando a relação entre estresse e pressão sanguínea . Suponha que a pontuação do teste de estresse e a leitura da pressão arterial foram registradas para uma amostra de 20 pacientes. Os dados são mostrados graficamente emFigura 4, chamado de diagrama de dispersão. Os valores da variável independente, pontuação do teste de estresse, são dados no eixo horizontal, e os valores da variável dependente, pressão arterial, são mostrados no eixo vertical. A linha que passa pelos pontos de dados é o gráfico da equação de regressão estimada: ŷ = 42,3 + 0,49 x . O parâmetro estima, b 0= 42,3 e b 1= 0,49, foram obtidos pelo método dos mínimos quadrados.



diagrama de dispersão com equação de regressão estimada

diagrama de dispersão com equação de regressão estimada Um diagrama de dispersão que mostra a relação entre estresse e pressão arterial. Encyclopædia Britannica, Inc.

Um uso primário da equação de regressão estimada é prever o valor da variável dependente quando os valores das variáveis ​​independentes são fornecidos. Por exemplo, dado um paciente com uma pontuação de teste de estresse de 60, a pressão arterial prevista é 42,3 + 0,49 (60) = 71,7. Os valores previstos pela equação de regressão estimada são os pontos na linha emFigura 4, e as leituras reais da pressão arterial são representadas pelos pontos espalhados pela linha. A diferença entre o valor observado de Y e o valor de Y predito pela equação de regressão estimada é chamado de resíduo. O método dos mínimos quadrados escolhe as estimativas dos parâmetros de forma que a soma dos resíduos quadrados seja minimizada.



Análise de variância e qualidade de ajuste

Uma medida comumente usada da qualidade do ajuste fornecida pela equação de regressão estimada é o coeficiente de determinação . O cálculo deste coeficiente é baseado no procedimento de análise de variância que divide a variação total na variável dependente, denotada SST, em duas partes: a parte explicada pela equação de regressão estimada, denotada SSR, e a parte que permanece sem explicação, denotada SSE .

A medida da variação total, SST, é a soma dos desvios quadrados da variável dependente sobre sua média: Σ ( Y - ȳ )dois. Essa quantidade é conhecida como a soma total dos quadrados. A medida de variação inexplicada, SSE, é referida como a soma residual dos quadrados. Para os dados emFigura 4, SSE é a soma das distâncias quadradas de cada ponto no diagrama de dispersão (verFigura 4) para a linha de regressão estimada: Σ ( Y - ŷ )dois. SSE também é comumente referido como a soma dos quadrados do erro. Um resultado importante na análise de variação é que SSR + SSE = SST.



A proporção r dois= SSR / SST é chamado de coeficiente de determinação. Se os pontos de dados forem agrupados próximos à linha de regressão estimada, o valor de SSE será pequeno e SSR / SST será próximo a 1. Usando r dois, cujos valores estão entre 0 e 1, fornece uma medida da qualidade do ajuste; valores mais próximos de 1 implicam em um melhor ajuste. Um valor de r dois= 0 implica que não há relação linear entre as variáveis ​​dependentes e independentes.

Quando expresso como uma porcentagem, o coeficiente de determinação pode ser interpretado como a porcentagem da soma total dos quadrados que pode ser explicada usando a equação de regressão estimada. Para o estudo de pesquisa de nível de estresse, o valor de r doisé 0,583; assim, 58,3% da soma total dos quadrados pode ser explicado pela equação de regressão estimada ŷ = 42,3 + 0,49 x . Para dados típicos encontrados nas ciências sociais, valores de r doistão baixo quanto 0,25 são frequentemente considerados úteis. Para dados nas ciências físicas, r doisvalores de 0,60 ou mais são freqüentemente encontrados.

Teste de significância

Em um estudo de regressão, os testes de hipótese são geralmente conduzidos para avaliar a significância estatística da relação geral representada pelo modelo de regressão e para testar a significância estatística dos parâmetros individuais. Os testes estatísticos usados ​​são baseados nas seguintes suposições sobre o termo de erro: (1) ε é uma variável aleatória com um valor esperado de 0, (2) a variância de ε é a mesma para todos os valores de x , (3) os valores de ε são independentes, e (4) ε é uma variável aleatória normalmente distribuída.

O quadrado médio devido à regressão, denotado MSR, é calculado dividindo SSR por um número referido como seus graus de liberdade; de maneira semelhante, o quadrado médio devido ao erro, MSE, é calculado dividindo SSE por seus graus de liberdade. Um teste F baseado na razão MSR / MSE pode ser usado para testar a significância estatística da relação geral entre a variável dependente e o conjunto de variáveis ​​independentes. Em geral, grandes valores de F = MSR / MSE apóiam a conclusão de que a relação geral é estatisticamente significativa. Se o modelo geral for considerado estatisticamente significativo, os estatísticos geralmente conduzirão testes de hipótese nos parâmetros individuais para determinar se cada variável independente faz uma contribuição significativa para o modelo.

Compartilhar:

Seu Horóscopo Para Amanhã

Idéias Frescas

Categoria

Outro

13-8

Cultura E Religião

Alquimista Cidade

Livros Gov-Civ-Guarda.pt

Gov-Civ-Guarda.pt Ao Vivo

Patrocinado Pela Fundação Charles Koch

Coronavírus

Ciência Surpreendente

Futuro Da Aprendizagem

Engrenagem

Mapas Estranhos

Patrocinadas

Patrocinado Pelo Institute For Humane Studies

Patrocinado Pela Intel The Nantucket Project

Patrocinado Pela Fundação John Templeton

Patrocinado Pela Kenzie Academy

Tecnologia E Inovação

Política E Atualidades

Mente E Cérebro

Notícias / Social

Patrocinado Pela Northwell Health

Parcerias

Sexo E Relacionamentos

Crescimento Pessoal

Podcasts Do Think Again

Vídeos

Patrocinado Por Sim. Cada Criança.

Geografia E Viagens

Filosofia E Religião

Entretenimento E Cultura Pop

Política, Lei E Governo

Ciência

Estilos De Vida E Questões Sociais

Tecnologia

Saúde E Medicina

Literatura

Artes Visuais

Lista

Desmistificado

História Do Mundo

Esportes E Recreação

Holofote

Companheiro

#wtfact

Pensadores Convidados

Saúde

O Presente

O Passado

Ciência Dura

O Futuro

Começa Com Um Estrondo

Alta Cultura

Neuropsicologia

Grande Pensamento+

Vida

Pensamento

Liderança

Habilidades Inteligentes

Arquivo Pessimistas

Começa com um estrondo

Grande Pensamento+

Neuropsicologia

Ciência dura

O futuro

Mapas estranhos

Habilidades Inteligentes

O passado

Pensamento

O poço

Saúde

Vida

Outro

Alta cultura

A Curva de Aprendizagem

Arquivo Pessimistas

O presente

Patrocinadas

A curva de aprendizado

Liderança

ciência difícil

De outros

Pensando

Arquivo dos Pessimistas

Negócios

Artes E Cultura

Recomendado