Exemplo de Análise ModelTest
Fazendo a análise
- rps16_rubiaceae_205-06-22_ncbi_so20_comoutgroup.fasta - arquivo de dados do exemplo
- Primeiro faça o alinhamento dos dados, caso não tenha feito isso ainda. Veja como fazer isso usando o MAFFT.
- rps16_rubiaceae_205-06-22_ncbi_so20_comoutgroupalinhadomafft.fasta - arquivo alinhado pelo MAFFT
- Você precisa criar uma conta no CIPRES caso ainda não tenha uma
- Crie um FOLDER (pasta) na sua conta para organizar dados (DATA) e análises (TASKS)
- Entre no folder DATA e suba o seu arquivo FASTA para o servidor (UPDLOAD/ENTER DATA) - selecione o arquivo e mande salvar. Se você não informar um LABEL (etiqueta) e ele irá usar o nome do arquivo para isso.
- Após subir os seus dados, entre na pasta TASKS (Tarefa) para preparar a análise. Selecione a opção CREATE NEW TASK.
- Na aba Task Summary especifique:
- Description - um título qualquer para tua análise
- Input - selecione os dados que você subiu
- Tool - selecione a Ferramenta, neste caso JMODELTEST2_XSEDE que é o programa que faz seleção de modelos
- Input Parameters - precisa rever os parâmetros para rodar a análise. O padrão do JModelTest são 19 parâmetros especificados automaticamente, mas ele exige que você veja os parâmetros.
- Clique em parâmetros avançados (Advanced Parameters). Idealmente você deveria entender todos os parâmetros que você pode especificar, mas não se preocupe com isso, o objetivo do exercício é mostrar o processo e não explicar em detalhe os diferentes modelos e formas de testar modelos. Tem apenas 1 especificação que você precisa fazer: Information Criteria, onde você deve especificar uma das opções (no exemplo selecionamos o 'corrected Akaike Information Criteria')
- Note que após fazer isso e salvar o número de parâmetros diminui para 15
- Selecione Save and Run Task para enviar a análise para processamento no servidor. Ignore o alerta que o sistema de dá e dê OK. Você pode acompanhar a sua análise clicando em Status. Quando terminar o Status será COMPLETED e você poderá baixar os resultados (View Output)
- Selecione todos os arquivos (Select All) gerados e faça o download de tudo para seu computador (Download Selected). Um arquivo chamado Cipres_Data.zip será gerado contendo todos os arquivos de texto com os resultados da análise
Lendo o Resultado
Os seguintes arquivos são importantes:
- infile.phy - cópia dos dados, como você subiu no servidor
- stdout.txt - é log da análise, se não rodou corretamente, o erro gerado também estará aqui dentro
Um erro comum é quando o alinhamento não está bom ou tem sequencias de comprimentos muito diferentes. Por exemplo, o resultado pode ter a seguinte informação:
Reading data file "infile.phy"... failed. Alignment parse exception: There's some error in your data: Sequence lengths are not equal. Invalid input file: Alignment: /projects/ps-ngbt/backend/gordon_workspace/NGBW-JOB-JMODELTEST2_XSEDE-C853F42CAA674610BC91F1A680C02BF6/infile.phy
- stdout.txt - este arquivo contém um resultado válido do JModelTest
- Neste arquivo vai encontrar uma tabela parecida com a seguinte lista dos modelos ordenados do mais provável (delta AICc == 0) ao menos provável (último da lista), ou seja estão ordenado pelo valor de AICc que indica a distância ao modelo real (desconhecido) que esta sendo estimado. O valor de AIC é relativo, portanto, só importa no contexto de cada análise me particular. Todos os modelos com delta AICc ⇐2 são igualmente prováveis (no exemplo, apenas 1 modelo, GTR+G tem delta ⇐2). O delta é a diferença do valor de AICc de um modelo pelo valor do modelo mais provável.
- Quando houver mais de um modelo que tem delta ⇐ 2, você pode aplicar o princípio de Okham, ou seja parcimônia, e selecionar o modelo que tem o menor número de parâmetros (menos suposições, mais simples). K na tabela abaixo é número de parâmetros do modelo.
* AICc MODEL SELECTION : Selection uncertainty Model -lnL K AICc delta weight cumWeight ------------------------------------------------------------------------- GTR+G 4675.36701 51 9457.403034 0.000000 0.687789 0.687789 GTR+I+G 4675.36715 52 9459.590688 2.187654 0.230363 0.918152 TVM+G 4679.56083 50 9463.607148 6.204114 0.030921 0.949072 TIM1+G 4680.74192 49 9463.789640 6.386606 0.028224 0.977297 TVM+I+G 4679.56102 51 9465.791054 8.388020 0.010376 0.987672 TIM1+I+G 4680.74203 50 9465.969548 8.566514 0.009490 0.997162 TPM1uf+G 4684.57619 48 9469.282319 11.879284 0.001811 0.998973 TPM1uf+I+G 4684.57636 49 9471.458520 14.055486 0.000610 0.999583 ....
- No output da análise você também tem a especificação detalhada do modelo selecionado segundo os dados (#explica o que significa)
Model selected: Model = GTR+G partition = 012345 -lnL = 4675.3670 #likelihood do modelo K = 51 #número de parâmetros no modelo freqA = 0.3671 #frequência de Adenina freqC = 0.1275 #frequência de Cytosina freqG = 0.1590 #frequencia de Guania freqT = 0.3463 #frequência de Timina R(a) [AC] = 1.2580 #taxa de mutação entre A e C R(b) [AG] = 1.3885 #taxa de mutação entre A e G R(c) [AT] = 0.2299 #taxa de mutação entre A e T R(d) [CG] = 0.5995 #taxa de mutação entre T e G R(e) [CT] = 2.1413 #taxa de mutação entre C e T R(f) [GT] = 1.0000 #taxa de mutação entre G e T gamma shape = 0.9740 #valor que descreve a distribuição gamma para as taxas de variação entre os caracteres (posição, site) da sequência
- O output da análise também retorna, se você manteve a opção selecionada no CIPRES, o bloco de comandos para executar uma análise de máxima verossimilhança no PAUP. Se for fazer uma análise no PAUP pode colocar essas linhas no seu arquivo NEXUS, abaixo da Matrix com o alinhamento. Isso irá especificar para o PAUP o modelo evolutivo usado na reconstrução filogenética de ML.
[! Likelihood settings from best-fit model (GTR+G) selected by AICc with jModeltest 2.1.6 v20140903 on Thu Jun 25 06:19:13 PDT 2015] BEGIN PAUP; Lset base=(0.3671 0.1275 0.1590 ) nst=6 rmat=(1.2580 1.3885 0.2299 0.5995 2.1413) rates=gamma shape=0.9740 ncat=4 pinvar=0; END;