terça-feira, 17 de outubro de 2017

Comparação de modelos - Rodadas 23 a 28

Série A Brasileirão 2017

Aqui estão as probabilidades dadas por cada modelo para ter acontecido o que aconteceu nesse conjunto de quatro rodadas, no mesmo formato dos dados presentes nesse post, ou seja, são padronizadas em relação às probabilidades dadas pelo modelo nulo.

O primeiro modelo é o apresentado nesse site

O segundo é o do Chance de Gol

O terceiro é o da Matemática da UFMG

O quarto é do FiveThirtyEight

O quinto é um modelo do em que as probabilidades dos resultados são todas iguais (ele é chamado de nulo porque presume que não há nada que possa nos ajudar a prever resultados de futebol, e por isso todas suas probabilidades são iguais)

O sexto é um cujas probabilidades são iguais às médias do campeonato (ou seja, visto que os mandantes ganharam cerca de 53% dos jogos do Brasileiro de 2016, a probabilidade dada pelo modelo para o mandante de uma partida vencer é sempre a mesma, cerca de 53%, e as probabilidades de empate, ou de vitória do visitante, são calculadas de forma análoga)

As primeiras linhas contêm as probabilidades dadas pelos cinco modelos para as rodadas correspondentes terem transcorrido como transcorreram (todos os valores foram escritos em função dos do modelo nulo, assim, valores maiores que um significam que esse modelo teve um valor maior que o do nulo, enquanto valores menores significam o contrário)

A última linha acumula as probabilidades de forma agregada para todas as linhas da tabela, isto é, contemplando todas as rodadas da tabela

Rodada UFRJ CdG UFMG 538 Simples Nulo
23 0,09 0,15 1,05 0,2 0,54 1
24 3,77 3,57 0,99 4,01 2,89 1
25 1,81 1,17 0,74 0,75 0,76 1
26 0,46 0,46 0,82 0,45 0,76 1
27 1,92 0,68 0,7 0,72 0,64 1
28 4,88 4,23 0,48 4,19 1,75 1
Total 2,77 0,84 0,21 0,81 1,01 1

Predições para Rodada 29, após Rodada 28

Série A Brasileirão 2017

MandanteVisitantePVMPEPVV
Atlético-GOVasco32%33%36%
Atlético-MGChapecoense38%31%31%
AvaíBotafogo19%47%33%
CorinthiansGrêmio35%39%27%
CoritibaCruzeiro19%39%42%
FlamengoBahia52%33%15%
FluminenseSão Paulo41%33%26%
PalmeirasPonte Preta54%34%13%
SportSantos25%40%35%
VitóriaAtlético-PR32%37%31%

Predições para o campeonato, após a rodada 28

Série A Brasileirão 2017

Time Campeonato Libertadores Pré-Libertadores Sul-Americana Rebaixado
Atlético-GO 0% 0% 0% 2% 89,9%
Atlético-MG 0% 1% 10,9% 72,8% 1,9%
Atlético-PR 0% 0,4% 5,2% 64% 6,1%
Avaí 0% 0% 0% 2,7% 82,6%
Bahia 0% 0,5% 7% 69,4% 4,5%
Botafogo 0,2% 23,6% 53,7% 22,6% 0%
Chapecoense 0% 0% 0,3% 26,5% 37,7%
Corinthians 88,4% 99,9% 0,1% 0% 0%
Coritiba 0% 0% 0% 10,1% 67,9%
Cruzeiro 1,2% 100% 0% 0% 0%
Flamengo 0% 25,5% 51% 23,3% 0%
Fluminense 0% 0,6% 6,9% 68,3% 6,4%
Grêmio 5,8% 91,2% 8,2% 0,6% 0%
Palmeiras 1,7% 70,1% 26,7% 3,2% 0%
Ponte Preta 0% 0% 0,4% 20,8% 44,1%
Santos 2,7% 86,1% 13,1% 0,8% 0%
São Paulo 0% 0,2% 3% 57,7% 11,1%
Sport 0% 0,1% 1,7% 49% 17,2%
Vasco 0% 0,8% 10,7% 73,6% 2,3%
Vitória 0% 0% 1% 32,6% 28,4%


1-Os cálculos acima levam em conta que o Cruzeiro é o campeão da Copa do Brasil, o que significa que ele estará na fase de grupos da Taça Libertadores de 2018, e que altera as regras do campeonato para classificação a competições internacionais, podendo aumentar as "regiões de classificação" na tabela.
2-A coluna "Libertadores" define a probabilidade de um time se classificar para a fase de grupos da Taça Libertadores de 2018, ou seja, a probabilidade dada pelo modelo desse time terminar entre os 4 primeiros, dentre os 19 times que não são o Cruzeiro.
3-A coluna "Pré-Libertadores" define a probabilidade de um time se classificar para a fase preliminar da Taça Libertadores de 2018 (Pré-Libertadores), ou seja, a probabilidade dada pelo modelo desse time terminar como o quinto ou sexto melhor, dentre os 19 times que não são o Cruzeiro.
4-A coluna "Libertadores" define a probabilidade de um time se classificar para a Copa Sul Americana de 2018, ou seja, a probabilidade dada pelo modelo desse time terminar entre a sétima e a décima segunda posições, dentre os 19 times que não são o Cruzeiro.

sexta-feira, 13 de outubro de 2017

Comparação de modelos - Rodadas 23 a 28

Série A Brasileirão 2017

Aqui estão as probabilidades dadas por cada modelo para ter acontecido o que aconteceu nesse conjunto de quatro rodadas, no mesmo formato dos dados presentes nesse post, ou seja, são padronizadas em relação às probabilidades dadas pelo modelo nulo.

O primeiro modelo é o apresentado nesse site

O segundo é o do Chance de Gol

O terceiro é o da Matemática da UFMG

O quarto é do FiveThirtyEight

O quinto é um modelo do em que as probabilidades dos resultados são todas iguais (ele é chamado de nulo porque presume que não há nada que possa nos ajudar a prever resultados de futebol, e por isso todas suas probabilidades são iguais)

O sexto é um cujas probabilidades são iguais às médias do campeonato (ou seja, visto que os mandantes ganharam cerca de 53% dos jogos do Brasileiro de 2016, a probabilidade dada pelo modelo para o mandante de uma partida vencer é sempre a mesma, cerca de 53%, e as probabilidades de empate, ou de vitória do visitante, são calculadas de forma análoga)

As primeiras linhas contêm as probabilidades dadas pelos cinco modelos para as rodadas correspondentes terem transcorrido como transcorreram (todos os valores foram escritos em função dos do modelo nulo, assim, valores maiores que um significam que esse modelo teve um valor maior que o do nulo, enquanto valores menores significam o contrário)

A última linha acumula as probabilidades de forma agregada para todas as linhas da tabela, isto é, contemplando todas as rodadas da tabela

Rodada UFRJ CdG UFMG 538 Simples Nulo
23 0,09 0,15 1,05 0,2 0,54 1
24 3,77 3,57 0,99 4,01 2,89 1
25 1,81 1,17 0,74 0,75 0,76 1
26 0,46 0,46 0,82 0,45 0,76 1
27 1,92 0,68 0,7 0,72 0,64 1
Total 0,57 0,20 0,44 0,19 0,58 1

Predições para Rodada 28, após Rodada 27

Série A Brasileirão 2017

MandanteVisitantePVMPEPVV
Atlético-GOPalmeiras22%30%48%
BahiaCorinthians25%35%40%
ChapecoenseFlamengo26%34%40%
CoritibaGrêmio16%31%54%
CruzeiroPonte Preta52%37%11%
FluminenseAvaí45%36%19%
SantosVitória47%33%20%
São PauloAtlético-PR44%34%22%
SportAtlético-MG36%33%31%
VascoBotafogo29%37%34%

Predições para o campeonato, após a rodada 27

Série A Brasileirão 2017

Time Campeonato Libertadores Pré-Libertadores Sul-Americana Rebaixado
Atlético-GO 0% 0% 0% 4,7% 83,8%
Atlético-MG 0% 2,2% 14,4% 69,5% 2,6%
Atlético-PR 0% 1,3% 10,4% 67,6% 4,9%
Avaí 0% 0% 0,1% 7,7% 64,8%
Bahia 0% 0,2% 4,9% 54,5% 14,3%
Botafogo 0,3% 43% 43,7% 13,2% 0%
Chapecoense 0% 0% 2,7% 39,7% 27,3%
Corinthians 94,3% 100% 0% 0% 0%
Coritiba 0% 0% 0,3% 14,8% 60,4%
Cruzeiro 0,6% 100% 0% 0% 0%
Flamengo 0% 18,5% 45,2% 35,2% 0%
Fluminense 0% 0,3% 5,2% 61,2% 12%
Grêmio 2,2% 85,8% 12,5% 1,7% 0%
Palmeiras 0,3% 57,3% 34,8% 7,9% 0%
Ponte Preta 0% 0% 0,7% 27,7% 38,7%
Santos 2,3% 90,2% 9,4% 0,4% 0%
São Paulo 0% 0% 2,8% 46,9% 22,2%
Sport 0% 0,4% 3,7% 50,6% 18,5%
Vasco 0% 0,7% 7,8% 63,3% 7,1%
Vitória 0% 0% 1,6% 34,2% 33,7%


1-Os cálculos acima levam em conta que o Cruzeiro é o campeão da Copa do Brasil, o que significa que ele estará na fase de grupos da Taça Libertadores de 2018, e que altera as regras do campeonato para classificação a competições internacionais, podendo aumentar as "regiões de classificação" na tabela.
2-A coluna "Libertadores" define a probabilidade de um time se classificar para a fase de grupos da Taça Libertadores de 2018, ou seja, a probabilidade dada pelo modelo desse time terminar entre os 4 primeiros, dentre os 19 times que não são o Cruzeiro.
3-A coluna "Pré-Libertadores" define a probabilidade de um time se classificar para a fase preliminar da Taça Libertadores de 2018 (Pré-Libertadores), ou seja, a probabilidade dada pelo modelo desse time terminar como o quinto ou sexto melhor, dentre os 19 times que não são o Cruzeiro.
4-A coluna "Libertadores" define a probabilidade de um time se classificar para a Copa Sul Americana de 2018, ou seja, a probabilidade dada pelo modelo desse time terminar entre a sétima e a décima segunda posições, dentre os 19 times que não são o Cruzeiro.

terça-feira, 3 de outubro de 2017

Predições para Rodada 27, após Rodada 26

Série A Brasileirão 2017

MandanteVisitantePVMPEPVV
Atlético-MGSão Paulo35%34%31%
Atlético-PRAtlético-GO55%25%19%
AvaíVasco21%46%33%
BotafogoChapecoense56%25%19%
CorinthiansCoritiba54%34%13%
FlamengoFluminense48%29%23%
GrêmioCruzeiro37%38%25%
PalmeirasBahia54%31%15%
Ponte PretaSantos25%40%35%
VitóriaSport34%33%33%

Predições para o campeonato, após a rodada 26

Série A Brasileirão 2017

Time Campeonato Libertadores Pré-Libertadores Sul-Americana Rebaixado
Atlético-GO 0% 0% 0% 2,7% 85,2%
Atlético-MG 0% 0,5% 4,6% 60,7% 7,6%
Atlético-PR 0% 1,4% 8,7% 68,4% 4%
Avaí 0% 0% 0,1% 7,7% 64,8%
Bahia 0% 0,1% 1,7% 42,5% 18,5%
Botafogo 0,1% 24,1% 63,6% 35,3% 0%
Chapecoense 0% 0,1% 1,7% 40,5% 23,6%
Corinthians 87,6% 99,8% 100% 0% 0%
Coritiba 0% 0% 0,1% 14,7% 54,7%
Cruzeiro 0,1% 37,2% 77,7% 22,2% 0%
Flamengo 0,2% 15,5% 48,9% 49,5% 0%
Fluminense 0% 0,3% 3,2% 53,1% 14%
Grêmio 6,4% 83,9% 97,3% 2,8% 0%
Palmeiras 1% 53,3% 87,1% 12,9% 0%
Ponte Preta 0% 0% 0,2% 21,9% 39,1%
Santos 4,6% 83,2% 97,5% 2,5% 0%
São Paulo 0% 0,3% 3,2% 50,5% 14,2%
Sport 0% 0,1% 0,8% 29,3% 32,5%
Vasco 0% 0,1% 1,6% 43,7% 17,9%
Vitória 0% 0,2% 1,8% 39,2% 23,8%


1-A coluna "Libertadores" define a probabilidade de um time terminar a competição numa das 4 primeiras posições, ou seja, a probabilidade dada pelo modelo desse time se classificar para a fase de grupos da Taça Libertadores de 2018.
2-A coluna "Pré-Libertadores" define a probabilidade de um time terminar a competição numa das 6 primeiras posições, ou seja, a probabilidade dada pelo modelo desse time se classificar para a Taça Libertadores de 2018, em qualquer fase.
3-A coluna "Sul-Americana" define a probabilidade de um time terminar a competição entre a sétima e a décima segunda posições.
4-Nenhum dos cálculos acima está, por enquanto, levando em conta que o Cruzeiro é o campeão da Copa do Brasil, o que significa que ele estará na fase de grupos da Taça Libertadores de 2018, e que altera as regras do campeonato para classificação a competições internacionais, podendo aumentar as "regiões de classificação" na tabela.
5-Dessa forma, a verdadeira probabilidade do Cruzeiro ir à Libertadores é 100%, e as probabilidades dos outros times são, na verdade, maiores do que as que aparecerão na tabela.

sexta-feira, 29 de setembro de 2017

Predições para Rodada 26, após Rodada 25

Série A Brasileirão 2017

MandanteVisitantePVMPEPVV
Atlético-PRAtlético-MG50%30%20%
AvaíAtlético-GO27%42%31%
BahiaCoritiba53%26%21%
BotafogoVitória55%25%21%
CruzeiroCorinthians23%44%34%
GrêmioFluminense49%28%23%
PalmeirasSantos33%43%24%
Ponte PretaFlamengo32%32%36%
São PauloSport48%25%26%
VascoChapecoense37%29%34%

segunda-feira, 25 de setembro de 2017

Predições para o campeonato, após a rodada 25

Série A Brasileirão 2017

Time Campeonato Libertadores Pré-Libertadores Rebaixado
Atlético-GO 0% 0% 0% 89,7%
Atlético-MG 0% 0,1% 1,4% 20,2%
Atlético-PR 0% 3,4% 17% 1,4%
Avaí 0% 0% 0,1% 41,1%
Bahia 0% 0% 1,5% 12,7%
Botafogo 1% 37,2% 72,3% 0%
Chapecoense 0% 0% 1,5% 21,3%
Corinthians 89,3% 99,8% 100% 0%
Coritiba 0% 0% 0% 52,6%
Cruzeiro 0,5% 36,8% 71,1% 0%
Flamengo 0,4% 24% 55,3% 0%
Fluminense 0% 0,6% 4% 8,6%
Grêmio 3,9% 72,8% 92,4% 0%
Palmeiras 2,3% 59,8% 87% 0%
Ponte Preta 0% 0% 0,2% 52,4%
Santos 2,5% 64,8% 90,6% 0%
São Paulo 0% 0,1% 1,6% 20,2%
Sport 0% 0,1% 1% 23,1%
Vasco 0% 0,2% 2,4% 13,8%
Vitória 0% 0% 0,3% 42,9%


Observações:
1-A coluna "Libertadores" define a probabilidade de um time terminar a competição numa das 4 primeiras posições, ou seja, a probabilidade dada pelo modelo desse time se classificar para a fase de grupos da Taça Libertadores de 2018.
2-A coluna "Pré-Libertadores" define a probabilidade de um time terminar a competição numa das 6 primeiras posições, ou seja, a probabilidade dada pelo modelo desse time se classificar para a Taça Libertadores de 2018, em qualquer fase.

domingo, 24 de setembro de 2017

Predições para o campeonato, após a rodada 24

Série A Brasileirão 2017

Time Campeonato Libertadores Pré-Libertadores Rebaixado
Atlético-GO 0% 0% 0% 85,9%
Atlético-MG 0% 0,6% 3,9% 10,9%
Atlético-PR 0,1% 7,6% 26,1% 0,5%
Avaí 0% 0% 0,2% 43,9%
Bahia 0% 0,1% 1,4% 25,6%
Botafogo 0,4% 27,4% 58,5% 0,1%
Chapecoense 0% 0% 1% 31,5%
Corinthians 87,9% 99,4% 99,9% 0%
Coritiba 0% 0,1% 0,4% 40,5%
Cruzeiro 0,1% 28,3% 60,2% 0%
Flamengo 0,5% 37,6% 68,6% 0,1%
Fluminense 0% 2% 9,3% 5,1%
Grêmio 7,9% 86,5% 96,8% 0%
Palmeiras 1,5% 50,5% 80,8% 0%
Ponte Preta 0% 0% 0,3% 40,9%
Santos 1,5% 58,1% 84,8% 0%
São Paulo 0% 0,4% 1,8% 22,4%
Sport 0% 0,5% 2,9% 17,2%
Vasco 0% 0,6% 2,7% 14,8%
Vitória 0% 0% 0,1% 60,9%


Observações:
1-A coluna "Libertadores" define a probabilidade de um time terminar a competição numa das 4 primeiras posições, ou seja, a probabilidade dada pelo modelo desse time se classificar para a fase de grupos da Taça Libertadores de 2018.
2-A coluna "Pré-Libertadores" define a probabilidade de um time terminar a competição numa das 6 primeiras posições, ou seja, a probabilidade dada pelo modelo desse time se classificar para a Taça Libertadores de 2018, em qualquer fase.

sábado, 23 de setembro de 2017

Comparação de modelos - Série A Brasileirão 2016

No último post, falou-se de um método de comparação de modelos no qual se compara as probabilidades dadas por eles para ter acontecido o que já aconteceu. Essas probabilidades são comumente chamadas de verossimilhanças preditivas, e, na tabela abaixo estão as verossimilhanças preditivas em diferentes rodadas para cinco modelos.

O primeiro modelo é o apresentado nesse site

O segundo é o do Chance de Gol

O terceiro é o da Matemática da UFMG

O quarto é um modelo em que as probabilidades dos resultados são todas iguais (ele é chamado de nulo porque presume que não há nada que possa nos ajudar a prever resultados de futebol, e por isso todas suas probabilidades são iguais)

O quinto é um cujas probabilidades são iguais às médias do campeonato (ou seja, visto que os mandantes ganharam cerca de 53% dos jogos do Brasileiro de 2016, a probabilidade dada pelo modelo para o mandante de uma partida vencer é sempre a mesma, cerca de 53%, e as probabilidades de empate, ou de vitória do visitante, são calculadas de forma análoga)

As oito primeiras linhas contêm as probabilidades dadas pelos cinco modelos para as rodadas correspondentes terem transcorrido como transcorreram (todos os valores foram escritos em função dos do modelo nulo, assim, valores maiores que um significam que esse modelo teve um valor maior que o do nulo, enquanto valores menores significam o contrário)

A última linha compara as probabilidades que os modelos deram para as últimas oito rodadas do campeonato do ano passado terem sido como foram

Rodada UFRJ CdG UFMG Nulo Simples
31 8,1 1,8 1,7 1 4
32 4,4 3,9 6,6 1 0,8
33 0,3 0,4 1,4 1 1,1
34 5 3,1 0,6 1 8,6
35 1,4 1,3 0,8 1 0,2
36 15,8 13,1 5,2 1 11
37 0,7 0,7 0,1 1 1,9
38 14,9 2,5 4,1 1 2,5
Total 12531,5 277,4 11,4 1 245,1

Medidas de qualidade das predições

Têm sido compartilhadas aqui as predições feitas por nosso modelo para as próximas recentes rodadas do Campeonato Brasileiro de 2017, e esse compartilhamento continuará a acontecer até o final da competição. Entretanto, para que se consiga bons resultados, não basta apenas gerar predições a partir de um modelo, é necessário ter uma forma de comparar a qualidade de suas predições com as de outros. A forma mais usada para isso é a de ver se um modelo "acertou" o resultado do jogo, e, depois, contar quantos acertos o modelo teve numa determinada rodada (o modelo "acerta" quando o resultado que aconteceu foi o resultado a que ele tinha dado a maior de suas três probabilidades). No entanto, há várias outras formas de medir a qualidade preditiva de um modelo, e uma delas é a de pegar as probabilidades dadas por cada modelo a um resultado que aconteceu, e considerar que o modelo que "acertou" é o que gerou a maior dessas probabilidades. Outra seria a de comparar a probabilidade dada por esse modelo para que tenha acontecido o que aconteceu, a partir do que sabemos.
Essas serão as três principais formas usadas para comparar a qualidade de nossas predições com a de outras. Para os que estiverem interessados na definição matemática desse terceiro método de comparação (no qual chama-se a probabilidade dada pelo modelo para que tenha acontecido o que aconteceu de verossimilhança preditiva), uma explicação pode ser encontrada aqui.
Agora, para ilustrar o funcionamento desses três diferentes métodos, será usado um pequeno conjunto de jogos:

MandanteVisitantePlacar
AB0x0
CD6x2
EF0x1
GH1x1

E serão comparados as probabilidades que quatro modelos deram para esses resultados, antes de eles terem acontecido. O terceiro modelo será chamado de simples, e define as probabilidades de cada time vencer com base nas médias do campeonato, até o momento; ou seja, a probabilidade que o modelo dá para um time mandante vencer seu jogo é igual à proporção de vitórias de mandantes no campeonato, até aquele momento. As probabilidades de empate e de vitória são calculadas de forma análoga, assim, as probabilidades dadas pelo modelo simples para vitórias de A, C, E e G são iguais entre si, e o mesmo pode ser dito para as probabilidades de empates nessas partidas e para as probabilidades de vitórias de B, D, F e H. Para calcular as probabilidades dadas por esse modelo para esse conjunto de dados, presumiu-se que o campeonato de que participam os oito times apresentou, até o momento, porcentagens de: 50% de vitórias dos mandantes, 25% de empates e 25% de vitórias dos visitantes.
O modelo simples é assim chamado porque pode-se ver, a partir da forma como ele calcula suas probabilidades, que o único fator que está influenciando seu processo de previsão de resultados é a definição de mandante e visitante, dentro de cada jogo. Já o quarto modelo será chamado de nulo, e será assim chamado porque seu processo de previsão não depende de qualquer fator. Ele define que as probabilidades de qualquer um dos três possíveis resultados acontecer é igual para todos: um terço, ou, aproximadamente 33%.
Aqui estão as probabilidades dadas pelos quatro modelos para os resultados que realmente aconteceram:

Modelo 1

MandanteVisitantePVMPEPVV
AB40%30%30%
CD45%25%30%
EF30%50%20%
GH37%38%25%

Modelo 2

MandanteVisitantePVMPEPVV
AB60%20%20%
CD55%21%24%
EF50%30%20%
GH28%57%15%

Modelo Simples

MandanteVisitantePVMPEPVV
AB50%25%25%
CD50%25%25%
EF50%25%25%
GH50%25%25%

Modelo Nulo

MandanteVisitantePVMPEPVV
AB33%33%33%
CD33%33%33%
EF33%33%33%
GH33%33%33%

Vamos, então para a comparação de modelos. Quando se utiliza o primeiro método, não há como o modelo nulo "acertar" um resultado, visto que suas probabilidades são todas iguais. Assim, os resultados a seguir são só para os outros três modelos:

ModeloAcertos
12
22
Simples1

Para o segundo método, os resultados são:

ModeloAcertos
10
22
Simples0
Nulo2

Para o terceiro método, os valores são padronizados de acordo com o valor do modelo nulo. Dessa forma a probabilidade dada por um modelo para os resultados que ocorreram terem ocorrido é dividida pela probabilidade dada pelo modelo nulo. Dessa maneira, qualquer valor maior que um mostra que esse modelo deu uma probabilidade maior que a do nulo, enquanto um valor menor que um aponta para o oposto. Aqui estão os resultados:

ModeloValor
10,83
21,02
Simples0,63
Nulo1

Agora, para comparar os modelos de acordo com os valores nas tabelas, é simples. Quanto maior o valor de um modelo na segunda coluna de sua linha numa tabela, melhor foi seu desempenho em cada método. E essas tabelas mostram os problemas com os dois primeiros métodos de comparação. Olhando para a primeira tabela apenas, os modelos 1 e 2 parecem de ser de mesma qualidade, o simples parece ser o pior dos três e nada se sabe sobre o nulo. Olhando apenas para a segunda tabela, vê-se que os modelos 2 e nulo são de mesma qualidade, e o mesmo pode ser dito para os modelos 1 e simples. Usando o terceiro método possibilita que finalmente se veja as diferenças mais sutis entre os modelos, com o modelo 2 sendo o melhor, o nulo sendo o segundo melhor, o 1 sendo o terceiro melhor e o simples sendo o pior.
Duas considerações adicionais podem ser feitas a partir dos resultados do terceiro método. A primeira se baseia unicamente no valor da segunda coluna para cada modelo. Caso esse valor seja menor que um, pode-se dizer que esse modelo apresentou sérios problemas na previsão de resultados para os quatro jogos que foram utilizados, pois o modelo nulo - um modelo que, basicamente, considera fútil o exercício de prever resultados - se saiu melhor que ele. A segunda se relaciona com a qualidade relativa de um modelo, quando comparado com o nulo. Nela, o valor dado para o modelo é padronizado para um valor para um jogo. Ou seja, o valor para cada modelo é passado por uma raiz quarta. Raiz quarta porque foram utilizados quatro jogos; se tivessem sido usados dois, seria uma raiz quadrada; se fossem cem, raiz centésima.
Depois de passada a raiz quarta, os resultados são:

ModeloValor
10,955
21,003
Simples0,892
Nulo1

A forma de se interpretar esses resultados é a seguinte: a previsão do modelo 1 para um jogo teve 95,5% da qualidade de uma previsão do nulo, a do 2 teve 100,3% e a do simples teve 89,2%. Ou seja, quando se padroniza os valores para um jogo, uma previsão do modelo 1 foi 4,5% pior que uma do nulo, enquanto uma do 2 foi 0,3% melhor e uma do 2 foi 10,8% pior.

Predições para Rodada 25, após Rodada 24

Série A Brasileirão 2017

Mandante Visitante PVM PE PVV
Atlético-GO Cruzeiro 19% 33% 49%
Atlético-MG Vitória 38% 30% 32%
Bahia Grêmio 29% 23% 49%
Chapoecoense Ponte Preta 43% 31% 25%
Coritiba Botafogo 27% 42% 31%
Flamengo Avaí 54% 33% 14%
Fluminense Palmeiras 34% 28% 38%
Santos Atlético-PR 46% 40% 14%
São Paulo Corinthians 19% 32% 49%
Sport Vasco 48% 28% 24%

Predições para Rodada 24, após Rodada 23

Série A Brasileirão 2017

Mandante Visitante PVM PE PVV
Atlético-PR Fluminense 45% 25% 31%
Avaí Atlético-MG 20% 40% 40%
Botafogo Santos 33% 39% 28%
Corinthians Vasco 64% 27% 9%
Cruzeiro Bahia 57% 30% 13%
Flamengo Sport 54% 24% 22%
Grêmio Chapecoense 66% 19% 16%
Palmeiras Coritiba 50% 29% 21%
Ponte Preta Atlético-GO 58% 23% 19%
Vitória São Paulo 34% 28% 38%

sábado, 9 de setembro de 2017

Predições para Rodada 23, após Rodada 22

Série A Brasileirão 2017

Mandante Visitante PVM PE PVV
Atlético-GO Bahia 36% 32% 32%
Atlético-MG Palmeiras 30% 30% 40%
Atlético-PR Coritiba 55% 23% 23%
Botafogo Flamengo 40% 30% 30%
Chapecoense Cruzeiro 23% 28% 50%
Santos Corinthians 24% 40% 35%
São Paulo Ponte Preta 56% 27% 16%
Sport Avaí 54% 29% 17%
Vasco Grêmio 14% 18% 69%
Vitória Fluminense 25% 24% 52%

domingo, 27 de agosto de 2017

Explicação do modelo

Para os que estiverem interessados em uma explicação um pouco mais técnica, pode-se dizer que os dados utilizados são os números de gols feitos por cada time, indexados pela rodada em que o jogo ocorreu, por quem era o adversário, e por quem era o mandante da partida. Diz-se, então, que esses números de gols são quantidades aleatórias, explicadas pela qualidade ofensiva do time no ataque, pela qualidade defensiva do time na defesa e pela qualidade do mando de campo do mandante (apenas quando o mandante é o time no ataque).
A partir dos dados, e por meio de um modelo de regressão, é possível estimar essas forças específicas de cada time. No entanto, nosso interesse principal não é classificar os times de acordo com suas forças, mas, usá-las para prever resultados futuros. Isso é feito através de simulações via MCMC (Markov Chain Monte Carlo).
Essas simulações concedem amostras (geralmente de tamanho 3000) para as forças de cada time, e essas amostras são usadas para gerar previsões para as observações futuras, para o número de gols feitos por cada time nas rodadas ainda não disputadas. Tem-se, então, probabilidades aproximadas de vitória, empate e derrota dos times de uma partida, e essas probabilidades são acumuladas para gerar previsões para o resto do campeonato, o que nos confere probabilidades aproximadas de um time ser campeão, de se classificar para uma competição internacional, ou de ser rebaixado.
Para quem estiver interessado, há uma apresentação de slides com mais informações, além de alguns resultados, a usada por mim na JIC de 2016, disponível aqui.

Apresentação do modelo

Numa partida de futebol, vence quem fizer mais gols, o que significa que quem estiver interessado em prever o vencedor de uma partida deve se preocupar com o número de gols feitos por ambas as equipes. Paralelamente, prever resultados de partidas de futebol esbarra em vários problemas, com o principal deles sendo a enorme quantidade de fatores que afetam o que ocorre nos jogos.O número de gols feitos por um time numa partida pode, por exemplo, depender de: se estava jogando em casa ou não, contusões de jogadores importantes, sua qualidade, qualidade do adversário, etc.
Dessa forma, ao tentar explicá-los por meio de um modelo, escolhe-se que fatores considerar, e de que maneira. Não é surpreendente que haja, então, tantos modelos diferentes com o mesmo objetivo: prevê-los. Em nosso modelo, escolhemos definir que a quantidade de gols marcados por uma equipe num jogo depende de seu ataque, da defesa de seu adversário, de seu mando de campo (caso seja o mandante) e de particularidades de sua liga. Assim, trabalhamos com a ideia de que cada plantel tem suas forças inerentes, e que elas são diferentes entre si, ou seja, que jogar em casa afeta de modos diferentes os desempenhos de Flamengo e Grêmio, por exemplo.
Portanto, qualquer previsão que façamos depende de como estimamos as diferentes aptidões dentro de um campeonato, além dos efeitos que a própria liga tem sobre o futebol jogado nela. As estimativas são geradas a partir das seguintes informações: número de gols feitos por uma equipe, quem era seu adversário e quem era o mandante da partida.
Por meio dessas estimativas, fazemos previsões para cada um dos jogos ainda não realizados, através de simulações. A partir das previsões para múltiplos jogos pode-se, então, fazer previsões para o desempenho do time ao final da competição, e essas aparecerão como afirmações sobre a probabilidade de um time ser campeão, ser rebaixado, ou disputar uma competição internacional.

Objetivo do site

O objetivo desse site é divulgar os resultados obtidos pelo modelo de previsão de resultados de futebol trabalhado em meu projeto de Iniciação Científica com o professor Dani Gamerman. Desejamos, por meio dele, mostrar a todos os aficionados do esporte um dos muitos benefícios que a análise estatística pode trazer para a compreensão de qualquer objeto de estudo, inclusive o futebol.