sexta-feira, 29 de setembro de 2017

Predições para Rodada 26, após Rodada 25

Série A Brasileirão 2017

MandanteVisitantePVMPEPVV
Atlético-PRAtlético-MG50%30%20%
AvaíAtlético-GO27%42%31%
BahiaCoritiba53%26%21%
BotafogoVitória55%25%21%
CruzeiroCorinthians23%44%34%
GrêmioFluminense49%28%23%
PalmeirasSantos33%43%24%
Ponte PretaFlamengo32%32%36%
São PauloSport48%25%26%
VascoChapecoense37%29%34%

segunda-feira, 25 de setembro de 2017

Predições para o campeonato, após a rodada 25

Série A Brasileirão 2017

Time Campeonato Libertadores Pré-Libertadores Rebaixado
Atlético-GO 0% 0% 0% 89,7%
Atlético-MG 0% 0,1% 1,4% 20,2%
Atlético-PR 0% 3,4% 17% 1,4%
Avaí 0% 0% 0,1% 41,1%
Bahia 0% 0% 1,5% 12,7%
Botafogo 1% 37,2% 72,3% 0%
Chapecoense 0% 0% 1,5% 21,3%
Corinthians 89,3% 99,8% 100% 0%
Coritiba 0% 0% 0% 52,6%
Cruzeiro 0,5% 36,8% 71,1% 0%
Flamengo 0,4% 24% 55,3% 0%
Fluminense 0% 0,6% 4% 8,6%
Grêmio 3,9% 72,8% 92,4% 0%
Palmeiras 2,3% 59,8% 87% 0%
Ponte Preta 0% 0% 0,2% 52,4%
Santos 2,5% 64,8% 90,6% 0%
São Paulo 0% 0,1% 1,6% 20,2%
Sport 0% 0,1% 1% 23,1%
Vasco 0% 0,2% 2,4% 13,8%
Vitória 0% 0% 0,3% 42,9%


Observações:
1-A coluna "Libertadores" define a probabilidade de um time terminar a competição numa das 4 primeiras posições, ou seja, a probabilidade dada pelo modelo desse time se classificar para a fase de grupos da Taça Libertadores de 2018.
2-A coluna "Pré-Libertadores" define a probabilidade de um time terminar a competição numa das 6 primeiras posições, ou seja, a probabilidade dada pelo modelo desse time se classificar para a Taça Libertadores de 2018, em qualquer fase.

domingo, 24 de setembro de 2017

Predições para o campeonato, após a rodada 24

Série A Brasileirão 2017

Time Campeonato Libertadores Pré-Libertadores Rebaixado
Atlético-GO 0% 0% 0% 85,9%
Atlético-MG 0% 0,6% 3,9% 10,9%
Atlético-PR 0,1% 7,6% 26,1% 0,5%
Avaí 0% 0% 0,2% 43,9%
Bahia 0% 0,1% 1,4% 25,6%
Botafogo 0,4% 27,4% 58,5% 0,1%
Chapecoense 0% 0% 1% 31,5%
Corinthians 87,9% 99,4% 99,9% 0%
Coritiba 0% 0,1% 0,4% 40,5%
Cruzeiro 0,1% 28,3% 60,2% 0%
Flamengo 0,5% 37,6% 68,6% 0,1%
Fluminense 0% 2% 9,3% 5,1%
Grêmio 7,9% 86,5% 96,8% 0%
Palmeiras 1,5% 50,5% 80,8% 0%
Ponte Preta 0% 0% 0,3% 40,9%
Santos 1,5% 58,1% 84,8% 0%
São Paulo 0% 0,4% 1,8% 22,4%
Sport 0% 0,5% 2,9% 17,2%
Vasco 0% 0,6% 2,7% 14,8%
Vitória 0% 0% 0,1% 60,9%


Observações:
1-A coluna "Libertadores" define a probabilidade de um time terminar a competição numa das 4 primeiras posições, ou seja, a probabilidade dada pelo modelo desse time se classificar para a fase de grupos da Taça Libertadores de 2018.
2-A coluna "Pré-Libertadores" define a probabilidade de um time terminar a competição numa das 6 primeiras posições, ou seja, a probabilidade dada pelo modelo desse time se classificar para a Taça Libertadores de 2018, em qualquer fase.

sábado, 23 de setembro de 2017

Comparação de modelos - Série A Brasileirão 2016

No último post, falou-se de um método de comparação de modelos no qual se compara as probabilidades dadas por eles para ter acontecido o que já aconteceu. Essas probabilidades são comumente chamadas de verossimilhanças preditivas, e, na tabela abaixo estão as verossimilhanças preditivas em diferentes rodadas para cinco modelos.

O primeiro modelo é o apresentado nesse site

O segundo é o do Chance de Gol

O terceiro é o da Matemática da UFMG

O quarto é um modelo em que as probabilidades dos resultados são todas iguais (ele é chamado de nulo porque presume que não há nada que possa nos ajudar a prever resultados de futebol, e por isso todas suas probabilidades são iguais)

O quinto é um cujas probabilidades são iguais às médias do campeonato (ou seja, visto que os mandantes ganharam cerca de 53% dos jogos do Brasileiro de 2016, a probabilidade dada pelo modelo para o mandante de uma partida vencer é sempre a mesma, cerca de 53%, e as probabilidades de empate, ou de vitória do visitante, são calculadas de forma análoga)

As oito primeiras linhas contêm as probabilidades dadas pelos cinco modelos para as rodadas correspondentes terem transcorrido como transcorreram (todos os valores foram escritos em função dos do modelo nulo, assim, valores maiores que um significam que esse modelo teve um valor maior que o do nulo, enquanto valores menores significam o contrário)

A última linha compara as probabilidades que os modelos deram para as últimas oito rodadas do campeonato do ano passado terem sido como foram

Rodada UFRJ CdG UFMG Nulo Simples
31 8,1 1,8 1,7 1 4
32 4,4 3,9 6,6 1 0,8
33 0,3 0,4 1,4 1 1,1
34 5 3,1 0,6 1 8,6
35 1,4 1,3 0,8 1 0,2
36 15,8 13,1 5,2 1 11
37 0,7 0,7 0,1 1 1,9
38 14,9 2,5 4,1 1 2,5
Total 12531,5 277,4 11,4 1 245,1

Medidas de qualidade das predições

Têm sido compartilhadas aqui as predições feitas por nosso modelo para as próximas recentes rodadas do Campeonato Brasileiro de 2017, e esse compartilhamento continuará a acontecer até o final da competição. Entretanto, para que se consiga bons resultados, não basta apenas gerar predições a partir de um modelo, é necessário ter uma forma de comparar a qualidade de suas predições com as de outros. A forma mais usada para isso é a de ver se um modelo "acertou" o resultado do jogo, e, depois, contar quantos acertos o modelo teve numa determinada rodada (o modelo "acerta" quando o resultado que aconteceu foi o resultado a que ele tinha dado a maior de suas três probabilidades). No entanto, há várias outras formas de medir a qualidade preditiva de um modelo, e uma delas é a de pegar as probabilidades dadas por cada modelo a um resultado que aconteceu, e considerar que o modelo que "acertou" é o que gerou a maior dessas probabilidades. Outra seria a de comparar a probabilidade dada por esse modelo para que tenha acontecido o que aconteceu, a partir do que sabemos.
Essas serão as três principais formas usadas para comparar a qualidade de nossas predições com a de outras. Para os que estiverem interessados na definição matemática desse terceiro método de comparação (no qual chama-se a probabilidade dada pelo modelo para que tenha acontecido o que aconteceu de verossimilhança preditiva), uma explicação pode ser encontrada aqui.
Agora, para ilustrar o funcionamento desses três diferentes métodos, será usado um pequeno conjunto de jogos:

MandanteVisitantePlacar
AB0x0
CD6x2
EF0x1
GH1x1

E serão comparados as probabilidades que quatro modelos deram para esses resultados, antes de eles terem acontecido. O terceiro modelo será chamado de simples, e define as probabilidades de cada time vencer com base nas médias do campeonato, até o momento; ou seja, a probabilidade que o modelo dá para um time mandante vencer seu jogo é igual à proporção de vitórias de mandantes no campeonato, até aquele momento. As probabilidades de empate e de vitória são calculadas de forma análoga, assim, as probabilidades dadas pelo modelo simples para vitórias de A, C, E e G são iguais entre si, e o mesmo pode ser dito para as probabilidades de empates nessas partidas e para as probabilidades de vitórias de B, D, F e H. Para calcular as probabilidades dadas por esse modelo para esse conjunto de dados, presumiu-se que o campeonato de que participam os oito times apresentou, até o momento, porcentagens de: 50% de vitórias dos mandantes, 25% de empates e 25% de vitórias dos visitantes.
O modelo simples é assim chamado porque pode-se ver, a partir da forma como ele calcula suas probabilidades, que o único fator que está influenciando seu processo de previsão de resultados é a definição de mandante e visitante, dentro de cada jogo. Já o quarto modelo será chamado de nulo, e será assim chamado porque seu processo de previsão não depende de qualquer fator. Ele define que as probabilidades de qualquer um dos três possíveis resultados acontecer é igual para todos: um terço, ou, aproximadamente 33%.
Aqui estão as probabilidades dadas pelos quatro modelos para os resultados que realmente aconteceram:

Modelo 1

MandanteVisitantePVMPEPVV
AB40%30%30%
CD45%25%30%
EF30%50%20%
GH37%38%25%

Modelo 2

MandanteVisitantePVMPEPVV
AB60%20%20%
CD55%21%24%
EF50%30%20%
GH28%57%15%

Modelo Simples

MandanteVisitantePVMPEPVV
AB50%25%25%
CD50%25%25%
EF50%25%25%
GH50%25%25%

Modelo Nulo

MandanteVisitantePVMPEPVV
AB33%33%33%
CD33%33%33%
EF33%33%33%
GH33%33%33%

Vamos, então para a comparação de modelos. Quando se utiliza o primeiro método, não há como o modelo nulo "acertar" um resultado, visto que suas probabilidades são todas iguais. Assim, os resultados a seguir são só para os outros três modelos:

ModeloAcertos
12
22
Simples1

Para o segundo método, os resultados são:

ModeloAcertos
10
22
Simples0
Nulo2

Para o terceiro método, os valores são padronizados de acordo com o valor do modelo nulo. Dessa forma a probabilidade dada por um modelo para os resultados que ocorreram terem ocorrido é dividida pela probabilidade dada pelo modelo nulo. Dessa maneira, qualquer valor maior que um mostra que esse modelo deu uma probabilidade maior que a do nulo, enquanto um valor menor que um aponta para o oposto. Aqui estão os resultados:

ModeloValor
10,83
21,02
Simples0,63
Nulo1

Agora, para comparar os modelos de acordo com os valores nas tabelas, é simples. Quanto maior o valor de um modelo na segunda coluna de sua linha numa tabela, melhor foi seu desempenho em cada método. E essas tabelas mostram os problemas com os dois primeiros métodos de comparação. Olhando para a primeira tabela apenas, os modelos 1 e 2 parecem de ser de mesma qualidade, o simples parece ser o pior dos três e nada se sabe sobre o nulo. Olhando apenas para a segunda tabela, vê-se que os modelos 2 e nulo são de mesma qualidade, e o mesmo pode ser dito para os modelos 1 e simples. Usando o terceiro método possibilita que finalmente se veja as diferenças mais sutis entre os modelos, com o modelo 2 sendo o melhor, o nulo sendo o segundo melhor, o 1 sendo o terceiro melhor e o simples sendo o pior.
Duas considerações adicionais podem ser feitas a partir dos resultados do terceiro método. A primeira se baseia unicamente no valor da segunda coluna para cada modelo. Caso esse valor seja menor que um, pode-se dizer que esse modelo apresentou sérios problemas na previsão de resultados para os quatro jogos que foram utilizados, pois o modelo nulo - um modelo que, basicamente, considera fútil o exercício de prever resultados - se saiu melhor que ele. A segunda se relaciona com a qualidade relativa de um modelo, quando comparado com o nulo. Nela, o valor dado para o modelo é padronizado para um valor para um jogo. Ou seja, o valor para cada modelo é passado por uma raiz quarta. Raiz quarta porque foram utilizados quatro jogos; se tivessem sido usados dois, seria uma raiz quadrada; se fossem cem, raiz centésima.
Depois de passada a raiz quarta, os resultados são:

ModeloValor
10,955
21,003
Simples0,892
Nulo1

A forma de se interpretar esses resultados é a seguinte: a previsão do modelo 1 para um jogo teve 95,5% da qualidade de uma previsão do nulo, a do 2 teve 100,3% e a do simples teve 89,2%. Ou seja, quando se padroniza os valores para um jogo, uma previsão do modelo 1 foi 4,5% pior que uma do nulo, enquanto uma do 2 foi 0,3% melhor e uma do 2 foi 10,8% pior.

Predições para Rodada 25, após Rodada 24

Série A Brasileirão 2017

Mandante Visitante PVM PE PVV
Atlético-GO Cruzeiro 19% 33% 49%
Atlético-MG Vitória 38% 30% 32%
Bahia Grêmio 29% 23% 49%
Chapoecoense Ponte Preta 43% 31% 25%
Coritiba Botafogo 27% 42% 31%
Flamengo Avaí 54% 33% 14%
Fluminense Palmeiras 34% 28% 38%
Santos Atlético-PR 46% 40% 14%
São Paulo Corinthians 19% 32% 49%
Sport Vasco 48% 28% 24%

Predições para Rodada 24, após Rodada 23

Série A Brasileirão 2017

Mandante Visitante PVM PE PVV
Atlético-PR Fluminense 45% 25% 31%
Avaí Atlético-MG 20% 40% 40%
Botafogo Santos 33% 39% 28%
Corinthians Vasco 64% 27% 9%
Cruzeiro Bahia 57% 30% 13%
Flamengo Sport 54% 24% 22%
Grêmio Chapecoense 66% 19% 16%
Palmeiras Coritiba 50% 29% 21%
Ponte Preta Atlético-GO 58% 23% 19%
Vitória São Paulo 34% 28% 38%

sábado, 9 de setembro de 2017

Predições para Rodada 23, após Rodada 22

Série A Brasileirão 2017

Mandante Visitante PVM PE PVV
Atlético-GO Bahia 36% 32% 32%
Atlético-MG Palmeiras 30% 30% 40%
Atlético-PR Coritiba 55% 23% 23%
Botafogo Flamengo 40% 30% 30%
Chapecoense Cruzeiro 23% 28% 50%
Santos Corinthians 24% 40% 35%
São Paulo Ponte Preta 56% 27% 16%
Sport Avaí 54% 29% 17%
Vasco Grêmio 14% 18% 69%
Vitória Fluminense 25% 24% 52%