Vamos conversar


Conversa entre um usuário de Facebook e a galera do blog.

[Usuário] Ok, você fizeram um ajuste (é essa a palavra?) com uma equação gigante, com um monte de gráficos coloridos, mas eu não entendi nada do que vocês quiseram dizer!

[Luane] Tá bom, vamos por partes: o que você não entendeu?

[Usuário] Se o ajuste com os lambdas estava bom, por que mudar pra uma equação menor?

[Luane] Bom, quanto maior o número de variáveis numa equação, maior é o erro de truncamento dos números no resultado final. Fica mais difícil de o computador calcular alguma coisa.

[Adriana] Fora que, se a gente depende de um monte de variável em um ajuste, isso quer dizer que os fatores que influenciam no comportamento do usuário são muitos. Para pra pensar: pra uma postagem aparecer na sua timeline, ela depende de que?

[Usuário] Não sei. O Facebook que escolhe algumas coisas, não? Eu curto algumas páginas também.

[Adriana] Certo, você curte algumas páginas e baseado nesse seu interesse o Facebook escolhe o que vai estar na sua timeline. Aparecem também coisas que seus amigos curtiram, não é?

[Usuário] Aparecem.

[Adriana] Então, eles tem um algoritmo que limita as variáveis que influenciam na escolha do que vai aparecer como sugestão de coisas pra você ver.

[Luane] Quanto mais você curte um assunto ou uma fanpage, mais vezes isso vai aparecer na sua timeline.

[Usuário] Ah tá, mas então aquele ajuste que vocês fizeram com um ezinho só é pouca coisa?

[Luane] A longo prazo ele diverge do que de fato acontece. Você viu que a gente acompanhou posts por alguns dias e que dá pra perceber a atividade caindo, mas não é um comportamento regular e igual pra todos os casos. Se a gente colocar variáveis demais ou de menos, a gente perde o que está acontecendo com o tempo porque tem um número certo de dependências.

[Adriana] E dá pra ver que o terceiro ajuste que a gente fez tem menos dependências, a gente perdeu muita informação pra tempos de amostragem mais longos.

[Usuário] Como assim dependências?

[Adriana] Cada variável da equação representa a dependência de um fator. Lembra quando a gente falou de como as coisas aparecem na timeline? Elas dependem de que páginas você curtiu, que páginas seus amigos curtiram ou ainda amigos de amigos. Fora os links patrocinados, fanpages patrocinadas e, em alguns casos, números muito altos de seguidores de uma determinada página. Cada coisa dessas tem um peso na hora de aparecer na sua timeline que influencia na visualização e curtidas de um post qualquer. Isso tudo gera diversas variáveis de dependência que a gente estava tentando verificar com esses ajustes.

[Usuário] Ah tá, mas e ai? O que quer dizer as variáveis do ajuste além do que vocês escreveram lá?

[Luane] Não dá pra saber o que exatamente quer dizer casa uma das variáveis sem saber como funciona exatamente o algoritmo do Facebook. Mas a gente conseguiu perceber que o comportamento geral, independente da quantidade de seguidores de uma fanpage, é igual!

[Adriana] Bora tomar uma breja que eu vou te contar como o Facebook e o colarinho da cerveja se comportam da mesma forma.

Menos é mais?

Vimos anteriormente que com lambdas adicionados na descrição conseguimos melhorar o ajuste. E se ao invés de duas exponenciais e dois lambdas colocarmos apenas uma exponencial e um lambda na nossa nova hipótese?

Terceiro Modelo:










Ajustes

Ajuste dos dados do Justin Bieber

Ajuste dos dados do Cristiano Ronaldo

Ajuste dos dados do David Beckham


Comparativo - o juízo final


Comparativo - Justin Bieber

Comparativo - Cristiano Ronaldo

Comparativo - David Beckham

E nas passarelas: um novo modelo!

O nosso modelo inicial não se mostrou satisfatório, ou seja, precisa ser modificado para o bem da nossa análise!
Como nova proposta pensamos que acrescentar a cada exponencial um termo elevado, com isso, temos:
O sentido do novo modelo tentaremos explicar, se conseguirmos, ao longo da nossa análise.


Ajustes com o novo modelo


Ajuste dos dados do Justin Bieber

Ajuste dos dados do Cristiano Ronaldo

Ajuste dos dados do David Beckham

Olhando por 'cima' temos a impressão de que o 2º ajuste descreve melhor os dados. Para ter certeza, só comparando não é mesmo?

Comparativo


Agora vamos comparar os dados para deixar claro qual modelo melhor se ajustou aos dados.

Comparativo - Justin Bieber

Comparativo - Cristiano Ronaldo


Comparativo - David Beckham

Com o comparativo conseguimos visualizar claramente que o nosso novo ajuste é melhor para descrever o comportamento de uma forma geral. Em todos os gráficos ele se mostrou mais adequado.

Em busca de uma solução minimalista


Nosso novo modelo se mostrou satisfatório? Sim! Descreveu de forma geral os dados? Sim! Então problema resolvido, né? Não! O fato do modelo ter se ajustado não significa que uma nova hipótese não possa ser levantada. Se encontramos uma solução que descreva os dados mas que tenha menos parâmetros (menos parâmetros, menos problemas!), podemos exprimir de forma mais simples o comportamento dos dados na nossa análise. 
Continuemos...