Vamos conversar


Conversa entre um usuário de Facebook e a galera do blog.

[Usuário] Ok, você fizeram um ajuste (é essa a palavra?) com uma equação gigante, com um monte de gráficos coloridos, mas eu não entendi nada do que vocês quiseram dizer!

[Luane] Tá bom, vamos por partes: o que você não entendeu?

[Usuário] Se o ajuste com os lambdas estava bom, por que mudar pra uma equação menor?

[Luane] Bom, quanto maior o número de variáveis numa equação, maior é o erro de truncamento dos números no resultado final. Fica mais difícil de o computador calcular alguma coisa.

[Adriana] Fora que, se a gente depende de um monte de variável em um ajuste, isso quer dizer que os fatores que influenciam no comportamento do usuário são muitos. Para pra pensar: pra uma postagem aparecer na sua timeline, ela depende de que?

[Usuário] Não sei. O Facebook que escolhe algumas coisas, não? Eu curto algumas páginas também.

[Adriana] Certo, você curte algumas páginas e baseado nesse seu interesse o Facebook escolhe o que vai estar na sua timeline. Aparecem também coisas que seus amigos curtiram, não é?

[Usuário] Aparecem.

[Adriana] Então, eles tem um algoritmo que limita as variáveis que influenciam na escolha do que vai aparecer como sugestão de coisas pra você ver.

[Luane] Quanto mais você curte um assunto ou uma fanpage, mais vezes isso vai aparecer na sua timeline.

[Usuário] Ah tá, mas então aquele ajuste que vocês fizeram com um ezinho só é pouca coisa?

[Luane] A longo prazo ele diverge do que de fato acontece. Você viu que a gente acompanhou posts por alguns dias e que dá pra perceber a atividade caindo, mas não é um comportamento regular e igual pra todos os casos. Se a gente colocar variáveis demais ou de menos, a gente perde o que está acontecendo com o tempo porque tem um número certo de dependências.

[Adriana] E dá pra ver que o terceiro ajuste que a gente fez tem menos dependências, a gente perdeu muita informação pra tempos de amostragem mais longos.

[Usuário] Como assim dependências?

[Adriana] Cada variável da equação representa a dependência de um fator. Lembra quando a gente falou de como as coisas aparecem na timeline? Elas dependem de que páginas você curtiu, que páginas seus amigos curtiram ou ainda amigos de amigos. Fora os links patrocinados, fanpages patrocinadas e, em alguns casos, números muito altos de seguidores de uma determinada página. Cada coisa dessas tem um peso na hora de aparecer na sua timeline que influencia na visualização e curtidas de um post qualquer. Isso tudo gera diversas variáveis de dependência que a gente estava tentando verificar com esses ajustes.

[Usuário] Ah tá, mas e ai? O que quer dizer as variáveis do ajuste além do que vocês escreveram lá?

[Luane] Não dá pra saber o que exatamente quer dizer casa uma das variáveis sem saber como funciona exatamente o algoritmo do Facebook. Mas a gente conseguiu perceber que o comportamento geral, independente da quantidade de seguidores de uma fanpage, é igual!

[Adriana] Bora tomar uma breja que eu vou te contar como o Facebook e o colarinho da cerveja se comportam da mesma forma.

Menos é mais?

Vimos anteriormente que com lambdas adicionados na descrição conseguimos melhorar o ajuste. E se ao invés de duas exponenciais e dois lambdas colocarmos apenas uma exponencial e um lambda na nossa nova hipótese?

Terceiro Modelo:










Ajustes

Ajuste dos dados do Justin Bieber

Ajuste dos dados do Cristiano Ronaldo

Ajuste dos dados do David Beckham


Comparativo - o juízo final


Comparativo - Justin Bieber

Comparativo - Cristiano Ronaldo

Comparativo - David Beckham

E nas passarelas: um novo modelo!

O nosso modelo inicial não se mostrou satisfatório, ou seja, precisa ser modificado para o bem da nossa análise!
Como nova proposta pensamos que acrescentar a cada exponencial um termo elevado, com isso, temos:
O sentido do novo modelo tentaremos explicar, se conseguirmos, ao longo da nossa análise.


Ajustes com o novo modelo


Ajuste dos dados do Justin Bieber

Ajuste dos dados do Cristiano Ronaldo

Ajuste dos dados do David Beckham

Olhando por 'cima' temos a impressão de que o 2º ajuste descreve melhor os dados. Para ter certeza, só comparando não é mesmo?

Comparativo


Agora vamos comparar os dados para deixar claro qual modelo melhor se ajustou aos dados.

Comparativo - Justin Bieber

Comparativo - Cristiano Ronaldo


Comparativo - David Beckham

Com o comparativo conseguimos visualizar claramente que o nosso novo ajuste é melhor para descrever o comportamento de uma forma geral. Em todos os gráficos ele se mostrou mais adequado.

Em busca de uma solução minimalista


Nosso novo modelo se mostrou satisfatório? Sim! Descreveu de forma geral os dados? Sim! Então problema resolvido, né? Não! O fato do modelo ter se ajustado não significa que uma nova hipótese não possa ser levantada. Se encontramos uma solução que descreva os dados mas que tenha menos parâmetros (menos parâmetros, menos problemas!), podemos exprimir de forma mais simples o comportamento dos dados na nossa análise. 
Continuemos...








Facebook: nada fácil de descrever

Voltamos para continuar nossa análise através dessa rede tão usada e complexa que é o Facebook. Nas postagens anteriores propusemos um modelo de comportamento e tentamos analisar as atividades com base nesse modelo, podendo assim falar com propriedade sobre relevância a respeito de postagens nessa rede social. De imediato concluímos que o modelo descrevia bem nossos dados e nos damos por satisfeitas. Porém nem tudo são flores, e se tratando de comportamento humano as coisas não são tão simples quanto possam parecer num primeiro momento.
Anteriormente, a coleta de dados foi feita de forma 'rústica', usando uma máquina falha e limitada chamada: humanos! Isso implicou em um número reduzido de dados para uma análise mais substancial, além dos erros sistemáticos que provém de uma coleta manual. Por isso, com  a ajuda da amada computação conseguimos coletar um número significativo de dados para uma análise mais profunda e representativa.
Com mais dados a expectativa é que o modelo anterior também descreva bem os novos dados para ser efetivado como o melhor modelo que descreve o comportamento de uma atividade no Facebook. Nos restringiremos a analisar o comportamento dos 'likes' a partir de agora.

Me dê o seu like!


Para a coleta de dados utilizamos um script que grava o número de likes ao longo de um determinado período de um post recém lançado. O post era sempre de alguém com uma quantidade expressiva de seguidores para que a quantidade de dados fosse bastante significativa. As celebridades que acompanhamos e que iremos usar para este trabalho foram: Cristiano Ronaldo, Justin Bieber e David Beckham. Após a coleta tentamos ajustar o modelo que propusemos anteriormente aos novos dados.

Ajuste dos dados com o modelo inicial

Vamos agora usar o nosso modelo anterior (1º ajuste) para verificar como este se ajusta aos dados coletados.

Ajuste dos dados do Justin Bieber
Ajuste dos dados do Cristiano Ronaldo


Ajuste dos dados do David Beckham

Percebemos com os ajuste que o modelo se adequa bem aos dados para tempos curtos, mas ao considerar um longo período este se mostra falho para descrever o comportamento dos dados após muitas horas. Triste realidade! Nesse caso, teremos que fazer uma modificação no modelo atual para tentar ajustar melhor os dados para tempos muito longos. Nos próximos capítulos dessa rede tentaremos ajustar os dados a um novo modelo.

Concluindo o Youtube

A gente deveria ter procurado um vídeo da Galinha Pintadinha, mas considerando que criança não se cansa de ver a mesma coisa milhões de vezes, acho que vocês podem ter uma ideia de como fica o gráfico.... Em suma, adultos se cansam de um mesmo vídeo.

Mas, tirando algumas exceções como as apresentadas aqui, a maior parte dos gráficos obtidos de vídeos do Youtube obedecem características muito similares a esse vídeo aqui da Kéfera.



Esse vídeo em específico tem quase 4,4 milhões de "views" e obteve um ápice pouco tempo depois do lançamento; é até difícil de ver quanto tempo levou para alcançar esse valor máximo.

Com os dados que nós obtivemos de estatísticas livres do Youtube é fácil de ver que os vídeos postados obedecem a um padrão muito parecido com o padrão do Facebook de quase instantaneidade. Porém não conseguimos ver qual é o tempo de decaimento do Youtube de forma tão clara quanto no Facebook.

De qualquer forma, os vídeos do Youtube podem ter um alcance maior do que os posts do Facebook. Se eu quiser achar um vídeo de 2006 como o da Galinha Pintadinha, ou todos os vídeos mostrados aqui, basta eu digitar parte do nome do vídeo ou do canal para que eu encontre. Uma busca direcionada desta forma no Facebook não retorna um post específico, mas uma seleção muito restrita de perfis e fanpages.

Se o Youtube veio para substituir a televisão das gerações futuras não sabemos, mas que ele se tornou ferramenta de alta visibilidade para milhões de pessoas na divulgação de uma infinidade de conteúdos por muito tempo é inegável.

Com vocês os produtores de conteúdo brasileiro

Agora você se pergunta: e quem faz vídeo no Brasil? Confessamos que não queríamos procurar um músico brasileiro, afinal a forma de divulgação das músicas via Youtube é bem parecida em qualquer lugar do mundo. Assim procuramos um outro tipo de canal.

Um dos canais de conteúdo mais conhecidos na web, mas não tão conhecidos assim, é o Jovem Nerd. Por mais que eles sejam um canal um pouco diferente do resto da internet, os números não mentem!!!


E não é que os caras são diferentes mesmo???

Esse canal tem mais de 1,3 milhão de inscritos, pelo menos 3 vídeos lançados por semana e uma média de visualizações por vídeo de 300 mil. A gente esperava ver um pico de views nos primeiros dias e uma queda exponencial com o tempo, mas, surpreendentemente, neste vídeo do Nerd Nerf Wars tem um comportamento bem diferente, então fomos procurar o porquê.


Percebemos que em tempos de Campus Party em São Paulo o Jovem Nerd é lembrado e, especialmente no evento de 2015, as pessoas procuraram os caras. O site abriu em meados de junho de 2014 a network Amazing Pixel que conta com vários canais de produção de conteúdo nacional, na sua maioria vinculadas ao conteúdo do site.

Uma outra característica deste vídeo em particular é que ele era, originalmente, parte de um outro vídeo da grade regular do canal. Logo fica claro que o pico inicial de views desse vídeo está diretamente relacionado o e-mail de notificações do Youtube recebido pelos inscritos de um canal sempre que há atualizações.

O Jovem Nerd tem suas singularidades, mas também obedece à lei da notificação de atualização do Youtube!

Música das massas

Pra não dizer que a gente só assistiu vídeo de artista do outro lado do mundo, procuramos um vídeo da Shakira, afinal, ela fala português, ela gosta de futebol e tem a cintura mais mole do que passista da Mangueira. E pra não dizer que a gente só procurou um vídeo dela, analisamos dois.

Preste atenção quando que ela teve picos de visualizações.




Conclusão: as pessoas lembram da Shakira em tempos de copa do mundo de futebol....

Os vídeos dela tem um comportamento muito similar ao de vários artistas e produtores de conteúdo do Youtube: um pico de visualizações nos primeiros dias após o lançamento do vídeo e uma queda com caráter exponencial ao longo do tempo.

Faz uma pausa ai e vai lá ouvir Waka Waka e La la la e volta pra me dizer qual você acha melhor.

Mas...e daí, Facebook?

Bom, agora que fizemos ajustes o que podemos concluir???

Nos gráficos onde a distribuição não se mostrou no padrão, como no caso do Um Sábado Qualquer, um dos motivos que podem ser considerados é o fato de que nos primeiros momentos as medições foram feitas com um intervalo grande demais para se observar o efeito do decaimento, visto que o fluxo maior de um post é dado nos seus primeiros minutos. Para uma melhor observação, um intervalo de tempo menor entre as medições seria mais favorável.

Já no caso dos outros acompanhamentos a nossa hipótese inicial se confirmou!! Os posts concentram, de acordo com nossos dados, um comportamento de decaimento exponencial de atividade nas primeiras horas. E isso pode ser observado não só pelos gráficos, mas pela quantidade de 'curtir' e comentários observados nos primeiros 60 minutos de cada postagem, que foram em média cerca de 1/3 do total observado após vários dias.

Assim, há uma concentração de atividades nos primeiros momentos e que cai muito rapidamente após a primeira hora e depois cai mais lentamente, mas ainda exponencialmente, nos momentos seguintes.


O Facebook é realmente a rede social do agora!

E o Youtube???

OK, o Facebook é uma rede social instantânea, talvez você soubesse disso, mas não imaginava o quanto, não é? Mas e o Youtube?

Para tentar descobrir como as visualizações se comportam, procuramos vídeos que a gente sabe que são muito assistidos (e temos certeza que você já viu alguma vez antes!).

Na página de visualização de um vídeo no Youtube geralmente tem um link onde ninguém clica; é lá que estão as estatísticas de visualizações pelo tempo.



Partindo do gráfico "Diariamente" podemos ver QUANDO Psy teve maior visualização, não só quantos "views" ele obteve.

O canal tem mais de 8 milhões de inscritos e teve alguns picos de visualizações desde que lançou essa música em 2012.


Psy teve um aumento gradual de visualizações, o que na verdade não é muito comum no Youtube. Quando estourou, entrando pro Guinnes no final de 2012, teve um pico de mais de 13 milhões de visualizações. Quando participou do vídeo especial de retrospectiva 2012 do Youtube, obteve um máximo de views totalmente fora da curva de 15 milhões de views.

Ele ainda teve outros picos relevantes de visualizações entre fevereiro e setembro de 2013, o que também não é comum, mas refletem muito bem pontos importantes na carreira de Psy. Ainda hoje o número de views desse cara não caiu a zero, mas nada comparado ao ápice

E você achando que as pessoas não paravam de assistir "Gangam Style", hein?? É porque não viu a música dele com Snoop Dog.

Fórmulas, gráficos, números!

Agora vem a parte mais terrível pra quem tem pavor de gráficos, e a mais OHHHHHH pra quem está acompanhando pra ver no que isso vai dar.
Apresento-lhes, os resultados!
Para lhes situar, lembramos que partimos de uma hipótese inicial em que o fluxo de atividades em posts no Facebook cai muito rapidamente ao longo do tempo, de forma EXPONENCIAL, para verificar se procede essa hipótese, ao plotarmos os gráficos fizemos o seguinte ajuste:


Agora vamos aos gráficos!!!! "Mas o que eles vão me mostrar?" Os gráficos abaixo mostram a quantidade de 'curtir' ou comentários por minuto, possibilitando assim verificar o comportamento ao longo do tempo do fluxo de atividade num determinado post.


Para a foto da Britney Spears, onde foram acompanhados os 'curtir' e comentários ao longo do tempo, obtivemos os seguintes gráficos:


*clique nas imagens para ver em tamanho maior

Para a foto da Bruna Marquezine, onde foram acompanhados os 'curtir' e comentários ao longo do tempo, obtivemos os seguintes gráficos:


Para a postagem da Fatos Desconhecidos, onde acompanhamos os 'curtir' ao longo do tempo, obtivemos:


Para a tirinha postada pela página Universo Paralelo, onde acompanhamos os 'curtir', obtivemos:

Para a tirinha postada na página Papo de Gordo, obtivemos:



Para a tirinha postada na página Um Sábado Qualquer:


Observações: os gráficos que acompanhamos de forma mais assídua mostraram melhor o decaimento exponencial, e verificamos que esse decaimento ocorreu na primeira hora da postagem! Por isso que optamos mostrar, na maioria dos gráficos acima, a atividade nos primeiros 60 minutos, onde acontece esse decaimento mais intenso. Após a primeira hora, verificamos que há um segundo tipo de decaimento exponencial, de forma mais "suave" que o anterior, caimento esse que pode ser observado no gráfico da postagem do Papo de Gordo. Fizemos outro ajuste nos gráficos para avaliar a atividade em relação a um período maior que 60 minutos. A seguir mostraremos os gráficos antes e depois do ajuste.

O ajuste:



Para Britney Spears, os gráficos (antes e depois do ajuste, respectivamente):




Para a postagem na página Papo de Gordo, os gráficos (antes e depois do ajuste, respectivamente):


























Para a postagem na página Universo Paralelo, os gráficos (antes e depois do ajuste, respectivamente):