Apontamentos sobre a coleta, processamento e publicação de dados extraídos das plataformas de mídias digitais

Além dos debates teóricos sobre Culturas Alimentares, o informativo Mesa Digital propõe a construção de cartografias sociais elaboradas com dados temáticos de plataformas de mídias digitais. Diferentemente da cartografia tradicional, que traça mapas de territórios, relevo e distribuição populacional, as “cartografias sociais” constroem diagramas que tratam de “relações, enfrentamentos e cruzamentos entre forças, agenciamentos, jogos de verdade, enunciações, jogos de objetivação e subjetivação, produções e estetizações de si mesmo, práticas de resistência e liberdade”1. Tal como proposta por Foucault e Deleuze, a análise cartográfica configura-se como instrumento para uma história do presente, possibilitando a crítica do nosso tempo e daquilo que somos2. Em outras palavras, as cartografias digitais buscam mapear as redes de atores, hashtags e controvérsias no ambiente online.

Para atingir estes propósitos, lançamos mão de estratégias que passam pela coleta e processamento de dados extraídos das plataformas, assim como a elaboração e a publicação destes dados, com linguagem e design acessível, acompanhado de possíveis análises e interpretações.

Primeiros passos

Vários projetos, blogs e textos inspiram a nossa caminhada! O primeiro deles foi produzido por Pedro Meireles, com o título Pesquisa acadêmica com dados de mídias sociais: por onde começar?3. Neste trabalho, o autor defende a ideia que, no momento presente, possuímos uma grande “fartura de dados, ferramentas refinadas, metodologias consolidadas e avanços teórico-epistemológicos interdisciplinares”. Entretanto, apesar do crescente interesse em trabalhar com essas informações, muitos pesquisadores não sabem por onde começar. Em seu blog, Meireles apresenta de forma clara diversas orientações para aqueles que querem iniciar pesquisas em mídias sociais.

Metodologias para pesquisa em redes sociais

Outra importante referência foi produzida pela Diretoria de Análise de Políticas Públicas da Fundação Getúlio Vargas (FGV/DAPP), coordenada por Marco Aurélio Ruediger. O documento destaca o otimismo em relação às potencialidades de pesquisa e os caminhos para o monitoramento do debate público em redes sociais e descreve metodologias e processos de pesquisa que articulam as áreas da Linguística, Sociologia, Comunicação, Estatística e Tecnologia da Informação. A proposta visa integrar diferentes plataformas e domínios para extrair e organizar um grande volume de dados da internet. Para isso, são apresentados pontos importantes para pesquisas no ambiente digital, com boas possibilidades para aplicação na análise das culturas alimentares digitais, entre eles:

1) Metodologia integrada de pesquisa em redes sociais: A utilização de metodologias quantitativas e qualitativas, aliadas à compreensão linguística do corpus textual recortado das redes sociais, pode assegurar confiabilidade quanto aos resultados da pesquisa. Em outros termos, trata-se de uma boa possibilidade de interlocução entre Sociologia, Tecnologias da Informação e Comunicação, Linguística e Comunicação Social.

2) Linguística aplicada: A metodologia de pesquisa em redes sociais contempla publicações com textos sob uma fundamentação semiótica, com as figuras de discurso e a identificação dos efeitos de sentido presentes, de forma recursiva e com coerência, no conjunto de dados selecionados para pesquisa.

3) Visualização de dados. A exibição de grafos, gráficos e nuvens de palavras pode representar com rigor e simplicidade o debate público sobre as culturas alimentares digitais nas redes sociais, possibilitando o amplo alcance do resultado das pesquisas e a consequente compreensão pelo público acadêmico e leigo.

Etapas para mapeamento de redes sociais

O documento desenvolvido pelo National Democratic Institute – NDI (2022) levanta questões importantes para o trabalho com coletas de dados, tais como: Quais são as plataformas mais populares na região analisada? Qual é o grau de penetração de cada plataforma? Quais são as hashtags/palavras mais relevantes em questão? Qual a melhor opção para acessar os dados, Web Scraping ou acesso a API? Além disso, propõe cinco etapas norteadoras para mapeamento de uma rede social:

1) Coleta de Dados: essa etapa envolve a coleta de dados via API de uma rede social ou por alguma ferramenta de captura de dados de terceiros ou web scraping;

2) Definição das relações a serem mapeadas: no mapa de uma rede social, cada “nó” (i.e., círculo no mapa) pode representar uma conta do Twitter ou um perfil do Facebook. As relações entre os “nós” (interações por meio de curtidas, “seguindo”, retweets etc.);

3) Poda dos Dados: remoção de dados descartáveis, ou poda (pruning). Triagem dos dados por conta própria (Gephi).
4) Elaboração do Mapa: mapear (arestas e nós). A maior parte do trabalho pesado é automatizada.

5) Análise do Mapa: após a elaboração do mapa, é possível definir métricas de centralidade, entrada e saída.

APIs e Web Scraping

Para interações mais diretas com plataformas e sites, pesquisadores podem utilizar uma Interface de Programação de Aplicações (Application Program Interface ou API) ou então coletar a informação diretamente do código-fonte do site, técnica conhecida como “web scraping” (“raspagem de dados”).

É importante assinalar a diferença entre os dois métodos: na maioria dos casos, APIs são meios legítimos e éticos de capturar dados, já que são regulamentados pelas próprias plataformas e compartilhados sem que haja violação de direitos autorais. Já o método de web scraping costuma envolver violações de Termos de Serviço e é mais difícil de ser regulamentado, sendo, muitas vezes, uma prática ilegal. É comum que pesquisadores se refiram, incorretamente, à captura de dados via APIs como “raspagem” de dados. É importante saber a distinção entre os dois métodos, não só por razões utilitárias, como poupar tempo e esforço, mas também devido às possíveis violações éticas e legais associadas a práticas de web scraping (NDI, 2022, p. 9).

Repositórios de ferramentas para análise de rede

Mesmo em pesquisas cujos procedimentos metodológicos são mediados pela tecnologia, todo o processo de construção é “artesanal”, basta uma boa dose de perícia, criatividade e as ferramentas certas. Seguem, abaixo, indicações de bons repositórios de ferramentas para análise de rede. Essas diferentes “caixas de ferramentas” para análise de mídias digitais podem ser aplicadas no campo das culturas alimentares ou de qualquer outra temática.

http://kit.jornalismodedados.org/
http://dhawards.org
https://jacomyma.github.io/mapping-controversies/
https://wiki.digitalmethods.net/Dmi/DmiAbout
https://tapor.ca/home
http://toychest.pbworks.com/
https://libguides.mit.edu/c.php?g=176357&p=1158575
https://github.com/dfreelon
https://programminghistorian.org

Mineração de dados via linguagens de programação

Dentro do conjunto de possibilidades, o campo mais promissor para pesquisas em culturas alimentares digitais é a mineração de dados via linguagens de programação, ou seja, método formado por um conjunto de regras sintáticas e semânticas, de implementação de um código fonte, que pode ser transformado em um programa de computador como instruções para coleta de dados em plataformas de mídias digitais.

Entre as inúmeras possibilidades, destacamos as linguagens de programação Python e a R, ambas gratuitas e de código aberto, ou seja, qualquer pesquisador pode colaborar com desenvolvimento da linguagem, conforme o LARHUD (2002). A primeira foi criada, em 1989 por Guido van Rossum, com o objetivo de desenvolver um caminho para ampliar a produtividade dos programadores. Na atualidade, a Python é utilizada tanto por cientistas de dados, quanto por profissionais de diversas áreas do conhecimento, inclusive das ciências humanas. A linguagem conta com uma grande quantidade de bibliotecas, que podem ser aplicadas em todas as plataformas online, muito úteis à pesquisa em mídias digitais. Já a linguagem R é amplamente utilizada entre estatísticos e cientistas de dados para desenvolver softwares de estatística e análise de dados, e também apresenta grande potencial para acesso de dados via web scraping (“raspagem de dados”) e Application Program Interface (API).

A escolha das estratégias metodológicas passa por opções éticas e pode produzir resultados bem diferentes. A comunicação direta com as APIs é mais coerente com a privacidade dos usuários (“termos e condições”). Já a web scraping apresenta o potencial para acessar quantidade maiores de dados, no entanto o método pode representar, em diversos cenários, violação dos termos de serviço da maioria das plataformas de mídia social.
Além destas referências iniciais, o Mesa Digital conta com outras inspirações, tais como: www.manchetometro.com.br, www.lab404.ufba.br, www.labic.net e www.labhd.ufba.br.

Pretendemos realizar pesquisas no ambiente digital e disponibilizá-las à comunidade interessada por meio de textos, conteúdos interativos e audiovisuais acessíveis e de fácil compreensão. Neste sentido, há desafios éticos e estéticos no processo de publicização dos dados. O design da informação e a construção da visualização dos dados não se configuram como aspecto secundário.


Design da informação: desafios da publicização de dados

por Marcelo de Podestá

Conhecemos como “visualização de dados” ou “visualização de informações” o campo de pesquisa e de produção interdisciplinar que busca criar formas gráficas eficientes e atrativas para representar e reforçar a apreensão de informações pela mente humana.

Tratam-se de recursos e técnicas particularmente úteis para comunicar grandes volumes de dados e de informações abstratas (numéricas e não numéricas, como textos e informações geográficas) de forma mais intuitiva, através da utilização de gráficos, diagramas, imagens e elementos visuais, como pontos, linhas, barras, entre outros, e da criação de relações de contraste, distância, tamanho e padrões, para sugerir percursos de leitura e hierarquia entre os elementos.

Estas técnicas são muito usadas em pesquisas no âmbito da análise de dados (data analysis) ou ciência de dados (data science), que combinam abordagens e metodologias do design, da interação homem-computador, da ciência da computação e psicologia para tornar informações complexas mais acessíveis, compreensíveis e aplicáveis (utilizáveis). Nas últimas décadas, a visualização de dados tem sido difundido bastante por outros campos de estudo e análise, como no mercado financeiro, no controle de produção em indústrias, no apoio a tomada de decisões estratégicas e de marketing, mas também na comunicação digital e impressa, como jornais, artigos, blogs e revistas. Nesse caso, frequentemente assume a forma de infográficos, uma espécie de “roteiro” visual criado para condensar informações sobre algum tema de forma clara, direta e atrativa.

Mas para comunicar ideias e informações de forma eficiente não bastam conhecimentos técnicos, nem somente uma boa noção estética. É preciso saber combinar funcionalidade com apelo visual, forma e função, para transmitir a mensagem e estimular o engajamento e a atenção do leitor. Também é preciso compreender, além da informação que precisa ser comunicada, para quem essa comunicação se dirige.

Com o desenvolvimento de novas tecnologias digitais, a visualização de informações tem se tornado mais interativa, especialmente quando aplicada em websites e aplicativos, permitindo aos usuários manipular os conteúdos e as formas de apresentação e, com isso, explorar diferentes perspectivas e ampliar o entendimento. As novas ferramentas também ajudam a coletar, filtrar e analisar estes dados de formas e em quantidades inéditas.

De fato, a difusão destes tópicos e ferramentas está relacionada, em parte, ao grande volume de dados aos quais estamos submetidos e entramos em contato no nosso contexto atual, marcado pela economia global e comunicação instantânea. Essa profusão de dados tende a gerar distração e confusão e, consequentemente, tenciona a criação de novas formas de seleção e transmissão de informações.

A visualização de dados é uma tecnologia – ou um conjunto de tecnologias – e, como os artefatos como os relógios, o compasso, o ábaco ou os mapas, ela transforma a maneira como nós vemos e nos relacionamos com a realidade. (CAIRO, 2020, p. 17).

Assim como gráficos, mapas e textos não são, necessariamente, objetivos, estas visualizações podem esconder um “lado obscuro”, que diz respeito às escolhas, os pontos de vista e as estratégias de persuasão (geralmente implícitas) acionadas na produção destes recursos. A escolha sobre qual informação apresentar e qual omitir pode estar condicionada aos objetivos do “emissor”, seus limites éticos, sua posição social, seus interesses políticos e econômicos, entre outros aspectos.

Dessa forma, a análise destas informações não pode prescindir de um olhar para as condições nas quais estes “textos visuais” são gerados, disseminados e planejados no contexto da criação de sentidos, aprendizado e engajamento. Uma “filosofia da visualização de dados”, como propõe Alberto Cairo, deve refletir de forma crítica sobre a “história, as suposições, as convenções, as práticas e os impactos da visualização em indivíduos, culturas e sociedades” (CAIRO, 2020; p.18). Da mesma forma, é preciso (e possível) que os indivíduos, coletivos e movimentos sociais se apropriem destas ferramentas e as utilizem para defender e promover os seus próprios propósitos.

Referências:

1. PRADO FILHO, Kleber; TETI, Marcela Montalvão. A cartografia como método para as ciências humanas e sociais. Santa Cruz do Sul, n. 38, p. 45-49, jun. 2013. Disponível em http://pepsic.bvsalud.org/scielo.php?script=sci_arttext&pid=S0104-65782013000100004&lng=pt&nrm=iso. acesso em: 21 set. 2022.

2. DELEUZE, Giles e GUATTARI, Felix. Mil Platôs: capitalismo e esquizofrenia. v. I. São Paulo: Editora 34, 1995.

3. MEIRELLES, Pedro. Insightee (blog), 23 de maio de 2021 http://insightee.com.br/blog/pesquisa-academica-com-dados-de-midias-sociais-por-onde-comecar/

CAIRO, Alberto. Foreword: The dawn of a philosophy of visualization in Engebretsen, M., & Kennedy, H. (Eds.). (2020). Data Visualization in Society. Disponível em: http://library.oapen.org/handle/20.500.12657/22273

ENGEBRETSEN, M., & KENNEDY, H. (Eds.). (2020). Data Visualization in Society. http://library.oapen.org/handle/20.500.12657/22273. Acesso em: 10/10/2022.
INTERACTION Design Foundation. Information Visualization – A Brief Introduction. Disponível em: https://www.interaction-design.org/literature/topics/information-visualization. Acesso em: 12/10/2022.

Gershon, N., & Page, W. (2001). What storytelling can do for information visualization. Communications of the ACM, 44(8), 31–37. https://dl.acm.org/doi/10.1145/381641.381653. Acesso em: 10/10/2022.

LARHUD. Catálogo de Ferramentas / Herramientas. Disponível em: http://www.larhud.ibict.br/. Acesso em: 1º de setembro de 2022.

MEIRELLES, Pedro. Pesquisa acadêmica com dados de mídias sociais: por onde começar?. Disponível em: http://insightee.com.br/blog/pesquisa-academica-com-dados-de-midias-sociais-por-onde-comecar/. Acesso em: 17 de setembro de 2022.

NDI. Análise de Dados para o Monitoramento de Redes Sociais. Disponível em: https://www.ndi.org/sites/default/files/247805_NDI_Social%20Media%20Monitoring%20Guide_Portuguese.pdf. Acesso em: 22 de agosto de 2022.

RUEDIGER, Marco Aurelio (Cord.) Nem tão #simples assim: o desafio de monitorar políticas públicas nas redes sociais. 2. ed. Rio de Janeiro: FGV, DAPP, 2017. Disponível em: http://dapp.fgv.br/wp-content/uploads/2017/03/PT_nem-t%C3%A3o-simples-assim.pdf. Acesso em: 1º de setembro de 2022.