Identificando características semânticas de conjuntos de dados de interação do usuário por meio da aplicação de uma análise de dados

Em uma avaliação de uma decisão, o fato analisado precisa receber insumos de múltiplas fontes de dados – estruturando, integrando, armazenando e processando dados coletados em uma saída que suporta uma melhor compreensão do fato dos dados, permitindo novas dimensões de análise.
O objetivo deste estudo é identificar as características semânticas dos atributos de dados no momento da coleta, das estruturas de datasets encontradas nas interfaces de exportação de dados nas ferramentas de análise de interações do usuário, nos canais de comunicação da Internet e nas ferramentas de dados analíticas da web envolvidas em um periódico científico. gestão, através de uma aplicação de um processo de análise de dados e técnicas de modelagem de dados.
A pesquisa foi delimitada para conjuntos de dados exportáveis ​​disponíveis em interfaces do Open Journal Systems, do Google Analytics e do Search Console, do Twitter Analytics e do Facebook Insights.
Adotou-se uma metodologia de análise exploratória para identificar características sobre como os dados estão disponíveis e estruturados sobre esses recursos de dados. Os conceitos de Modelagem de Relacionamento de Entidade foram aplicados para projetar e armazenar dados coletados dos serviços, recursos, conjuntos de dados e atributos.
Além disso, os dados coletados foram processados ​​em outra estrutura de dados, adotando-se o cubo de processamento analítico on-line como uma representação tridimensional de elementos, atuando como perspectivas de análise.
Esta análise de dados identificou dissonâncias semânticas nas definições de atributos em entidades, que podem interferir no processo de desenvolvimento de relações entre atributos de diferentes conjuntos de dados, diminuindo o potencial de interoperabilidade.

Palavras-chave: An[alise de Dados. Coleta de Dados. Dados. Redes Sociais Online. Dados de usuário.

Autores

  1. Fernando de Assis Rodrigues
  2. Pedro Henrique Santos Bisi
  3. Ricardo César Gonçalves Sant’Ana

Texto completo disponível em

  1. ISKO
  2. Research Gate

Análise de domínio da produção científica sobre Coleta de Dados no contexto do Institute of Electrical And Electronics Engineers

Este estudo teve como objetivo identificar pesquisas que versam sobre a temática de coleta de dados. Para tanto foi utilizada análise de domínio em publicações científicas, com a aplicação de uma análise de citações e cocitações.
A identificação dos representantes da temática de coleta de dados e a interlocução existente entre eles foi obtida a partir do processamento dos conjuntos de metadados sobre publicações em periódicos disponíveis da base de conhecimento IEEE Xplore(r) Digital Library. Como estratégia de busca, utilizou-se na interface de busca avançada os termos ‘Data Collecting’, ‘Data Collect’ e ‘Data Gathering’, concatenados pelo operador booleano ‘OU’. Foram recuperados dados sobre 2.278 publicações e a amostra foi delimitada aos artigos publicados em periódicos científicos entre os anos de 1954 e 2018, totalizando 281 publicações. Para cada artigo, foi coletado o conjunto de referências na forma de documento HTML. Sobre o conteúdo obtido foi aplicado um algoritmo para a conversão das referências de HTML para CSV e a serialização das referências para o padrão de estilo IEEE Editorial Style.
Foram processadas 5.867 referências e identificados 8.267 autores, sendo descartadas 270 referências por estarem fora do padrão. Aplicou-se a Lei do Elitismo de Price para a delimitação do corpo de autores nas análises de citação e cocitação, totalizando 91 autores, número este que foi arredondado para 94 para contabilizar mais 3 autores que possuíam o mesmo número de citação do 91º autor.
Posteriormente, aplicou-se um algoritmo para a geração das matrizes i) citados e citantes e ii) de frequência absoluta de cocitação. A partir destes dados, a identificação de informações sobre nacionalidade e associação institucional foram obtidas por processamento manual. Foram calculados os indicadores de rede social: i) Densidade da Rede, representando a intensidade de relacionamentos entre autores da rede e ii) Centralidade de Grau, representando o número de ligações incidentes em um autor.
A análise dos dados resultou em uma Densidade de Rede no valor de 3,20 e desvio padrão amostral de 3,34, ou seja, cada pesquisador têm aproximadamente 3 relacionamentos com pares da rede; e Centralidade de Grau no valor de 20,93%, demonstrando dispersão, com cada vértice possuindo 20,93% de probabilidade de receber alguma interação da rede. A dispersão está associada com a amplitude do domínio analisado, pois coleta de dados é um tema recorrente em diferentes áreas do conhecimento, mas aderente ao contexto de publicação dos periódicos da IEEE.
Ao analisar a Centralidade de Grau dos autores individualmente, é possível observar uma relação com a quantidade de citações recebidas, uma vez que os 13 principais autores do índice de Centralidade de Grau são também os mais citados, representando 25,16% de todas as citações recebidas da rede. Neste grupo, foi identificado uma média de 7,69% de representatividade de cada autor no total de citações, com amplitude variando entre 6,12% e 11,76%.
Conclui-se que a temática apesar de amplamente citada apresenta um núcleo estadunidense, ligado às instituições UC, USC e MIT.

Palavras-chave: Coleta de Dados. Análise de Domínio. IEEE.

Autores

  1. Fernando de Assis Rodrigues
  2. Fábio Mosso Moreira
  3. Ricardo César Gonçalves Sant’Ana

Texto completo

  1. X EIICA
  2. Research Gate

Publicação Ampliada no Contexto de Teses e Dissertações

O objetivo desta pesquisa é estudar aspectos envolvidos no contexto de Publicação Ampliada, em especial para os casos de Teses e Dissertações e os diversos documentos que passam a compor o novo espectro de elementos destes resultados, propiciando subsídios para o desenvolvimento de uma base conceitual que sustente propostas de estruturas de coleta, armazenamento e recuperação deste novo conjunto de documentos que as compõem, a partir de conceitos já estabelecidos na Ciência da Informação.
A metodologia utilizada foi a triangulação metodológica, de caráter exploratório e descritivo, composta por: (i) identificação de referencial teórico, através do levantamento bibliográfico sobre Publicação Ampliada em língua portuguesa, de estudos disponíveis nas bases de dados Google Scholar e SciELO e de resultados do mecanismo de busca Google Search; (ii) análise de requisitos, com o uso de fases e objetivos do Ciclo de Vida dos Dados para a Ciência da Informação (CVD), e; (iii) estudo de caso, a partir dos conjuntos de documentos de uma Tese em processo de defesa do Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista.
Os resultados desta pesquisa estão demonstrados na forma de análise de requisitos, a partir do uso de grafos para a elaboração das relações entre os documentos da Publicação Ampliada; e de requisitos nas fases de coleta, armazenamento e recuperação para a implementação das funcionalidades.
Conclui-se que, com a explicitação da análise de requisitos das fases de coleta, armazenamento e recuperação, começam a surgir mais preocupações na forma em que as Publicações Ampliadas serão apresentadas, no momento da implementação de
funcionalidades, como a necessidade de explicitação de aspectos de privacidade, além de um maior detalhamento e explicitação de ações nesta temática, e delimitação elementos necessários para a instanciação de Publicações Ampliadas.

Palavras-chave: Publicação ampliada. Dados. Tese. Dissertação. Ciência da Informação.

Autores

  1. Fernando de Assis Rodrigues
  2. Ricardo César Gonçalves Sant’Ana

Texto completo

  1. ITEC Journal
  2. Research Gate

Informação e Tecnologia: Percurso Temático do GT 08

O percurso temático do Grupo de Trabalho GT 08 foi identificado a partir da análise dos trabalhos apresentados nas modalidades de Comunicação Oral e Pôster, durante os anos de 2008-2016. O estudo qualitativo e quantitativo se deu a partir da análise de domínio, para identificar como se dá a abordagem das tecnologias no interior do GT 08 partindo de sete categorias de análise estruturadas a partir da ementa do GT e da proposta de Santos et al. (2013), identificando, temáticas, autores e instituições em cada uma delas. Esta etapa do estudo resultou no mapeamento dos trabalhos do GT 08 – Informação e Tecnologia, com a visualização das principais abordagens sobre as tecnologias no contexto do GT 08, sua distribuição nas modalidades de apresentação e os rankings de autoria e de instituições.

Estudo de aderência entre padrões de representação de dados sobre entidades

Projetos de sistemas de informação voltados à disseminação de dados originários e destinados para setores específicos necessitam de estruturas na fase de armazenamento que propiciem esta disseminação. Uma das entidades presentes neste contexto é a formalização da representação de pessoas, empresas e organizações e para a explicitação deste tipo de informação é necessário um conjunto específico de atributos. Entretanto, distintas aplicações destes conjuntos de dados são realizadas com o uso diferentes padrões e estruturas, o que torna complexo o armazenamento unificado deste tipo de informação.

Portanto, o objetivo deste trabalho é estudar a aderência entre os padrões de representação de dados vCard e o vocabulário Friend of a Friend (FOAF), definindo um núcleo comum para a explicitação de entidades desta temática para setores específicos – com independência tecnológica – necessárias à estruturação de bases de dados na fase de armazenamento destes conjuntos de dados.