O papel dos vocabulários no acesso e reuso dos Big data

Carlos Henrique Marcondes, Mauricio Augusto Cabral Ramos Junior, Sergio de Castro Martins

Resumo


Objetivo: De forma similar à “explosão informacional” o fenômeno do Big Data vem sendo de forma crescente, objeto da CI/OC. Como descobrir, acessar, processar e reusar a enorme e crescente quantidade de dados que são disponibilizados continuamente na Web por nossa sociedade? Em especial, como tratar os chamados “dados não estruturados”, documentos textuais, que sempre foram o objeto da CI/OC?
Metodologia: Teorias de amplo espectro como Ontologia e Semiótica foram utilizadas para analisar dados como elemento essencial do Big Data, em especial os “dados não estruturados”.
Resultados: A partir da análise de várias definições de dados, um dado é identificado como parte de esquemas lógicos e semióticos já conhecidos, as proposições. Um dado é encontrado juntamente com outros, formando conjuntos de dados. Conjuntos de dados são na verdade conjuntos de proposições. Estas estão presentes no que é conhecido como dados estruturados - tabelas de bancos de dados relacionais ou de planilhas. Documentos textuais também contém conjuntos de proposições. Dados estruturados são comparados com “dados não estruturados”.
Conclusões: Embora no limite, ambos contenham proposições e possam ser equivalentes, enquanto conjuntos, dados estruturados são expressos e percebidos como um todo, conjuntos de dados não estruturados são processuais, expressos sequencialmente o que torna mais difícil a identificação de dados não estruturados em documentos textuais para seu processamento por máquinas.


Palavras-chave


Big data; Vocabulários; Dados estruturados; Dados não estruturados; Dados abertos interligados

Texto completo:

PDF

Referências


ANDRADE, M. C.; GONÇALEZ, P. R. V. A.; BERTI JUNIOR, D. W; BAPTISTA, A. A.; CONEGLIAN, C. S. Responsible data science: Impartiality, accuracy, confidentiality and transparency of data. Informação & Informação, Londrina, v. 25, n. 2, p. 26-48, 2020.

ARISTÓTELES. Categorias. Lisboa: Instituto Piaget, 2000.

BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The semantic web. Scientific American, may, 2001.

BUNGE, M. Treatise on Basic Philosophy. In: BUNGE, M. Ontology I: The furniture of the World. Dordrecht, Holland, Boston, USA: D Reidel Publishing, 2015.v.3

CAPURRO, R. Angeletics -A Message Theory. In: DIEBNER, H. H.; RAMSAY, D. L. (ed.). Hierarchies of Communication. Karlsruhe: ZKM - Center for Art and Media, 2003.

CHAKRABORTY, G.; PAGOLU, M. Analysis of Unstructured Data: Applications of Text Analytics and Sentiment. SAS GLOBAL FORUM, v.8, 2014,

Washington DC. Conference Paper. SAS: Washington DC, Mar. 2014.

CLARKE, S. G. D. The Information Retrieval Thesaurus. KO KNOWLEDGE ORGANIZATION, v. 46, n. 6, p. 439-459, 2019.

COGNIZANT. Making Sense of Big Data in the Petabyte Age. Cognizant, 20- 20 insights, jun. 2011. Disponível em: https://www.cognizant.com/whitepapers/Making-Sense-of-Big-Data-in-thePetabyte-Age.pdf. Acesso em: 02 abr. 2021.

DATA SCIENCE CENTER EINDHOVEN. Responsible Data Science: Ensuring fairness, accuracy, confidentiality & transparency by design. 2020. Disponível em: https://www.tue.nl/en/research/research-areas/datascience/responsible-data-science/. Acesso em: 02 dez. 2020.

EBERENDU, A. C. Unstructured Data: an overview of the data of Big Data. International Journal of Computer Trends and Technology, v. 38, n. 1, p. 46-50, 2016.

FAIR Compliant Biomedical Metadata Templates. CEDAR, Center for Expanded Annotation and Retrieval, University of Stanford, Department of Medicine, 2019. Disponível em: https://medicine.stanford.edu/2019- report/cedar-to-the-rescue.html. Acesso em: 15 ago. 2021.

FISHER, M.; SHETH, A. Semantic Enterprise Content Management. In: SINGH, M. P. The practical handbook of internet computing. Boca Raton, FL: Chapmann & Hall/CRC, 2004. (Computer and Information Science Series.)

FLORIDI, L. Semantic Conceptions of Information. In: ZALTA, E. N. (ed.). The Stanford Encyclopedia of Philosophy. Palo Alto: Metaphysics Research Lab, 2019. Disponível em: https://plato.stanford.edu/archives/win2019/entries/information-semantic/. Acesso em: 21 dez. 2019.

GUARINO, N. Some ontological principles for designing upper level lexical resources. In: INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, 1., 1998. Granada. Proceedings […]. Granada: ELRA, 1998. Disponível em: https://arxiv.org/pdf/cmp-lg/9809002. Acesso em: 22 maio 2005.

HEY, T.; TREFETHEN, A. The data deluge: An e-science perspective. In: BERMAN, F.; FOX, G. C.; HEY, A. J. G. Grid computing: making the global infrastructure a reality. Wiley: West Sussex, 2003. p. 809-824. Disponível em: https://eprints.soton.ac.uk/257648/1/The_Data_Deluge.pdf. Acesso em: 10 out. 2020.

INMON, W.; LINSTEDT, D. Data Architecture: a primer for the data scientist. Waltham, MA, Elsevier, 2015.

MACIEL, J. Elementos de Teoria Geral dos Sistemas. Petrópolis: Vozes, 1974.

MARCONDES, C. H. Em Busca de uma Semântica do Digital, Ou “As They May Think”. Ponto de Acesso, Salvador, v. 6, n. 2, p. 35-73, 2012.

ORILIA, F.; PAOLETTI, M. P. Properties. In: ZALTA, E. N. The Stanford Encyclopedia of Philosophy. Palo Alto: Metaphysics Research Lab, 2020.Disponível em: https://plato.stanford.edu/archives/win2020/entries/properties/. Acesso em: 9 maio 2020.

PEIRCE, C. S. Collected papers of Charles Sanders Peirce: principles of philosophy. Cambridge: Harvard University Press, 1931. v. 1.

PEIRCE, C. S. On a new list of categories. In: AMERICAN ACADEMY OF ARTS AND SCIENCES, 7., 1868, Cambridge. Proceedings […]. American Academy of Arts and Sciences: Cambridge, 1868. p. 287-298. Disponível em: http://www.bocc.ubi.pt/pag/peirce--charles-list-categories.pdf. Acesso em 28 jul. 2018.

PRASANNA, J. K. L.; SASI KIRAN, K. S. M. Significance of metadata and data modelling of metadata by using mark logic. International Journal of Engineering and Advanced Technology, v. 8, n. 2, p. 76-78, 2018.

RAYWARD, W. B. The Universe of Information: the work of Paul Otlet for Documentation and international organization. Moscou: FID/VINITI, 1975.

RDF Semantics. W3C, 2004. Disponível em: https://www.w3.org/TR/rdf-mt/. Acesso em: 27 ago. 2021

RILEY, J. Understanding metadata: what is metadata and what is it for: a primer. Baltimore: NISO, 2017. Disponível em: https://groups.niso.org/apps/group_public/download.php/17446/Understandin Metadata.pdf. Acesso em: 13 mar. 2021.

ROWLEY, J. The wisdom hierarchy: representations of the DIKW hierarchy. Journal of information science, v. 33, n. 2, p. 163-180, 2007. Disponível em: http://web.dfc.unibo.it/buzzetti/IUcorso2007-08/mdidattici/rowleydikw.pdf. Acesso em: 14 jun. 2013.

SANTAELLA, L. Epistemologia semiótica. Cognitio: Revista de Filosofia, v. 9, n. 1, p. 93-110, 2008. Disponível em: https://revistas.pucsp.br/cognitiofilosofia/article/viewFile/13531/10042. Acesso em: 12 nov. 2020.

SANTAELLA, L. O que é Semiótica. São Paulo: Ed. Brasiliense, 1983. SANTOS, F. E. P.; FARIAS, M. G. G.; FEITOSA, L. T.; CAVATI SOBRINHO, H. Definição de metadados e critérios de indexação para documentário em repositório audiovisual. Revista Brasileira de Biblioteconomia e Documentação, v. 14, n. 3, p. 237-261, 2018. Disponível em: https://rbbd.febab.org.br/rbbd/article/viewFile/1092/1089. Acesso em: 19 nov. 2020.

SANTOS, P. L. V. A. C. SANT’ANA, R. C. G. Dado e granularidade na perspectiva da informação e tecnologia: uma interpretação pela ciência da informação. Ciência da Informação, Brasília, v. 42, n. 2, p. 199-209, maio/ago.2013.

SANT’ANA, R. C. G. Ciclo de vida dos dados: uma perspectiva a partir da Ciência da Informação. Informação & Informação, Londrina, v. 21, n. 2, p. 116-142, maio/ago. 2016.

MACULAN, B. C. M. S. Estudo e aplicação de metodologia para reengenharia de tesauro: remodelagem do THESAGRO. 2015. Tese (Doutorado em Ciência da Informação) – Universidade Federal de Minas gerais, Belo Horizonte, 2015. Disponível em: https://repositorio.ufmg.br/bitstream/1843/BUBD9ZKMUV/1/maculan_tese_arq_final.pdf.pdf. Acesso em: 24 maio 2019.

SOERGEL, D.; LAUSER, B.; LIANG, A.; FISSEHA, F.; KEIZER, J.; KATZ, S. Reengineering thesauri for new applications: the agrovoc example. Journal of digital information, v. 4, p. 1-23, 2004. Disponível em: http://hdl.handle.net/10760/15694. Acesso em: 25 abr. 2016.

ZENG, M. L. Interoperability. In: HJØRLAND, B.; GNOLI, C. (ed.). ISKO Encyclopedia of Knowledge Organization. ISKO, 2019a. Disponível em: http://www.isko.org/cyclo/interoperability. Acesso em: 18 set. 2019.

ZENG, M. L. Semantic enrichment for enhancing LAM data and supporting digital humanities. Review article. El profesional de la información, v. 28, n. 1, 2019b. Disponível em: https://doi.org/10.3145/epi.2019.ene.03. Acesso em: 22 jan. 2019.




DOI: http://dx.doi.org/10.5433/1981-8920.2021v26n4p146

Licença Creative Commons
Esta obra está licenciada sob uma licença Creative Commons Atribuição 4.0 Internacional.

  

Inf. Inf.

ISSN: 1981-8920 (versão somente online)

DOI: 10.5433/1981-8920

e-mail: infoeinfo@uel.br



Esta obra está licenciada com uma Licença Creative Commons Atribuição-NãoComercial 4.0 Internacional