REPOSITORIO PUCSP Trabalho de Conclusão de Curso - TCC Trabalho de Conclusão de Curso - TCC
Use este identificador para citar ou linkar para este item: https://repositorio.pucsp.br/jspui/handle/handle/42573
Tipo: Trabalho de Conclusão de Curso
Título: Ferramenta de web scraping para produtos e-commerce
Autor(es): Campos, Alexandre Ricardo de
Primeiro Orientador: Morgado, Flávio
Resumo: A utilização da internet é cada vez mais frequente no cotidiano das pessoas. Em particular, o e-commerce vem gradualmente se consolidando como um segmento de transação comercial altamente popular. Este imenso mercado digital é objeto de estudo para diversas implementações tecnológicas. A coleta de dados, ou scraping, permite a extração de dados dos sites de e-commerce, convertendo-os em informação estruturada, para os mais diversos tipos de análises. Aplicativos de scraping com funcionalidades específicas tendem-se a se tornar softwares proprietários e de difícil utilização didática. Este trabalho desenvolveu um protótipo de scraping de produtos de e-commerce, com código aberto, personalizável, escalável e que demonstra todas as áreas de estudo envolvidas. O trabalho descreveu a estrutura e os componentes de um site de e-commerce, os componentes de um web scraping em duas perspectivas diferentes e a manipulação da comunicação entre o protótipo e os sites. Foram descritas e implementadas as técnicas de CSS Selectors, para o scraping de dados, e de parsing de API JSON, além de uma base em código aberto para um usuário utilizar qualquer outra técnica, se desejar. As funcionalidades desenvolvidas são: cadastro e configuração personalizável de cada scraper, teste de scraper, execução de scraper, consulta dos dados obtidos em relatórios e em comparação de preço. O estudo testou a hipótese de que o paralelismo computacional melhora a performance da coleta de dados. Após a implementação, os testes demonstraram que quanto mais processos forem utilizados, menor o tempo de execução, embora a diferença entre cada performance diminua à medida que mais processos são adicionados. De maneira geral, este estudo propiciou descrever o funcionamento de um web scraper desde a concepção até a análise dos dados.
Abstract: The use of the internet is increasingly frequent in people's daily lives. In particular, e-commerce has gradually established itself as a highly popular business transaction segment. This huge digital market is object of study for several technological implementations. Scraping allows the extraction of data from e-commerce sites, converting them into structured information for the most diverse types of analysis. Scraping applications with specific functionality tend to become proprietary software and difficult to use for teaching. This work developed a prototype for scraping e-commerce products, with open source, customizable, scalable and that demonstrates all areas of study involved. The work described the structure and components of an e-commerce site, the components of a web scraping from two different perspectives and the manipulation of communication between the prototype and the sites. CSS Selectors techniques for data scraping and JSON API parsing were described and implemented, as well as an open-source base for a user to use any other technique, if desired. The features developed are registration and customizable configuration of each scraper, scraper testing, scraper execution, consultation of product data obtained in reports and in price comparison. The study tested the hypothesis that computational parallelism improves data collection performance. After implementation, the scrapers execution tests showed that the more processes are used, the lower the execution time, although the difference between each performance decreases as more processes are added. In general, this study provided a description of the functioning of a web scraper from conception to data analysis
Palavras-chave: E-commerce
Web scraping
Arquitetura da informação
DOM
CSS Selectors
E-commerce
Web scraping
Information Architecture
DOM
CSS Selectors
Parallel computing
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: Brasil
Editor: Pontifícia Universidade Católica de São Paulo
Sigla da Instituição: PUC-SP
metadata.dc.publisher.department: Faculdade de Ciências Exatas e Tecnologia
metadata.dc.publisher.program: Graduação em Ciência da Computação
Citação: Campos, Alexandre Ricardo de. Ferramenta de web scraping para produtos e-commerce. 2021. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Faculdade de Ciências Exatas e Tecnologia da Pontifícia Universidade Católica de São Paulo, São Paulo, 2021.
Tipo de Acesso: Acesso Restrito
URI: https://repositorio.pucsp.br/jspui/handle/handle/42573
Data do documento: 12-Ago-2021
Aparece nas coleções:Trabalho de Conclusão de Curso - TCC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
TCC_Alexandre_Final_Flavio Morgado.pdf
  Restricted Access
3,72 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.