Text Extraction and OCR With Apache Tika

Text Extraction and OCR With Apache Tika

Apache Tika is a library for extracting text from most file formats, including PDF, DOC, and PPT. Tika has a simplified interface that extracts the content, making it easy to operate the library. Its main uses are related to the indexing process in search engines, content analysis (journalism, for example), and even translation (using paid APIs).

Extração de texto com Tika Server

Extração de texto com Tika Server

O Apache Tika é uma biblioteca para extração de texto da maioria dos formatos de arquivo, incluindo PDF, DOC e PPT. O Tika tem uma interface simplificada faz a extração do conteúdo, tornando-a uma biblioteca fácil de operar. Seus principais usos estão ligados ao processo de indexação em mecanismos de busca, análise de conteúdo (jornalismo, por exemplo) e até mesmo tradução (usando APIs pagas).

What is digital transformation

What is digital transformation

Digital transformation is the process of incorporating new technologies into the business area of the company, changing the operation and product delivery to the clients. It includes, of course, the adoption of digital tools and, more than that, the rational use of them. Using technology must bring advantages; otherwise, it does not make sense. So, in this article, we will see definitions and examples of how digital transformation helps companies to gain market share. We can say in advance that…

Read More Read More

Cassandra Bulk Loading (sstableloader)

Cassandra Bulk Loading (sstableloader)

Introdução A bulk loading, ou bulk insert, é o processo no qual uma grande quantidade de registros é inserida em um banco de dados em curto período de tempo. Um exemplo desta funcionalidade é o Cassandra Bulk Loader, também chamado de sstableloader. Para ilustrar o funcionamento do Cassandra Bulk Loader vamos inserir um grande dataset com milhões de registros em aproximadamente 5 minutos e usando hardware de baixo custo. Neste sentido, a inserção individual de registros, apesar de otimizada, não…

Read More Read More

Plataforma de big data com Hadoop 3, Hive 3 e Spark 2.4

Plataforma de big data com Hadoop 3, Hive 3 e Spark 2.4

O Apache Hadoop chegou na versão 3 trazendo novidades que eram esperadas há muito tempo. É claro que a instalação e configuração do ecossistema do Hadoop pode ser complicada, por isso, neste artigo vamos criar uma plataforma para análise de dados com Hadoop 3, Hive 3 e Spark 2.4. E não é necessário ter um grande datacenter, ou seja, é possível em máquinas mais simples como notebooks e desktops para estudo, provas de conceito ou demonstração. Na verdade, é possível…

Read More Read More

Arquitetura de Referência para Soluções de Big Data

Arquitetura de Referência para Soluções de Big Data

Este artigo apresenta uma arquitetura de referência para soluções de big data, detalhando os componentes e suas interações, sem levar em consideração as tecnologias utilizadas para implantação deste tipo de sistema. Assim, é possível criar novos sistemas de big data a partir das descrições apresentadas. Também para documentar ou explicar os conceitos envolvidos na área de big data, que é relativamente nova. A arquitetura de referência mostra uma visão conceitual, ou seja, de alto nível da estrutura necessária para implantar…

Read More Read More

Lista de datasets para download

Lista de datasets para download

Alguns datasets disponíveis para download que podem ser usados para estudar data science.   http://dados.gov.br/ https://www.data.gov/ http://open.canada.ca/en https://data.gov.uk/ https://www.healthdata.gov/ http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml http://snap.stanford.edu/data/sx-stackoverflow.html https://archive.org/web/ https://index.okfn.org/dataset/ http://snap.stanford.edu/data/ https://github.com/caesar0301/awesome-public-datasets https://www.kaggle.com/datasets http://archive.ics.uci.edu/ml/index.php http://www.gutenberg.org/ http://kevinchai.net/datasets https://archive.org/download/stackexchange (esse é bem bacana, vale a pena)  

Senha do MariaDB no Debian 9 Stretch

Senha do MariaDB no Debian 9 Stretch

Senha do MariaDB no Debian Stretch A nova versão estável do Debian, codinome Stretch, vem com o MariaDB como única variante do MySQL. A partir de junho de 2017, quando você instala o pacote mysql-server, na verdade vai ser instalado o MariaDB 10.1.23. Nenhum problema até aí. Mais ou menos. Na instalação padrão, não é mais possível acessar o terminal do MySQL (ou MariaDB) com o comando mysql -u root -p. A alternativa é executar como root, com o comando…

Read More Read More

Apresentação do SpatialHadoop no CLOSER 2017

Apresentação do SpatialHadoop no CLOSER 2017

Computação em Nuvem O CLOSER (International Conference on Cloud Computing and Services ScienConsiderando que as tarifas deste tipo de serviço podem ser altas, oce) é uma importante conferência na área de computação em nuvem e a sétima edição aconteceu em abril de 2017, na cidade de Porto, Portugal. O foco do evento é mostrar os avanços mais recentes sobre infraestrutura, operações e serviços disponíveis na Internet através da nuvem. Nosso artigo sobre SpatialHadoop foi aceito e fomos fazer a apresentação….

Read More Read More

Computação em nuvem (cloud computing)

Computação em nuvem (cloud computing)

Cloud computing, ou computação em nuvem, é uma tecnologia onde o processamento e armazenamento de informações digitais é feito em computadores remotos, interligados pela internet. O problema da computação local Tradicionalmente, o processamento e o armazenamento são feitos no seu próprio computador. Neste modelo, seus dados estavam fisicamente gravados no seu computador, ou seja, os dados estão gravados localmente. Caso seu computador (ou notebook) apresente algum defeito, é bem possível que esses dados sejam perdidos. E sim, os computadores falham…

Read More Read More