Browsed by
Categoria: Tecnologia

Text Extraction and OCR With Apache Tika

Text Extraction and OCR With Apache Tika

Apache Tika is a library for extracting text from most file formats, including PDF, DOC, and PPT. Tika has a simplified interface that extracts the content, making it easy to operate the library. Its main uses are related to the indexing process in search engines, content analysis (journalism, for example), and even translation (using paid APIs).

Extração de texto com Tika Server

Extração de texto com Tika Server

O Apache Tika é uma biblioteca para extração de texto da maioria dos formatos de arquivo, incluindo PDF, DOC e PPT. O Tika tem uma interface simplificada faz a extração do conteúdo, tornando-a uma biblioteca fácil de operar. Seus principais usos estão ligados ao processo de indexação em mecanismos de busca, análise de conteúdo (jornalismo, por exemplo) e até mesmo tradução (usando APIs pagas).

What is digital transformation

What is digital transformation

Digital transformation is the process of incorporating new technologies into the business area of the company, changing the operation and product delivery to the clients. It includes, of course, the adoption of digital tools and, more than that, the rational use of them. Using technology must bring advantages; otherwise, it does not make sense. So, in this article, we will see definitions and examples of how digital transformation helps companies to gain market share. We can say in advance that…

Read More Read More

Cassandra Bulk Loading (sstableloader)

Cassandra Bulk Loading (sstableloader)

Introdução A bulk loading, ou bulk insert, é o processo no qual uma grande quantidade de registros é inserida em um banco de dados em curto período de tempo. Um exemplo desta funcionalidade é o Cassandra Bulk Loader, também chamado de sstableloader. Para ilustrar o funcionamento do Cassandra Bulk Loader vamos inserir um grande dataset com milhões de registros em aproximadamente 5 minutos e usando hardware de baixo custo. Neste sentido, a inserção individual de registros, apesar de otimizada, não…

Read More Read More

Plataforma de big data com Hadoop 3, Hive 3 e Spark 2.4

Plataforma de big data com Hadoop 3, Hive 3 e Spark 2.4

O Apache Hadoop chegou na versão 3 trazendo novidades que eram esperadas há muito tempo. É claro que a instalação e configuração do ecossistema do Hadoop pode ser complicada, por isso, neste artigo vamos criar uma plataforma para análise de dados com Hadoop 3, Hive 3 e Spark 2.4. E não é necessário ter um grande datacenter, ou seja, é possível em máquinas mais simples como notebooks e desktops para estudo, provas de conceito ou demonstração. Na verdade, é possível…

Read More Read More

Senha do MariaDB no Debian 9 Stretch

Senha do MariaDB no Debian 9 Stretch

Senha do MariaDB no Debian Stretch A nova versão estável do Debian, codinome Stretch, vem com o MariaDB como única variante do MySQL. A partir de junho de 2017, quando você instala o pacote mysql-server, na verdade vai ser instalado o MariaDB 10.1.23. Nenhum problema até aí. Mais ou menos. Na instalação padrão, não é mais possível acessar o terminal do MySQL (ou MariaDB) com o comando mysql -u root -p. A alternativa é executar como root, com o comando…

Read More Read More

Problema no wifi do Lumia 520

Problema no wifi do Lumia 520

O Lumia 520 é o smartphone de entrada da Nokia e tem sido um grande sucesso de venda. Comprei o meu na blackfriday pela internet e esperei ansiosamente pela chegada. O problema é que quando chegou não consegui acessar a internet pelo wifi, problema que outros usuários também tiveram. Se estiver tendo problemas para acessar o wifi, mesmo configurando todos os parâmetros corretamente, provavelmente o procedimento abaixo irá resolver a questão. E um smartphone não serve de nada sem internet….

Read More Read More

Lista de podcasts

Lista de podcasts

Back to Work Braincast Connected Social Media Engadget en Español English as a Second Language Mobilidade Visão Histórica IBM developerWorks In Beta iTech Hoje Jurassicast MRG Melhores do Mundo Monalisa de Pijamas Nerdcast Papo de Gordo Papotech Paranerdia Pauta Livre News Radiofobia Rapaduracast Six Pixels of Separation Social Media Marketing Podcast Tecnoblog Ted Talks Tecnologia Toscochanchada Vladmir Campos weRgeeks 99 Vidas

O que é visualização de dados

O que é visualização de dados

Visualização de dados A visualização de dados (data visualization) é uma área da computação que estuda maneiras de representar dados visualmente. Mais que isso, uma interface visual atraente pode estimular a atenção e imaginação da audiência. A idéia é comunicar os principais pontos de um conjunto complexo de dados de uma forma simples para o usuário. É mais fácil para o ser humano identificar padrões em elementos visuais. Com os dados organizados visualmente podemos identificar informações ocultas, tendências, anomalias e…

Read More Read More

Monitorando a temperatura no Macbook

Monitorando a temperatura no Macbook

A temperatura no Macbook pode aumentar com o uso, principalmente quando há um processamento mais pesado. O meu chegou Macbooke chega a 103 graus e permanece assim enquanto faço processamento pesado, em geral, rotinas em Java para análise de texto com arquivos grandes. Tenho uma boa experiência com produtos da Apple. Desde 2007 trabalho diariamente com Macbook, iPhone, iPod Touch e agora minha preferida: Apple TV. Para monitorar a temperatura no Macbook você pode usar o iStat Pro, que mostra…

Read More Read More