Text Mining

Text Mining se apresenta como a abordagem correta para construir a tão sonhada ponte entre as ciências chamadas hard, tais como as engenharias e a ciência da computação, e as ciências soft, tais como a sociologia e o marketing.

Text Mining surgiu da busca de uma solução para a sobrecarga de informações, ou seja, o fato de que passamos a ter acesso a um imenso volume de documentos e informações, mas percebemos que não temos condições de tratá-las ou de encontrar o realmente desejamos ou nos interessa.

O que é Text Mining?

Text Mining é um campo multidisciplinar que reúne técnicas de data mining, lingüística, aprendizado de máquina, recuperação de informação, reconhecimento de padrões, estatística, bancos de dados e visualização, para atingir o objetivo de, rapidamente, extrair informações de grandes bases de dados textuais.

Minha empresa precisa de Text Mining?

Data warehouses podem ser enormes e as empresas têm uma quantidade substancial de dados nestes repositórios estruturados. Entretanto, é na forma de textos não estruturados que estão armazenadas 80% ou mais das informações das empresas. Estas informações normalmente encontram-se dispersas em muitos computadores e, por isto, não há um único repositório para ser minerado, como no caso de Data Mining.

Além disso, a simples conversão de textos para dados numéricos com posterior aplicação de ferramentas de Data Mining não conduz a bons resultados, pois a representação numérica de documentos textuais está necessariamente baseada em probabilidades, devido à incerteza inerente à extração de significado de textos.

Portanto, mesmo que os algoritmos de Data Mining e Text Mining tenham origens comuns é preferível que sejam aplicadas ferramentas distintas para cada tipo de dados.

Onde Text Mining se aplica?

Text Mining é uma tecnologia que, por sua própria natureza, é conduzida pelas aplicações. Pode ser aplicada à solução dos mais diversos tipos de problemas nas áreas de Inteligência, CRM (Customer Relationship Management), Gestão do Conhecimento e outras.

As aplicações em Inteligência surgem devido ao crescimento da quantidade de documentos liberados pelas organizações e líderes políticos e corporativos (patentes, normas, artigos científicos, notícias, comentários, análises), contendo informações potencialmente estratégicas para a compreensão de idéias, sentimentos e estratégias das organizações e previsão de suas ações.

As aplicações CRM decorrem de uma demanda cada vez maior de responder com rapidez e qualidade as solicitações dos clientes, geralmente expressas em documentos textuais (principalmente emails).

As aplicações de Gestão do Conhecimento são originadas pela popularização da internet e pela sobrecarga de informações a que estamos submetidos. Organizar todas estas informações para permitir um fácil acesso tem sido um problema há décadas.

Algumas aplicações típicas de Text Mining

  • Setor de Inteligência Competitiva - investigação de alvos como consumidores, competidores, fornecedores e tecnologias.
  • Setor de Inteligência Governamental - estudos econômicos e de assuntos de interesses e segurança nacionais.
  • Gerenciamento de clientes - pesquisas de opinião, respostas a solicitações e encaminhadas em documentos textuais, manutenção de listas com as perguntas mais freqüentes de consumidores (FAQs).
  • Monitoramento de empresas do mesmo ramo em relação a investimentos, fusões, situação financeira, etc.
  • Análise de patentes - como tirar o melhor proveito da sua propriedade intelectual e evitar problemas relativos a propriedades intelectuais de outras empresas.
  • Coleta e organização de dados obtidos em reclamações dos consumidores e anotações de oficinas de reparos de veículos para encontrar modelos de automóveis com um tipo particular de defeito persistente.
  • Análise da eficiência financeira de hospitais com base nos custos e fatores de risco dos pacientes. Os dados de certos períodos podem ser categorizados separadamente para a pesquisa de tendências.
  • Pesquisas em bases textuais de grande porte tais como as encontradas nas áreas médica e jurídica, utilizando análises por similaridade ou relacionamentos.
  • Elaboração de taxonomias e aprimoramento de técnicas de busca na internet.
  • Monitoramento de opinião pública - analisar sentimentos expressos em bases textuais pode automaticamente revelar atitudes altamente positivas ou negativas em relação a algum tema. Durante campanhas eleitorais, candidatos políticos estão interessados em seguir de perto as tendências e detectar mudanças em pontos de vista tão precisamente quanto possível.
  • Pesquisa Acadêmica - a Academia é o maior produtor de informações - milhares de relatórios de pesquisas, livros e artigos são publicados anualmente. Uma parte destas informações é disponível on-line. As universidades que têm interesses comuns podem ser localizadas e podem ser identificadas relações entre departamentos através de referências explícitas ou por citações nas publicações.
  • Análise pessoal em questões de Segurança Nacional visando a compreender o comportamento das pessoas e as razões destes comportamentos.
  • Extração e análise de opiniões e sentimentos de emails, chats, fóruns, para conquistar, conservar e aumentar a rentabilidade de clientes.
  • Exame de balanços financeiros de empresas - identificar atributos e classificar as empresas com bases nos padrões e tendências identificadas nesses atributos.
  • Exploração de informações sobre medicamentos usados em tratamentos clínicos - número de ocorrências de termos, correlação entre ocorrências de medicamentos e doenças, associações entre efeitos colaterais e drogas, índice de sucesso e custo do medicamento, etc.

Que benefícios podem ser esperados da utilização de Text Mining?

Ferramentas de Text Mining são particularmente adequadas para automatizar, aperfeiçoar e transformar atividades de BI tradicionalmente realizadas por meio de trabalho intensivo de revisão manual da literatura industrial em busca de padrões contidos nas informações. Estas revisões utilizam tipicamente grandes quantidades de dados textuais relativos a empresas, executivos de empresas, produtos, transações financeiras e tendências da indústria. Os custos de tais pesquisas são elevados, pois demandam grande quantidade de profissionais altamente especializados, sejam da própria empresa, sejam de alguma consultoria contratada.

Portanto, podemos concluir que as ferramentas de Text Mining são cruciais para empresas que praticam BI.