Text Mining se apresenta como a abordagem correta para construir a tão sonhada ponte entre as ciências chamadas hard, tais como as engenharias e a ciência da computação, e as ciências soft, tais como a sociologia e o marketing.
Text Mining surgiu da busca de uma solução para a sobrecarga de informações, ou seja, o fato de que passamos a ter acesso a um imenso volume de documentos e informações, mas percebemos que não temos condições de tratá-las ou de encontrar o realmente desejamos ou nos interessa.
Text Mining é um campo multidisciplinar que reúne técnicas de data mining, lingüística, aprendizado de máquina, recuperação de informação, reconhecimento de padrões, estatística, bancos de dados e visualização, para atingir o objetivo de, rapidamente, extrair informações de grandes bases de dados textuais.
Data warehouses podem ser enormes e as empresas têm uma quantidade substancial de dados nestes repositórios estruturados. Entretanto, é na forma de textos não estruturados que estão armazenadas 80% ou mais das informações das empresas. Estas informações normalmente encontram-se dispersas em muitos computadores e, por isto, não há um único repositório para ser minerado, como no caso de Data Mining.
Além disso, a simples conversão de textos para dados numéricos com posterior aplicação de ferramentas de Data Mining não conduz a bons resultados, pois a representação numérica de documentos textuais está necessariamente baseada em probabilidades, devido à incerteza inerente à extração de significado de textos.
Portanto, mesmo que os algoritmos de Data Mining e Text Mining tenham origens comuns é preferível que sejam aplicadas ferramentas distintas para cada tipo de dados.
Text Mining é uma tecnologia que, por sua própria natureza, é conduzida pelas aplicações. Pode ser aplicada à solução dos mais diversos tipos de problemas nas áreas de Inteligência, CRM (Customer Relationship Management), Gestão do Conhecimento e outras.
As aplicações em Inteligência surgem devido ao crescimento da quantidade de documentos liberados pelas organizações e líderes políticos e corporativos (patentes, normas, artigos científicos, notícias, comentários, análises), contendo informações potencialmente estratégicas para a compreensão de idéias, sentimentos e estratégias das organizações e previsão de suas ações.
As aplicações CRM decorrem de uma demanda cada vez maior de responder com rapidez e qualidade as solicitações dos clientes, geralmente expressas em documentos textuais (principalmente emails).
As aplicações de Gestão do Conhecimento são originadas pela popularização da internet e pela sobrecarga de informações a que estamos submetidos. Organizar todas estas informações para permitir um fácil acesso tem sido um problema há décadas.
Ferramentas de Text Mining são particularmente adequadas para automatizar, aperfeiçoar e transformar atividades de BI tradicionalmente realizadas por meio de trabalho intensivo de revisão manual da literatura industrial em busca de padrões contidos nas informações. Estas revisões utilizam tipicamente grandes quantidades de dados textuais relativos a empresas, executivos de empresas, produtos, transações financeiras e tendências da indústria. Os custos de tais pesquisas são elevados, pois demandam grande quantidade de profissionais altamente especializados, sejam da própria empresa, sejam de alguma consultoria contratada.
Portanto, podemos concluir que as ferramentas de Text Mining são cruciais para empresas que praticam BI.