Prospeção e Análise de Dados (2017/2018) - Departamento de Informática
Introduction
Data Analytics
Dados: exemplos dedata analyticse suas perspectivas
Visualização de dados como ferramenta dedata analytics
Text Mining
Informação estruturada ou não-estruturada? Porquê fazerminingem textos?
Que problemas podem ser resolvidos?
Compreender os Dados
- Sumarização e visualização de dados unidimensionais
- Correlação e visualização de dados bidimensionais
- Verificação da estrutura dos dados
Pré-Processamento de Dados
- Tratamento de valores omissos
- Criação de atributos
- Normalização
Modelação Descritiva I
Análise de Componentes Principais (PCA)
- Sumarização versus Correlação
- Decomposição em valores singulares (SVD)
- PCA como SVD. Abordagem convencional de PCA’s.
Aplicações de PCA’s
Modelação Descritiva II
-
K‐means, Anomalous clusters, IntelligentK‐Means
- Clustering espectral
- Clustering relacional (se houver tempo)
Interpretação de Modelos Descritivos
- Abordagem conventional
- Avaliação da tendência de clustering
- Items de interpretação pelo método dos mínimos quadrados
Casos de Estudo de Data Analytics
Modulo II‐Text Mining
Extração de Informação Relevante
- Expressões relevantes: multi‐palavras e palavras isoladas
- Extratores estatísticos vs simbólicos. Algoritmos e métricas
- Independência relativamente à língua
Análise simbólica e análise estatística de textos
-
Tokenization,Stemminge etiquetagem morfológica (Part‐Of‐Speech Tagging)
- Distribuição das palavras nos textos em contexto de Big Data; lei de Zipf
- Métricas para associação de termos e para recuperação (Retrieval)
- Correlação entre documentos
- Desambiguação do significado de palavras (Word Sense Disambiguation)
Descritores de documentos
- Extração de palavras-chave (keywords) explícitas e implícitas, de forma independente da língua.
- Âmbito e extensão semânticas dos Documentos
- Sumarização de documentos
Classificação de documentos
- Expressões relevantes como atributos caraterizadores de documentos. Seleção e redução de atributos.
- Semelhança entre documentos
- Agrupamento (Clustering) supervisionado vs não-supervisionado de documentos.
- Predição e avaliação
Casos de estudo emText Mining(alguns exemplos)
- Extração deNamed Entities
- Filtragem eme-mail
- Identificação de línguas
- Extração eficiente de multi-palavras
- Deteção de polaridade
A frequência desta UC assume a aprovação às seguintes UC’s:
- Análise Matemática
- Álgebra Linear e Geometria Analítica
- Probabilidades e Estatística
- Inteligência Artificial
- Aprendizagem Automática