Previous Chapter

About the Authors

Index

A

accumulators, From Scikit-Learn to MLLib, Local fit, global evaluation
acyclic data flows, Distributing the Corpus
agglomerative clustering, Agglomerative clustering-Agglomerative clustering, Glossary
application programming interface (API), defined, Glossary

B

backoff, Unknown Words: Back-off and Smoothing-Unknown Words: Back-off and Smoothing
backpropagation, Artificial Neural Networks
bag-of-keyphrases, Predicting sentiment with a bag-of-keyphrases-Predicting sentiment with a bag-of-keyphrases
bag-of-words (BOW), Contextual Features
- defined, Text Vectorization and Transformation Pipelines, Glossary
- text vectorization with, Words in Space
Baleen ingestion engine, The Baleen Ingestion Engine
- defined, Glossary
- disk structure, The Baleen disk structure-The Baleen disk structure
ball tree algorithm, Being Neighborly
BaseEstimator interface (Scikit-Learn API), The BaseEstimator Interface
betweenness centrality, Centrality-Centrality, Centrality, Glossary
bias, defined, Glossary
bias–variance trade-off, Cross-Validation
bisecting k-means clustering, Text clustering with MLLib
blocking
- defined, Blocking with Structure
- fuzzy, Fuzzy Blocking-Fuzzy Blocking
- with structure, Blocking with Structure

C

canonicalization, Entity Resolution, Glossary
centrality, Centrality-Centrality, Glossary
chatbots, Language-Aware Data Products, Chatbots-Conclusion
- defined, Fundamentals of Conversation, Glossary
- dialogs, Dialog: A Brief Exchange-Dialog: A Brief Exchange
- Greeting, Greetings and Salutations-Greetings and Salutations
- handling miscommunication, Handling Miscommunication-Handling Miscommunication
- maintaining a conversation, Maintaining a Conversation-Maintaining a Conversation
- question detection, Question Detection-Question Detection
- recipe recommender system, Learning to Help-Offering Recommendations
- rules, Rules for Polite Conversation-Handling Miscommunication
classification
- defined, Glossary
classification error, diagnosing, Diagnosing Classification Error-Confusion matrices
- classification report heatmaps, Classification report heatmaps-Classification report heatmaps
- confusion matrix, Confusion matrices-Confusion matrices
classification heatmap, Classification report heatmaps-Classification report heatmaps, Glossary
classification report, Model Evaluation, Classification report heatmaps-Classification report heatmaps, Glossary
classifier models, Classifier Models
closeness centrality, Centrality, Centrality, Glossary
closure, Local fit, global evaluation
cluster computing, with Spark, Cluster Computing with Spark-Local fit, global evaluation
clustering
- agglomerative, Agglomerative clustering-Agglomerative clustering
- and model selection, Visualizing Clusters-Visualizing Clusters
- by document similarity, Clustering by Document Similarity-Agglomerative clustering
- defined, Glossary
- distance metrics, Distance Metrics-Distance Metrics
- efficient storage with JSON, Distributing the Corpus
- for text similarity, Clustering for Text Similarity-Agglomerative clustering
- hierarchical, Hierarchical Clustering-Agglomerative clustering
- partitive, Partitive Clustering-Handling uneven geometries
- text clustering with MLLib, Text clustering with MLLib-Text clustering with MLLib
- unsupervised learning on text, Unsupervised Learning on Text-Unsupervised Learning on Text
- visualizing, Visualizing Clusters-Visualizing Clusters
clustering coefficient, Structural analysis
co-occurrence plots, Co-occurrence plots-Co-occurrence plots
collocation, Significant Collocations
concurrency, parallelism vs., Python Multiprocessing
conditional frequencies, Frequency and Conditional Frequency-Frequency and Conditional Frequency
confidence score, Dialog: A Brief Exchange
confusion matrix
- defined, Glossary
- for classification error information, Confusion matrices-Confusion matrices
connectionist language model, Neural Language Models, Glossary
constituency parsing, Constituency Parsing
context-aware text analysis, Context-Aware Text Analysis-Conclusion
- grammar-based feature extraction, Grammar-Based Feature Extraction-Extracting Entities
- n-gram language models, n-Gram Language Models-Language Generation
context-free grammars, Context-Free Grammars
contextual features of language, Contextual Features-Contextual Features
continuous bag-of-words (CBOW), Distributed Representation, Glossary
conversation
- fundamentals, Fundamentals of Conversation-Maintaining a Conversation
- maintaining, Maintaining a Conversation-Maintaining a Conversation
- polite, Rules for Polite Conversation-Handling Miscommunication
convolutional neural networks (CNNs), Deep Learning Architectures
corpus (corpora)
- about, What Is a Corpus?
- annotated, What Is a Corpus?
- defined, Glossary
- disk structure, Corpus Disk Structure-The Baleen disk structure
- domain-specific, Domain-Specific Corpora
- unannotated, What Is a Corpus?
corpus monitoring, Corpus monitoring
corpus preprocessing and wrangling, Corpus Preprocessing and Wrangling-Conclusion
- breaking down documents, Breaking Down Documents
- deconstructing documents into paragraphs, What Is a Corpus?, Deconstructing Documents into Paragraphs-Deconstructing Documents into Paragraphs
- intermediate corpus analytics, Intermediate Corpus Analytics-Intermediate Corpus Analytics
- intermediate preprocessing and storage, Intermediate Preprocessing and Storage-Writing to pickle
- parallel preprocessing, Parallel Corpus Preprocessing-Parallel Corpus Preprocessing
- part-of-speech tagging, Part-of-Speech Tagging
- pickle method, Writing to pickle
- reading the processed corpus, Reading the Processed Corpus
- segmentation, Segmentation: Breaking Out Sentences
- tokenization, Tokenization: Identifying Individual Tokens
- transformation, Corpus Transformation-Reading the Processed Corpus
corpus readers, Corpus Readers-Reading a Corpus from a Database
- annotated, Streaming Data Access with NLTK
- defined, Corpus Readers, Glossary
- n-gram-aware, An n-Gram-Aware CorpusReader-An n-Gram-Aware CorpusReader
- reading a corpus from a database, Reading a Corpus from a Database
- reading an HTML corpus, Reading an HTML Corpus-Corpus monitoring
- reading the processed corpus, Reading the Processed Corpus
- streaming data access with NLTK, Streaming Data Access with NLTK-Streaming Data Access with NLTK
corpus transformation, Corpus Transformation-Reading the Processed Corpus
- intermediate preprocessing and storage, Intermediate Preprocessing and Storage-Writing to pickle
- pickle method, Writing to pickle
- reading the processed corpus, Reading the Processed Corpus
cosine distance, Distance Metrics
cross-validation
- defined, Glossary
- streaming access to k splits, Streaming access to k splits
- text classification, Cross-Validation-Streaming access to k splits
custom corpora, building, Building a Custom Corpus-Conclusion
- about corpora, What Is a Corpus?
- Baleen ingestion engine, The Baleen Ingestion Engine
- corpus readers, Corpus Readers-Reading a Corpus from a Database
- data management, Corpus Data Management-The Baleen disk structure
- domain-specific corpora, Domain-Specific Corpora

D

data management
- Baleen disk structure, The Baleen disk structure-The Baleen disk structure
- corpus disk structure, Corpus Disk Structure-The Baleen disk structure
- for building custom corpora, Corpus Data Management-The Baleen disk structure
data parallelism, Scaling Text Analytics with Multiprocessing and Spark, Process Pools and Queues
data products
- defined, Language-Aware Data Products, Glossary
- language-aware, Language-Aware Data Products-The model selection triple
- model selection triple workflow, The model selection triple
- pipeline for, The Data Product Pipeline-The model selection triple
data science, The Data Science Paradigm-The Data Science Paradigm
data, language as, Language as Data-Structural Features
database, reading a corpus from, Reading a Corpus from a Database
deduplication, Glossary
deep learning
- architectural frameworks, Deep Learning Architectures-Keras: An API for deep learning
- defined, Glossary
- Keras API, Keras: An API for deep learning-Keras: An API for deep learning
- TensorFlow framework, TensorFlow: A framework for deep learning
deep structure analysis, Deep Structure Analysis-Predicting sentiment with a bag-of-keyphrases
degree, Analyzing Graph Structure, Glossary
degree centrality, Centrality-Centrality, Glossary
dendrogram plot, Hierarchical Clustering
dependency parsers, Dependency Parsing-Dependency Parsing
dialog, Dialog: A Brief Exchange-Dialog: A Brief Exchange
dialog system, Fundamentals of Conversation, Glossary
diameter (graph), Analyzing Graph Structure, Glossary
directed acyclic graphs (DAGs), Process Pools and Queues
- pipelines as, Pipelines
- Spark jobs as, Distributing the Corpus
discourse, defined, Glossary
disk structure
- Baleen, The Baleen disk structure-The Baleen disk structure
- corpus, Corpus Disk Structure-The Baleen disk structure
dispersion plots, Text x-rays and dispersion plots-Text x-rays and dispersion plots
distance metrics, Distance Metrics-Distance Metrics
distributed computation, Cluster Computing with Spark
distributed data storage, Cluster Computing with Spark
distributed representation
- defined, Glossary
- text vectorization with, Distributed Representation-The Gensim way
- with Gensim, The Gensim way
divisive clustering, Hierarchical Clustering, Glossary
doc2vec algorithm, Distributed Representation, Glossary
documents
- breaking down, Breaking Down Documents
- clustering by similarity, Clustering by Document Similarity-Agglomerative clustering
- deconstructing into paragraphs, What Is a Corpus?, Deconstructing Documents into Paragraphs-Deconstructing Documents into Paragraphs
- defined, Glossary
- identifying/extracting core content, Identifying and Extracting Core Content
domain-specific corpora, Domain-Specific Corpora
dropout layer, Predicting sentiment with a bag-of-keyphrases, Glossary

E

edge, defined, Graph Computation and Analysis, Glossary
edit distance, Distance Metrics
eigenvector centrality, Centrality, Glossary
elbow curves, Elbow curves, Glossary
entities
- defined, Glossary
- extraction, Extracting Entities
entity pairs, finding, Finding entity pairs
entity resolution (ER), Entity Resolution-Fuzzy Blocking
- blocking with structure, Blocking with Structure
- defined, Entity Resolution, Glossary
- fuzzy blocking, Fuzzy Blocking-Fuzzy Blocking
- on a graph, Entity Resolution on a Graph
entropy, A Computational Model of Language, Glossary
estimator, The BaseEstimator Interface, Glossary
Euclidean distance, Distance Metrics

F

F1 score, Model Evaluation-Model Evaluation, Glossary
feature analysis
- defined, Building a Custom Corpus
feature extraction, Glossary
- (see also text vectorization)
- and feature unions, Enriching Feature Extraction with Feature Unions-Enriching Feature Extraction with Feature Unions
- for NLP, Feature extraction-Feature extraction
- grammar-based, Grammar-Based Feature Extraction-Extracting Entities
- n-gram-based, n-Gram Feature Extraction-Significant Collocations
feature space visualization, Visualizing Feature Space-Most informative features
- guided feature engineering, Guided Feature Engineering-Most informative features
- visual feature analysis, Visual Feature Analysis-Text x-rays and dispersion plots
feature unions, Enriching Feature Extraction with Feature Unions-Enriching Feature Extraction with Feature Unions, Glossary
features
- defined, Text Vectorization and Transformation Pipelines, Glossary
- identifying most informative, Most informative features-Most informative features
- linguistic, Language Features-Language Features
feedforward network, Artificial Neural Networks
forking, Python Multiprocessing
frequency distribution, Glossary
frequency vectors, Frequency Vectors-The Gensim way
- Gensim and, The Gensim way
- in Scikit-Learn, In Scikit-Learn
- with NLTK, With NLTK
frequency, in n-gram modeling, Frequency and Conditional Frequency-Frequency and Conditional Frequency
fuzzy blocking, Fuzzy Blocking-Fuzzy Blocking

G

generalizable model, Cross-Validation, Glossary
Gensim
- about, Tools for Text Analysis
- distributed representation implementation, The Gensim way
- frequency vector encoding, The Gensim way
- LDA in, The Gensim way-The Gensim way
- LSA with, The Gensim way
- one-hot encoding with, The Gensim way
- TF–IDF text vectorization with, The Gensim way
GensimVectorizer transformer, Creating a custom Gensim vectorization transformer
grammar, defined, Glossary
grammar-based feature extraction, Grammar-Based Feature Extraction-Extracting Entities
- context-free grammars, Context-Free Grammars
- entity extraction, Extracting Entities
- keyphrase extraction, Extracting Keyphrases
- n-gram feature extraction, n-Gram Feature Extraction-Significant Collocations
- syntactic parsers, Syntactic Parsers
graph analysis of text, Graph Analysis of Text-Conclusion
- analyzing graph structure, Analyzing Graph Structure
- creating a graph-based thesaurus, Creating a Graph-Based Thesaurus
- creating a social graph, Creating a Social Graph-Implementing the graph extraction
- defined, Glossary
- entity resolution, Entity Resolution-Fuzzy Blocking
- extracting graphs from text, Extracting Graphs from Text-Structural analysis
- graph computation/analysis, Graph Computation and Analysis
- insights from social graph, Insights from the Social Graph-Structural analysis
- visual analysis of graphs, Visual Analysis of Graphs
- workflow, Extracting Graphs from Text
graph, defined, Glossary
Graph-tool, Graph Analysis of Text
GraphExtractor class, Implementing the graph extraction
GridSearch, Grid Search for Hyperparameter Optimization
guided feature engineering, Guided Feature Engineering-Most informative features
- most informative features, Most informative features-Most informative features
- part-of-speech tagging, Part-of-speech tagging-Part-of-speech tagging

H

hairball effect, Structural analysis
hapax/hapax legomena, Creating a custom text normalization transformer, Glossary
heatmaps, Classification report heatmaps-Classification report heatmaps
hidden layer, Artificial Neural Networks, Training a multilayer perceptron, Glossary
hierarchical clustering, Hierarchical Clustering-Agglomerative clustering
- and agglomerative clustering, Agglomerative clustering-Agglomerative clustering
- defined, Glossary
HTML corpora
- and Baleen disk structure, The Baleen disk structure-The Baleen disk structure
- corpus monitoring, Corpus monitoring
- reading, Reading an HTML Corpus-Corpus monitoring
hyperparameters
- defined, Glossary
- optimization with GridSearch, Grid Search for Hyperparameter Optimization
- visual steering, Visual Steering-Elbow curves

I

ingestion
- Baleen ingestion engine, The Baleen Ingestion Engine
- defined, Glossary
- RSS and, The Baleen Ingestion Engine
instances, defined, Text Vectorization and Transformation Pipelines, Glossary

J

Jaccard distance, Distance Metrics
joining, Python Multiprocessing
JSON, storage with, Distributing the Corpus

K

k splits, streaming access to, Streaming access to k splits
k-fold cross-validation, Cross-Validation, Glossary
k-means clustering, k-means clustering-Handling uneven geometries
- about, k-means clustering-k-means clustering
- handling uneven geometries, Handling uneven geometries
- optimizing, Optimizing k-means
Keras API, Keras: An API for deep learning-Keras: An API for deep learning
keyphrases, extracting, Extracting Keyphrases
kitchen measurement conversion system, From Tablespoons to Grams-From Tablespoons to Grams
Kneser–Ney smoothing, Unknown Words: Back-off and Smoothing-Unknown Words: Back-off and Smoothing

L

language
- computational models, A Computational Model of Language
- connectionist models, Neural Language Models, Glossary
- contextual features, Contextual Features-Contextual Features
- features, Language Features-Language Features
- neural models, Neural Language Models-Keras: An API for deep learning
language model, defined, Glossary
language-aware data products, Language-Aware Data Products-The model selection triple
- model selection triple workflow, The model selection triple
- pipeline for, The Data Product Pipeline-The model selection triple
latent Dirichlet allocation (LDA), Latent Dirichlet Allocation-Visualizing topics
- defined, Glossary
- Gensim implementation, The Gensim way-The Gensim way
- in Scikit-Learn, In Scikit-Learn-In Scikit-Learn
- LSA vs., Latent Semantic Analysis
- visualizing topics, Visualizing topics
latent semantic analysis (LSA), Latent Semantic Analysis-The Gensim way
- defined, Glossary
- with Gensim, The Gensim way
- with Scikit-Learn, In Scikit-Learn
lemmatization, Creating a custom text normalization transformer
lexical units, What Is a Corpus?
lexicon, Glossary
linguistic features, Language Features-Language Features
link, Glossary
logging, Running Tasks in Parallel
long short-term memory (LSTM) networks, Deep Learning Architectures, Predicting sentiment with a bag-of-keyphrases
long tail distribution
- defined, Glossary
- frequency-based encoding and, One-Hot Encoding

M

machine learning
- defined, Glossary
- goal of, Enter Machine Learning
Mahalanobis distance, Distance Metrics
Manhattan distance, Distance Metrics
MapReduce, Process Pools and Queues
Minkowski distance, Distance Metrics
MLLib
- NLP and, From Scikit-Learn to MLLib-From Scikit-Learn to MLLib
- text classification with, Text classification with MLLib-Text classification with MLLib
- text clustering with, Text clustering with MLLib-Text clustering with MLLib
model diagnostics
- class visualization, Visualizing Classes
- cluster visualization, Visualizing Clusters-Visualizing Classes
- diagnosing classification error, Diagnosing Classification Error-Confusion matrices
- text visualization, Model Diagnostics-Confusion matrices
model operationalization, Model Operationalization
model selection triple workflow, The model selection triple, Glossary
morphology, Structural Features, Glossary
multilayer perceptron, Training a multilayer perceptron-Training a multilayer perceptron
multiprocessing
- defined, Glossary
- parallel corpus preprocessing, Parallel Corpus Preprocessing-Parallel Corpus Preprocessing
- process pools and queues, Process Pools and Queues-Process Pools and Queues
- Python, Python Multiprocessing-Parallel Corpus Preprocessing
- running tasks in parallel, Running Tasks in Parallel-Running Tasks in Parallel

N

n gram, defined, Glossary
n-gram analysis, Contextual Features
n-gram feature extraction, n-Gram Feature Extraction-Significant Collocations
- choosing the right n-gram window, Choosing the Right n-Gram Window
- n-gram-aware corpus reader, An n-Gram-Aware CorpusReader-An n-Gram-Aware CorpusReader
- significant collocations, Significant Collocations
n-gram language models, n-Gram Language Models-Language Generation
- backoff and smoothing, Unknown Words: Back-off and Smoothing-Language Generation
- frequency/conditional frequency, Frequency and Conditional Frequency-Frequency and Conditional Frequency
- language generation, Language Generation
- maximum likelihood estimation, Estimating Maximum Likelihood-Estimating Maximum Likelihood
n-gram viewer, n-gram viewer
Naive Bayes, Classifier Models
natural language
- and computation, Language and Computation-Conclusion
- computational challenges of, Computational Challenges of Natural Language-Enter Machine Learning
- data science paradigm, The Data Science Paradigm-The Data Science Paradigm
- language as data, Language as Data-Structural Features
- language-aware data products, Language-Aware Data Products-The model selection triple
- tokens vs. words, Linguistic Data: Tokens and Words
natural language processing (NLP)
- defined, Glossary
- feature extraction for, Feature extraction-Feature extraction
- Spark MLLib and, From Scikit-Learn to MLLib-From Scikit-Learn to MLLib
- Spark operations, NLP with Spark-Local fit, global evaluation
- speeding up, Local fit, global evaluation-Local fit, global evaluation
- text classification with MLLib, Text classification with MLLib-Text classification with MLLib
- text clustering with MLLib, Text clustering with MLLib-Text clustering with MLLib
natural language tool kit (NLTK)
- about, Tools for Text Analysis
- frequency vectors with, With NLTK
- one-hot encoding with, With NLTK
- streaming data access with, Streaming Data Access with NLTK-Streaming Data Access with NLTK
- TF–IDF text vectorization with, With NLTK
natural language understanding, Glossary
neighborhood (graphs), Analyzing Graph Structure, Glossary
network visualization, Network visualization-Network visualization
network, defined, Glossary
NetworkX, Tools for Text Analysis, Graph Analysis of Text
neural language models, Neural Language Models-Keras: An API for deep learning
neural networks, Deep Learning and Beyond-The Future Is (Almost) Here
- components, Artificial Neural Networks-Training a multilayer perceptron
- deep learning architectures, Deep Learning Architectures-Keras: An API for deep learning
- defined, Glossary
- neural language models, Neural Language Models-Keras: An API for deep learning
- sentiment analysis, Sentiment Analysis-Predicting sentiment with a bag-of-keyphrases
- training a multilayer perceptron, Training a multilayer perceptron-Training a multilayer perceptron
nodes, Graph Computation and Analysis, Glossary
non-negative matrix factorization (NNMF), Non-Negative Matrix Factorization

O

one-hot encoding
- defined, Glossary
- text vectorization with, One-Hot Encoding-The Gensim way
- with Gensim, The Gensim way
- with NLTK, With NLTK
- with Scikit-Learn, In Scikit-Learn
ontology, Structural Features, Glossary
operationalization of text classification model, Model Operationalization
order, Analyzing Graph Structure, Glossary
overfitting, Cross-Validation, Glossary

P

paragraph vector
- defined, Glossary
- doc2vec and, Distributed Representation
paragraphs, deconstructing documents into, What Is a Corpus?, Deconstructing Documents into Paragraphs-Deconstructing Documents into Paragraphs
parallelism, Glossary
- (see also scaling text analytics)
- corpus preprocessing, Parallel Corpus Preprocessing-Parallel Corpus Preprocessing
- primary forms of, Scaling Text Analytics with Multiprocessing and Spark
parameters, defined, From Scikit-Learn to MLLib
parsing, defined, Glossary
part-of-speech tagging, Part-of-Speech Tagging, Part-of-speech tagging-Part-of-speech tagging, Glossary
partitive clustering, Partitive Clustering-Handling uneven geometries
- defined, Glossary
- k-means clustering, k-means clustering-Handling uneven geometries
perceptron, multilayer, Training a multilayer perceptron-Training a multilayer perceptron
perplexity, A Computational Model of Language, Estimating Maximum Likelihood, Glossary
pickle
- corpus transformation with, Writing to pickle
- model operationalization with, Model Operationalization
pipelines, Pipelines-Enriching Feature Extraction with Feature Unions
- and feature unions, Enriching Feature Extraction with Feature Unions-Enriching Feature Extraction with Feature Unions
- basics, Pipeline Basics
- defined, Glossary
- GridSearch extension, Grid Search for Hyperparameter Optimization
precision, defined, Model Evaluation, Glossary
principal component analysis (PCA), Creating a custom text normalization transformer, Glossary
process pools, Process Pools and Queues-Process Pools and Queues
property graph model, Property graphs, Glossary

Q

questions, chatbots and, Entertaining Questions-From Tablespoons to Grams
- constituency parsing, Constituency Parsing
- dependency parsing, Dependency Parsing-Dependency Parsing
- question detection, Question Detection-Question Detection
queues, Process Pools and Queues-Process Pools and Queues

R

recall, Model Evaluation, Glossary
recipe recommender chatbot system, Learning to Help-Offering Recommendations
- adding speed to, Being Neighborly-Being Neighborly
- domain-specific corpus for, Learning to Help
- implementing recipe recommendations, Offering Recommendations-Offering Recommendations
record linkage, Glossary
recurrent neural nets (RNNs), Deep Learning Architectures
recursive neural tensor network, Deep Structure Analysis
regression, Glossary
relational database management systems, Corpus Data Management
resilient distributed datasets (RDDs), Distributing the Corpus-Distributing the Corpus
RSS
- defined, Glossary
- text ingestion via, The Baleen Ingestion Engine

S

scale-free networks, Structural analysis
scaling text analytics, Scaling Text Analytics with Multiprocessing and Spark-Conclusion
- cluster computing with Spark, Cluster Computing with Spark-Local fit, global evaluation
- Python multiprocessing, Python Multiprocessing-Parallel Corpus Preprocessing
Scikit-Learn
- about, Tools for Text Analysis
- frequency vectors in, In Scikit-Learn
- LDA with, In Scikit-Learn-In Scikit-Learn
- LSA with, In Scikit-Learn
- NNMF with, In Scikit-Learn
- one-hot encoding with, In Scikit-Learn
- Pipeline object, Pipelines-Enriching Feature Extraction with Feature Unions
- TF–IDF text vectorization with, In Scikit-Learn
Scikit-Learn API, The Scikit-Learn API-Creating a custom text normalization transformer, Extending TransformerMixin-Creating a custom text normalization transformer
- BaseEstimator interface, The BaseEstimator Interface
- creating a custom Gensim vectorization transformer, Creating a custom Gensim vectorization transformer
- creating a custom text normalization transformer, Creating a custom text normalization transformer-Creating a custom text normalization transformer
- extending TransformerMixin, Extending TransformerMixin-Creating a custom text normalization transformer
scraping, defined, Glossary
segmentation, Segmentation: Breaking Out Sentences, Glossary
semantic analysis, Structural Features
semantics, Structural Features, Glossary
semi-structured data, Language as Data
sentence boundaries, defined, Glossary
sentences, What Is a Corpus?, Segmentation: Breaking Out Sentences
sentiment analysis, Contextual Features
- bag-of-keyphrases approach to, Predicting sentiment with a bag-of-keyphrases-Predicting sentiment with a bag-of-keyphrases
- deep structure analysis, Deep Structure Analysis-Predicting sentiment with a bag-of-keyphrases
- defined, Identifying Classification Problems, Glossary
- neural networks and, Sentiment Analysis-Predicting sentiment with a bag-of-keyphrases
separability, Cross-Validation
Shannon–Weaver model, Fundamentals of Conversation
shortest path, defined, Glossary
significant collocations, Significant Collocations
silhouette coefficient, Silhouette scores, Glossary
silhouette score, Glossary
singular value decomposition (SVD)
- defined, Glossary
- LSA and, Latent Semantic Analysis
size (graphs), Analyzing Graph Structure, Glossary
small world phenomenon, Structural analysis
smoothing, Unknown Words: Back-off and Smoothing-Unknown Words: Back-off and Smoothing
social graphs
- centrality, Centrality-Centrality
- creating, Creating a Social Graph-Implementing the graph extraction
- finding entity pairs, Finding entity pairs
- implementing graph extraction, Implementing the graph extraction
- insights from, Insights from the Social Graph-Structural analysis
- property graph model, Property graphs
- structural analysis, Structural analysis-Structural analysis
spaCy, Tools for Text Analysis
Spark
- about, Anatomy of a Spark Job
- client mode vs. cluster mode, Anatomy of a Spark Job
- cluster computing with, Cluster Computing with Spark-Local fit, global evaluation
- distributing corpus, Distributing the Corpus-RDD Operations
- feature extraction for NLP, Feature extraction-Feature extraction
- MLLib, From Scikit-Learn to MLLib-From Scikit-Learn to MLLib
- NLP with, NLP with Spark-Local fit, global evaluation
- RDD operations, RDD Operations-RDD Operations
- speeding up NLP with, Local fit, global evaluation-Local fit, global evaluation
- text classification with MLLib, Text classification with MLLib-Text classification with MLLib
- text clustering with MLLib, Text clustering with MLLib-Text clustering with MLLib
spawning, Python Multiprocessing
speech data, Language-Aware Data Products
- (see also chatbots)
Sqlite database, reading a corpus from, Reading a Corpus from a Database
steering, Visual Steering-Elbow curves, Glossary
- (see also visual steering)
stemming, Creating a custom text normalization transformer
stopwords
- defined, Glossary
- TF-IDF and, The Gensim way
structural analysis, Structural analysis-Structural analysis
structured data, Language as Data
supervised learning, classification as, Text Classification
support, in classification model evaluation, Model Evaluation
symbolic language model, Glossary
synsets, Creating a Graph-Based Thesaurus, Glossary
syntactic analysis, Structural Features
syntactic parsers, Syntactic Parsers
syntax, Structural Features, Glossary

T

t-distributed stochastic neighbor embedding (t-SNE)
- cluster visualization with, Visualizing Clusters-Visualizing Clusters
- defined, Glossary
tagging, part-of-speech, Part-of-Speech Tagging, Part-of-speech tagging-Part-of-speech tagging
task parallelism, Scaling Text Analytics with Multiprocessing and Spark
TensorFlow, TensorFlow: A framework for deep learning
term frequency-inverse document frequency (TF–IDF)
- computing, Term Frequency–Inverse Document Frequency
- defined, Glossary
- Gensim text vectorization, The Gensim way
- NLTK text vectorization, With NLTK
- Scikit-Learn text vectorization, In Scikit-Learn
- text vectorization, Term Frequency–Inverse Document Frequency-The Gensim way
text analysis
- tools for, Tools for Text Analysis
text classification, Classification for Text Analysis-Conclusion
- about, Text Classification-Classifier Models
- building a text classification application, Building a Text Classification Application-Model Operationalization
- building an application for, Building a Text Classification Application-Model Operationalization
- classifier models, Classifier Models
- cross-validation, Cross-Validation-Streaming access to k splits
- identifying classification problems, Identifying Classification Problems-Identifying Classification Problems
- model construction, Model Construction-Model Construction
- model evaluation, Model Evaluation-Model Evaluation
- model operationalization, Model Operationalization
- visualizing classes, Visualizing Classes
- with MLLib, Text classification with MLLib-Text classification with MLLib
text meaning representations (TMRs), Graph Analysis of Text
text normalization transformer, Creating a custom text normalization transformer-Creating a custom text normalization transformer
text vectorization, Text Vectorization and Transformation Pipelines-The Gensim way
- distributed representation, Distributed Representation-The Gensim way
- frequency vectors, Frequency Vectors-The Gensim way
- one-hot encoding, One-Hot Encoding-The Gensim way
- TF–IDF, Term Frequency–Inverse Document Frequency-The Gensim way
- with BOW, Words in Space
text visualization, Text Visualization-Conclusion
- feature space visualization, Visualizing Feature Space-Most informative features
- model diagnostics, Model Diagnostics-Confusion matrices
- visual steering, Visual Steering-Elbow curves
TF–IDF distance, Distance Metrics
thematic meaning representations (TMRs), Structural Features
thesaurus, graph-based, Creating a Graph-Based Thesaurus
thread, Python Multiprocessing
tokenization, Tokenization: Identifying Individual Tokens, Glossary
tokens
- defined, Glossary
- language models and, A Computational Model of Language
- part-of-speech tagging, Part-of-Speech Tagging
- words vs., Linguistic Data: Tokens and Words
topic modeling, Modeling Document Topics-In Scikit-Learn
- defined, Glossary
- latent semantic analysis (LSA), Latent Semantic Analysis-The Gensim way
- non-negative matrix factorization (NNMF), Non-Negative Matrix Factorization
- with latent Dirichlet allocation (LDA), Latent Dirichlet Allocation-Visualizing topics
training and test splits, Glossary
transformations
- creating a custom Gensim vectorization transformer, Creating a custom Gensim vectorization transformer
- creating a custom text normalization transformer, Creating a custom text normalization transformer-Creating a custom text normalization transformer
- defined, RDD Operations
- pipelines and, Pipelines-Enriching Feature Extraction with Feature Unions
- Scikit-Learn API, The Scikit-Learn API-Creating a custom text normalization transformer
transformer, defined, Extending TransformerMixin, Glossary
transitivity, Structural analysis, Glossary
traversal, defined, Glossary
tweets, Corpus Disk Structure

U

underfitting, Cross-Validation, Glossary
unstructured data, language as, Language as Data
unsupervised learning
- defined, Glossary
- for exploratory text analysis, Unsupervised Learning on Text-Unsupervised Learning on Text
utterance
- defined, Glossary
- semantics and, Structural Features

V

variance
- bias-variance trade-off, Cross-Validation
- defined, Glossary
vectorization, Glossary
- (see also text vectorization)
visual feature analysis, Visual Feature Analysis-Text x-rays and dispersion plots
- co-occurrence plots, Co-occurrence plots-Co-occurrence plots
- n-gram viewer, n-gram viewer
- network visualization, Network visualization-Network visualization
- text x-rays and dispersion plots, Text x-rays and dispersion plots-Text x-rays and dispersion plots
visual steering, Visual Steering-Elbow curves
- elbow curves, Elbow curves
- silhouette scores, Silhouette scores
visualization
- defined, Text Visualization
- network, Network visualization-Network visualization
- of class, Visualizing Classes
- of cluster, Visualizing Clusters-Visualizing Clusters
- of feature space, Visualizing Feature Space-Most informative features
visualizer, defined, Glossary

W

word sense, Contextual Features, Glossary
word2vec algorithm, Distributed Representation, Glossary
words, tokens vs., Linguistic Data: Tokens and Words
write-once, read-may (WORM) storage, Corpus Data Management, Glossary

Y

Yellowbrick, Most informative features-Most informative features
- about, Tools for Text Analysis
- FreqDistVisualizer, Most informative features
- loading datasets, Most informative features
- PosTagVisualizer, Part-of-speech tagging
- TSNEVisualizer, Visualizing Clusters

Z

Zipfian (long tail) distribution
- defined, Glossary
- frequency-based encoding and, One-Hot Encoding

Previous Chapter

About the Authors