Previous Chapter

18. The Legalities and Ethics of Web Scraping

About the Author

Index

A

acknowledgments, Acknowledgments
action chains, Interacting with the Site
ActionScript, Scraping JavaScript
addresses, Google Maps, A Brief Introduction to APIs
Ajax (Asynchronous JavaScript and XML)
- dealing with, Ajax and Dynamic HTML
- purpose of, Ajax and Dynamic HTML
allow-redirects flag, Collecting Data Across an Entire Site
Anaconda package manager, Installing Scrapy
anonymizing traffic, Tor
APIs (application programming interfaces)
- benefits and drawbacks of, Why Web Scraping?, Undocumented APIs
- combining with other data sources, Combining APIs with Other Data Sources-Combining APIs with Other Data Sources
- HTTP methods and, HTTP Methods and APIs
- overview of, A Brief Introduction to APIs
- parsing JSON, Parsing JSON
- resources for learning more, More About APIs
- undocumented APIs, Undocumented APIs-Finding and Documenting APIs Automatically
- well-formatted responses from, More About API Responses
ASCII, A history of text encoding
AttributeError, Connecting Reliably and Handling Exceptions
attributes argument, find() and find_all() with BeautifulSoup
attributes, accessing, Accessing Attributes
attributions, Using Code Examples
authentication
- HTTP basic access authentication, HTTP Basic Access Authentication
- using cookies, Handling Logins and Cookies, Handling Cookies with JavaScript

B

background gradient, Processing Well-Formatted Text
bandwidth considerations, Writing Web Crawlers-Traversing a Single Domain
BeautifulSoup library
- BeautifulSoup objects in, Running BeautifulSoup, Other BeautifulSoup Objects
- Comment objects in, Other BeautifulSoup Objects
- find function, find() and find_all() with BeautifulSoup-find() and find_all() with BeautifulSoup, Dealing with Different Website Layouts
- find_all function, Another Serving of BeautifulSoup-find() and find_all() with BeautifulSoup, Dealing with Different Website Layouts
- .get_text(), Another Serving of BeautifulSoup, Storing Data to CSV
- installing, Installing BeautifulSoup
- lambda expressions and, Lambda Expressions
- NavigableString objects in, Other BeautifulSoup Objects
- navigating trees with, Navigating Trees-Dealing with parents
- parser specification, Running BeautifulSoup
- role in web scraping, An Introduction to BeautifulSoup
- running, Running BeautifulSoup
- select function, Dealing with Different Website Layouts
- Tag objects in, Another Serving of BeautifulSoup, Other BeautifulSoup Objects
- using regular expressions with, Regular Expressions and BeautifulSoup
Bidder's Edge, eBay versus Bidder’s Edge and Trespass to Chattels
bots
- anti-bot security features, Common Form Security Features-Avoiding Honeypots
- being identified as, Avoiding Scraping Traps
- defending against, A Note on Ethics
- defined, What Is Web Scraping?
- drag-and-drop interfaces and, Drag and drop
- registration bots, Retrieving CAPTCHAs and Submitting Solutions
- web forms and, Other Form Problems
box files, Training Tesseract
breadth-first searches, Six Degrees of Wikipedia: Conclusion
BrowserMob Proxy library, Finding and Documenting APIs Automatically
bs.find_all(), Another Serving of BeautifulSoup
bs.tagName, Another Serving of BeautifulSoup
BS4 (BeautifulSoup 4 library), Installing BeautifulSoup
- (see also BeautifulSoup library)
buildWordDict, Markov Models

C

CAPTCHAs
- common properties of, Retrieving CAPTCHAs and Submitting Solutions
- drag-and-drop interfaces and, Drag and drop
- meaning of, Reading CAPTCHAs and Training Tesseract
- purpose of, Image Processing and Text Recognition
- retrieving CAPTCHAs and submitting solutions, Retrieving CAPTCHAs and Submitting Solutions
- training Tesseract to read, Training Tesseract-Training Tesseract
- types of, Reading CAPTCHAs and Training Tesseract
CGI (Common Gateway Interface), Running from a Website-Hosting Account
checkboxes, Radio Buttons, Checkboxes, and Other Inputs
child elements, navigating, Dealing with children and other descendants
Chrome
- ChromeDriver, Executing JavaScript in Python with Selenium, Finding and Documenting APIs Automatically
- Developer Tools, Radio Buttons, Checkboxes, and Other Inputs
- EditThisCookie extension for, Handling Cookies with JavaScript
- headless browser mode, Executing JavaScript in Python with Selenium, Interacting with the Site
- Inspector tool, Finding Undocumented APIs, The Human Checklist
class attribute, find() and find_all() with BeautifulSoup
cleanInput, Cleaning in Code, Data Normalization
cleanSentence, Cleaning in Code
client-side redirects, Collecting Data Across an Entire Site
client-side scripting languages, Scraping JavaScript
cloud computing instances, Running from the Cloud
Cloud Platform, Running from the Cloud
code samples, obtaining and using, Preface, Using Code Examples, Crawling Across the Internet, Spidering with Rules, pytesseract
colons, pages containing, Crawling an Entire Site
Comment objects, Other BeautifulSoup Objects
comments and questions, How to Contact Us
compute instances, Running from the Cloud
Computer Fraud and Abuse Act (CFAA), The Computer Fraud and Abuse Act, United States v. Auernheimer and The Computer Fraud and Abuse Act
connection leaks, Integrating with Python
connection/cursor model, Integrating with Python
contact information, How to Contact Us
Content class, Dealing with Different Website Layouts-Dealing with Different Website Layouts, Crawling Sites Through Search
content, collecting first paragraphs, Collecting Data Across an Entire Site
cookies, Handling Logins and Cookies, Handling Cookies with JavaScript
copyrights, Trademarks, Copyrights, Patents, Oh My!-Copyright Law, Field v. Google: Copyright and robots.txt
Corpus of Contemporary American English, Summarizing Data
cPanel, Running from a Website-Hosting Account
CrawlSpider class, Spidering with Rules
cross-domain data analysis, Crawling Across the Internet
CSS (Cascading Style Sheets), Another Serving of BeautifulSoup
CSV (comma-separated values) files, Storing Data to CSV-Storing Data to CSV, CSV-Reading CSV Files, More About API Responses
Ctrl-C command, Spidering with Rules

D

dark web/darknet, Crawling an Entire Site
data cleaning
- cleaning in code, Cleaning in Code-Cleaning in Code
- cleaning post-collection, Cleaning After the Fact-Cleaning
- data normalization, Data Normalization-Data Normalization
data filtering, Filtering
data gathering (see also web crawlers; web crawling models)
- across entire sites, Collecting Data Across an Entire Site-Collecting Data Across an Entire Site
- avoiding scraping traps, Avoiding Scraping Traps-The Human Checklist, Avoiding IP Address Blocking
- benefits of entire site crawling for, Crawling an Entire Site
- cautions against unsavory content, Crawling Across the Internet
- cleaning dirty data, Cleaning Your Dirty Data-Cleaning
- cross-domain data analysis, Crawling Across the Internet
- from non-English languages, Encodings in action
- nouns vs. verbs and, Lexicographical Analysis with NLTK
- planning questions, Crawling Across the Internet, Planning and Defining Objects, Thinking About Web Crawler Models, Moving Forward
- reading documents, Reading Documents-Microsoft Word and .docx
data mining, What Is Web Scraping?
data models, Planning and Defining Objects
- (see also web crawling models)
data storage
- CSV format, Storing Data to CSV-Storing Data to CSV
- database techniques and good practices, Database Techniques and Good Practice-Database Techniques and Good Practice
- email, Email-Email
- media files, Media Files-Media Files
- MySQL, MySQL-“Six Degrees” in MySQL
- selecting type of, Storing Data
data transformation, Cleaning
DCMA (Digital Millennium Copyright Act), Copyright Law
deactivate command, Installing BeautifulSoup
debugging
- adjusting logging level, Logging with Scrapy
- human checklist, The Human Checklist
deep web, Crawling an Entire Site
DELETE requests, HTTP Methods and APIs
descendant elements, navigating, Dealing with children and other descendants
developer tools, Radio Buttons, Checkboxes, and Other Inputs
dictionaries, Database Techniques and Good Practice, Markov Models
directed graph problems, Six Degrees of Wikipedia: Conclusion
dirty data (see data cleaning)
distributed computing, Portability and Extensibility
documents
- CSV files, CSV-Reading CSV Files
- document encoding, Document Encoding
- Microsoft Word and .docx, Microsoft Word and .docx-Microsoft Word and .docx
- PDF files, PDF-PDF
- scanned from hard copies, Image Processing and Text Recognition
- text files, Text-Encodings in action
.docx files, Microsoft Word and .docx-Microsoft Word and .docx
drag-and-drop interfaces, Drag and drop-unittest or Selenium?
Drupal, Reading CAPTCHAs and Training Tesseract
duplicates, avoiding, Crawling an Entire Site
dynamic HTML (DHTML), Ajax and Dynamic HTML-Ajax and Dynamic HTML

E

eBay, eBay versus Bidder’s Edge and Trespass to Chattels
ECMA International's website, Encodings in action
EditThisCookie, Handling Cookies with JavaScript
email
- identifying addresses using regular expressions, Regular Expressions
- sending in Python, Email-Email
encoding
- document encoding, Document Encoding
- text encoding, Text Encoding and the Global Internet-Encodings in action
endpoints, A Brief Introduction to APIs
errata, How to Contact Us
escape characters, Cleaning in Code
ethical issues (see legal and ethical issues)
exception handling, Connecting Reliably and Handling Exceptions-Connecting Reliably and Handling Exceptions, Traversing a Single Domain, Collecting Data Across an Entire Site, Crawling Across the Internet
exhaustive site crawls
- approaches to, Crawling an Entire Site
- avoiding duplicates, Crawling an Entire Site
- data collection, Collecting Data Across an Entire Site-Collecting Data Across an Entire Site
- overview of, Crawling an Entire Site-Crawling an Entire Site
eXtensible Markup Language (XML), More About API Responses
external links, Crawling Across the Internet-Crawling Across the Internet

F

file uploads, Submitting Files and Images
filtering data, Filtering
find(), find() and find_all() with BeautifulSoup-find() and find_all() with BeautifulSoup, Dealing with Different Website Layouts
find_all (), Another Serving of BeautifulSoup-find() and find_all() with BeautifulSoup, Dealing with Different Website Layouts
find_element function, Executing JavaScript in Python with Selenium
find_element_by_id, Executing JavaScript in Python with Selenium
First In First Out (FIFO), Race Conditions and Queues
FizzBuzz programming test, Multithreaded Crawling
Flash applications, Scraping JavaScript
forms and logins
- common form security features, Common Form Security Features-Avoiding Honeypots
- crawling with GET requests, Crawling Through Forms and Logins
- handling logins and cookies, Handling Logins and Cookies, Handling Cookies with JavaScript
- HTTP basic access authentication, HTTP Basic Access Authentication
- malicious bots warning, Other Form Problems
- Python Requests library, Python Requests Library
- radio button and checkboxes, Radio Buttons, Checkboxes, and Other Inputs
- submitting basic forms, Submitting a Basic Form
- submitting files and images, Submitting Files and Images
front-end website testing
- automating, Testing Your Website with Scrapers
- unit tests, What Are Unit Tests?
- unittest module, Python unittest-Testing Wikipedia, unittest or Selenium?
- using Selenium, Testing with Selenium-unittest or Selenium?

G

GeoChart library, Combining APIs with Other Data Sources
GET requests
- APIs and, HTTP Methods and APIs
- crawling through forms and logins with, Crawling Through Forms and Logins
- defined, Your First Web Scraper
getLinks, Traversing a Single Domain
getNgrams, Cleaning in Code
get_cookies(), Handling Cookies with JavaScript
get_text(), Another Serving of BeautifulSoup, Storing Data to CSV
GitHub, Spidering with Rules
global interpreter lock (GIL), Processes versus Threads
global libraries, Installing BeautifulSoup
global set of pages, Crawling an Entire Site
Google
- APIs offered by, A Brief Introduction to APIs
- Cloud Platform, Running from the Cloud
- GeoChart library, Combining APIs with Other Data Sources
- Google Analytics, Google Analytics, Handling Cookies with JavaScript
- Google Maps, Google Maps
- Google Refine, OpenRefine
- origins of, Crawling Across the Internet
- page-rank algorithm, Markov Models
- reCAPTCHA, Reading CAPTCHAs and Training Tesseract
- Reverse Geocoding API, Google Maps
- Tesseract library, Tesseract
- web cache, Field v. Google: Copyright and robots.txt
GREL, Cleaning

H

h1 tags
- inconsistent use of, Web Crawling Models
- retrieving, Running BeautifulSoup
HAR (HTTP Archive) files, Finding and Documenting APIs Automatically
headers, Adjust Your Headers
headless browsers, Executing JavaScript in Python with Selenium
hidden input field values, Hidden Input Field Values
hidden web, Crawling an Entire Site
Homebrew, Installing MySQL, Installing Tesseract
honeypots, Hidden Input Field Values-Avoiding Honeypots
hotlinking, Media Files
HTML (HyperText Markup Language)
- avoiding advanced parsing, You Don’t Always Need a Hammer
- fetching single HTML tables, Storing Data to CSV
- html.parser, Running BeautifulSoup
- html.read(), Running BeautifulSoup
- html5lib, Running BeautifulSoup
HTTP basic access authentication, HTTP Basic Access Authentication
HTTP headers, Adjust Your Headers
HTTP methods, HTTP Methods and APIs
HTTP response codes
- 403 Forbidden error, The Human Checklist
- code 200, More About API Responses
- handling error codes, Connecting Reliably and Handling Exceptions-Connecting Reliably and Handling Exceptions
humanness, checking for, Adjust Your Headers, Common Form Security Features-The Human Checklist, Avoiding IP Address Blocking
- (see also CAPTCHAs)
hyphenated words, Data Normalization

I

id attribute, find() and find_all() with BeautifulSoup
id columns, Database Techniques and Good Practice
image processing and text recognition
- adjusting images automatically, Adjusting Images Automatically-Adjusting Images Automatically
- cleaning images, Processing Well-Formatted Text
- image-to-text translation, Image Processing and Text Recognition
- libraries for, Overview of Libraries-NumPy
- processing well-formatted text, Processing Well-Formatted Text-Scraping Text from Images on Websites
- scraping text from images on websites, Scraping Text from Images on Websites-Scraping Text from Images on Websites
- submitting images, Submitting Files and Images
implicit waits, Executing JavaScript in Python with Selenium
indexing, Database Techniques and Good Practice
inspection tool, Radio Buttons, Checkboxes, and Other Inputs, Finding Undocumented APIs
intellectual property, Trademarks, Copyrights, Patents, Oh My!
- (see also legal and ethical issues)
intelligent indexing, Database Techniques and Good Practice
Internet Engineering Task Force (IETF), Text
IP addresses
- avoiding address blocks, Avoiding IP Address Blocking-PySocks
- determining physical location of, A Brief Introduction to APIs, Combining APIs with Other Data Sources
ip-api.com, A Brief Introduction to APIs, Parsing JSON
ISO-encoded documents, A history of text encoding
items
- creating, Creating Items
- item pipeline, The Item Pipeline-The Item Pipeline
- outputting, Outputting Items

J

JavaScript
- Ajax and dynamic HTML, Ajax and Dynamic HTML-Additional Selenium Webdrivers
- applications for, Scraping JavaScript
- common libraries, Common JavaScript Libraries-Google Maps
- effect on web scraping, A Final Note on JavaScript
- executing in Python with Selenium, Executing JavaScript in Python with Selenium-Additional Selenium Webdrivers
- handling cookies with, Handling Cookies with JavaScript
- introduction to, A Brief Introduction to JavaScript
- redirects handling, Handling Redirects
JavaScript Object Notation (JSON)
- API responses using, More About API Responses
- parsing, Parsing JSON
jQuery library, jQuery
Jupyter notebooks, Spidering with Rules, Python unittest

K

keyword argument, find() and find_all() with BeautifulSoup

L

lambda expressions, Lambda Expressions
language encoding, A history of text encoding
Last In First Out (LIFO), Race Conditions and Queues
latitude/longitude coordinates, Google Maps
legal and ethical issues
- advice disclaimer regarding, The Legalities and Ethics of Web Scraping
- case studies in, Three Web Scrapers-Field v. Google: Copyright and robots.txt
- Computer Fraud and Abuse Act, The Computer Fraud and Abuse Act, United States v. Auernheimer and The Computer Fraud and Abuse Act
- hotlinking, Media Files
- legitimate reasons for scraping, A Note on Ethics
- robots.txt files, robots.txt and Terms of Service
- scraper blocking, The Item Pipeline, Avoiding Scraping Traps
- server loads, Writing Web Crawlers-Traversing a Single Domain, Trespass to Chattels
- trademarks, copyrights, and patents, Trademarks, Copyrights, Patents, Oh My!-Copyright Law, Field v. Google: Copyright and robots.txt
- trespass to chattels, Trespass to Chattels, eBay versus Bidder’s Edge and Trespass to Chattels
- web crawler planning, Crawling Across the Internet, Moving Forward
lexicographical analysis, Lexicographical Analysis with NLTK
limit argument, find() and find_all() with BeautifulSoup
LinkExtractor class, Spidering with Rules
links
- collecting across entire sites, Collecting Data Across an Entire Site
- crawling sites through, Crawling Sites Through Links-Crawling Sites Through Links
- discovering in an automated way, Structuring Crawlers
- following outbound, Crawling Across the Internet
- result links, Crawling Sites Through Search
location pins, Google Maps, A Brief Introduction to APIs
logging, adjusting level of, Logging with Scrapy
login forms, Submitting a Basic Form, Handling Logins and Cookies
- (see also forms and logins)
lxml parser, Running BeautifulSoup

M

machine-learning, Lexicographical Analysis with NLTK
malware, avoiding, Media Files, Other Form Problems, A Note on Ethics
Markov models, Markov Models-Six Degrees of Wikipedia: Conclusion
media files
- downloading, Media Files
- malware cautions, Media Files
- storage choices, Media Files
Mersenne Twister algorithm, Traversing a Single Domain
Metaweb, OpenRefine
Microsoft Word documents, Microsoft Word and .docx-Microsoft Word and .docx
multithreaded programming, Processes versus Threads
- (see also parallel web crawling)
MySQL
- basic commands, Some Basic Commands-Some Basic Commands
- benefits of, MySQL
- connection/cursor model, Integrating with Python
- creating databases, Some Basic Commands
- database techniques and good practices, Database Techniques and Good Practice-Database Techniques and Good Practice
- defining columns, Some Basic Commands
- DELETE statements, Some Basic Commands
- inserting data into, Some Basic Commands
- installing, Installing MySQL-Installing MySQL
- Python integration, Integrating with Python-Integrating with Python
- selecting data, Some Basic Commands
- Six Degrees of Wikipedia problem, “Six Degrees” in MySQL-“Six Degrees” in MySQL
- specifying databases, Some Basic Commands

N

n-grams, Cleaning in Code, Summarizing Data
name.get_text(), Another Serving of BeautifulSoup
natural language analysis
- applications for, Reading and Writing Natural Languages
- Markov models, Markov Models-Six Degrees of Wikipedia: Conclusion
- n-grams, Cleaning in Code
- Natural Language Toolkit, Natural Language Toolkit-Lexicographical Analysis with NLTK
- resources for learning, Additional Resources
- summarizing data, Summarizing Data-Summarizing Data
Natural Language Toolkit (NLTK)
- history of, Natural Language Toolkit
- installing, Installation and Setup
- lexicographical analysis using, Lexicographical Analysis with NLTK
- machine learning vs. machine training, Lexicographical Analysis with NLTK
- speech identification using, Lexicographical Analysis with NLTK
- statistical analysis using, Statistical Analysis with NLTK
- tagging system used by, Lexicographical Analysis with NLTK
NavigableString objects, Other BeautifulSoup Objects
network connections
- exception handling, Connecting Reliably and Handling Exceptions-Connecting Reliably and Handling Exceptions, Traversing a Single Domain, Collecting Data Across an Entire Site, Crawling Across the Internet
- infrastructure overview, Connecting
- role of web browsers in, Connecting
- urlopen command, Connecting
newline character, Cleaning in Code
next_siblings(), Dealing with siblings
None objects, Connecting Reliably and Handling Exceptions
normalization, Data Normalization-Data Normalization
NumPy (Numeric Python) library, NumPy

O

OpenRefine
- data transformation, Cleaning
- documentation, Cleaning
- filtering data with, Filtering
- history of, OpenRefine
- installing, Installation
- using, Using OpenRefine
OpenRefine Expression Language, Cleaning
optical character recognition (OCR), Image Processing and Text Recognition, Tesseract
outbound links, Crawling Across the Internet

P

page-rank algorithm, Markov Models
page_source function, Executing JavaScript in Python with Selenium
parallel web crawling
- benefits of, Web Crawling in Parallel
- multiprocess crawling, Multiprocess Crawling-Multiprocess Crawling—Another Approach
- multithreaded crawling, Multithreaded Crawling-The threading Module
- processes vs. threads, Processes versus Threads
parent elements, navigating, Dealing with parents
parse. start_requests, Writing a Simple Scraper
parsing (see also BeautifulSoup library)
- accessing attributes, Accessing Attributes
- avoiding advanced HTML parsing, You Don’t Always Need a Hammer
- common website patterns, Dealing with Different Website Layouts
- find function, find() and find_all() with BeautifulSoup-find() and find_all() with BeautifulSoup, Dealing with Different Website Layouts
- find_all function, Another Serving of BeautifulSoup-find() and find_all() with BeautifulSoup, Dealing with Different Website Layouts
- JSON, Parsing JSON
- lambda expressions and, Lambda Expressions
- objects in BeautifulSoup library, Other BeautifulSoup Objects
- PDF-parsing libraries, PDF
- selecting parsers, Running BeautifulSoup
- tree navigation, Navigating Trees-Dealing with parents
- using HTML elements, Another Serving of BeautifulSoup
- using HTML tags and attributes, find() and find_all() with BeautifulSoup-find() and find_all() with BeautifulSoup
- using regular expressions, Regular Expressions-Regular Expressions and BeautifulSoup
patents, Trademarks, Copyrights, Patents, Oh My!-Copyright Law
PDF (Portable Document Format), PDF-PDF, More About API Responses
PDFMiner3K, PDF
Penn Treebank Project, Lexicographical Analysis with NLTK
Perl, Regular Expressions
physical addresses, A Brief Introduction to APIs
Pillow library, Pillow, Processing Well-Formatted Text
pins, Google Maps
pip (package manager), Installing BeautifulSoup
POST requests, Submitting a Basic Form, HTTP Methods and APIs
pos_tag function, Lexicographical Analysis with NLTK
preprocessing, Processing Well-Formatted Text
previous_siblings(), Dealing with siblings
Print This Page links, You Don’t Always Need a Hammer
processes, vs. threads, Processes versus Threads
- (see also parallel web crawling)
Processing module, Multiprocess Crawling
protected keywords, find() and find_all() with BeautifulSoup
proxy servers, PySocks
pseudorandom numbers, Traversing a Single Domain
punctuation characters, listing all, Cleaning in Code
PUT requests, HTTP Methods and APIs
PySocks module, PySocks
pytesseract library, Tesseract-pytesseract, Processing Well-Formatted Text
Python
- calling Python 3.x explicitly, Connecting, Installing BeautifulSoup
- common RegEx symbols, Regular Expressions
- global interpreter lock (GIL), Processes versus Threads
- image processing libraries, Overview of Libraries-NumPy
- JSON-parsing functions, Parsing JSON
- multiprocessing and multithreading in, Processes versus Threads
- MySQL integration, Integrating with Python-Integrating with Python
- PDF-parsing libraries, PDF
- pip (package manager), Installing BeautifulSoup
- Processing module, Multiprocess Crawling
- protected keywords in, find() and find_all() with BeautifulSoup
- PySocks module, PySocks
- python-docx library, Microsoft Word and .docx
- random-number generator, Traversing a Single Domain
- recursion limit, Crawling an Entire Site, Crawling Across the Internet
- Requests library, Python Requests Library, Adjust Your Headers
- resources for learning, About This Book
- _thread module, Multithreaded Crawling
- treading module, The threading Module-The threading Module
- unit-testing module, Python unittest-Testing Wikipedia, unittest or Selenium?
- urllib library, Connecting, Collecting Data Across an Entire Site
- urlopen command, Connecting
- virtual environment for, Installing BeautifulSoup
Python Imaging Library (PIL), Pillow

Q

questions and comments, How to Contact Us
queues, Race Conditions and Queues-Race Conditions and Queues, Communicating Between Processes

R

race conditions, Multithreaded Crawling-The threading Module
radio buttons, Radio Buttons, Checkboxes, and Other Inputs
random-number generator, Traversing a Single Domain
reCAPTCHA, Reading CAPTCHAs and Training Tesseract
recursion limit, Crawling an Entire Site, Crawling Across the Internet
recursive argument, find() and find_all() with BeautifulSoup
redirects, handling, Collecting Data Across an Entire Site, Handling Redirects
Regex Pal, Regular Expressions
registration bots, Retrieving CAPTCHAs and Submitting Solutions
Regular Expressions (RegEx)
- BeautifulSoup library and, Regular Expressions and BeautifulSoup
- commonly used symbols, Regular Expressions
- identifying email addresses with, Regular Expressions
- language compatibility with, Regular Expressions
- overview of, Regular Expressions
- removing escape characters with, Cleaning in Code
- writing from scratch, Regular Expressions
regular strings, Regular Expressions
relational data, MySQL
remote hosting
- from the cloud, Running from the Cloud
- from website-hosting accounts, Running from a Website-Hosting Account
- speed improvements due to, Remote Hosting
remote servers
- avoiding IP address blocking, Avoiding IP Address Blocking-PySocks
- benefits of, Why Use Remote Servers?
- portability and extensibility offered by, Portability and Extensibility
- proxy servers, PySocks
Request objects, Writing a Simple Scraper
Requests library, Collecting Data Across an Entire Site, Python Requests Library, Adjust Your Headers
reserved words, find() and find_all() with BeautifulSoup
resource files, Connecting
result links, Crawling Sites Through Search
Reverse Geocoding API, Google Maps
Robots Exclusion Standard, robots.txt and Terms of Service
robots.txt files, robots.txt and Terms of Service
Rule objects, Spidering with Rules
rules, applying to spiders, Spidering with Rules-Spidering with Rules

S

safe harbor protection, Copyright Law
scrapping traps, avoiding
- common form security features, Common Form Security Features-Avoiding Honeypots
- ethical considerations, A Note on Ethics
- human checklist, The Human Checklist
- IP address blocking, Avoiding IP Address Blocking
- looking like a human, Looking Like a Human-Timing Is Everything
Scrapy library
- asynchronous requests, The Item Pipeline-The Item Pipeline
- benefits of, Scrapy
- code organization in, Spidering with Rules
- CrawlSpider class, Spidering with Rules
- documentation, Spidering with Rules, More Resources
- installing, Installing Scrapy
- LinkExtractor class, Spidering with Rules
- logging with, Logging with Scrapy
- organizing collected items, Creating Items-Outputting Items
- Python support for, Scrapy
- spider initialization, Initializing a New Spider
- spidering with rules, Spidering with Rules-Spidering with Rules
- support for XPath syntax, Executing JavaScript in Python with Selenium
- terminating spiders, Spidering with Rules
- writing simple scrapers, Writing a Simple Scraper
screen scraping, What Is Web Scraping?
search, crawling websites through, Crawling Sites Through Search-Crawling Sites Through Search
security features
- hidden input field values, Hidden Input Field Values
- honeypots, Avoiding Honeypots
select boxes, Radio Buttons, Checkboxes, and Other Inputs
select function, Dealing with Different Website Layouts
Selenium
- action chains in, Interacting with the Site
- alternatives to, Crawling Through APIs
- benefits of, Executing JavaScript in Python with Selenium, Undocumented APIs, Avoiding Honeypots
- drag-and-drop interfaces and, Drag and drop
- drawbacks of, Undocumented APIs
- implicit waits, Executing JavaScript in Python with Selenium
- installing, Executing JavaScript in Python with Selenium
- screenshots using, Taking screenshots
- selection strategies, Executing JavaScript in Python with Selenium
- selectors, Executing JavaScript in Python with Selenium
- support for XPath syntax, Executing JavaScript in Python with Selenium
- .text function, Executing JavaScript in Python with Selenium
- WebDriver object, Executing JavaScript in Python with Selenium
- webdrivers for, Additional Selenium Webdrivers
- website testing using, Testing with Selenium-unittest or Selenium?
server loads, Writing Web Crawlers-Traversing a Single Domain, Trespass to Chattels
server-side languages, Scraping JavaScript
server-side redirects, Collecting Data Across an Entire Site
session function, Handling Logins and Cookies
sibling elements, navigating, Dealing with siblings
single domains, traversing, Traversing a Single Domain-Traversing a Single Domain
site maps, generating, Crawling an Entire Site
Six Degrees of Wikipedia problem, Traversing a Single Domain, “Six Degrees” in MySQL-“Six Degrees” in MySQL, Six Degrees of Wikipedia: Conclusion-Six Degrees of Wikipedia: Conclusion
SMTP (Simple Mail Transfer Protocol), Email
speed, improving, The Item Pipeline, Timing Is Everything, Remote Hosting
spiders
- applying rules to, Spidering with Rules
- initializing, Initializing a New Spider
- naming, Writing a Simple Scraper
- terminating, Spidering with Rules
spot instances, Running from the Cloud
start_requests, Writing a Simple Scraper
string.punctuation, Cleaning in Code
string.whitespace, Cleaning in Code
summaries, creating, Summarizing Data-Summarizing Data
surface web, Crawling an Entire Site

T

Tag objects, Another Serving of BeautifulSoup, Other BeautifulSoup Objects
Terms of Service agreements, Trespass to Chattels, robots.txt and Terms of Service
Tesseract library
- automatic image adjustment, Adjusting Images Automatically
- benefits of, Tesseract-pytesseract
- cleaning images with Pillow library, Processing Well-Formatted Text
- documentation, Training Tesseract
- installing, Installing Tesseract
- NumPy library and, NumPy
- purpose of, Overview of Libraries
- pytesseract wrapper for, pytesseract
- sample run, Processing Well-Formatted Text
- scraping images from websites with, Scraping Text from Images on Websites
- training to read CAPTCHAs, Training Tesseract-Training Tesseract
Tesseract OCR Chopper, Training Tesseract
test-driven development, Testing Your Website with Scrapers
tests
- unit tests, What Are Unit Tests?
- unittest module, Python unittest-Testing Wikipedia, unittest or Selenium?
- using Selenium, Testing with Selenium-unittest or Selenium?
text argument , find() and find_all() with BeautifulSoup
text files, Text-Encodings in action
.text function, Executing JavaScript in Python with Selenium
text-based images, Image Processing and Text Recognition (see also image processing and text recognition)
_thread module, Multithreaded Crawling
threading module, The threading Module-The threading Module
threads, vs. processes, Processes versus Threads
- (see also parallel web crawling)
time.sleep, Timing Is Everything, Multithreaded Crawling
titles, collecting, Collecting Data Across an Entire Site
Tor (The Onion Router network), Tor
trademarks, Trademarks, Copyrights, Patents, Oh My!-Copyright Law
tree navigation
- dealing with children and descendants, Dealing with children and other descendants
- dealing with parents, Dealing with parents
- dealing with siblings, Dealing with siblings
- finding tags based on location with, Navigating Trees
- making specific selections, Dealing with siblings
trespass to chattels, Trespass to Chattels, eBay versus Bidder’s Edge and Trespass to Chattels
Turing test, Reading CAPTCHAs and Training Tesseract
typographical conventions, Conventions Used in This Book

U

undirected graph problems, Six Degrees of Wikipedia: Conclusion
undocumented APIs
- finding, Finding Undocumented APIs
- finding and documenting automatically, Finding and Documenting APIs Automatically-Finding and Documenting APIs Automatically
- identifying and documenting, Documenting Undocumented APIs
- reasons for, Undocumented APIs
Unicode Consortium, A history of text encoding
Unicode text, Integrating with Python, Cleaning in Code
unit tests, What Are Unit Tests?
universal language-encoding, A history of text encoding
URLError, Connecting Reliably and Handling Exceptions
urllib library
- documentation, Connecting
- redirects handling, Collecting Data Across an Entire Site
urllib.request.urlretrieve, Media Files
urlopen command, Connecting, Connecting
User-Agent header, Adjust Your Headers
UTF-8, Integrating with Python, A history of text encoding

V

virtual environments, Installing BeautifulSoup

W

web browsers
- inspection tool, Radio Buttons, Checkboxes, and Other Inputs, Finding Undocumented APIs
- resource file handling, Connecting
- role in networking, Connecting
web crawlers
- automated website testing using, Testing Your Website with Scrapers-unittest or Selenium?
- bandwidth considerations, Writing Web Crawlers
- cautions against unsavory content, Crawling Across the Internet
- crawling across the internet, Crawling Across the Internet-Crawling Across the Internet
- crawling entire sites with, Crawling an Entire Site-Crawling an Entire Site
- crawling single domains with, Traversing a Single Domain-Traversing a Single Domain
- data gathering using, Collecting Data Across an Entire Site-Collecting Data Across an Entire Site, Reading Documents-Microsoft Word and .docx
- defined, What Is Web Scraping?, Writing Web Crawlers
- for non-English languages, Encodings in action
- frameworks for developing, Scrapy
- improving speed of, The Item Pipeline, Timing Is Everything, Remote Hosting
- nouns vs. verbs and, Lexicographical Analysis with NLTK
- parallel web crawling, Web Crawling in Parallel-Multiprocess Crawling—Another Approach
- planning questions, Crawling Across the Internet, Thinking About Web Crawler Models, Moving Forward
- scraper blocking, The Item Pipeline, Avoiding Scraping Traps
- scraping remotely with, Scraping Remotely-Additional Resources
- tips to appear human-like, Looking Like a Human-Timing Is Everything, The Human Checklist
- writing more stable and reliable, You Don’t Always Need a Hammer, Structuring Crawlers
web crawling models
- crawling multiple page types, Crawling Multiple Page Types-Crawling Multiple Page Types
- crawling sites through links, Crawling Sites Through Links-Crawling Sites Through Links
- crawling sites through search, Crawling Sites Through Search-Crawling Sites Through Search
- dealing with different website layouts, Dealing with Different Website Layouts-Dealing with Different Website Layouts
- planning and defining objects, Planning and Defining Objects-Planning and Defining Objects
- planning questions, Thinking About Web Crawler Models
- unique challenges handled by, Web Crawling Models
web development, Testing Your Website with Scrapers
web forms, Submitting a Basic Form, Common Form Security Features
- (see also forms and logins)
web harvesting, What Is Web Scraping?
web scraping (see also legal and ethical issues)
- avoiding scraping traps, Avoiding Scraping Traps-The Human Checklist, Avoiding IP Address Blocking
- basic steps, Your First Web Scraper
- benefits of, Why Web Scraping?
- confusion over, Preface
- defined, What Is Web Scraping?
- future of, Moving Forward
- overview of, What Is Web Scraping?
- payout vs. investment, Building Scrapers
- using remote servers and hosts, Scraping Remotely-Additional Resources
web-hosting providers, Running from a Website-Hosting Account
WebDriver object, Executing JavaScript in Python with Selenium
Website class, Dealing with Different Website Layouts, Crawling Sites Through Search
website layouts, Dealing with Different Website Layouts-Dealing with Different Website Layouts
well-formatted text, processing, Processing Well-Formatted Text-Scraping Text from Images on Websites
Wikimedia Foundation, Traversing a Single Domain
Word files, Microsoft Word and .docx-Microsoft Word and .docx
word_tokenize, Statistical Analysis with NLTK

X

XPath (XML Path) language, Executing JavaScript in Python with Selenium

Previous Chapter

18. The Legalities and Ethics of Web Scraping

About the Author