发布网友
共1个回答
热心网友
通用网络爬虫框架
HTML/XML解析器
文本处理
特定格式文件处理
自然语言处理
浏览器自动化与仿真
多重处理
异步网络编程库
队列
网址和网络地址操作
解析/修改网址和网络地址库
netaddr - 处理网络地址的Python库
网页内容提取
提取网页内容的库
HTML页面的文本和元数据
newspaper - 用于新闻提取、文章提取和内容策展的Python库
html2text - 将HTML转换为Markdown格式文本的库
python-goose - 用于提取HTML内容/文章的库
lassie - 人性化的网页内容检索工具
micawber - 从网址中提取丰富内容的小库
sumy - 自动汇总文本文件和HTML网页的模块
Haul - 可扩展的图像爬虫库
python-readability - arc90 readability工具的快速Python接口
scrapely - 从HTML网页中提取结构化数据的库
WebSocket
用于WebSocket的库
DNS解析
计算机视觉
OpenCV - 开源计算机视觉库