Suche senden
Hochladen
Web爬虫那点事
•
Als PPT, PDF herunterladen
•
5 gefällt mir
•
2,595 views
Yihua Huang
Folgen
Web爬虫那点事
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 36
Jetzt herunterladen
Empfohlen
微服務架構 導入經驗分享 吳剛志 - Community Open Camp
微服務架構 導入經驗分享 吳剛志 - Community Open Camp
Andrew Wu
Dynamic JS Loader
Dynamic JS Loader
feifeipan
哥寫的不是程式,是軟體 - 從嵌入式系統看軟體工程全貌
哥寫的不是程式,是軟體 - 從嵌入式系統看軟體工程全貌
Tun-Yu Chang
大規模微服務導入 - #2 從零開始的微服務 .NET Core 框架設計
大規模微服務導入 - #2 從零開始的微服務 .NET Core 框架設計
Andrew Wu
电子书项目总结 前端
电子书项目总结 前端
jay li
美团前端架构简介
美团前端架构简介
pan weizeng
百度新首页性能优化
百度新首页性能优化
Welefen Lee
ASP.Net MVC2 简介
ASP.Net MVC2 简介
Allen Lsy
Empfohlen
微服務架構 導入經驗分享 吳剛志 - Community Open Camp
微服務架構 導入經驗分享 吳剛志 - Community Open Camp
Andrew Wu
Dynamic JS Loader
Dynamic JS Loader
feifeipan
哥寫的不是程式,是軟體 - 從嵌入式系統看軟體工程全貌
哥寫的不是程式,是軟體 - 從嵌入式系統看軟體工程全貌
Tun-Yu Chang
大規模微服務導入 - #2 從零開始的微服務 .NET Core 框架設計
大規模微服務導入 - #2 從零開始的微服務 .NET Core 框架設計
Andrew Wu
电子书项目总结 前端
电子书项目总结 前端
jay li
美团前端架构简介
美团前端架构简介
pan weizeng
百度新首页性能优化
百度新首页性能优化
Welefen Lee
ASP.Net MVC2 简介
ASP.Net MVC2 简介
Allen Lsy
喬叔 Elasticsearch Index 管理技巧與效能優化
喬叔 Elasticsearch Index 管理技巧與效能優化
Joe Wu
微服務的基礎建設 - Service Discovery, Andrew Wu
微服務的基礎建設 - Service Discovery, Andrew Wu
Andrew Wu
與大師對談: 轉移到微服務架構必經之路~ 系統與資料庫重構
與大師對談: 轉移到微服務架構必經之路~ 系統與資料庫重構
Andrew Wu
淺談RESTful API認證 Token機制使用經驗分享
淺談RESTful API認證 Token機制使用經驗分享
Tun-Yu Chang
Getting started with test automation
Getting started with test automation
Ivan Wei
大規模微服務導入 - #1, 從零開始的系統架構設計概觀
大規模微服務導入 - #1, 從零開始的系統架構設計概觀
Andrew Wu
Monitoring Tools 大亂鬥 - Consul
Monitoring Tools 大亂鬥 - Consul
Andrew Wu
前端性能测试
前端性能测试
tbmallf2e
Javascript training
Javascript training
敏军 李
Truck js 高性能移动web开发解决方案
Truck js 高性能移动web开发解决方案
美团技术团队
Web development overview
Web development overview
Wei Sun
应用开发一般工作流程和注意
应用开发一般工作流程和注意
cucued
Lamp架构下的web开发
Lamp架构下的web开发
ops_bd
淘宝网前端开发面试题
淘宝网前端开发面试题
Lumend
Comment System of 56.com
Comment System of 56.com
Ho Kim
MongoDB in SNS
MongoDB in SNS
kidrane
前端工程化与工具链实践
前端工程化与工具链实践
ucarticle
构建可扩展的静态资源管理系统
构建可扩展的静态资源管理系统
Webrebuild
信息系统开发平台OpenExpressApp
信息系统开发平台OpenExpressApp
zhoujg
淘宝网前端应用与发展
淘宝网前端应用与发展
taobao.com
OPOA in Action -- 使用MagixJS简化WebAPP开发
OPOA in Action -- 使用MagixJS简化WebAPP开发
leneli
实习生答辩Finally
实习生答辩Finally
Mars007
Weitere ähnliche Inhalte
Was ist angesagt?
喬叔 Elasticsearch Index 管理技巧與效能優化
喬叔 Elasticsearch Index 管理技巧與效能優化
Joe Wu
微服務的基礎建設 - Service Discovery, Andrew Wu
微服務的基礎建設 - Service Discovery, Andrew Wu
Andrew Wu
與大師對談: 轉移到微服務架構必經之路~ 系統與資料庫重構
與大師對談: 轉移到微服務架構必經之路~ 系統與資料庫重構
Andrew Wu
淺談RESTful API認證 Token機制使用經驗分享
淺談RESTful API認證 Token機制使用經驗分享
Tun-Yu Chang
Getting started with test automation
Getting started with test automation
Ivan Wei
大規模微服務導入 - #1, 從零開始的系統架構設計概觀
大規模微服務導入 - #1, 從零開始的系統架構設計概觀
Andrew Wu
Monitoring Tools 大亂鬥 - Consul
Monitoring Tools 大亂鬥 - Consul
Andrew Wu
前端性能测试
前端性能测试
tbmallf2e
Javascript training
Javascript training
敏军 李
Truck js 高性能移动web开发解决方案
Truck js 高性能移动web开发解决方案
美团技术团队
Web development overview
Web development overview
Wei Sun
应用开发一般工作流程和注意
应用开发一般工作流程和注意
cucued
Lamp架构下的web开发
Lamp架构下的web开发
ops_bd
淘宝网前端开发面试题
淘宝网前端开发面试题
Lumend
Comment System of 56.com
Comment System of 56.com
Ho Kim
MongoDB in SNS
MongoDB in SNS
kidrane
前端工程化与工具链实践
前端工程化与工具链实践
ucarticle
构建可扩展的静态资源管理系统
构建可扩展的静态资源管理系统
Webrebuild
Was ist angesagt?
(18)
喬叔 Elasticsearch Index 管理技巧與效能優化
喬叔 Elasticsearch Index 管理技巧與效能優化
微服務的基礎建設 - Service Discovery, Andrew Wu
微服務的基礎建設 - Service Discovery, Andrew Wu
與大師對談: 轉移到微服務架構必經之路~ 系統與資料庫重構
與大師對談: 轉移到微服務架構必經之路~ 系統與資料庫重構
淺談RESTful API認證 Token機制使用經驗分享
淺談RESTful API認證 Token機制使用經驗分享
Getting started with test automation
Getting started with test automation
大規模微服務導入 - #1, 從零開始的系統架構設計概觀
大規模微服務導入 - #1, 從零開始的系統架構設計概觀
Monitoring Tools 大亂鬥 - Consul
Monitoring Tools 大亂鬥 - Consul
前端性能测试
前端性能测试
Javascript training
Javascript training
Truck js 高性能移动web开发解决方案
Truck js 高性能移动web开发解决方案
Web development overview
Web development overview
应用开发一般工作流程和注意
应用开发一般工作流程和注意
Lamp架构下的web开发
Lamp架构下的web开发
淘宝网前端开发面试题
淘宝网前端开发面试题
Comment System of 56.com
Comment System of 56.com
MongoDB in SNS
MongoDB in SNS
前端工程化与工具链实践
前端工程化与工具链实践
构建可扩展的静态资源管理系统
构建可扩展的静态资源管理系统
Ähnlich wie Web爬虫那点事
信息系统开发平台OpenExpressApp
信息系统开发平台OpenExpressApp
zhoujg
淘宝网前端应用与发展
淘宝网前端应用与发展
taobao.com
OPOA in Action -- 使用MagixJS简化WebAPP开发
OPOA in Action -- 使用MagixJS简化WebAPP开发
leneli
实习生答辩Finally
实习生答辩Finally
Mars007
【项目分享】赶集移动Web App开发总结
【项目分享】赶集移动Web App开发总结
yangdj
Dreaming Infrastructure
Dreaming Infrastructure
kyhpudding
赶集团购开发总结4
赶集团购开发总结4
yangdj
Beyond rails server
Beyond rails server
Michael Chen
Web端交互逻辑抽象的实践—运营h5页面和逻辑自动生成利器
Web端交互逻辑抽象的实践—运营h5页面和逻辑自动生成利器
iflytek
富文本编辑器在互联网上的应用
富文本编辑器在互联网上的应用
luolonghao
前端杂谈
前端杂谈
salinet
IDF2013大会分享——《使用新浪移动云开发全平台应用》
IDF2013大会分享——《使用新浪移动云开发全平台应用》
easychen
价值中国网站开发、管理经验探讨、分享、交流
价值中国网站开发、管理经验探讨、分享、交流
hizhubo
Ibmzf2
Ibmzf2
daoopp
Top100summit前端的云时代支付宝前端平台架构 王保平
Top100summit前端的云时代支付宝前端平台架构 王保平
drewz lin
常用Js框架比较
常用Js框架比较
Adam Lu
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
areyouok
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
areyouok
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
topgeek
D2-ETao-show
D2-ETao-show
leneli
Ähnlich wie Web爬虫那点事
(20)
信息系统开发平台OpenExpressApp
信息系统开发平台OpenExpressApp
淘宝网前端应用与发展
淘宝网前端应用与发展
OPOA in Action -- 使用MagixJS简化WebAPP开发
OPOA in Action -- 使用MagixJS简化WebAPP开发
实习生答辩Finally
实习生答辩Finally
【项目分享】赶集移动Web App开发总结
【项目分享】赶集移动Web App开发总结
Dreaming Infrastructure
Dreaming Infrastructure
赶集团购开发总结4
赶集团购开发总结4
Beyond rails server
Beyond rails server
Web端交互逻辑抽象的实践—运营h5页面和逻辑自动生成利器
Web端交互逻辑抽象的实践—运营h5页面和逻辑自动生成利器
富文本编辑器在互联网上的应用
富文本编辑器在互联网上的应用
前端杂谈
前端杂谈
IDF2013大会分享——《使用新浪移动云开发全平台应用》
IDF2013大会分享——《使用新浪移动云开发全平台应用》
价值中国网站开发、管理经验探讨、分享、交流
价值中国网站开发、管理经验探讨、分享、交流
Ibmzf2
Ibmzf2
Top100summit前端的云时代支付宝前端平台架构 王保平
Top100summit前端的云时代支付宝前端平台架构 王保平
常用Js框架比较
常用Js框架比较
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
D2-ETao-show
D2-ETao-show
Web爬虫那点事
1.
Web 爬虫那些事 屌丝玩开源系列之二 黄亿华
2.
什么是爬虫 下载页面,获取内容 用途 搜索引擎 丰富业务数据 数据分析 审核 自动化测试
3.
从“博客搬家”开始
4.
流程代码
5.
数量越来越多 每个站点重写一遍! 开发 / 测试
/debug... 一天以上的开发时间 50 多家博客支持 更新维护的成本
6.
不成熟的尝试 BlogTransfer FrameWork (in
Diandian) JSON config ,动态发布 开发量:一天 => 半小时 扩展性差 代码难以维护 ( 当时水平不行! )
7.
思考 : 何为框架?
8.
何为框架? 程序 = 数据结构
+ 算法 算法 = 逻辑 + 控制 框架:处理控制,让应用只关心逻辑 我的理解: 框架:对领域业务做抽象,封装公共部分, 暴露易变逻辑
9.
一年之后,重写 第一理念:模块化 参考 Scrapy Downloader/Scheduler/Spiders/ItemPipeline 第二理念:高度可定制 面向接口 第三理念:站在巨人的肩膀上 运用已有工具
10.
爬虫的生命周期 页面下载 Url 发现 /
过滤 / 管理 抽取数据 持久化
11.
12.
流程抽象
13.
爬虫的生命周期 页面下载 Url 发现 /
过滤 / 管理 抽取数据 持久化
14.
页面下载 模拟 http 请求 模拟
http 头 Referer/User-Agent/Cookie 连接复用 / 长连接 gzip
15.
页面下载 - 工具 URLConnection jsoup HttpClient
16.
页面下载 - 动态渲染 JS
渲染的页面,纯 Html 无能为力 通过 ajax 抓数据 模拟浏览器 selenium phantomjs
17.
页面下载 - 黑魔法
18.
页面下载 - 黑魔法 突破反抓取 伪造一切能伪造的 模拟
http 头 Referer/User-Agent/Cookie
19.
Oh no!
20.
页面下载 - 黑魔法 知己知彼 如何判断 用浏览器访问
... 403/ 验证码 / 错误页面
21.
页面下载 - 黑魔法 换
IP 成本最低的 -ISP 自动拨号 ... 大量代理 -TOR
22.
黑魔法 - 工具 WiredShark Now
you have MockSocksTM@me
23.
爬虫的生命周期 页面下载 URL 发现 /
过滤 / 管理 抽取数据 持久化
24.
抓取页面管理 管理什么? 待抓取队列 已抓取集合
25.
抓取页面管理 URL 陷阱 simhash 海量 url Bloom-Filter sharding
26.
爬虫的生命周期 页面下载 URL 发现 /
过滤 / 管理 抽取数据 持久化
27.
数据抽取 HTML=> 结构化数据 正则表达式 XPath CSS Selector
28.
数据抽取 工具 jsoup htmlcleaner saxon xpath2.0 xquery
xlst... xoupTM@me
29.
持久化 文件系统 / 关系数据库
/nosql Pipeline
30.
WebMagic 现状 https://github.com/code4craft/webmagic 简单 /
多线程 / 分布式 便捷的 API 已有多个公司在生产环境应用
31.
下一步 WebMagic-Avalon 脚本化 & 可传播 管理后台 脚本分享平台
32.
脚本化 平台 & 语言无关 JRuby&Rhino
33.
管理后台 定时管理 / 配置 持久化 集群管理
...
34.
脚本分享平台 再也不用重复开发 ... 或许 ...
还有盈利模式
35.
心得 有想法就实现并分享出来 依靠社区的力量
36.
Thanks! https://github.com/code4craft/webmagic 好评就给个 star 吧!
Jetzt herunterladen