全部评论(1条)
-
- 哈哈哈哈去* 2016-12-16 00:00:00
- 由于项目需求收集并使用过一些爬虫相关库,做过一些对比分析。以下是我接触过的一些库: Beautiful Soup。名气大,整合了一些常用爬虫需求。缺点:不能加载JS。 Scrapy。看起来很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。 mechanize。优点:可以加载JS。缺点:文档严重缺失。不过通过官方的example以及人肉尝试的方法,还是勉强能用的。 selenium。这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。 cola。一个分布式爬虫框架。项目整体设计有点糟,模块间耦合度较高,不过值得借鉴。 以下是我的一些实践经验: 对于简单的需求,比如有固定pattern的信息,怎么搞都是可以的。 对于较为复杂的需求,比如爬取动态页面、涉及状态转换、涉及反爬虫机制、涉及高并发,这种情况下是很难找到一个契合需求的库的,很多东西只能自己写。 至于题主提到的: 还有,采用现有的Python爬虫框架,相比与直接使用内置库,优势在哪?因为Python本身写爬虫已经很简单了。 third party library可以做到built-in library做不到或者做起来很困难的事情,仅此而已。还有就是,爬虫简不简单,完全取决于需求,跟Python是没什么关系的。
-
赞(18)
回复(0)
热门问答
- python网络数据采集 用python写网络爬虫 哪个好
2016-12-15 07:11:56
395
1
- htmlparser 网络爬虫 数据采集
- 我用的是htmlparser初学者,到ie.html()就报这个错希望大神们帮我看看java.lang.IllegalArgumentException:Value204doesnotbelongtospecifiedcom.jniwrapper.win32.ie.event.StatusCo... 我用的是htmlparser 初学者,到ie.html()就报这个错 希望大神们帮我看看 java.lang.IllegalArgumentException: Value 204 does not belong to specified com.jniwrapper.win32.ie.event.StatusCode enumeration at com.jniwrapper.util.Enums.getItem(SourceFile:44) at com.jniwrapper.win32.ie.event.StatusCode.create(SourceFile:79) at com.jniwrapper.win32.ie.aB.navigateError(SourceFile:525) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at com.jniwrapper.win32.com.server.IDispatchServer.invoke(SourceFile:209) at sun.reflect.GeneratedMethodAccessor2.invoke(Unknown Source) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at com.jniwrapper.win32.com.server.CoInterfaceVTBL$VirtualMethodCallback.b(SourceFile:239) at com.jniwrapper.win32.com.server.CoInterfaceVTBL$VirtualMethodCallback.callback(SourceFile:142) at com.jniwrapper.Callback.enterPoint(SourceFile:222) at com.jniwrapper.Function.invokeCFunc(Native Method) at com.jniwrapper.FunctionCall.a(SourceFile:126) at com.jniwrapper.FunctionCall.call(SourceFile:34) at com.jniwrapper.Function.invoke(SourceFile:164) at com.jniwrapper.Function.invoke(SourceFile:188) at com.jniwrapper.win32.MessageLoopThread$LoopThread.run(MessageLoopThread.java:489)ps:分不够了啊~~~~ 展开
2014-01-12 07:12:40
377
2
- 异构数据采集技术和网络爬虫采集有什么区别?
2017-09-14 17:03:06
430
2
- python 做监控数据采集,怎么做.新手请教
2015-01-31 15:20:56
406
1
- 承德软件开发 Python和Ruby哪个就业好
2018-07-17 01:11:53
568
1
- 学习python,用什么软件?
2012-12-01 01:12:11
248
4
- python 数据分析 用什么软件
2016-10-23 00:37:06
295
2
- python和r数据分析哪个更好
2015-09-02 12:22:33
406
3
- 网络爬虫抓取数据 有什么好的应用
2016-06-29 17:10:20
417
1
- python 监控视频分析
- 我有一段视频,想做个分析看那个时间段图像有变化,有没有什么现在工具或者用python写个分析代码。... 我有一段视频,想做个分析看那个时间段图像有变化,有没有什么现在工具或者用python写个分析代码。 展开
2017-01-10 11:19:51
488
1
- wan能数据采集引擎和一般的网络爬虫程序有什么区别
2018-02-04 01:15:54
335
1
- 高纬数据用python什么工具包绘图好
2016-06-12 18:09:27
332
1
- 如何评价利用python制作数据采集,计算,可视化界面
2016-09-19 17:54:54
255
1
- C#实现网络数据采集
- Z近看到个题目,从一个网页上采集数据,根据采集到的数据进行数据库更新等操作。用C#的话,该怎么实现呢,怎么在网页上采集数据呢我该看看哪些资料呢谁有代码或者资料啊传来看看哦先... Z近看到个题目,从一个网页上采集数据,根据采集到的数据进行数据库更新等操作。 用C#的话,该怎么实现呢,怎么在网页上采集数据呢 我该看看哪些资料呢 谁有代码或者资料啊 传来看看哦 先谢谢啦 我的邮箱 tonglei12345@126.com 网页上的一个Table 里面的数据采集下来 根据采集到得数据对数据库进行更新的操作 怎么弄呢 初学者 还望说详细点哈 Z好举例说明哦 展开
2009-04-10 23:23:05
397
2
- 怎么用VBA或网络爬虫程序抓取网站数据
2017-03-29 07:14:03
405
1
- python 如何添加计时器
- 如何在每一步运行之前查看程序已经运行了多久
2016-05-15 13:20:36
259
1
- python要不要加数据类型
2018-12-02 20:23:07
328
0
- java和python编码
- 运行Java和python代码时中文乱码,sublime有提示错误
2018-11-30 22:51:31
263
0
- python的GUI设计用什么软件?
2017-12-10 04:26:31
310
2
- 利用python进行数据分析 用什么软件
2017-11-10 17:45:43
505
2
5月突出贡献榜
推荐主页
最新话题
-
- #DeepSeek如何看待仪器#
- 干体炉技术发展与应用研究
- 从-70℃到150℃:一台试验箱如何终结智能...从-70℃到150℃:一台试验箱如何终结智能调光膜失效风险?解决方案:SMC-210PF-FPC温湿度折弯试验箱的五大核心价值1. 多维度环境模拟,覆盖全生命周期测试需求超宽温域:支持-70℃至+150℃的极限温度模拟(可选配),复现材料在极寒、高温、冷热冲击下的性能表现;控湿:湿度范围20%~98%RH(精度±3%RH),模拟热带雨林、沙漠干燥等复杂工况,暴露材料吸湿膨胀、分层缺陷;动态折弯:0°~180°连续可调折弯角度,支持R1~R20弯曲半径设定,模拟实际装配中的微小应力,提前预警裂纹、断裂风险。
参与评论
登录后参与评论