How to Learn Python for Frank Hu?
介紹
1. 缘起
2. Week 1
- 2.1. 开光大会总结
- 2.2. Git basics
- 2.3. Markdown basics
- 2.4. Mailing-list
- 2.5. GitBook
3. Week 2
- 3.1. "Guess the number!"
  - 3.1.1. 源码
4. Week 3
- 4.1. "Hacker and Painter"
  - 4.1.1. 源码
5. Week 4
6. Week 5
- 6.1. "Hacker and Painter", watercolor version
- 6.2. Blackjack
7. Week 6
- 7.1. 水彩画笔: 加载分享版
- 7.2. Proposal #1: A web time logger
- 7.3. Proposal #2: Wheel of python
8. Week 7
- 8.1. Proposal #3: iDoulist
- 8.2. 团队协作的初步考虑
- 8.3. 如何推广一个项目 - QA by Zoom.Quiet
- 8.4. 项目周报 - Week 0
9. Week 8
- 9.1. iDoulist 抓取网页信息
- 9.2. Python 模块的互相调用
- 9.3. 如何推广一个项目 - QA by Zoom.Quiet
- 9.4. week 8 QA
10. Week 9
- 10.1. 再谈抓取: urllib2+re
- 10.2. PyAutoGUI 模拟鼠标键盘操作
- 10.3. iDoulist week2 小结
- 10.4. week 9 QA
11. Week 10
- 11.1. Tkinter 绘制图形界面
- 11.2. iDoulist week3 小结
- 11.3. Week10 QA
12. Week 11
- 12.1. Week11 QA
- 12.2. iDoulist week4 小结
- 12.3. 绘制标签云
- 12.4. Unicode and Chinese in Python
13. Week 12
- 13.1. iDoulist script for demo v1.0
- 13.2. iDoulist demo show
14. Week 13
- 14.1. 大妈北京结业小结
- 14.2. 结业典礼----大妈的总结
- 14.3. 结业典礼----Frank Hu 的分享稿
15. 编外编: 不确定情况下的学习
16. 编外编: Meta-programming?
17. 结尾

How to Learn Python for Frank Hu?

iDoulist Function 0 - input

Outline

抓取库的选择
- 42 min rule
- from scrapy to urllib2
re basics
去重函数
- is 与 == 在列表中的细节问题

抓取库的选择

大而全还是小而精简? 42 min rule may help
- 实例: 需要选择一个合适的抓取库
- 初步考虑是 scrapy, 最著名的 python 爬虫库
- 答疑时, 大妈指出这个库可能过于庞大了, 学习成本可能较高
- 组内讨论时, 乱入的大妈给出一个 42 min 应做出原型的参考标准
- 最后实现功能 0 时, 选择了 urllib 库实现豆列网页抓取原型. 这个库使用起来相当简单, 熟悉用时约 4.2 min
- 总结, 选择工具要考虑到自己水平, 根本任务是解决问题, 工程行为要围绕着明确目标进行!
  - 42 min 可作为一个参考.
  - 本质: 需要有一个预设的 QC 节点, 到达节点时, 进行严格质控.
urllib2
- 抓取网页内容 response = urllib2.urlopen(input_url)
- response.read 存储了网页内容(字符串)

正则表达式再探

本次使用了 re.findall()
功能是返回指定输入中出现的全部符合 re 的内容

Reference

Python爬虫入门三之Urllib库的基本使用 Python爬虫入门七之正则表达式 urllib2 - py doc