How to Learn Python for Frank Hu?
介紹
1. 缘起
2. Week 1
- 2.1. 开光大会总结
- 2.2. Git basics
- 2.3. Markdown basics
- 2.4. Mailing-list
- 2.5. GitBook
3. Week 2
- 3.1. "Guess the number!"
  - 3.1.1. 源码
4. Week 3
- 4.1. "Hacker and Painter"
  - 4.1.1. 源码
5. Week 4
6. Week 5
- 6.1. "Hacker and Painter", watercolor version
- 6.2. Blackjack
7. Week 6
- 7.1. 水彩画笔: 加载分享版
- 7.2. Proposal #1: A web time logger
- 7.3. Proposal #2: Wheel of python
8. Week 7
- 8.1. Proposal #3: iDoulist
- 8.2. 团队协作的初步考虑
- 8.3. 如何推广一个项目 - QA by Zoom.Quiet
- 8.4. 项目周报 - Week 0
9. Week 8
- 9.1. iDoulist 抓取网页信息
- 9.2. Python 模块的互相调用
- 9.3. 如何推广一个项目 - QA by Zoom.Quiet
- 9.4. week 8 QA
10. Week 9
- 10.1. 再谈抓取: urllib2+re
- 10.2. PyAutoGUI 模拟鼠标键盘操作
- 10.3. iDoulist week2 小结
- 10.4. week 9 QA
11. Week 10
- 11.1. Tkinter 绘制图形界面
- 11.2. iDoulist week3 小结
- 11.3. Week10 QA
12. Week 11
- 12.1. Week11 QA
- 12.2. iDoulist week4 小结
- 12.3. 绘制标签云
- 12.4. Unicode and Chinese in Python
13. Week 12
- 13.1. iDoulist script for demo v1.0
- 13.2. iDoulist demo show
14. Week 13
- 14.1. 大妈北京结业小结
- 14.2. 结业典礼----大妈的总结
- 14.3. 结业典礼----Frank Hu 的分享稿
15. 编外编: 不确定情况下的学习
16. 编外编: Meta-programming?
17. 结尾

How to Learn Python for Frank Hu?

用 Python 进行标签云可视化

需求: 豆列的最大作用是进行专题化学习, 那么首先需要提炼出专题.
但特别是对于较长的豆列, 或者是我们想导出的内容, 如何提炼出专题呢?

豆瓣书籍中, 大量用户标注的标签信息可以为我们所用, 绘制豆列的标签云.

一图胜千言, 标签云图片不仅高效输出了我们关注的内容的几个关键词, 精要地总结了豆列内容; 还是一种时尚炫酷的可视化方式.

工程化思路

抓取豆列中每本图书的标签及出现次数, 得到合并的各个标签及次数
用可视化工具输出

实现思路

抓取一本书的标签 douban api 并测试抓取标签信息中, 最方便的输入来自豆瓣 api. 通过正则表达式整理, 即可取出合适的内容.

示例

http://developers.douban.com/wiki/?title=guide
{"rating":{"max":10,"numRaters":335,"average":"7.0","min":0},"subtitle":"","author":["[日] 片山恭一"],"pubdate":"2005-1","tags":[{"count":132,"name":"片山恭一","title":"片山恭一"},{"count":62,"name":"日本","title":"日本"},{"count":57,"name":"日本文学","title":"日本文学"},{"count":37,"name":"小说","title":"小说"},{"count":32,"name":"满月之夜白鲸现","title":"满月之夜白鲸现"},{"count":15,"name":"爱情","title":"爱情"},{"count":8,"name":"純愛","title":"純愛"},{"count":8,"name":"外国文学","title":"外国文学"}],"origin_title":"","image":"http:\/\/img3.douban.com\/mpic\/s1747553.jpg","binding":"平装","translator":["豫人"],"catalog":"\n      ","pages":"180","images":{"small":"http:\/\/img3.douban.com\/spic\/s1747553.jpg","large":"http:\/\/img3.douban.com\/lpic\/s1747553.jpg","medium":"http:\/\/img3.douban.com\/mpic\/s1747553.jpg"},"alt":"http:\/\/book.douban.com\/subject\/1220562\/","id":"1220562","publisher":"青岛出版社","isbn10":"7543632608","isbn13":"9787543632608","title":"满月之夜白鲸现","url":"http:\/\/api.douban.com\/v2\/book\/1220562","alt_title":"","author_intro":"","summary":"那一年，是听莫扎特、钓鲈鱼和家庭破裂的一年。说到家庭破裂，母亲怪自己当初没有找到好男人，父亲则认为当时是被狐狸精迷住了眼，失常的是母亲，但出问题的是父亲……。","price":"15.00元"}

合并多本书的标签: MVP MVP 版本的信息传递采用列表, 每添加一个标签, 需要确认在已有标签列表中是否存在; 如已存在, 需要把count叠加; 如不存在, 则建立新标签名.
可视化工具选择条件主要是基于Python, 且考虑到项目需求不高, 并不需要很复杂的可视化工具.
另外由于输入是已经整理过的标签, 也不需要进行中文分词操作
google找到 word cloud

这一工具接口简单, 输出效果也完全可以满足我们的需要. 按照 api接口的描述我们使用的标签数据正好适合使用word cloud 的 generate from frequency 功能.

为了匹配二者, 调整标签输出.

可视化时遇到的具体问题基本来自于中文:

中文编码问题, 详见Unicode and Chinese in Python
中文字体问题
word cloud 实现算法时按顺序进行, 因此需要对标签输出进行排序

Minor notes

py lib 目录位置在 pyenv.....中

Refs

GitHub word cloud
一个中文教程, 使用了另一个工具