使用 python 做网页爬虫 目录

使用python做爬虫 本文是自己在做python爬虫时候的笔记. 目录是从百度文库中找到的, 包含了爬虫基础的方方面面. 各种分类练习代码放在了github上. 本文所有代码就基于 windows 版本的python 2.7.11 x86 1. 最基本抓站 对于抓取的对象, 都会使用正则方式进行匹配。 编写正则的一个小技巧: 1.将整……

阅读全文

在 python 中使用 opener 进行网页访问

在 python 中使用 opener 进行网页访问 在网页访问中, urllib2 提供了很多 handler, 并且默认支持 http 访问的。因此, 我们可以使用 http handler 初始化一个 opener。 其他的所支持的模式, 我们可以通过 opener.add_handler(handler) 添加。 1 2 3 4 5 6 # function get_opener() # 后面案例需要调用这个方法 import urllib2 url_abs='http://ip.cn' opener=urllib2.build_opener(urllib2.HTTPHandler()) resp=opener.open(url_abs) return opener 使用opener处理表单 和 cookie 如果遇到需要登录的网站, 可能就需要……

阅读全文

python matplatlib 格式化坐标轴时间 datetime

python matplatlib 格式化坐标轴时间 datetime 使用 matplatlib.pyploy 可以非常方便的将数组转换成时间。但是,如果是时间 datetime.datetime() 作为坐标轴,如果不对时间进行优化,将会显得非常紧凑。 对坐标轴时间进行优化,用到的库为 matplatlib.dates。主要代码如下 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36……

阅读全文

python 中使用 shutil 实现文件或目录的复制、删除、移动

python 中使用 shutil 实现文件或目录的复制、删除、移动 shutil 模块 提供了多个针对文件或文件集合的高等级操作。 尤其是,文件的复制和删除操作。 对于独立文件的操作, 参考 os 模块 警告: 即使是更高等级的文件复制功能 ( shutil.copy(), shutil.copy2() ) 也不能复制所有文件的元数据(metadata)。 在 POSIX 平台上,这意味着文件的属主和用户组会……

阅读全文

Dockerfile 基础命令

Dockerfile 基础命令 Dockerfile 有十几条命令可用于构建镜像,下文将简略介绍这些命令。 FROM FROM 命令可能是最重要的 Dockerfile 命令。改命令定义了使用哪个基础镜像启动构建流程。基础镜像可以为任意镜像。如果基础镜像没有被发现, Docker 将试图从 Docker image index 来查找该镜像。FROM 命令必须是Dockerfile的首个命令。 # Usage: FROM [image name] # FROM 之……

阅读全文

nginx 子目录路径配置 root 与 alias 的区别

nginx 子目录路径配置 root 与 alias 的区别 最近在nginx上部署日志分析工具awstats时,在配置awstats分析结果可供网页浏览这步时,分析结果页面访问总是404.后来查阅了一些资料,发现是root和alias的用法区别没搞懂导致的,这里特地将这两者区别详尽道来,供大家学习参考。 Ngin……

阅读全文

python 字典与 json 异同

json 与 dict 从结构上来看, json 字符出与 python 字典看起来很相似,都是大括号 {} 括起来的键值对 {key:value}。 s='{"number":10,"map":"china","10":"the number"}' 该字符串可以通过**字符串转字典 eval(s) 也可以通过json转字典 json.loads(s) **方式转换成字典 s='{"number":10,"map":"china","10":"the number"}' s_d=eval(s) print s_d # {'map': 'china', 'number': 10, '10': 'the number'} import json s_j=json.loads(s) print s_j # {u'map': u'china', u'number': 10, u'10': u'the number'} s_d is s_j # False s_d == s_j # True print type(s_d) # <type 'dict'> 然而差别在于: 引……

阅读全文

使用python生成base64编码和qrcode二维码

使用python对字符串进行base64编码以及生成字符串qrcode二维码 最近将ss服务器搬到免费docker上面去了。由于是免费的,每次容器重启的时候都会重新绑定服务器地址和容器端口。然而作为一个懒鬼,并不想每次都手动复制粘贴这些信息,于是新需求就是docker容器服务绑定完……

阅读全文

ansible 入门

ansible 指南 本地执行 https://cloud.tencent.com/developer/ask/28078 1 2 3 4 5 6 7 8 9 10 11 12 13 14 # 方法1: - name: check out a git repository local_action: module: git repo: git://foosball.example.org/path/to/repo.git dest: /local/path --- # 方法2: - name: check out a git repository local_action: git args: repo: git://foosball.example.org/path/to/repo.git dest: /local/path 判断目标状态 / 判断目标是否存在 1 2 3 4 5 6 7 8 9 10 - stat: path=/path/to/something register: p # 判断目标是否为文件夹 - debug: msg="Path exists and is a directory" when: p.stat.isdir is defined and p.stat.isdir # 判断目标是否为文件夹 - debug: msg="Path exists" when: p.stat.exists……

阅读全文

windows 下 qiniu-python-sdk 错误及解决方法

报错信息 File "E:\Python27\lib\site-packages\qiniu\zone.py", line 131, in host_cache_file_path return home + "/.qiniu_pythonsdk_hostscache.json" TypeError: unsupported operand type(s) for +: 'NoneType' and 'str' 解决方法 def host_cache_file_path(self): home = os.getenv("HOME") # @ 增加 None 值判断 # @ 如果 home 值为 None, 则使用当前路径 if home is None: # home=os.path.join('.'+'C:\Users\Public') home=os.curdir # @ 修改路径链接方式 return os.path.join(home,"/.qiniu_pythonsdk_hostscache.json") # return home + "/.qiniu_pythonsdk_hostscache.json" 出现问题后,使用当前目录 os.curdir 的值通常为运行的 python 文件的根目录( 如: C: , E:) 问题出现原因 zone.py 预计使用环境为 linux windows 下, python 不能……

阅读全文

福利派送

  • (免费星球)「运维成长路线」

  • 又拍云免费 CDN

最近文章

分类

标签

其它