pandas:groupby,pivot_table,crosstable比较

2016.09.30

pivot_table

pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, marg......

读书笔记:《把时间当做朋友》

2016.09.02

前言:李笑来说过人生三大水坑:凑热闹,随大流,替别人操心。

这本书在解释一个道理:管理好自己,才是解决你自身问题的最终方案

我们会经常抱怨时间不够用,我们也常听各种关于时间管理的技巧:番茄工作法;清单技巧;任务分配技巧...但很少去思考这个问题:时间能被管理吗?

从逻辑上来说,时间是不能被管理的......

selenium:自动化利器

2016.05.17

selenium是一个非常好的自动化工具。

我们公司的网站广告系统的排期快要到期了,1700多个排期需要手动将时间往后延。解决方法有2个:

从数据库里面直接更新。可是这是采用的好耶的广告系统,好耶的广告团队被拆了,对方不提供这样的维护。

人工手动点击更新时间。

我计算了下,每个排期更新需要2......

python下的图片文本识别

2016.05.17

python下最简单的图片-文本识别方法。

前段时间研究自动登陆广告系统的时候,涉及到简单的验证码识别,整理了下最基础的识别方法。

#pytesseract 是基于Tesseract OCR项目的python包,使用前必须先安装tesseract。

import pytesseract

from ......

Python logging模块介绍

2016.03.31

本文包含以下几个内容:

为什么要使用logging

logging的主要组成与使用方法

logging的处理逻辑

logging的继承

logging的其他配置方法

1.为什么要使用logging

之前调试,一直都是使用 print,将调试信息打印到控制台,而在调试结束之后,重新去注释 p......

微信行业公众号数据抓取分析

2015.11.26

最近因为工作的需要,要分析下教育行业的微信大号的相关数据,以下为相关内容:

Q1:如何找到行业微信大号?

Q2:如何抓取数据?

Q3:如何处理数据?

Q4:如何分析数据?

1.行业微信大号的寻找

最开始准备问问运营人员,后来想起来之前有个网站:新榜,里面有按照行业划分的新媒体榜单,里面就包含了教......

人到三十

2015.10.12

蓦然回首,发现自己马上就要三十了,这几年写东西越来越少了。

微信公众号的RSS订阅解决方案

2015.08.19

介绍

对于日常的资讯及博客更新阅读,我都喜欢用RSS订阅来解决,当年Google Reader,现在是feedly。自从微信公众号出来后,不知不觉自己就订阅了一堆的微信公众号,但是手机的阅读及检视实在是效率过低。以前采用的方案是用每天扫扫微信,顺便将感兴趣的用pocket保存起来。但这样还不方便,......

Pandas:数据选择

2015.07.28

介绍

pandas主要有2种数据选择选择格式:基于label的.loc与基于位置的.iloc。

.loc主要基于label,当所选择的数据查找不到时,.loc将抛出KeyError。.loc在选择时,格式为loc[行,列],行标签在前,列标签在后。

.loc支持4种方式选择数据:

单一的标......