It'Web

♥ 好奇的观察者 ♥

Vagrant配置与Jupyter notebook远程访问设置

我一直都想将开发环境转移到一个虚拟环境中,这样今后切换笔记本之类的成本会低很多,而且宿主机也能干净很多。之前尝试过直接用VirtualBox安装桌面版的ubutun,但又忍不住安装可视化界面,导致虚拟机占用很多内存和资源,配置上也相对麻烦。而vagrant则基于文件配置,可以很方便的挂上自己的历史开发文件夹,接上终端就可以在linux下运行,而且占用资源很少,现在的8g内存也能很好的满足需求了。当......

pandas:groupby,pivot_table,crosstable比较

pivot_table

pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')

The function pandas.pivot......

读书笔记:《把时间当做朋友》

前言:李笑来说过人生三大水坑:凑热闹,随大流,替别人操心。

这本书在解释一个道理:管理好自己,才是解决你自身问题的最终方案

我们会经常抱怨时间不够用,我们也常听各种关于时间管理的技巧:番茄工作法;清单技巧;任务分配技巧...但很少去思考这个问题:时间能被管理吗?

从逻辑上来说,时间是不能被管理的。因为无论你是工作、睡觉、还是看美剧,时钟上的秒针还是会一圈圈的走,以自己的节奏,而不会因为你的行为......

selenium:自动化利器

selenium是一个非常好的自动化工具。

我们公司的网站广告系统的排期快要到期了,1700多个排期需要手动将时间往后延。解决方法有2个:

从数据库里面直接更新。可是这是采用的好耶的广告系统,好耶的广告团队被拆了,对方不提供这样的维护。

人工手动点击更新时间。

我计算了下,每个排期更新需要2分钟,1700*2=5400,合计80个小时,10个工作日......

为了降低自己的工作量,让工作......

python下的图片文本识别

python下最简单的图片-文本识别方法。

前段时间研究自动登陆广告系统的时候,涉及到简单的验证码识别,整理了下最基础的识别方法。

#pytesseract 是基于Tesseract OCR项目的python包,使用前必须先安装tesseract。

import pytesseract

from PIL import Image

from selenium import webdriver

d......

Python logging模块介绍

本文包含以下几个内容:

为什么要使用logging

logging的主要组成与使用方法

logging的处理逻辑

logging的继承

logging的其他配置方法

1.为什么要使用logging

之前调试,一直都是使用 print,将调试信息打印到控制台,而在调试结束之后,重新去注释 print 是个很麻烦的工作。另外就是写 python 脚本,部署为定时任务后,你不知道是否是正常执行......

Link

朋友们的博客

Cloga的互联网笔记

myTTNN

微信行业公众号数据抓取分析

最近因为工作的需要,要分析下教育行业的微信大号的相关数据,以下为相关内容:

Q1:如何找到行业微信大号?

Q2:如何抓取数据?

Q3:如何处理数据?

Q4:如何分析数据?

1.行业微信大号的寻找

最开始准备问问运营人员,后来想起来之前有个网站:新榜,里面有按照行业划分的新媒体榜单,里面就包含了教育行业Top50的微信活跃数据。

2.数据抓取

2.1 urllib2抓取

找到数据源,接下来......

人到三十

蓦然回首,发现自己马上就要三十了,这几年写东西越来越少了。

微信公众号的RSS订阅解决方案

介绍

对于日常的资讯及博客更新阅读,我都喜欢用RSS订阅来解决,当年Google Reader,现在是feedly。自从微信公众号出来后,不知不觉自己就订阅了一堆的微信公众号,但是手机的阅读及检视实在是效率过低。以前采用的方案是用每天扫扫微信,顺便将感兴趣的用pocket保存起来。但这样还不方便,直到看到有朋友在朋友圈介绍了公众号保存为RSS订阅的方案,但是那个RSS烧制的地址为个人作者维护,稳......