存档

2015年1月 的存档

Python初试

2015年1月13日 没有评论

工作上最近有遇到一个事情,服务器收集的日志信息里,对于日期格式的字符串描述采用的是yyyy-M-d的方式,而后端逻辑程序对这块的处理的不够(这个让衣服自己洗很是迷惑),但由于跨部门利益关系,问题的解决优先级不够高。

于是,一个折衷的思路就是在后端逻辑处理日志前,先通过某种方式来个预处理。递归遍历目录下的所有子目录和文件,打开文件,正则查找到要处理的日期字符串,替换,然后保存。看起来不太复杂。

由于是Linux服务器,同时也因为一些原因,服务器上也无法安装mono,所以通过c# 写处理程序的方式就行不通。剩下的就分为下面几种思路:

  1. shell 命令
  2. perl/python 脚本
  3. C/C++ 程序

问题就在于我对这些都不会,最开始是想用c++来处理。然后网上搜索了一通资料,对于跨平台的c++,也碰到些问题,例如io.h头文件是没有的,对于正则估计还得用boost之类的,然后后面使用 strncat 这样的函数简直是给弄恶心了。所以在连抄带猜地写完目录遍历后,我就放弃了。Java 程序,我觉得还是算了吧。

我觉得为解决这个事情去学一个语言,成本是不是太高了点,想抱个大腿。找到了@屈屈,他很快就给出了答案,这就是差距。

for i in `ls *.txt`;do mv -f $i `echo $i | sed ‘s/-\([0-9]\)/0\1/g’`;done

虽然不能完全看懂啥意思,不过看起来很绚丽,对不对~多谢屈屈的帮助。

后来网上又下了个Python电子版教程,简单看了下,网上各种搜索和抄袭,最后弄了个Python的脚本,也算是勉强交差吧。

code

import os
import re
import sys

dir = “/Users/mmcer/temp”
if len(sys.argv) > 2:
dir = sys.arg[1]

def check(dir):
for f in os.listdir(dir):
file = os.path.join(dir,f);
if os.path.isdir(file):
check(file)
#pass
elif os.path.isfile(file):
if(f.startswith(“.”)):
#filter Linux system file
pass
else:
print “path is ” + file
think(file)

def think(path):
file = open(path,”r”)
content = file.read()
file.close();

reg = re.compile(“(\d{4})-(\d+)-(\d+)”,re.M)
matches = reg.findall(content)

for match in matches:
year = match[0]
month = match[1]
day = match[2]
old = year + “-” + month + “-” + day

_year = match[0]
_month = match[1]
_day = match[2]

if len(year) == 2:
_year = “20” + year
if(len(month) == 1):
_month = “0” + month
if(len(day) == 1):
_day = “0” + day

newStr = _year +”-” + _month + “-” + _day

content = content.replace(old,newStr)

file = open(path,”w”)
file.write(content)
file.close()

check(dir)

两种思路都提供给对方了,至于如何选择就看人家怎么使用了。

分类: 日常 标签: