18.6. 优化字符串操作 · Dive Into Python

# 18.6. 优化字符串操作 Soundex 算法的最后一步是对短结果补零和截短长结果。最佳的做法是什么？这是目前在 `soundex/stage2/soundex2c.py` 中的做法： ``` digits3 = re.sub('9', '', digits2) while len(digits3) < 4: digits3 += "0" return digits3[:4] ``` 这里是 `soundex2c.py` 的表现： ``` C:\samples\soundex\stage2>python soundex2c.py Woo W000 12.6070768771 Pilgrim P426 14.4033353401 Flingjingwaller F452 19.7774882003 ``` 思考的第一件事是以循环取代正则表达式。这里的代码来自 `soundex/stage4/soundex4a.py`： ``` digits3 = '' for d in digits2: if d != '9': digits3 += d ``` `soundex4a.py` 快了吗？是的： ``` C:\samples\soundex\stage4>python soundex4a.py Woo W000 6.62865531792 Pilgrim P426 9.02247576158 Flingjingwaller F452 13.6328416042 ``` 但是，等一下。一个从字符串去除字符的循环？我们可以用一个简单的字符串方法做到。这便是 `soundex/stage4/soundex4b.py`： ``` digits3 = digits2.replace('9', '') ``` `soundex4b.py` 快了吗？这是个有趣的问题，它取决输入值： ``` C:\samples\soundex\stage4>python soundex4b.py Woo W000 6.75477414029 Pilgrim P426 7.56652144337 Flingjingwaller F452 10.8727729362 ``` `soundex4b.py` 中的字符串方法对于大多数名字比循环快，但是对于短小的情况 (很短的名字) 却比 `soundex4a.py` 略微慢些。性能优化并不总是一致的，对于一个情况快些，却可能对另外一些情况慢些。就此而言，大多数情况将会从改变中获益，所以就改吧，但是别忘了原则。最后仍很重要的是，让我们检测算法的最后两步：以零补齐短结果和截短超过四字符的长结果。你在 `soundex4b.py` 中看到的代码就是做这个工作的，但是太没效率了。看一下 `soundex/stage4/soundex4c.py` 找出原因： ``` digits3 += '000' return digits3[:4] ``` 我们为什么需要一个 `while` 循环来补齐结果？我们早就知道我们需要把结果截成四字符，并且我们知道我们已经有了至少一个字符 (直接从 `source` 中拿过来的起始字符)。这意味着我们可以仅仅在输出的结尾添加三个零，然后截断它。不要害怕重新理解问题，从不太一样的角度看问题可以获得简单的解决方案。我们丢弃 `while` 循环后从 `soundex4c.py` 中获得怎样的速度？太明显了： ``` C:\samples\soundex\stage4>python soundex4c.py Woo W000 4.89129791636 Pilgrim P426 7.30642134685 Flingjingwaller F452 10.689832367 ``` 最后，还有一件事可以令这三行运行得更快：你可以把它们合并为一行。看一眼 `soundex/stage4/soundex4d.py`： ``` return (digits2.replace('9', '') + '000')[:4] ``` 在 `soundex4d.py` 中把所有代码放在一行可以比 `soundex4c.py` 稍微快那么一点： ``` C:\samples\soundex\stage4>python soundex4d.py Woo W000 4.93624105857 Pilgrim P426 7.19747593619 Flingjingwaller F452 10.5490700634 ``` 它非常难懂，而且优化也不明显。这值得吗？我希望你有很好的见解。性能并不是一切。你在优化方面的努力应该与程序的可读性和可维护性相平衡。