在Python下使用Txt2Html实现网页过滤代理的教程

在撰写本 developerworks 系列文章的过程中，我曾遇到过以最佳格式进行撰写的问题。文字处理程序格式都是专用的，在格式之间转换总不能尽如人意，也很麻烦（而且每种格式都会各自将文档绑定到不同的专用工具，这种情况又与开放源码的精神相违背）。html 还算中立 -- 也许您现在阅读的文章正是这种格式 -- 但它也添加了标记，而这些标记很容易引起误输入（或者使人束缚于 html 增强型编辑器）。docbook 是一种有趣的 xml 格式，它可以转换成许多目标格式，并且它拥有技术文章（或书籍）的正确语义；但就像 html 一样，在撰写过程中会担心许多标记。latex 特别适合复杂的印刷格式；但它也有许多标记，而这些文章并不需要复杂的印刷格式。
为了在写作时能真正省心 -- 特别是要具有平台和工具的中立性 -- 无格式 ascii 正是最好的选择。但是，因特网（特别是 usenet）建议在完全无格式文本的基础上，开发一种“智能 ascii”文档的非正式标准（请参阅参考资料）。“智能 ascii”只添加了一点额外的语义内容和上下文，而且它们在文本显示中看起来是那么“自然”。电子邮件、新闻组邮件、faq、项目自述文件 (readme) 和其它电子文档通常包括一些印刷／语义元素，如强调字前后的星号、标题下的下划线、描述文本关系的竖直和水平空格、有选择性的全大写和其它一些信息。project gutenberg（请参阅参考资料）是一种惊人的成果，它将许多想法加入其自身格式构思中，并认为“智能 ascii”是长时间保存和分发好书的最佳选择。即使这些文章不会像文学名著那样经久不衰，仍决定将它们写成“智能 ascii”格式，并用方便的 python 脚本将它们自动转换成其它格式。
介绍 txt2html
txt2html 最初是一个简单的文件转换器，从其名称上就可以看出。但因特网建议在工具上添加几个明显的增强功能。因为有许多读者想以“html 化”格式查看的文档都在 http: 或 ftp: 链接的后面，所以工具应该真正直接处理这样的远程文档（而不需要下载／转换／查看循环周期）。因为转换的目标最终是 html，通常我们要做的就是在 web 浏览器中查看转换后的目标文档。
将这些放到一起后，txt2html 就成了“基于 web 的过滤代理”。这个词很奇特，也许恰好能“完全表达其含义”。它们体现了以下想法：程序代表您阅读 web 页面（或其它资源），以某种方式处理内容，然后以某种比原始页面更好的形式（至少能满足某些特殊目的）向您显示该页面。这种工具的一个很好例子就是 babelfish 翻译服务（请参阅参考资料）。在通过 babelfish 运行了 url 之后，您看到的 web 页面与原始页面非常相似，但它显示了您能够读懂的文字，而不是您不理解的语言。在某种程度上，所有显示搜索结果页面摘要的搜索引擎所做的都是相同的事情。但那些搜索引擎（按设计）在目标页面的格式以及外观方面有更多的自由度，同时会去掉许多内容。当然，txt2html 并不如 babelfish 那样功能强大；但概念上，它们很大程度上完成相同的事情。请参阅参考资料以获取更多的例子，其中一些还很幽默。
txt2html 最大的优点是使用许多编程技巧，而这些技巧对于不同面向 web 使用 python 是共通的。本文将介绍那些技巧，并会说明编码技巧和一些 python 模块的作用域。请注意：txt2html 中的实际模块叫做 dmtxt2html，以避免与其他人编写的模块名称发生冲突。
使用 cgi 模块
python 标准发行版中的 cgi 模块对于任何用 python 开发“公共网关接口”应用程序的人来说都是意外惊喜。可以不使用它来创建 cgi，但您不会这样做。
最通常的情况下，您会通过 html 表单与 cgi 应用程序进行交互。要填写调用 cgi 的表单以执行使用规范的操作。例如，txt2html 文档使用这个例子来调用 html 表单（txt2html 自身生成的表单比较复杂，并且可能会改变，但示例将会很好地工作，甚至是在您自己的 web 页面中）：
调用 'txt2html' 的 html 表单
url:
可以在 html 表单中包括许多输入字段，而字段可以是许多不同类型中的一种（文本、复选框、单选列表、单选按钮等）。任何讲述 html 的好书可以帮助初学者创建定制 html 表单。此处最需要牢记的是每个字段都有名称属性，而以后会在 cgi 脚本中使用该名称来引用该字段。另一个需要了解的细节是表单可以使用以下两种方法中的一种：get 和 post。它们的基本差异是 get 在 url 中包括了查询信息，并且这个方法使用户易于保存特定查询以便日后重复使用。另一方面，如果您不希望用户保存查询，请使用 post 方法。
以上表单调用的 python 脚本将导入 cgi 以使整理其调用表单变得更容易。这个模块所做的一件事就是隐藏 cgi 脚本中 get 和 post 方法之间差异的任何细节。在进行调用之前，这并不是 cgi 创建程序需要操心的细节。该 cgi 模块的主要作用是处理类似于字典样式的调用 html 表单中的所有字段。您所得到的并不是真正的 python 字典，但它们的使用方式极其相似：
使用 python [cgi] 模块
import cgi, sys cfg_dict = { 'target': ''} sys.stderr = sys.stdout form = cgi.fieldstorage() if form.has_key( 'source'): cfg_dict[ 'source'] = form[ 'source'].value
在以上几行中，要注意几处细节。我们所使用的一个技巧是设置 sys.stderr = sys.stdout。如果我们的脚本遇到了一个未捕获的错误，通过这个操作，追溯就显示回到客户机浏览器。这可以节省许多调试 cgi 应用程序的时间。但您也许不想让用户看到这些（或者如果它们可能向您报告问题详细信息，您也许会向用户显示这些内容）。接着，我们将 html 表单值读取到类似于字典的 form 实例中。表单有一个 .has_key() 方法，这与真正的 python 字典非常相似。但是，与 python 字典不同，要真正获取键中的值，我们必须查看键的 .value 属性。
至此，html 表单中的所有东西都成了纯 python 变量，而且我们可以在其它任何 python 程序中处理它们。
使用 urllib 模块
就像大多数 python 模块一样，urllib 以直观且简单的方法处理许多复杂事物。urllib 中的 urlopen() 函数可以处理任何远程资源 -- 无论是 http:、ftp: 还是 gopher: --就将它当作是本地文件。如果使用 urlopen() 抓取了一个远程（伪）文件对象，可以将它当作本地（只读）文件的文件对象来进行处理：
使用 python [urllib] 模块
from urllib import urlopen import string source = cfg_dict[ 'source'] if source == '': fhin = sys.stdin else : try : fhin = urlopen(source) except : errreport(source+ ' could not be opened!', cfg_dict) return doc = '' for line in fhin.readlines(): # need to normalize line endings! doc = doc+string.rstrip(line)+ '\n'
我曾遇到过一个小问题，由于生成资源的平台和您的平台使用不同的行结束约定，生成的文本中可能会发生某些奇怪的事（这似乎是 urllib 中的错误）。这个问题的解决方法是在以上代码中执行小小的 .readlines() 循环。不管该资源原来是什么样子，这个操作会给您一个字符串，它都有所使用平台的正确行结束约定（估计可能合理）。
使用 re 模块
由于本文篇幅限制，这里只讨论一部分规则表达式。参考资料中列出了许多关于该主题的参考书籍。 re 模块在 txt2html 中的使用很广泛，用于标识源文本中的各种文本模式。我们查看一个比较复杂的例子：
使用 python [re] 模块
import re def urlify (txt): txt = re.sub( '((?:http|ftp|gopher|file)://(?:[^ \n\r<\)]+))(\s)', '\\1\\2', txt) return txt
urlify() 是一个小巧函数，它的功能正如其名称所示。如果在“智能 ascii”文件中遇到了类似于 url 的字符串，它将转换成 html 输出中同一个 url 真正的热链接。让我们看看 re.sub() 的作用。首先，从最主要的角度来看，函数的目的是“查找与第一个模式中的值匹配的字符串，然后通过将第三个变量作为要操作的字符串，以第二个模式替换匹配结果”。非常好，从这些角度来看，它与 string.replace() 没有什么区别。
第一个模式有几个元素。首先，请注意括号：最高层次由两对括号组成：(\s) 前复杂的字符串。括号对与可能组成部分替换模式的“子表达式”匹配。第二个子表达式 (\s) 只表示“查找与任何空格字符匹配的字符串，让我们回过来看什么与之匹配”。因此，让我们研究一下第一个子表达式。
python 规则表达式有它自己的一些技巧。其中一个技巧是子表达式开始处的 ?: 运算符。这表示“查找子模式的匹配字符串，但不包括反向引用中的匹配结果”。那么，让我们检查一下这个子表达式：
((?:http|ftp|gopher|file)://(?:[^ \n\r
首先，请注意这个子表达式本身由两个子表达式组成，两者之间的字符并不属于任何一方。但是，每个子表达式都由 ?: 开头，它表示这两者匹配，但不是为了满足引用目的。第一个“非引用”子表达式只表示“查找类似于 http 或ftp 或其它值的字符串”。接着，我们看到字符串 :// ，它表示查找与它完全相似的字符串（简单吗？）。最后，我们看到第二个子表达式，它除了有由方括号组成的“不引用”运算符外，还有一个加号。
在规则表达式中，方括号只表示“查找与方括号中任何字符的匹配字符”。但是，如果第一个字符是插入记号 (^)，含义则相反，它表示“查找任何与后面的字符不匹配的字符”。因此，我们正在查找不是空格、cr、lf、
这个规则表达式有许多内容有待理解，但如果多看几遍，您就会明白这就是 url 的格式。
接着就是替换部分。这就更简单了。看上去类似 \\1 和 \\2 （或者 \\3 、 \\4 等，如果需要的话）的部分就是刚谈到的“反向引用”。\\1（或 \\2）表示模式与匹配表达式的第一个（或第二个）子表达式相匹配。替换部分的其余组成部分没有什么特别含义：只是一些容易识别为 html 代码的字符。有一件事比较麻烦，那就是匹配 \\2 -- 它看上去就是一个空格字符。也许有人会问：“有什么麻烦的？为什么不直接插入一个空格字符？”问得好，实际上我们不需要执行对 html 的操作。但从美学角度来看，最好让 html 输出尽可能保留转换成 html 标记之前的源文本文件外观。尤其是，让我们将换行符保留成换行符，空格就是空格（tab 键就是 tab 键）。

在Python下使用Txt2Html实现网页过滤代理的教程

VIP推荐