Web Parser
Web Parser是一款页面信息提取工具,它通过用户给定的xhtml文档以及解析文档所使用的模板返回用户希望从xhtml文档中获取模板中指定的相关信息。Web parser的目标是让信息提取更加简单,降低人工处理重复信息的劳动强度。
使用
从指定的URL提取信息
result = WebParser.extract_from_url(url,'nonobo.template')
从xhtml结构文档提取信息
result = WebParser.extract(xhtml_doc,'nonobo.template')
从xhtml文件提取信息
result = WebParser.extract_from_file(file,'nonobo.template')
加载模板文件
template = Template.load_template('nonobo.template')
生成模板文件
Template.dump_template(template,'nonobo.template')
模板说明
详细参见TEMPLATE_SPEC文件