隐藏Python模块中的中间计算

发布时间：2020-12-20 11:03:18 所属栏目：Python 来源：网络整理

导读：我在Jupyter笔记本中有一个 Python文件,src / data.py,它意味着读取数据文件并提供一些输出. import numpy as npimport pandas as pdsha256_perf = ( pd.read_csv('data/hashbench-output.txt',sep='t',na_filter=False) .query('Algorithm == "SHA256"'))m

我在Jupyter笔记本中有一个 Python文件,src / data.py,它意味着读取数据文件并提供一些输出.

import numpy as np
import pandas as pd

sha256_perf = (
    pd.read_csv('data/hashbench-output.txt',sep='t',na_filter=False)
        .query('Algorithm == "SHA256"')
)

mean_throughput = sha256_perf['Throughput (MiB/s)'].mean()
variance = sha256_perf['Error (± MiB/s)'] ** 2
total_variance = variance.sum()
row_count = sha256_perf.shape[0]
variance_of_mean = total_variance / (row_count ** 2)
error_of_mean = variance_of_mean ** 0.5

sha256_summary = pd.DataFrame(data=[[mean_throughput,error_of_mean]])
sha256_summary.columns = ['Mean Throughput (MiB/s)','Error (± MiB/s)']

其中,我唯一关心的变量是输出表 – sha256_perf和sha256_summary.但是,Python无法知道,所以如果我dir()模块,我得到了一切：

>>> import src.data as data
>>> dir(data)
['__builtins__','__cached__','__doc__','__file__','__loader__','__name__','__package__','__spec__','assumptions','error_of_mean','mean_throughput','np','pd','prd_scratch_2018','row_count','sha256_perf','sha256_summary','total_variance','util','variance','variance_of_mean']

如果这是Ruby或Scala,我可以在块中初始化sha256_summary,例如：

sha256_summary = begin
  mean_throughput = sha256_perf['Throughput (MiB/s)'].mean()
  # ... etc. ...
  df.columns = ['Mean Throughput (MiB/s)','Error (± MiB/s)']
  df
end

即使在Java(8)中,我也可以与供应商和lambda一起破解.

但据我所知,Python没有匿名块或多行lambda.所以到目前为止,我能够提出的最好的方法就是将所有内容都放在一个函数中：

def create_summary():
    mean_throughput = sha256_perf['Throughput (MiB/s)'].mean()
    # ... etc. ...
    sha256_summary.columns = ['Mean Throughput (MiB/s)','Error (± MiB/s)']
    return sha256_summary

sha256_summary = create_summary()

但这仍然导出create_summary符号,我宁愿避免：

>>> dir(data)
['__builtins__','create_summary','util']

什么是Pythonic避免污染全局命名空间的方法？

解决方法

Right leg’s answer很好,但我想指出在模块中定义“有意义”名称的其他方法,而不是在事后删除内容.

第一个选项是在模块中定义__all__. __all__是一系列字符串,它们是模块接口的一部分;如果模块的用户来自modulename import *,并且定义了__all__,则只会在__all__中提取名称.所以在你的情况下,你只需添加：

__all__ = ['sha256_perf','sha256_summary']

靠近模块顶部(位置无关紧要,但按惯例,它位于顶部附近,通常在导入后).许多内省工具也使用此信息来限制输出中包含模块的哪些部分(例如,带有__all__的模块上的help(modulename)排除了__all__中未包含的类和函数).

或者,您可以避免使用__all__,并确保模块的所有非公共部分都使用前导下划线命名;如果未定义__all__,则“虚拟”__all__行为将包括不带前导下划线的名称,并省略带有前导下划线的名称.因此,如果您关注的两个名称之外的所有名称都是下划线前缀(包括导入的模块名称,例如import numpy as _np,import pandas as _pd),那么当使用modulename import *时它们将被省略,并且通常从帮助中省略()输出等.

不,它不会更改dir看到的名称集(虽然制表符完成工具经常会省略以下划线开头的名称),但这是声明被视为公共API一部分的名称的官方方式.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!