bash – 使用脚本从网站提取电子邮件地址
发布时间:2020-12-15 22:29:51 所属栏目:安全 来源:网络整理
导读:给定一个网站,我想知道什么是最好的程序,以编程方式和/或使用脚本,从该链接和下面的所有网站以递归方式提取每个页面上的所有电子邮件地址,格式为XXXX@YYYYY.ZZZZ或直到一些固定的深度. 解决方法 使用 shell编程,您可以使用管道连接的2个程序实现目标: wget
给定一个网站,我想知道什么是最好的程序,以编程方式和/或使用脚本,从该链接和下面的所有网站以递归方式提取每个页面上的所有电子邮件地址,格式为XXXX@YYYYY.ZZZZ或直到一些固定的深度.
解决方法
使用
shell编程,您可以使用管道连接的2个程序实现目标:
> wget:将获得所有页面 一个例子: wget -q -r -l 5 -O - http://somesite.com/ | grep -E -o "b[a-zA-Z0-9.-]+@[a-zA-Z0-9.-]+.[a-zA-Z0-9.-]+b" wget,在安静模式(-q)中,从somesite.com.br获取最大深度级别为5(-15)的所有页面递归(-r)并将所有内容打印到stdout(-O – ). grep使用扩展正则表达式(-E)并仅显示(-o)电子邮件地址. 所有电子邮件都将打印到标准输出,您可以通过附加>将它们写入文件. somefile.txt到命令. 有关wget和grep的更多文档,请阅读手册页. 该示例使用GNU bash版本4.2.37(1)-release,GNU grep 2.12和GNU Wget 1.13.4进行测试. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |