正则表达式 – 在文件的每一行上运行curl命令并从结果中获取数据

发布时间：2020-12-14 06:00:20 所属栏目：百科来源：网络整理

导读：假设我有一个包含网页链接列表的文件. www.xyz.com/asddwww.wer.com/asdaswww.asdas.com/asdwww.asd.com/asdas 我知道做curl www.xyz.com/asdd将会获取该网页的html.我想从该网页获取一些数据. 所以场景是使用curl逐个命中文件中的所有链接,从网页中提取一些

假设我有一个包含网页链接列表的文件.

www.xyz.com/asdd
www.wer.com/asdas
www.asdas.com/asd
www.asd.com/asdas

我知道做curl www.xyz.com/asdd将会获取该网页的html.我想从该网页获取一些数据.

所以场景是使用curl逐个命中文件中的所有链接,从网页中提取一些数据并存储在其他地方.任何想法或建议.

解决方法

如注释中所示,这将循环遍历your_file并卷曲每一行：

while IFS= read -r line
do
   curl "$line"
done < your_file

要获得< title>一个页面,你可以grep这样的东西：

grep -iPo '(?<=<title>).*(?=</title>)' file

所以你们可以一起做

while IFS= read -r line
do
   curl -s "$line" | grep -Po '(?<=<title>).*(?=</title>)'
done < your_file

注意curl -s用于静音模式.查看google page的示例：

$curl -s http://www.google.com | grep -Po '(?<=<title>).*(?=</title>)'
302 Moved

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!