大黑客呢?我一定会自己写脚本,而不是一个个的打命令。在这里,我简单地使用lynx命令的应用程序来提取特征网页中的一系列URL。
看,这是边肖的编辑。还不错。这是一种美丽的颜色。边肖很幸运能成为这个编辑。给边肖加油。我会把源代码贴在文末!
我来说说这个剧本是怎么运作的。
显示页面时,lynx将以最佳格式显示页面文本,该格式可以遵循页面上的所有超文本引用或链接。提取链接时,脚本只使用sed打印页面文本中引用字符串之后的所有内容。然后根据用户指定的选项处理链接列表。
以上只是我用linux写的一些代码,等等。我会发布源代码。如果你不明白,你可以问我。从网页中提取链接实际上非常有用。
让我们运行我写的代码。
看,你从百度网站找到这么多链接,很有成就感!
bash getlinks . sh http://www.amazon.com | WCl
你可以数一数有多少链接。亚马逊有134个链接。
bash get links . sh-d http ://www . Baidu.com
通过删除前面的http://,您可以看到这些链接指向多少个不同的域。
你看,效果很好!
写的最后,我们在做教育,希望每个人都能学到东西是我们不变的初衷!最后,我将首先发布代码:
#!/bin/bash
#日期2019-09-22
if[$ #-eq 0];然后
echo " Usage : $ 0[-d |-I |-x]URL " 2
echo "-d=仅域,-I=仅内部引用,-x=仅外部" 2
1号出口
船方不负担装货费用
if[$ #-gt 1];然后
案例“$1”
-d)lastcmd=" cut-d/-F3 | sort | uniq "
变化
;
-r)base domain=" http://$(echo $ 2 | cut-d-F3)/"
lastcmd=" grep \"^$basedomain\ " | sed \ " s | $ base domain | | g \ " | sort | \
uniq "
变化
;
-a)base domain=" http://$(echo $ 2 | cut-d/-F3)/"
lastcmd=" grep-v \"^$basedomain\ " | sort | uniq "
变化
;
*)回显“$0未知选项指定了: $ 1”2
1号出口
environmental systems applications center 环境系统应用程序中心
其他
lastcmd="sort | uniq "
船方不负担装货费用
lynx-转储“$ 1”| \
sed -n '/^References$/,$p' | \
grep -E '[[:digit:]] \ '。| \
awk“{ print $ 2 }”| \
cut -d\?-f1 |\
eval $lastcmd
退出0
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/26237.html