网络工程师排错笔记-长更

zabbix agent对远端ping的监控

问题

有一条专线故障,但是没有报警,因为zabbix server没有代理在当地,只有一个zabbix-agent

配置

需要用zabbix-agent进行ping,然后将结果返回给zabbix-server进行报警

1.在zabbix-agent配置一个userparameter

UserParameter=avaya.ping[*],/usr/bin/ping -c 1 -w 1 $1 > /dev/null 2>&1 ; echo $?

2.在zabbix系统配置监控项

3.创建触发器

4.结果

juniper srx防火墙ip-monitor切换失败

问题

公网故障,ip-monitor没有进行切换

分析过程

查看service rpm发现有失败检测,但是路由表没有变化,看了一下ip-monitor没有运行,原因是systeme-health-management进程挂了

rpm-status

ip-monitor status

处理方式

重启system-health-management进程

防范

1.syslog发送到es并报警zabbix
2.创建crontab用脚本巡检syshmd进程是否存在

zabbix api problem.get过滤已知问题和禁用主机问题

需求

需要通过api抓出来正在发生的问题过滤掉已知问题

配置

需要在filter下面进行配置,如下图

linux使用iptables做dnat-记录于20230901

需求

需要把每个vlan配置一个ip,只要用户访问到这个ip就转发到另一个ip
拓扑:
client1—-linux-ip1—-server
client2—-linux-ip2—-server
client3—-linux-ip3—-server

分析

首先确定使用iptables来实现功能,那么需要服务器配置多个ip,那么有两种方式,一个是多网卡,另一个是vlan,多网卡的话如果网段过多无法实现,所以使用vlan的方式实现

配置

配置8021q

1
2
3
sudo apt-get update
sudo apt-get install vlan
sudo modprobe 8021q

配置端口ip

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
auto eth0.4 #vlan4
auto eth0.200 #vlan200
auto eth0.2 #vlan2
iface eth0.4 inet static #配置vlan4 ip
address 192.168.212.176
netmask 255.255.255.0
gateway 192.168.212.1
iface eth0.4 inet static #配置vlan4 子ip
address 192.168.212.12
netmask 255.255.255.0
iface eth0.200 inet static #配置vlan200 ip
address 10.2.0.9
netmask 255.255.240.0
iface eth0.2 inet static #配置vlan2 ip
address 192.168.20.12
netmask 255.255.255.0

vlan4作为主管理ip,所以使用子ip作为dnat的地址,不然会无法访问服务器

配置ipv4转发及iptables并记录日志

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
#记录iptables日志
sudo vim /etc/rsyslog.conf
#添加下面iptables.log
:msg, contains, "iptables:" -/var/log/iptables.log
& ~
sudo vim /etc/sysctl.conf
#修改下面转发值为1
net.ipv4.ip_forward=1
#添加iptables,并将日志记录到iptables.log,持久化iptables可以写道rc.local
sudo iptables -t nat -A POSTROUTING -o eth0.4 -j LOG --log-prefix "iptables: " --log-level 7
sudo iptables -t nat -A POSTROUTING -o eth0.4 -j MASQUERADE

sudo iptables -t nat -A POSTROUTING -o eth0.4 -j LOG --log-prefix "iptables: " --log-level 7
sudo iptables -t nat -A POSTROUTING -o eth0.4 -j MASQUERADE

sudo iptables -t nat -A PREROUTING -d 192.168.212.12 -j LOG --log-prefix "iptables: " --log-level 7
sudo iptables -t nat -A PREROUTING -d 192.168.212.12 -j DNAT --to-destination 192.168.5.12

sudo iptables -t nat -A PREROUTING -d 192.168.20.12 -j LOG --log-prefix "iptables: " --log-level 7
sudo iptables -t nat -A PREROUTING -d 192.168.20.12 -j DNAT --to-destination 192.168.5.12

sudo iptables -t nat -A PREROUTING -d 10.2.0.9 -j LOG --log-prefix "iptables: " --log-level 7
sudo iptables -t nat -A PREROUTING -d 10.2.0.9 -j DNAT --to-destination 192.168.5.12

看到如下说明基本ok了

效果实现

可以看到访问其中一个ip的地址已经被转到了目标server

client1—-linux-ip1—-server
192.168.5.98—-192.168.212.12—-192.168.5.12

windows radius服务器拿计费日志到es-记录于20230825

需求

需要获取统一认证服务器的计费信息,对应用户名ip关系

分析

windows nps服务器可以作为计费服务器使用,将计费日志使用filebeats收集到es,再从es用python拿出来即可做到实时搜索通过radius认证的用户名&ip

实现效果

h3c v5对接windows nps做802.1x接入认证使用ssh登录-记录于20230816

问题描述

之前使用telnet登录,一切正常,修改成ssh后无法登录

排查方法

h3c v5配置跟其他radius client设备有一点不一样的是授权,这个是使用telnet时已经配置好的,当时也费了半天查找,如下:

后来因为需要改ssh登录,就想着把login-service改成ssh,但是默认是没有的,需要先修改一下nps的xml文件

修改完成后重启电脑即可,之前telnet时选择的是telnet,ssh修改完xml后重启才能用

也就是说,radius rfc 2865里面标准的值是没有ssh的,需要自己手动修改,如果以后有其他设备限制登陆也应该可以用这种办法

h3c policy-based-route-记录于20230815

问题描述

使用H3c交换机在interface vlan接口做了一个policy-based-route,在一个acl里面的前面写了deny souce和destination,然后在policy-based-route调用后发现不管用

排查方法

因为policy-based-route能写node num,那么在前面写一个没有apply的行为是否可以呢,答案是可以
policy-based-route如下:

acl如下:

openwrt使用pptp vpn连接到阿里云进行出网-记录于20230815

问题描述

openwrt使用pptp连接到阿里云ecs进行上网,但是会出现连接被reset

排查方法

一开始以为iptables转发问题,后来从ecs抓包发现包已经转发出去了,然后就看了包的内容,发现包是这样的

翻译过来是tcp 上一个段未捕获(常见于捕获开始时)
为什么是未捕获,包哪去了?也没有丢包啊,网络状态很好,那包哪去了,是不是mtu的问题,后来想到确实pptp需要改mtu,所以把openwrt的mtu改成了1440,然后问题解决

mtu分析

待。。。

域账号到期,导致windows nps无法认证通过-记录于20230810

问题描述

用户反馈无法连接无线网络,无线认证用的802.1x结核windows nps,使用域账户进行认证

排查方法

1.通过wireshark抓包,只能看到wireshark有request和nps回复的reject,安全日志没有体现日志,是否有其他位置体现日志暂未发现。
2.更改账号有效期

avaya板卡arp表地址不更新-记录于20230810

问题描述

因为dhcp冲突导致avaya板卡无法使用,释放出来ip后,ip还是无法ping通

排查方法

查看核心交换机arp表,发现arp表还未更新,此时距离释放ip已经过去30分钟,只能手动清理arp表进行更新

无线网络缓慢-记录于20230809

问题描述

昨天有用户反映无线网络缓慢,下载文件几十kb/s,微信接收图片,发送文字转圈

排查方法

1.远程到用户侧电脑,分别ping公网、内网网关,发现都出现丢包现象,所以肯定内网出现了问题
2.通过ac查看用户所连接ap的负载,信号强度,发现都是正常状态,只是连接速率偏低,但不该慢到这种程度和丢包,所以可以排除ap的问题
3.本来想查看ac测是否有大流量导致,直接show了接口信息,发现大量crc报错,基本问题已经定位到,换掉此端口网线后问题解决

问题规避

crc基本一出现就会影响网络正常运行,而解决方法比较简单,就是换网线,可以适当监控是否有端口存在crc


网络工程师排错笔记-长更
http://example.com/2053/12/31/网络工程师排错笔记-长更/
作者
WangQiang
发布于
2053年12月31日
许可协议