写在开始这个坑我应该是记得比较清楚,那就是我最开始写的时候出现了一个非常坑的事,'Element is no longer attached to the DOM',这个问题.描述selenium里面所有的定位到的WebElement我认为都只是一个指针指向这个页面的某一个地方,然后如果你这时候get了一个新的url那么之前的那些就全部作废了.解决方法在get新的链接的之前把该爬的爬完就行了...
写在开始这个问题是我最开始的时候最常遇到的一个问题,Element not found in cache.原因这个如果没记错的话就是没有加载完页面就进行页面操作了,多等待一下应该就好了,然后可以考虑在phantomjs的启动参数里面加上一条'--load-images=false',这样子可以禁用图片加载,反正是一个无界面浏览器,显示啥都无所谓了,只要能捕捉到数据就好了.写在最后这个问题出现...
写在开始这是我另一个出现的坑,倒是让我纠结了好久.复合类名的定位在HTML里面有一些元素的类名会像是这样的"a b",不过用selenium定位的话会出现一点小问题,那就是Compound class names not permitted,这个问题我绕了好久都没绕出去,这个问题就是selenium里面不支持带空格的类名,但是这个类名又带着空格,不这样子查有的时候又查不到...