文章分类 » 未分类

链家小区坐标爬取

之前已经爬取了链家小区的一些基本信息,主要是列表里的内容。但是这里面没有我最需要的数据之一:小区坐标,于是开始重新找。 首先发现小区详情页面是有地图的,根据经验,如果有地图的定位,在页面上肯定有坐标。地图是百度地图,正好是我需要的百度经纬度坐标体系。 自己找的时候走了一些弯路,但是我觉得这也应该是没有经验的情况下的正确查找路子。 我是首先打开开发者页面,然后看点击地图的时候发起的请求,点击地图,放大缩小,看发起的请求里有没有坐标。遗憾的是没能找到,也许是我漏掉了。但是我知道页面一定有,否则这里调用地图的api进行定位的时候显然是不行的。 在我查看源码,从详情页整理小区数据的时候,偶然看到,我不需要的一部分数据里:附近门店 的信息里,隐藏着小区的坐标。如下图所示

很开心,这么容易就找到了。 于是写代码,将这部分数据洗出来,代码如下: countStr = locationInfoItem.selectFirst(“span[class=xiaoquInfoContent]”).text();String locationInfo = locationInfoItem.selectFirst(“span[class=xiaoquInfoContent]”).selectFirst(“span[class=actshowMap]”).attr(“xiaoqu”); locationInfo = locationInfo.replace(“[“, “”).replace(“]”, “”); entity.setLocationJingDu(locationInfo.split(“,”)[0]);entity.setLocationWeiDu(locationInfo.split(“,”)[1]);由于前面已经跑完小区的基本信息了,小区详情页面的地址也已经保存下来了,于是直接把这些数据重新跑一遍,根据详情页面爬取坐标数据,以为于是就完事儿了 然而,到最后发现,总是有那么百十个小区,解析总是失败的。观察日志,发现请求是正常的并且成功的,如果是被反爬虫了按照我这换ip的频率,也不应该一直失败的,肯定代码原因咯。 没办法,debug大法。调试到获取坐标这块的时候,异常了,仔细观察发现,有的小区是没有附近的门店的!没有的时候,我的解析坐标的部分就会异常。 那咋办?找到一个正常的页面,然后找到附近门店那里的坐标数字,然后全页面搜索,果然不服所望,还有个地方存着坐标!如图所示

然后到没有附近门店的页面去验证,果然也有!这下好了。 改代码对 附近门店 这里做个判断,如果是  暂无门店信息 ,那就去找js标签,然后从中提取坐标。因为比较好找,我的数据又比较少,懒得用正则了,直接split完事儿。上代码 Elements scriptElements = doc.select(“script”); String shopLatLng = “”; for (Element element : scriptElements) {    shopLatLng = element.html();    if (shopLatLng.contains(“resblockPosition”)) {       break;    } }shopLatLng = shopLatLng.split(“require\\(\\[‘ershoufang/xiaoquDetail/index’], function\\(main\\) \\{\n” +”  main\\(“)[1].split(“\\);\n” +”\\}\\);”)[0]; ResBlock resBlock = JsonUtil.of(shopLatLng,ResBlock.class); Optional.ofNullable(resBlock).ifPresent(x->{   entity.setLocationJingDu(x.getResblockPosition().split(“,”)[0]);    entity.setLocationWeiDu(x.getResblockPosition().split(“,”)[1]); });至此,获取小区坐标就完成了,然后顺利跑完交差。

爬取大众点评商家信息

老板安排了新的任务,需要爬取一些数据,然后进行机器学习,来给决策提供依据或者建议。

当前这一步,爬取相关的大众点评商家信息,并建立关系。

当前已有:选址名称,腹地名称,选址经纬度,腹地经纬度。

思路1:筛选点评上符合要求的商铺,然后全部爬下来,再与当前已有的数据建立联系(通过经纬度,地址等方式,需要商铺的经纬度、地址等信息)

思路2:根据当前已有信息,如地址,经纬度,去点评上搜索附近的商铺,然后爬下来,这要求知道点评根据经纬度筛选商铺的接口,经过观察发现点评的APP上有这个功能,但是抓包失败。

思路3:从点评的m站上搜索,关键词为地址,然后过滤美食。结果并不好用,经常查询的是具体地址,而非商铺。

思路4:直接从爬虫群里购买数据和代码,但是可能不靠谱。

思路5:从网上搜索爬取商铺的代码,改改自己用。这种方式多数都是从web版的网页上进行爬取的,自己执行爬取的时候,得注意使用代理切换ip,不然的话,可能数据会有问题。

尝试了一番之后,大概只有第五种方法比较可行。

从百度直接搜索点评爬虫,和在gitee上搜索点评的爬虫,发现绝大多数都是爬取的都是去爬的商铺的评论,但是这顺便会爬商铺。

从中甄别一下看是不是有坐标经纬度,如果有的话最好,可以通过经纬度的计算来筛选某些点附近的商铺,然后计算。

总结下来基本还是思路1的路子。OK,开始执行。

消费层级的逻辑

任何一个行业,想要做好,想要赚钱,都得思考清楚其中真正运作的逻辑。包括工作。

工作不就是找一个公司,签一份合同,然后自己交工,到时候发工资么?

仔细想一下,就会发现远不止如此。否则,为何工作工资有不同?为何同样的工作会有话语权的不同?为何同是工作,会有自由度的不同?

但是今天想说的不只是工作上。很多事情都是同理,所以做个普遍性的思考吧。

赚钱?挣钱?这两个词,都是为了钱,但是前面的动词明显不一样。

何为挣钱?花费自己的劳动力,包括以前储备的知识,自己的时间,脑力,体力等方式,换取自己付出这些的报酬。对,就是报酬。报酬,是你付出之后,才能得到的,如果你要持续的收入,就要有持续的付出,一旦付出停止,那么就面临“没有收入”的境地,即老人们说的“停手停口”。

然而大多数人都停留在这个阶段上,或者说层面上,很难跳出这个惯性和框架。我呢?我也没有,但是我接触并意识到了这个问题,正在努力想办法跳出来,所以才写这篇文章。

并不是说“挣钱”不好。正如现在流行的,“不要问我我的理想,我的理想是不上班”,并不只是说说,我的理想,真的是不上班,或者说有比较高的自由度,还能有很多钱花。但是,不上班和有很多钱花,一定程度上,是一个鸡和蛋的问题。

好了,不说这些了,这些问题都不是核心。核心是我要认真思考,究竟怎么样才能自由度比较高。对我当前的认知而言,就是需要比较多的钱,不用为钱而担心。

那么,在“挣钱”的层面的时候,怎么样能挣到更多的钱呢?多数情况下,给别人打工,我们才称之为“挣钱”,要用自己的付出去换,那么自己的“付出”越值钱(即价值越高),自己获得的“报酬”才有可能越高。为什么说“可能”,企业的老板都是都是商人,他们做一个企业,是为了自己的收入的,从员工的付出与给予员工的报酬之间拿到差价,才是商人的收入。所以在我理解看来,在能留下一个人的情况下,肯定会尽最大可能压低给这个人的报酬,这是天性。因此企业里制定的一系列的关于报酬的制度,除了为了方便管理之外,主要的目的就是为了降低付出“报酬”的成本。

从这里来看,在打工的情况下,想要提高收入,有两个切入点。其一,提高自己的价值,提高自己能产生的价值,让企业愿意为了你个人的价值而付出贡多的薪酬;其二,在跟企业的“定价”博弈中,拿到更高的工资。如何提高自己的价值,如何跟hr博弈在谈工资的时候不吃亏等等,不分析了,我想要做的也不是这块。

我想要做的,是摆脱“打工者”的身份。

上了这些年学,工作了这么多年,曾经有数次机会(现象级别的,社会级别的)从面前走过,上学时候的个人站、SEO,淘宝个人店,11年就看过一点的区块链,之后13、14的移动端,一直火到15、16,并行的大数据,然后人工智能等。这期间,自己稍微有些想法,曾经接触过的,有淘宝开店,区块链,移动端。这些任何一样,如果能深入做下去,都会给自己带来不菲的收益。但是都死在了浅尝辄止。

想要摆脱“打工者”的身份,必须得有自己的一份事业,持续为之投入,然后这个事业能自动的,持续的为自己带来收入。自己也早有这个意识,很多事情坚持下去,做下去,“也许”就会离自己的梦想更近一步。但是自己都没坚持下去。原因是什么?

说着说着成分析自己了。打住,继续搞赚钱分析。

赚钱嘛,用“钱”赚钱,就需要这部分钱要动起来,能自己产生收益,就是资本的运作。有人说,我那点钱,算什么资本运作啊哈哈哈。不要这么想,资本有大小,无论大小,都是资本,学会资本运作,都能产生收益。否则,你的钱多钱少,存在那里,都是死的,只能用一部分少一部分。不能运作,不能增值,不能产生收益,迟早有用完的那一天。

仔细想想,其实不只是“钱”才算作资本,一个人的人脉,资源,技能,时间,都是自己的“资本”。这些都应该运作起来,让他们发挥作用,产生价值。

(20180602补充)
想要清醒一点的活着,或者明白一点的活着,就得把自己梳理明白了。正确分析解剖自己,看清楚自己的优势劣势,然后确认自己想要做什么,然后看自己缺少什么资源,然后去通过提高自己或者寻找合作伙伴的方式弥补这些短板,从而做成自己想要做的事。

目标导向有时候也许更适合去做事情,没有目标的日子都是被动的活着做事,总是感觉被动,还会感觉累,并且总是被动思考,思考的内容总是会有缺失,毕竟没有主动思考时候更活跃,更专注。

OK,回来说赚钱。

一般来说,赚钱,就是利用自己的一些资源,用较低(或者想办法降低)的成本实现满足一些(量足够大)人的需求,同时收取相应的费用,就是赚到钱了。比如自己利用自己的地理优势,从制造厂商那里以较低的价格批发衣服,然后转而加价卖出去,然后扣除掉中间运输,存储,陈设等相关的费用,就是自己赚到的钱咯。说起来似乎就是这么简单,“做生意”其实逻辑就是很简单。

逻辑简单不代表执行、实现简单。过程中肯定会遇到很多自己想象不到的问题,但是最困难的还是第一步(自己感觉,非实践的来)。

想要做,得先选领域。这时候就得要考验一个人的眼力了。你选的领域,是不是真的有需求,你选择做的东西,有没有前途,你做的附加值,有没有人买账?这些东西一方面要考验自己思维的能力,另外一方面就要考验自己调研和信息整合的能力了。

选择什么人群呢?下面就是 摘自别人家文章,没有确切研究过。

消费能力排序?

少女》儿童》少妇》老人》狗》普通男人