文章分类 » 未分类

爬取大众点评商家信息

老板安排了新的任务,需要爬取一些数据,然后进行机器学习,来给决策提供依据或者建议。

当前这一步,爬取相关的大众点评商家信息,并建立关系。

当前已有:选址名称,腹地名称,选址经纬度,腹地经纬度。

思路1:筛选点评上符合要求的商铺,然后全部爬下来,再与当前已有的数据建立联系(通过经纬度,地址等方式,需要商铺的经纬度、地址等信息)

思路2:根据当前已有信息,如地址,经纬度,去点评上搜索附近的商铺,然后爬下来,这要求知道点评根据经纬度筛选商铺的接口,经过观察发现点评的APP上有这个功能,但是抓包失败。

思路3:从点评的m站上搜索,关键词为地址,然后过滤美食。结果并不好用,经常查询的是具体地址,而非商铺。

思路4:直接从爬虫群里购买数据和代码,但是可能不靠谱。

思路5:从网上搜索爬取商铺的代码,改改自己用。这种方式多数都是从web版的网页上进行爬取的,自己执行爬取的时候,得注意使用代理切换ip,不然的话,可能数据会有问题。

尝试了一番之后,大概只有第五种方法比较可行。

从百度直接搜索点评爬虫,和在gitee上搜索点评的爬虫,发现绝大多数都是爬取的都是去爬的商铺的评论,但是这顺便会爬商铺。

从中甄别一下看是不是有坐标经纬度,如果有的话最好,可以通过经纬度的计算来筛选某些点附近的商铺,然后计算。

总结下来基本还是思路1的路子。OK,开始执行。

消费层级的逻辑

任何一个行业,想要做好,想要赚钱,都得思考清楚其中真正运作的逻辑。包括工作。

工作不就是找一个公司,签一份合同,然后自己交工,到时候发工资么?

仔细想一下,就会发现远不止如此。否则,为何工作工资有不同?为何同样的工作会有话语权的不同?为何同是工作,会有自由度的不同?

但是今天想说的不只是工作上。很多事情都是同理,所以做个普遍性的思考吧。

赚钱?挣钱?这两个词,都是为了钱,但是前面的动词明显不一样。

何为挣钱?花费自己的劳动力,包括以前储备的知识,自己的时间,脑力,体力等方式,换取自己付出这些的报酬。对,就是报酬。报酬,是你付出之后,才能得到的,如果你要持续的收入,就要有持续的付出,一旦付出停止,那么就面临“没有收入”的境地,即老人们说的“停手停口”。

然而大多数人都停留在这个阶段上,或者说层面上,很难跳出这个惯性和框架。我呢?我也没有,但是我接触并意识到了这个问题,正在努力想办法跳出来,所以才写这篇文章。

并不是说“挣钱”不好。正如现在流行的,“不要问我我的理想,我的理想是不上班”,并不只是说说,我的理想,真的是不上班,或者说有比较高的自由度,还能有很多钱花。但是,不上班和有很多钱花,一定程度上,是一个鸡和蛋的问题。

好了,不说这些了,这些问题都不是核心。核心是我要认真思考,究竟怎么样才能自由度比较高。对我当前的认知而言,就是需要比较多的钱,不用为钱而担心。

那么,在“挣钱”的层面的时候,怎么样能挣到更多的钱呢?多数情况下,给别人打工,我们才称之为“挣钱”,要用自己的付出去换,那么自己的“付出”越值钱(即价值越高),自己获得的“报酬”才有可能越高。为什么说“可能”,企业的老板都是都是商人,他们做一个企业,是为了自己的收入的,从员工的付出与给予员工的报酬之间拿到差价,才是商人的收入。所以在我理解看来,在能留下一个人的情况下,肯定会尽最大可能压低给这个人的报酬,这是天性。因此企业里制定的一系列的关于报酬的制度,除了为了方便管理之外,主要的目的就是为了降低付出“报酬”的成本。

从这里来看,在打工的情况下,想要提高收入,有两个切入点。其一,提高自己的价值,提高自己能产生的价值,让企业愿意为了你个人的价值而付出贡多的薪酬;其二,在跟企业的“定价”博弈中,拿到更高的工资。如何提高自己的价值,如何跟hr博弈在谈工资的时候不吃亏等等,不分析了,我想要做的也不是这块。

我想要做的,是摆脱“打工者”的身份。

上了这些年学,工作了这么多年,曾经有数次机会(现象级别的,社会级别的)从面前走过,上学时候的个人站、SEO,淘宝个人店,11年就看过一点的区块链,之后13、14的移动端,一直火到15、16,并行的大数据,然后人工智能等。这期间,自己稍微有些想法,曾经接触过的,有淘宝开店,区块链,移动端。这些任何一样,如果能深入做下去,都会给自己带来不菲的收益。但是都死在了浅尝辄止。

想要摆脱“打工者”的身份,必须得有自己的一份事业,持续为之投入,然后这个事业能自动的,持续的为自己带来收入。自己也早有这个意识,很多事情坚持下去,做下去,“也许”就会离自己的梦想更近一步。但是自己都没坚持下去。原因是什么?

说着说着成分析自己了。打住,继续搞赚钱分析。

赚钱嘛,用“钱”赚钱,就需要这部分钱要动起来,能自己产生收益,就是资本的运作。有人说,我那点钱,算什么资本运作啊哈哈哈。不要这么想,资本有大小,无论大小,都是资本,学会资本运作,都能产生收益。否则,你的钱多钱少,存在那里,都是死的,只能用一部分少一部分。不能运作,不能增值,不能产生收益,迟早有用完的那一天。

仔细想想,其实不只是“钱”才算作资本,一个人的人脉,资源,技能,时间,都是自己的“资本”。这些都应该运作起来,让他们发挥作用,产生价值。

(20180602补充)
想要清醒一点的活着,或者明白一点的活着,就得把自己梳理明白了。正确分析解剖自己,看清楚自己的优势劣势,然后确认自己想要做什么,然后看自己缺少什么资源,然后去通过提高自己或者寻找合作伙伴的方式弥补这些短板,从而做成自己想要做的事。

目标导向有时候也许更适合去做事情,没有目标的日子都是被动的活着做事,总是感觉被动,还会感觉累,并且总是被动思考,思考的内容总是会有缺失,毕竟没有主动思考时候更活跃,更专注。

OK,回来说赚钱。

一般来说,赚钱,就是利用自己的一些资源,用较低(或者想办法降低)的成本实现满足一些(量足够大)人的需求,同时收取相应的费用,就是赚到钱了。比如自己利用自己的地理优势,从制造厂商那里以较低的价格批发衣服,然后转而加价卖出去,然后扣除掉中间运输,存储,陈设等相关的费用,就是自己赚到的钱咯。说起来似乎就是这么简单,“做生意”其实逻辑就是很简单。

逻辑简单不代表执行、实现简单。过程中肯定会遇到很多自己想象不到的问题,但是最困难的还是第一步(自己感觉,非实践的来)。

想要做,得先选领域。这时候就得要考验一个人的眼力了。你选的领域,是不是真的有需求,你选择做的东西,有没有前途,你做的附加值,有没有人买账?这些东西一方面要考验自己思维的能力,另外一方面就要考验自己调研和信息整合的能力了。

选择什么人群呢?下面就是 摘自别人家文章,没有确切研究过。

消费能力排序?

少女》儿童》少妇》老人》狗》普通男人

当前浏览器里一直保持着的几个地址

部分看没看完的,部分还有用的。

Spring3 MVC Login Interceptor
http://my.oschina.net/uniquejava/blog/83657
MyBatis Generator 详解
http://blog.csdn.net/isea533/article/details/42102297
Mybatis generator使用(基于Maven)
http://maosheng.iteye.com/blog/1994220
图客圈创业记:不疯魔,不成活
http://yuedu.baidu.com/ebook/cf21e168a5e9856a5612606b?pn=1&click_type=10010002&rf=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3Dieg_3aPx6q7yhAz9Y0mOb5zLi_osB2ODaItC7gR5tCoxzIYH3ET6nZBBHCgw764xEsFRXmxnd-FUlJLraoo-H12AgOk7mqeuSwgpMn2lal-4PlsNoDvO7n09lPeW_UnRnok9Pgss0KRka79-K-_Jy8U1lfT3JGRSHHrFc6X-3V7gmYAPT4AhrIR8fO1ZwZNP-isUzPVxqlCtJWyUxbLJYItrdO9jLA4BmdjcSyWDuBXhQX4dfmP9Ln3jzgaz_Ug5GCpQdmuAxhd0MGaWQEh19K%26wd%3D%26eqid%3Dc157eb100000fee20000000255a5d7a4
maven+springMVC+mybatis+junit详细搭建过程
http://www.open-open.com/lib/view/open1392252233301.html