]> git.openstreetmap.org Git - osqa.git/blob - forum_modules/exporter/exporter.py
6114355fa4c9af8d73245b0c780723fb16ddf0d1
[osqa.git] / forum_modules / exporter / exporter.py
1 import os, tarfile, datetime, logging, re
2
3 from django.core.cache import cache
4 from django.utils.translation import ugettext as _
5 from forum.models import *
6 from forum.settings import APP_URL
7 from forum.templatetags.extra_tags import diff_date
8 import xml.etree.ElementTree
9 from xml.etree import ElementTree as ET
10 from xml.etree.ElementTree import Comment, _encode, ProcessingInstruction, QName, fixtag, _escape_attrib, _escape_cdata
11
12 CACHE_KEY = "%s_exporter_state" % APP_URL
13 EXPORT_STEPS = []
14
15 TMP_FOLDER = os.path.join(os.path.dirname(__file__), 'tmp')
16 LAST_BACKUP = os.path.join(TMP_FOLDER, 'backup.tar.gz')
17
18 def Etree_pretty__write(self, file, node, encoding, namespaces,
19                         level=0, identator="    "):
20     tag = node.tag
21     if tag is Comment:
22         file.write(level * identator + "<!-- %s -->" % _escape_cdata(node.text, encoding))
23     elif tag is ProcessingInstruction:
24         file.write("<?%s?>" % _escape_cdata(node.text, encoding))
25     else:
26         items = node.items()
27         xmlns_items = [] # new namespaces in this scope
28         try:
29             if isinstance(tag, QName) or tag[:1] == "{":
30                 tag, xmlns = fixtag(tag, namespaces)
31                 if xmlns: xmlns_items.append(xmlns)
32         except TypeError:
33             raise #_raise_serialization_error(tag)
34         file.write("\n" + level * identator + "<" + _encode(tag, encoding))
35         if items or xmlns_items:
36             items.sort() # lexical order
37             for k, v in items:
38                 try:
39                     if isinstance(k, QName) or k[:1] == "{":
40                         k, xmlns = fixtag(k, namespaces)
41                         if xmlns: xmlns_items.append(xmlns)
42                 except TypeError:
43                     raise #_raise_serialization_error(k)
44                 try:
45                     if isinstance(v, QName):
46                         v, xmlns = fixtag(v, namespaces)
47                         if xmlns: xmlns_items.append(xmlns)
48                 except TypeError:
49                     raise #_raise_serialization_error(v)
50                 file.write(" %s=\"%s\"" % (_encode(k, encoding),
51                                             _escape_attrib(v, encoding)))
52             for k, v in xmlns_items:
53                 file.write(" %s=\"%s\"" % (_encode(k, encoding),
54                                             _escape_attrib(v, encoding)))
55         if node.text or len(node):
56             file.write(">")
57             if node.text:
58                 file.write(_escape_cdata(node.text.replace("\n", (level + 1) * identator + "\n"), encoding))
59             for n in node:
60                 self._write(file, n, encoding, namespaces, level + 1, identator)
61             if node.text and len(node.text) < 125:
62                 file.write("</" + _encode(tag, encoding) + ">")
63             else:
64                 file.write("\n" + level * identator + "</" + _encode(tag, encoding) + ">")
65         else:
66             file.write(" />")
67         for k, v in xmlns_items:
68             del namespaces[v]
69     if node.tail:
70         file.write(_escape_cdata(node.tail.replace("\n", level * identator + "\n"), encoding))
71
72 def _add_tag(el, name, content = None):
73     tag = ET.SubElement(el, name)
74     if content:
75         tag.text = content
76     return tag
77
78 def ET_Element_add_tag(el, tag_name, content = None, **attrs):
79     tag = ET.SubElement(el, tag_name)
80
81     if content:
82         tag.text = unicode(content)
83
84     for k, v in attrs.items():
85         tag.set(k, unicode(v))
86
87     return tag
88
89 GOOD_TAG_NAME = re.compile("^\w+$")
90
91 def make_extra(el, v):
92     if v is None:
93         return
94
95
96     if isinstance(v, (int, long, str, float, bool, dict, list, tuple)):
97         if isinstance(v, tuple):
98             t = 'list'
99         else:
100             t = v.__class__.__name__
101     else:
102         t = 'unknown'
103
104     value = el.add('value', type=t)
105
106     if isinstance(v, (list, tuple)):
107         for i in v:
108             item = value.add('item')
109             make_extra(item, i)
110
111     elif isinstance(v, dict):
112         for k, i in v.items():
113             item = value.add('item', key=k)
114             make_extra(item, i)
115     else:
116         value.text = unicode(v)
117
118 def write_to_file(root, tmp, filename):
119     tree = ET.ElementTree(root)
120     tree.write(os.path.join(tmp, filename), encoding='UTF-8')
121
122 def create_targz(tmp, files):
123     if os.path.exists(LAST_BACKUP):
124         os.remove(LAST_BACKUP)
125         
126     t = tarfile.open(name=LAST_BACKUP, mode = 'w:gz')
127
128     for f in files:
129         t.add(os.path.join(tmp, f), arcname=f)
130
131     t.close()
132
133
134 def export(options):
135     original__write = xml.etree.ElementTree.ElementTree._write
136     xml.etree.ElementTree.ElementTree._write = Etree_pretty__write
137     xml.etree.ElementTree._ElementInterface.add = ET_Element_add_tag
138
139     start_time = datetime.datetime.now()
140     tmp = TMP_FOLDER
141     anon_data = options.get('anon_data', False)
142
143     steps = [s for s in EXPORT_STEPS if not (anon_data and s['fn'].is_user_data())]
144
145     state = dict([(s['id'], {
146         'status': _('Queued'), 'count': s['fn'].count(start_time), 'parsed': 0
147     }) for s in steps] + [
148         ('overall', {
149             'status': _('Starting'), 'count': sum([s['fn'].count(start_time) for s in steps]), 'parsed': 0
150         })
151     ])
152
153     full_state = dict(running=True, state=state, time_started="")
154
155     def set_state():
156         full_state['time_started'] = diff_date(start_time)
157         cache.set(CACHE_KEY, full_state)
158
159     set_state()
160
161     def ping_state(name):
162         state[name]['parsed'] += 1
163         state['overall']['parsed'] += 1
164         set_state()
165
166     def run(fn, name):
167         def ping():
168             ping_state(name)
169
170         state['overall']['status'] = _('Exporting %s') % s['name']
171         state[name]['status'] = _('Exporting')
172
173         root, fname = fn(ping, start_time, anon_data)
174
175         state[name]['status'] = _('Writing temp file')
176         state['overall']['status'] = _('Writing %s temp file') % s['name']
177
178         set_state()
179
180         write_to_file(root, tmp, fname)
181         state[name]['status'] = _('Done')
182
183         set_state()
184
185         return fname
186
187     try:
188         dump_files = []
189
190         for s in steps:
191             dump_files.append(run(s['fn'], s['id']))
192
193         state['overall']['status'] = _('Compressing files')
194         set_state()
195
196         create_targz(tmp, dump_files)
197         full_state['running'] = False
198         full_state['errors'] = False
199         state['overall']['status'] = _('Done')
200
201         set_state()
202     except Exception, e:
203         full_state['running'] = False
204         full_state['errors'] = "%s: %s" % (e.__class__.__name__, unicode(e))
205         set_state()
206         
207         import traceback
208         logging.error("Error executing xml backup: \n %s" % (traceback.format_exc()))
209     finally:
210         xml.etree.ElementTree.ElementTree._write = original__write
211         del xml.etree.ElementTree._ElementInterface.add
212
213 def exporter_step(queryset, root_tag_name, el_tag_name, name, date_lock=None, user_data=False):
214
215     def decorator(fn):
216         def qs(lock):
217             if date_lock:
218                 return queryset.filter(**{"%s__lte" % date_lock: lock})
219             return queryset
220
221         def decorated(ping, lock, anon_data):
222             root = ET.Element(root_tag_name)
223
224             for item in qs(lock).order_by('id').select_related():
225                 el = root.add(el_tag_name)
226                 fn(item, el, anon_data)
227                 ping()
228
229             return root, "%s.xml" % root_tag_name
230
231         def count(lock):
232             return qs(lock).count()
233
234         def is_user_data():
235             return user_data
236
237         decorated.count = count
238         decorated.is_user_data = is_user_data
239
240         EXPORT_STEPS.append(dict(id=root_tag_name, name=name, fn=decorated))
241
242         return decorated
243
244     return decorator
245
246 @exporter_step(Tag.objects.all(), 'tags', 'tag', _('Tags'))
247 def export_tags(t, el, anon_data):
248     el.add('name', t.name)
249     if not anon_data:
250         el.add('author', t.created_by.id)
251     el.add('used', t.used_count)
252
253
254 @exporter_step(User.objects.all(), 'users', 'user', _('Users'), 'date_joined', True)
255 def export_users(u, el, anon_data):
256     el.add('id', u.id)
257     el.add('username', u.username)
258     el.add('password', u.password)
259     el.add('email', u.email, validated=u.email_isvalid and 'true' or 'false')
260     el.add('reputation', u.reputation)
261     el.add('joindate', u.date_joined)
262
263     el.add('firstname', u.first_name)
264     el.add('lastname', u.last_name)
265     el.add('bio', u.about)
266     el.add('location', u.location)
267     el.add('website', u.website)
268     el.add('birthdate', u.date_of_birth)
269
270     roles = el.add('roles')
271
272     if u.is_superuser:
273         roles.add('role', 'superuser')
274
275     if u.is_staff:
276         roles.add('role', 'moderator')
277
278     auth = el.add('authKeys')
279     for a in u.auth_keys.all():
280         key = auth.add('key')
281         key.add('provider', a.provider)
282         key.add('key', a.key)
283
284
285     ss = u.subscription_settings
286
287     notify = el.add('notifications', enabled=ss.enable_notifications and 'true' or 'false')
288
289     notify.add('notify', **dict([(t, ss.__dict__.get(t, 'n') == 'i' and 'true' or 'false') for t in ['member_joins', 'new_question', 'new_question_watched_tags', 'subscribed_questions']]))
290
291     notify.add('autoSubscribe', **dict([(t, ss.__dict__.get(t, False) and 'true' or 'false') for t in [
292             'all_questions', 'all_questions_watched_tags', 'questions_asked', 'questions_answered', 'questions_commented', 'questions_viewed']]))
293
294     notify.add('notifyOnSubscribed', **dict([(t, ss.__dict__.get("notify_%s" % t, False) and 'true' or 'false') for t in [
295             'answers', 'reply_to_comments', 'comments_own_post', 'comments', 'accepted']]))
296
297     notify.add('digest', ss.send_digest and 'on' or 'off')
298
299     watched = el.add('watchedTags')
300     rejected = el.add('rejectedTags')
301
302     for m in u.tag_selections.all():
303         if m.reason == 'good':
304             watched.add('tag', m.tag.name)
305         else:
306             rejected.add('tag', m.tag.name)
307
308     
309
310 @exporter_step(Node.objects.all(), 'nodes', 'node', _('Nodes'), 'added_at')
311 def export_nodes(n, el, anon_data):
312     el.add('id', n.id)
313     el.add('type', n.node_type)
314
315     if not anon_data:
316         el.add('author', n.author.id)
317     el.add('date', n.added_at)
318     el.add('parent', n.parent and n.parent.id or "")
319
320     el.add('title', n.title)
321     el.add('body', n.body)
322
323     tags = el.add('tags')
324
325     for t in n.tagname_list():
326         tags.add('tag', t)
327
328     revs = el.add('revisions', active=n.active_revision and n.active_revision or n.revisions.order_by('revision')[0])
329
330     for r in n.revisions.order_by('revision'):
331         rev = _add_tag(revs, 'revision')
332         rev.add('number', r.revision)
333         rev.add('summary', r.summary)
334         if not anon_data:
335             rev.add('author', r.author.id)
336         rev.add('date', r.revised_at)
337
338         rev.add('title', r.title)
339         rev.add('body', r.body)
340         rev.add('tags', ", ".join(r.tagname_list()))
341
342     el.add('extraRef', n.extra_ref and n.extra_ref.id or "")
343     make_extra(el.add('exraData'), n.extra)
344
345
346 @exporter_step(Action.objects.all(), 'actions', 'action', _('Actions'), 'action_date')
347 def export_actions(a, el, anon_data):
348     el.add('id', a.id)
349     el.add('type', a.action_type)
350     el.add('date', a.action_date)
351
352     if not anon_data:
353         el.add('user', a.user.id)
354         el.add('realUser', a.real_user and a.real_user.id or "")
355         el.add('ip', a.ip)
356     el.add('node', a.node and a.node.id or "")
357
358     make_extra(el.add('extraData'), a.extra)
359
360     canceled = el.add('canceled', state=a.canceled and 'true' or 'false')
361
362     if a.canceled:
363         if not anon_data:
364             canceled.add('user', a.canceled_by.id)
365             canceled.add('ip', a.canceled_ip)
366
367         canceled.add('date', a.canceled_at)        
368
369     if not anon_data:
370         reputes = el.add('reputes')
371
372         for r in a.reputes.all():
373             repute = reputes.add('repute', byCanceled=r.by_canceled and 'true' or 'false')
374             repute.add('user', r.user.id)
375             repute.add('value', r.value)
376
377
378 @exporter_step(NodeState.objects.all(), 'states', 'state', _('Node states'), 'action__action_date')
379 def export_states(s, el, anon_data):
380     el.add('type', s.state_type)
381     el.add('node', s.node.id)
382     el.add('trigger', s.action.id)
383
384
385 @exporter_step(Badge.objects.all(), 'badges', 'badge', _('Badges'), user_data=True)
386 def export_badges(b, el, anon_data):
387     el.add('type', ["", 'gold', 'silver', 'bronze'][b.type])
388     el.add('name', b.cls)
389     el.add('count', b.awarded_count)
390
391
392 @exporter_step(Award.objects.all(), 'awards', 'award', _('Awards'), 'awarded_at', True)
393 def export_awards(a, el, anon_data):
394     el.add('badge', a.badge.cls)
395     el.add('user', a.user)
396     el.add('node', a.node and a.node.id or "")
397     el.add('trigger', a.trigger and a.trigger.id or "")
398     el.add('action', a.action.id)
399
400 @exporter_step(KeyValue.objects.all(), 'settings', 'setting', _('Settings'))
401 def export_settings(s, el, anon_data):
402     el.add('key', s.key)
403     make_extra(el.add('value'), s.value)
404
405
406
407
408
409
410
411
412         
413
414
415
416
417
418
419
420